solr索引时分词,如果solr定时更新索引词库了怎么办

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"
您的访问请求被拒绝 403 Forbidden - ITeye技术社区
您的访问请求被拒绝
亲爱的会员,您的IP地址所在网段被ITeye拒绝服务,这可能是以下两种情况导致:
一、您所在的网段内有网络爬虫大量抓取ITeye网页,为保证其他人流畅的访问ITeye,该网段被ITeye拒绝
二、您通过某个代理服务器访问ITeye网站,该代理服务器被网络爬虫利用,大量抓取ITeye网页
请您点击按钮解除封锁&&#xe621; 上传我的文档
&#xe602; 下载
&#xe60c; 收藏
该文档贡献者很忙,什么也没留下。
&#xe602; 下载此文档
正在努力加载中...
Solr总结-吐血总结
下载积分:2000
内容提示:Solr总结-吐血总结
文档格式:DOCX|
浏览次数:781|
上传日期: 03:46:52|
文档星级:&#xe60b;&#xe60b;&#xe60b;&#xe612;&#xe612;
该用户还上传了这些文档
Solr总结-吐血总结
官方公共微信您所在位置: &
&nbsp&&nbsp&nbsp&&nbsp
基于Solr实农业信息扩展检索的研究.pdf56页
本文档一共被下载:
次 ,您可全文免费在线阅读后下载本文档。
文档加载中...广告还剩秒
需要金币:180 &&
基于Solr实农业信息扩展检索的研究.pdf
你可能关注的文档:
··········
··········
独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究
成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经 发表或撰写过的研究成果,也不包含为获得亟韭丛些叁鲎或其他教育杌构的学
位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文 中作了明确的说明并表示谢意。 学位论文作者签名: 奇静一 签字Fi期: ≯f弓年j月孑 日 关于论文使用授权的说明 本学位论文作者完全了解塑皇垦壅些盘堂有关保留、使用学位论文的规定,
有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借 阅。本人授权通皇堡壅些盘鲎可以将学位论文的全部或部分内容编入有关数据库进行
检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 保密的学位论文在解密后适用本授权书 学位论文作者签名: 寸静一 导师签名:夕眵. Et
签字日期:23侈年r月专7 签字日期:120侈年厂月≥/Et
学位论文作者毕业后去向::
工作单位: 电话:
通讯地址: 邮编: 摘要 随着科学的进步和信息技术的不断发展,网络检索技术也在不断进步。由于信息
快速增长,给用户的信息查询带来了很大的困扰,当今的很多搜索引擎大都是基于关
键词的检索,在索引中查找出与关键字相匹配的记录返回给用户。对于农业信息检索
方面,这种检索方式有一定的弊端,因为地域、民族、生活习惯用语的不同,人们在
表达同一农业概念的时候会使用不同的词汇,有些属于农业方言词汇的范畴,这些词 ● 一
语一般都是同义词,同时也会遇到不知道具体的关键字进行模糊查询的情况,检
正在加载中,请稍后...&&&&solr搭建(含拼音检索,三种分词器,停词器,扩展词库)
&solr搭建(含拼音检索,三种分词器,停词器,扩展词库)
solr的基本搭建,拼音检索,三种分词器(smartcn ,IK,mmseg4j)的安装,停词器的安装
若举报审核通过,可奖励20下载分
被举报人:
举报的资源分:
请选择类型
资源无法下载
资源无法使用
标题与实际内容不符
含有危害国家安全内容
含有反动色情等内容
含广告内容
版权问题,侵犯个人或公司的版权
*详细原因:
VIP下载&&免积分60元/年(1200次)
您可能还需要
Q.为什么我点的下载下不了,但积分却被扣了
A. 由于下载人数众多,下载服务器做了并发的限制。若发现下载不了,请稍后再试,多次下载是不会重复扣分的。
Q.我的积分不多了,如何获取积分?
A. 获得积分,详细见。
完成任务获取积分。
论坛可用分兑换下载积分。
第一次绑定手机,将获得5个C币,C币可。
关注并绑定CSDNID,送10个下载分
下载资源意味着您已经同意遵守以下协议
资源的所有权益归上传用户所有
未经权益所有人同意,不得将资源中的内容挪作商业或盈利用途
CSDN下载频道仅提供交流平台,并不能对任何下载资源负责
下载资源中如有侵权或不适当内容,
本站不保证本站提供的资源的准确性,安全性和完整性,同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
开发技术下载排行
您当前C币:0&&&可兑换 0 下载积分
兑换下载分:&
消耗C币:0&
立即兑换&&
兑换成功你当前的下载分为 。前去下载资源
你下载资源过于频繁,请输入验证码
如何快速获得积分?
你已经下载过该资源,再次下载不需要扣除积分
solr搭建(含拼音检索,三种分词器,停词器,扩展词库)
所需积分:1
剩余积分:0
扫描微信二维码精彩活动、课程更新抢先知
VIP会员,免积分下载
会员到期时间:日
剩余下载次数:1000
solr搭建(含拼音检索,三种分词器,停词器,扩展词库)
剩余次数:&&&&有效期截止到:
你还不是VIP会员VIP会员享免积分 . 专属通道极速下载
VIP下载次数已满VIP会员享免积分 . 专属通道极速下载,请继续开通VIP会员
你的VIP会员已过期VIP会员享免积分 . 专属通道极速下载,请继续开通VIP会员lucene和solr的分词器词库如何从数据库加载? - 推酷
lucene和solr的分词器词库如何从数据库加载?
对于中文的搜索来说,词库系统,也是一个比较重要的模块,本篇散仙以IK分词器为例子,介绍了如何让分词器从数据库或缓存系统中集中式加载词库?
Lucene和Solr从数据库加载词库分析
中文比较常用的分词库主要IK,ansj和messeg,下面针对IK来做分析,其他的几种分词器,都是大同小异的原理。
(一)词库介绍
不论使用什么类型的分词器,一般都少不了使用词库,而词库里面,除了主词库之外,还有扩展词库,同义词库,禁用词库等,其中扩展词库,同义词库,禁用词库是比较基础的词库,一般类型的业务开发,使用这3种词库后,基本能满足需求,特殊情况需要另外考虑。
(二)词库需求
每一个网站都需要有一个特定行业的词库,来丰富词库系统,当然你可以不用建立词库,这样的效果可能检索的时候,用户体验可能会比较查,在系统运行过程中,词库是可以动态更新的,所以要求我们的分词器,能够动态更新所有的词库,比如禁用词,同义词,扩展词等,这样做动态性比较好,但已经建好索引的文本,与目前的词库可能会存在一些误差,这种差别会在下一次重建索引时得到改变,所谓词库的动态更新,也就是在后台单独起个线程定时在内存里重新Load词库
(三)为什么需要从数据库或缓存加载词库?
在实际的开发中,搜索作为一个重要的组件,很少单独部署作为一个应用,除非是那种比较小的数据量,或者对搜索要求不是非常严格,通常在互联网或者电子商务行业,特别是电商行业,因为访问量比较大,对系统并发,负载均衡,响应请求要求比较高,所以搜索作为一个关键的应用通常需要采用集群的方式来构建一个高可用,高扩展的检索系统,在集群中,一般采用主从架构的方式,这样以来1主N从,需要有很多份词库文件,如果词库经常变化那么这种牵一发而动全身的趋势,就会变的很明显,解决办法主要有2种:
(1)在配置主从同步架构时,把,变化的词库放在Master上,然后同步的时候把词库的配置文件也同步过去。
(2)第二种就是今天主题所说,所有的词库文件都从某一个集中的地方管理,然后各个solr节点,定时从数据库,或缓存里读取并更新(在IK源码的Dictionary里进行更新)。
第一种方式的弊端在于,仅仅在solr的主从架构时,采用这种,会比较方便,如果是solrcloud的模式,这种方法就不适用了
第二种方式相对来说比较方便,整个集群只维持一份词库文件,改用较小,而且更好的办法我们可以结合本地词库+数据库的方式一起工作,这样以来当数据库出现宕机的时候,我们的词库仍能正常工作。
(四)使用流程简析
1,由于我们加入了同义词,所以需要定义一个IK的同义词工厂类IKSynonymFilterFactory继承TokenFilterFactory类并实现ResourceLoaderAware接口和Runnable接口,并重写create方法,在solr的里使用
2,我们定义一个ISSAnalyer类继承Analyzer,并重写必要方法,方便在控制台下测试。
3,定义一个IKTokenizerFactory类继承TokenizerFactory并实现ResourceLoaderAware接口,并重写inform方法和create方法,在solr里配置使用。
GitHub源码地址:
已发表评论数()
请填写推刊名
描述不能大于100个字符!
权限设置: 公开
仅自己可见
正文不准确
标题不准确
排版有问题
主题不准确
没有分页内容
图片无法显示
视频无法显示
与原文不一致

我要回帖

更多关于 solr更新索引速度太慢 的文章

 

随机推荐