Solr不仅限于搜索,也可以用于存储.和其它NoSQL数据库一样,是一种非关系数据存储和处理技术
Apache Solr特点
Solr是Lucene的Java API包装,使用Solr,就可以使用Lucene...的所有功能
RESTful API: 要与Solr通信,可以使用RESTful服务与Solr通信,可以使用XML,JSON,CSV等格式的文件作为输入文档,并以相同的文件格式获取结果
全文搜索: Solr...,然后可以使该查询对象来查询索引数据库以获得相关细节
搜索查询: 使用查询对象,检查索引数据库以获取相关详细信息和内容文档
渲染结果: 当收到所需结果,应用程序应决定如何使用用户界面向用户显示搜索结果...分词技术
分词技术: 搜索引擎针对用户提交查询的关键词串进行的查询处理后,根据用户的关键词串用各种匹配方法进行分词的一种技术
中文分词算法
基于字符串匹配
基于字符串匹配:
即扫描字符串,如果发现字符串的子串和词相同...即根据观测到的数据(标注好的语料)对模型参数进行估计.即 训练
在分词阶段再通过模型计算各种分词出现的概率,将概率最大的分词结果作为最终结果
常见的序列标注模型:HMM,CRF
基于统计及机器学习的分词方式优点