前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【全文检索_02】Lucene 入门案例

【全文检索_02】Lucene 入门案例

作者头像
Demo_Null
发布2021-01-27 10:34:03
4020
发布2021-01-27 10:34:03
举报
文章被收录于专栏:Java 学习

1.1 简介

1.1.1 概述

  Lucene 是 apache 软体基金会发布的一个开放原始码的全文检索引擎工具包,由资深全文检索专家 Doug Cutting 所撰写,它是一个全文检索引擎的架构,提供了完整的建立索引和查询索引,以及部分文字分析的引擎,Lucene 的目的是为软体开发人员提供一个简单易用的工具包,以方便在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎,Lucene 在全文检索领域是一个经典的祖先,现在很多检索引擎都是在其基础上建立的,思想是相通的。 Lucene 是根据关健字来搜寻的文字搜寻工具,只能在某个网站内部搜寻文字内容,不能跨网站搜寻。

1.1.2 索引和搜索过程

  索引是现代搜寻引擎的核心,建立索引的过程就是把源资料处理成非常方便查询的索引档案的过程。为什么索引这么重要呢,试想你现在要在大量的文件中搜索含有某个关键词的文件,那么如果不建立索引的话你就需要把这些文件顺序的读入记忆体,然后检查这个文章中是不是含有要查询的关键词,这样的话就会耗费非常多的时间,想想搜寻引擎可是在毫秒级的时间内查找出要搜寻的结果的。这就是由于建立了索引的原因,你可以把索引想象成这样一种资料结构,他能够使你快速的随机访问储存在索引中的关键词,进而找到该关键词所关联的文件。 Lucene 采用的是一种称为倒排索引(inverted index)的机制。倒排索引就是说我们维护了一个词 / 短语表,对于这个表中的每个词 / 短语,都有一个连结串列描述了有哪些文件包含了这个词 / 短语。这样在使用者输入查询条件的时候,就能非常快的得到搜寻结果。

1.1.3 创建索引库

☞ 获得原始文档

  原始文档是指要索引和搜索的内容。原始内容包括互联网上的网页、数据库中的数据、磁盘上的文件等。从互联网上、数据库、文件系统中等获取需要搜索的原始信息,这个过程就是信息采集,信息采集的目的是为了对原始内容进行索引。

☞ 创建文档对象

  获取原始内容的目的是为了索引,在索引前需要将原始内容创建成文档(Document),文档中包括一个一个的域(Field),域中存储内容。这里我们可以将磁盘上的一个文件当成一个 document,Document 中包括一些 Field(file_name 文件名称、file_path 文件路径、file_size 文件大小、file_content 文件内容)。每个 Document 可以有多个 Field,不同的 Document 可以有不同的 Field,同一个 Document 可以有相同的 Field(域名和域值都相同),每个文档都有一个唯一的编号,就是文档 id。

☞ 分析文档

  将原始内容创建为包含域(Field)的文档(document),需要再对域中的内容进行分析,分析的过程是经过对原始文档提取单词、将字母转为小写、去除标点符号、去除停用词等过程生成最终的语汇单元,可以将语汇单元理解为一个一个的单词。每个单词叫做一个 Term,不同的域中拆分出来的相同的单词是不同的 term。term 中包含两部分一部分是文档的域名,另一部分是单词的内容。例如:文件名中包含 apache 和文件内容中包含的 apache 是不同的 term。

☞ 创建索引

  对所有文档分析得出的语汇单元进行索引,索引的目的是为了搜索,最终要实现只搜索被索引的语汇单元从而找到Document(文档)。注意:创建索引是对语汇单元索引,通过词语找文档,这种索引的结构叫倒排索引结构。倒排索引结构是根据内容、词语找文档,如下图:

1.1.4 查询索引库

☞ 用户查询接口

  全文检索系统提供用户搜索的界面供用户提交搜索的关键字,搜索完成展示搜索结果。注意 Lucene 不提供用户搜索界面的功能,需要根据自己的需求开发搜索界面。

☞ 创建查询

  用户输入查询关键字执行搜索之前需要先构建一个查询对象,查询对象中可以指定查询要搜索的 Field 文档域、查询关键字等,查询对象会生成具体的查询语法,例如:语法 fileName:lucene 表示要搜索 Field 域的内容为“lucene”的文档

☞ 执行查询

  根据查询语法在倒排索引词典表中分别找出对应搜索词的索引,从而找到索引所链接的文档链表。比如搜索语法为 fileName:lucene 表示搜索出 fileName 域中包含 Lucene 的文档。搜索过程就是在索引上查找域为 fileName,并且关键字为 Lucene 的 term,并根据 term 找到文档 id 列表。

☞ 渲染结果

  以一个友好的界面将查询结果展示给用户,用户根据搜索结果找自己想要的信息,为了帮助用户很快找到自己的结果,提供了很多展示的效果,比如搜索结果中将关键字高亮显示,百度提供的快照等。

1.2 配置开发环境

1.2.1 下载 Lucene

官网 下载压缩包并解压

1.2.2 使用的 jar 包

代码语言:javascript
复制
<!-- lucene 核心包,在 lucene-8.7.0\core 下 -->
<dependency>
    <groupId>org.apache.lucene</groupId>
    <artifactId>lucene-core</artifactId>
    <version>7.2.1</version>
</dependency>
<!-- 一般分词器,适用于英文分词,在 lucene-8.7.0\analysis\common 下 -->
<dependency>
    <groupId>org.apache.lucene</groupId>
    <artifactId>lucene-analyzers-common</artifactId>
    <version>7.2.1</version>
</dependency>

1.2.3 核心包

核心包

作用

org.apache.lucene.document

这个包提供了一些为封装要索引的文件所需要的类,比如 Document,Field。这样,每一个文件最终被封装成了一个 Document。

org.apache.lucene.analysis

这个包主要功能是对文件进行分词,因为文件在建立索引之前必须要进行分词,所以这个包的作用可以看成是为建立索引做准备工作。

org.apache.lucene.index

这个包提供了一些类来协助建立索引以及对建立好的索引进行更新。这里面有两个基础的类:IndexWriter 和 IndexReader,其中 IndexWriter 是用来建立索引并新增文件到索引中的,IndexReader 是用来删除索引中的文件的。

org.apache.lucene.search

这个包提供了对在建立好的索引上进行搜寻所需要的类。比如 IndexSearcher 和 Hits, IndexSearcher 定义了在指定的索引上进行搜寻的方法,Hits 用来储存搜寻得到的结果

1.3 入门案例

1.3.1 创建索引

代码语言:javascript
复制
/**
 * @author Demo_Null
 * @version 1.0
 * @date 2021/1/21
 * @desc Lucene 入门案例, 创建索引
 */
@SpringBootTest
public class LuceneDemo {

    @Test
    public void create() throws IOException {
        // 1. 指定索引库位置
        // 1.1 保存到内存
        // Directory directory = new RAMDirectory()

        // 1.2 保存到本地
        Directory directory = FSDirectory.open(new File("C:\\Users\\softw\\Desktop\\temp").toPath());

        // 2. 创建 IndexWriterConfig 对象
        IndexWriterConfig indexWriterConfig = new IndexWriterConfig();

        // 3. 创建 IndexWriter 对象
        IndexWriter indexWriter = new IndexWriter(directory, indexWriterConfig);

        // 4. 获取原始文档信息
        File file = new File("C:\\Users\\softw\\Desktop\\file\\双城记.txt");
        String name = file.getName();
        String path = file.getPath();
        // 使用 org.apache.commons.io.FileUtils 工具类读取信息
        String content = FileUtils.readFileToString(file, "GBK");
        long size = FileUtils.sizeOf(file);

        // 5. 创建 Field 域, 第一个参数:域的名称, 第二个参数:域的内容, 第三个参数:是否存储
        TextField fileNameField = new TextField("filename", name, Field.Store.YES);
        TextField filePathField = new TextField("path", path, Field.Store.YES);
        TextField fileContentField = new TextField("content", content, Field.Store.YES);
        TextField fileSizeField = new TextField("size", size + "", Field.Store.YES);

        // 6. 创建 Document 文档, 存入 Field 域
        Document document = new Document();
        document.add(fileNameField);
        document.add(filePathField);
        document.add(fileContentField);
        document.add(fileSizeField);

        // 7. 创建索引并写入索引库
        indexWriter.addDocument(document);

        // 8. 释放资源
        indexWriter.close();
    }
}

  执行完毕后,如上图所示在指定的索引库生成了一堆不认识的文件,我们需要找一个工具来查看,可以使用 Luke 查看我们刚才添加的索引。

1.3.2 查询索引

代码语言:javascript
复制
/**
 * @author Demo_Null
 * @version 1.0
 * @date 2021/1/21
 * @desc //TODO
 */
@SpringBootTest
public class CreateIndex {

    @Test
    public void search() throws IOException {
        // 1. 指定索引库
        Directory directory = FSDirectory.open(new File("C:\\Users\\softw\\Desktop\\temp").toPath());

        // 2. 创建 IndexReader 对象
        IndexReader indexReader = DirectoryReader.open(directory);

        // 3. 创建 IndexSearcher 对象
        IndexSearcher indexSearcher = new IndexSearcher(indexReader);

        // 4. 创建查询
        TermQuery termQuery = new TermQuery(new Term("content", "我"));

        // 5. 执行查询, 第一个参数是查询对象, 第二个参数是查询结果返回的最大值
        TopDocs search = indexSearcher.search(termQuery, 10);

        System.out.println("查询结果条数:" + search.totalHits);

        // 6. 遍历查询结果
        for (ScoreDoc scoreDoc : search.scoreDocs) {
            // 6.1 根据 id 获取 Document, scoreDoc.doc 属性就是 document 对象的 id
            Document doc = indexSearcher.doc(scoreDoc.doc);
            System.out.println("文件名:" + doc.get("filename"));
            System.out.println("文件路径:" + doc.get("path"));
            System.out.println("文件大小:" + doc.get("size"));
        }

        // 7. 释放资源
        indexReader.close();
    }
}
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2021/01/21 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1.1 简介
    • 1.1.1 概述
      • 1.1.2 索引和搜索过程
        • 1.1.3 创建索引库
          • ☞ 获得原始文档
          • ☞ 创建文档对象
          • ☞ 分析文档
          • ☞ 创建索引
        • 1.1.4 查询索引库
          • ☞ 用户查询接口
          • ☞ 创建查询
          • ☞ 执行查询
          • ☞ 渲染结果
      • 1.2 配置开发环境
        • 1.2.1 下载 Lucene
          • 1.2.2 使用的 jar 包
            • 1.2.3 核心包
            • 1.3 入门案例
              • 1.3.1 创建索引
                • 1.3.2 查询索引
                相关产品与服务
                数据库
                云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
                领券
                问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档