首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Elastic search 7.6上包含500万个文档的完整索引重建需要1周时间才能完成

Elasticsearch是一个开源的分布式搜索和分析引擎,用于快速搜索、分析和存储大量数据。它基于Lucene库构建,提供了强大的全文搜索、实时分析和可扩展性。

对于包含500万个文档的完整索引重建,需要1周时间才能完成的情况,可以从以下几个方面进行分析和优化:

  1. 硬件资源:确保Elasticsearch集群的硬件资源足够强大,包括CPU、内存和磁盘空间。可以考虑增加节点数量、提升硬件配置或者使用更高性能的云服务器实例。
  2. 集群配置:合理配置Elasticsearch集群的参数,包括分片和副本的数量、索引刷新和合并策略等。通过调整这些参数,可以提高索引重建的效率。
  3. 索引设计:优化索引的结构和映射,包括字段类型的选择、分词器的配置和索引的分片方式等。合理设计索引可以提高搜索和索引重建的性能。
  4. 并行化操作:将索引重建过程分成多个阶段,并行执行,可以加快重建速度。可以使用Elasticsearch提供的多线程工具或者自定义脚本实现并行化操作。
  5. 数据预处理:如果数据源是外部系统,可以考虑在导入Elasticsearch之前对数据进行预处理,例如数据清洗、格式转换等。预处理可以减少索引重建的时间。
  6. 索引分片和副本:根据实际需求调整索引的分片和副本数量。增加分片数量可以提高索引重建的并行度,而增加副本数量可以提高搜索的性能和可用性。
  7. 索引刷新策略:调整索引的刷新策略,可以减少索引重建的时间。可以将刷新频率调整为较大的间隔,或者手动控制刷新操作的触发时机。
  8. 硬件优化:使用SSD硬盘可以提高磁盘读写性能,使用高速网络可以加快数据传输速度。优化硬件配置可以提升索引重建的效率。
  9. 查询性能优化:如果索引重建的过程中需要进行查询操作,可以优化查询语句和索引设计,减少查询的响应时间。

腾讯云提供了Elasticsearch的托管服务,称为云搜索ES(Cloud Search ES)。它提供了高可用、高性能的Elasticsearch集群,可以快速部署和扩展。您可以通过腾讯云云搜索ES产品页面(https://cloud.tencent.com/product/es)了解更多信息和产品介绍。

请注意,本回答仅针对Elasticsearch 7.6上包含500万个文档的完整索引重建所需时间的情况进行了分析和优化建议。对于其他问题或需求,可能需要根据具体情况进行不同的优化策略。

页面内容是否对你有帮助?
有帮助
没帮助

相关·内容

ELK7日志分析系统基础(二)

ELK7日志分析系统基础(二) 版本区别 ELK6: 默认对外开放访问,需要xpack之类插件才能开启认证 ELK7: 默认开启安全验证功能 基本环境需求 centos7 关闭防火墙 关闭selinux...索引分片可以把数据分配到不同节点 每个分片可设置值0个或者多个副本 副本功能: 备份,提高查询效率,与集群中任何一个节点通信结果都是一致 ES分布式集群部署 部署节点信息 主机名 ip...ES数据库基础操作 ES概念 索引: 类似于数据库,索引在写入数据时会自动创建,可按天 文档: 类似于表数据,存储在ES里面的数据 ES基础操作 curl方式: 相对比较麻烦 ### 写入指定ID...官方文档: https://www.elastic.co/guide/en/logstash/7.6/index.html Logstash功能 对日志进行过滤处理 也能用于日志收集(一般不这么用)...kibana显示感叹号问题处理 出现感叹号原因就是重新加入分词,日志字段出现多个场景 kibana索引刷新 Kibana索引操作并不会影响到数据,删除重建也没问题 ? 查看索引 ?

1K20

Elasticsearch之元数据(meta-fields)介绍

什么是meta-fields 在Elasticsearch下,一个文档除了有数据之外,它还包含了元数据(Metadata)。...索引元数据 _all: 自动组合所有的字段值,以空格分割,可以指定分器词索引,但是整个值不被存储,所以此字段仅仅能被搜索,不能获取到具体值 _field_names:索引了每个字段名字,可以包含null...字段字节数大小,需要单独安装一个插件才能展示,详情参见:https://www.elastic.co/guide/en/elasticsearch/plugins/5.4/mapper-size.html...索引重建、修改mapping以及分词、索引升级 debug查询或者聚合语句 索引自动修复 2.4...._id字段来参与路由规则,如果此doc有父子关系,则会以父亲_id作为路由规则,以确保父子数据 必须处于同一个shard,以提高join效率 需要注意是如果指定了使用自己路由规则,如果两个文档

2.6K60
  • Elasticsearch架构选型指南——不止是搜索引擎,还有......

    Elasticsearch 多表关联解决方案一般概括如下: 宽表:适合增加冗余存储、空间换时间场景。 nested 类型:适合子文档偶尔更新、查询频繁场景。...腾讯云黄华老师分享《腾讯Elasticsearch海量规模背后内核优化剖析》中强调: “ES 是一个实时分布式搜索分析引擎,目前很多用户对 ES 印象还是准实时,实际在6.8版本之后官方文档已经将...我们直接看一下6.8版本——7.6版本官方文档说法,的确如黄老师所说: "Elasticsearch provides real-time search and analytics for all types...“3 + 1战略”——是指在Elastic Stack 基础Elastic 企业搜索、Elastic 全观察、Elastic 安全三个核心业务场景发力。...”介绍。 需要强调点如下: slogon 加了分析:由原来“You know, for search” 改成 “You know, for search (and analysis)”。

    1.2K12

    Elasticsearch:在不停机情况下优化 Elasticsearch Reindex

    事实,这是一项相当昂贵操作,因为根据数据量和分片数量,完成索引完整复制可能需要长达几个小时时间。花费时间并不是一个大问题,但更严重是,它会影响生产环境性能甚至功能。...数据迁移完成后,调用 _aliases 命令进行新旧索引切换。步骤 2 之后,新索引正式运行,并将负责所有读写请求。 然而,这只是一个完美的理想场景,事实,事情不会那样发展。下面是一个正常场景。...默认情况下,_reindex 是内部,这种数据迁移是通过使用原始索引覆盖新索引完成,并删除文档 _version,因此新索引所有文档重新开始。...如果有人在数据迁移期间将原始文档更改为 Hello Search,那么完整文档将如下所示。...然而,流式索引用例有很多限制,因此在实践中更常见是使用常规索引。本文提供了一个完整过程来尽可能快地执行 _reindex 并最大限度地减少数据不一致时间

    15610

    Elastic 认证(ECE)2021 年 7 月版本升级解读

    图片来自:Elastic官方文档 data streams 适用场景: 使用Elasticsearch预处理、搜索和管理大量时间序列数据场景。...使用ILM(索引生命周期管理)自动管理索引来扩展规模并降低成本场景。 在 Elasticsearch 中为大量时间序列数据编制索引,但很少删除或更新文档场景。...基于索引数据生命周期管理,一些超大数据量级业务场景,为保证业务高可用,往往需要对数据进行快照 snapshot 备份。...届时,我会第一时间跟进并解读。 6、铭毅解读变化 第一:7.12 较 7.2 版本官方文档有很大改动。 熟悉 7.2 官方文档不代表熟悉 7.12 文档。...6 月底之前还有时间需要认证考试 Elastic 爱好者,建议冲刺一把!别再给自己退路了。 ---- 加油! 新增考点后面会至少有 4 篇文章(基于 7.12 版本)做详细实操实战解读。

    88430

    Elasticsearch 重建索引

    这时,配置分词库只是第一步操作,因为大量历史数据在索引时并没有使用新添加分词库,将导致查询出现不可预期效果。 此时,我们需要就是重建索引。 2....重建索引使用场景 至少在以下场景需要重建索引。 2.1. 生成索引方式变更 如上所述,因为新词库添加,导致历史数据需要按照新索引生成方式来生成索引。 此时,重建索引就是唯一选择了。...切分数据 对于已有 ES 集群,数据量庞大到一定程度或因为其他业务原因,往往需要将已有数据按照一定规则进行切分到多个不同索引中。 这样过程通过重建索引来实现是非常容易得。...正确流程是: 创建新索引 批量从原索引中将数据导出到新索引中 数据导入完成后,通过 ES 别名机制进行索引切换 删除旧索引 这样就实现了索引平滑重建。 4....我们需要通过 scroll 参数设置每次返回数据量大小: POST /myindex/_search?

    1.1K30

    Elasticsearch 简介

    事实 Elasticsearch 完整栈有如下几个: Beats Elasticsearch Kibana Logstash Beats 是一些轻量级可以允许在客户端服务器中代理。...它并不需要部署到我们 Elastic 云中。它可以帮我们收集所有需要事件。...这源于它高速(speed)。相比较其它一些大数据引擎,Elasticsearch 可以实现秒级搜索,但是对于它们来说,可能需要数小时或更长才能完成。...Elasticsearch 允许你在数据中建立简单关系,例如父子关系和嵌套关系,但会降低性能(分别在搜索时间索引时间)。...必须对 Elasticsearch 数据进行非规范化(在文档中复制或添加冗余字段,以避免必须加入数据)以改进搜索和 索引/更新性能。

    80320

    严选 | Elastic中文社区201903错题本

    所有的创业者多花点时间学习别人是怎么失败,因为成功原因有千千万万,失败原因就一两个点。 创业需要关注别人失败,而开发实战,别人错误经验、别人问题也非常有价值。...所在shard,减少判断是否存在数据量 1.5 关于 ik 新词更新 想做新词发现,更新词库,但是搞不清es对于这种更新词库后,老数据怎么处理为好 建议:不影响搜索的话,重建索引,reindex ,...原因:ES数据写入过程即是索引过程,这个阶段会按照设定分词进行数据索引化。所以,必须reindex重建索引或者重新导入数据才能生效。 1.6 es有没可能同时写多个索引?...首先你需要了解布隆过滤器用途,一般是用于字符串或者数字等,检测是否存在场景,例如:爬虫 URL 去重; ES 查询,大部分场景是看某个文本是否存在与某篇文档中;或者日期、数字等是否在某个范围;...course1 2 3 分别删除 但是在 elasticsearch data 目录下文件并未释放磁盘空间 怎么操作才能删除之前不用索引并释放磁盘空间呢 谢谢!!

    1.7K40

    ChatGPT 和 Elasticsearch结合:在私域数据使用ChatGPT

    Elasticsearch 是一个高效索引擎,旨在提供相关文档检索,确保用户可以快速准确地访问他们需要信息。...可以在不止一个文档页面中找到正确答案,或者如果我们要为完整正文文本生成向量,那么这些较大文本正文可能需要分块并存储在多个 Elasticsearch 文档中。...通过利用 Elasticsearch 与传统搜索方法协同搜索大量矢量字段能力,您可以显着提高您顶级文档召回率。技术设置技术要求相当低,但需要一些步骤才能将所有部分组合在一起。...配置网络爬虫以爬取 Elastic官方文档:再次单击导航菜单,然后单击 Enterprise Search -> Overview。在内容下,单击索引。单击 search-elastic-docs。...图片Elasticsearch 网络爬虫现在将开始爬取文档站点,为title字段生成向量,并对文档和向量建立索引。图片第一次爬网需要一些时间才能完成

    6.1K164

    Elasticsearch初检索及高级

    PUT必须指定id;由于PUT需要指定id,我们一般都用来做修改操作,不指定d会报错; 查询文档 GET custome/external/1 :在 customer 索引 external 类型下查询...match_phrase[短句匹配] 将需要匹配值当成一整个单词(不分词)进行检索 查处address中包含mill_road所有记录,并给出相关性得分 GET bank/_search { "...https://www.elastic.co/guide/en/elasticsearch/reference/7.6/query-dsl-term-query.html 使用term匹配查询 GET...(document),以及它所包含属性(field)是如何存储和索引。...使用maping来定义 哪些字符串属性应该被看做全文本属性(full text fields); 哪些属性包含数字,日期或地理位置; 文档所有属性是否都嫩被索引(all 配置); 日期格式; 自定义映射规则来执行动态添加属性

    1.1K10

    干货 | Elasticsearch开发人员最佳实战指南

    其影响是: nested与父文档字段相比,查询字段速度较慢 检索匹配nested字段会降低检索速度 一旦更新了包含nested字段文档任何字段(与是否更新嵌套字段无关,则所有基础Lucene文档...但请注意,索引主分片一旦设置便无法更改(除非重建索引或者reindex)。 对于新来者来说,过度分片是一个非常普遍陷阱。...事实,在某些情况下可以完全避免使用它们:一次构建索引,不再更改它。尽管在许多应用场景中可能很难满足此条件。一旦开始插入新文档或更新现有文档,段合并就成为不可避免一部分。...4.2 使用Elasticsearch完整和部分快照进行备份 Elasticsearch可以便捷实现全部索引全量快照或者部分索引数据增量快照。...你需要调整部署过程,不能再使用原始Elasticsearch工作。 由于你应用程序依赖于于插件提供特定功能,因此在集成测试过程中运行Elasticsearch实例也需要包含插件。

    1.7K21

    1.Elastic Stack分布式数据采集搜索引擎基础入门介绍

    ,此步骤叫做搜索查询 Run Query;搜索到相匹配内容后,就要通过界面展现给你,淘宝索引擎拿到数据后返回到你浏览器当中,一次完整搜索就此完成,此步骤叫做Render Results展现结果。...建立文档(Build Document) 通过Acquire Centent获取原始内容需要转换为专用部件(文档才能供搜索引擎使用。...文档索引(Idenx Document) 在索引步骤中,文档将被加入到索引列表。事实,Lucene为此仅提供了一个非常简单API,而后自行内生地完成了此步骤所有功能。...分片|Slice Elasticsearch 索引实际包括一个或多个物理分片分组,其中每个分片实际是一个自包含索引。...分片数量,维护这些索引开销就越大。 分片大小,ES移动分片所需时间就越长需要重新平衡集群。

    1.1K10

    如何在生产环境中实现Elasticsearch零停机升级

    启用弃用日志(deprecation logging),以验证没有使用弃用功能。 升级前重建索引(reindex)! Elasticsearch只能读取前一个主要版本(major)中创建索引。...如果集群中包含索引是在前一个主要版本之前创建和写入,那么就需要重建索引才能在新版本中得到支持。(例如,Elasticsearch 7.x不能读取5.x中创建索引)。...有关需要回顾完整列表,请阅读Upgrading the Elastic Stack: Planning for success (blog) 和Elastic Stack升级官方文档。...Rally是在Elasticsearch运行基准测试一个很好工具。这与我们在Elastic用于测试Elasticsearch构建工具相同。...如果您在Elastic Cloud运行,则只需单击即可完成Elasticsearch升级!而在本地,您可以通过整合完整RESTful API,将整个过程应用于自动化。

    7.1K50

    Elasticsearch7.6学习笔记1 Getting start with Elasticsearch

    /reference/7.6/getting-started.html Index some documents 索引一些文档 本次测试直接使用kibana, 当然也可以通过curl或者postman访问...批量插入 当有多条数据需要插入时候, 我们可以批量插入....下载准备好文档, 然后通过http请求导入es. 创建一个索引bank: 由于shards(分片)和replicas(副本)创建后就不能修改了,所以要先创建时候配置shards....然后再indices中找到索引bank。可以看到我们导入数据分布情况。 ? 可以看到, 有3个shards分在不同node, 并且都有2个replicas....是text类型, 字符类型需要统计和分组,类型必须是keyword size=3 限制group by返回数量,这里是top3, 默认top10, 系统最大10000,可以通过修改search.max_buckets

    1.6K30

    在 Elasticsearch 中实施图片相似度搜索

    图片本文将帮助你了解如何快速在 Elastic 中实施图像相似度搜索。你仅需要:要创建应用程序环境,然后导入 NLP 模型,最后针对您图像集完成嵌入生成工作。就这么简单!...图片如果您在屏幕收到一条消息——需要同步 ML 作业和所训练模型——则点击链接以对模型完成同步。.../app/conf/ess-cloud.cer'这一任务会需要一定时间才能完成,具体取决于图像数量、图像大小、您 CPU 以及您网络连接。先用较少图像进行实验,然后再尝试处理完整数据集。...脚本运行完毕之后,您可以使用 Kibana 开发工具验证索引 my-image-embeddings 是否存在并拥有相对应文档。...JSON 文档中最重要部分是 ‘image_embedding’,因为其中包含 CLIP 模型所生成密集矢量。当应用程序搜索图像或相似图像时,会用到这一矢量。

    1.7K20

    Elasticsearch进阶教程:轻松构造一个全方位信息检索系统

    每个讲师分享内容在现在elastic search platform企业搜索解决方案中,App search应用已经包含了web网络爬虫应用程序,我们可以在App search中快速创建Web...这是App search数据单元,反映在elasticsearch就是一个包含可搜索数据索引和一系列相关元数据索引。通俗点,我们也可以理解为数据库里有固定数据源数据表。...图片完成之后,我们可以打开一个搜索UI,确认一下内容:图片使用Fscrawler扫描本地文件资源相对于使用标准、由Elastic原厂提供web爬虫爬取网络资源,Elastic原厂尚未提供针对本地文件系统资源连接器...视频内容总结通过本文我们可以看到,要构建一个涵盖互联网上内容与本地内容定制化知识搜索引擎,在缺乏解决方案协助情况下,我们可能需要耗费大量时间、精力、人力去进行设计、开发和维护。...而使用Elastic Search platform,我们可以在一天之内完成这个项目的构建,不仅大量节约了时间,从效果,更能帮助我们打通获取知识道路上壁垒

    3.5K101

    Elastic Stack 7.5重磅发布

    ,用户可以在索引文档时,对文档进行处理和丰富。...通过新 Enrich 处理器,用户能够高效地对 Elasticsearch 索引进行查询,并在索引时将查询结果添加到文档中。...这个处理器能够使您完成很多处理,例如根据已知 IP 地址识别网络服务或供应商,基于用户地理坐标添加邮编,或者从配置管理数据库(CMDB)中查询所采集主机信息,并在索引时将相关元数据添加到文档中。...借助这些新增数据源,再加上之前已具备数据源,例如 Salesforce、Google Drive、Atlassian JIRA、Confluence、Dropbox 等等,您团队现在能够专注于他们需要完成工作...Elastic Observability Elastic 坚信:如要想要彻底洞察您应用程序和基础架构,您需要能够查看(或观测)到它每一个侧面。

    67220

    esrally 如何进行简单自定义性能测试?

    operations: 指定具体操作,比如 index 索引数据操作、force-merge 强制合并 segment 操作、search 搜索操作等等。...在指定时间段结束时达到客户端指定数量(以秒为单位)。此属性还需要设置预热时间周期,它必须大于或等于预热时间。有关更多细节,请参阅ramp-up一节。...time-period(可选):Rally考虑测量以秒为单位时间段。注意,对于批量索引,通常不应该定义此时间段。拉力将只是批量索引所有的文件,并考虑每个样本后预热时间周期作为测量样本。...重建索引测试:重建索引,修改分片数,并进行dsl查询测试。 使用challengs方式进行压测。...3.2 重建索引测试 创建 track ,获取压测数据,此处会生产索引数据文件,因此需要注意track路径文件使用。

    2.1K40

    这份​Elasticsearch 工作笔记,值得收藏

    32 . scroll api里scroll参数作用是保持search context, 但是只需要设置为处理一个批次所需时间即可。...scroll时会在merge操作时依然保留merge前old segments, 会带来存储开销以及需要更多文件描述符;search.max_open_scroll_context参数可以设置node...是所有包含field value文档数量。...横向增加节点扩容时,不能搬迁已经close索引到新节点, 需要先手动处理这种索引才可以。...典型主节点选举可以在1s内完成,相比6.x, es通过延迟几秒钟时间再进行选举防止各种各样配置错误,意味着有几秒钟时间集群不可用 增长和缩小集群变得更安全,更容易,并且错误配置导致数据丢失机会变少了

    1.6K61
    领券