数据迁移利器登场！Elasticdumpv6.110震撼发布，助你轻松搬迁大数据！

DBA实战

发布于 2024-09-06 19:08:19

980

发布于 2024-09-06 19:08:19

文章被收录于专栏：DBA实战

简介

Elasticdump 是一个用于导出和导入 Elasticsearch 数据的工具。它能够从一个 Elasticsearch 集群读取数据并写入到另一个 Elasticsearch 集群、文件系统或其他数据存储（例如 S3）。这个工具非常有用，特别是在进行数据迁移、备份和恢复操作时。elasticdump 支持多种数据类型，包括索引数据、设置、映射、模板、别名等。

安装

wget https://github.com/elasticsearch-dump/elasticsearch-dump/archive/refs/tags/v6.110.0.tar.gz
tar -xvf elasticsearch-dump-6.110.0.tar
mv elasticsearch-dump-6.110.0 elasticdump
cd elasticdump\bin

迁移功能

数据迁移
数据备份与恢复
配置和映射迁移
S3 数据迁移
分片级别的数据迁移
数据过滤迁移
别名（Alias）和模板（Template）迁移

功能用法

#将索引从生产环境复制到目标环境，包括分析器、映射和数据
elasticdump \
  --input=http://production.es.com:9200/my_index \
  --output=http://staging.es.com:9200/my_index \
  --type=analyzer
elasticdump \
  --input=http://production.es.com:9200/my_index \
  --output=http://staging.es.com:9200/my_index \
  --type=mapping
elasticdump \
  --input=http://production.es.com:9200/my_index \
  --output=http://staging.es.com:9200/my_index \
  --type=data

# 将索引导出到文件:
elasticdump \
  --input=http://production.es.com:9200/my_index \
  --output=/data/my_index_mapping.json \
  --type=mapping
elasticdump \
  --input=http://production.es.com:9200/my_index \
  --output=/data/my_index.json \
  --type=data

# 将索引导出到文件并压缩
elasticdump \
  --input=http://production.es.com:9200/my_index \
  --output=$ \
  | gzip > /data/my_index.json.gz

# 将查询结果备份到文件
elasticdump \
  --input=http://production.es.com:9200/my_index \
  --output=query.json \
  --searchBody="{\"query\":{\"term\":{\"username\": \"admin\"}}}"
  
# 将查询结果备份到文件，检索条件在/data/searchbody.json里面
elasticdump \
  --input=http://production.es.com:9200/my_index \
  --output=query.json \
  --searchBody=@/data/searchbody.json  

# 拷贝指定分片数据到目标，api索引的第24分片:
elasticdump \
  --input=http://es.com:9200/api \
  --output=http://es.com:9200/api2 \
  --input-params="{\"preference\":\"_shards:24\"}"

# 将索引的别名备份到一个文件中，修改index-name
elasticdump \
  --input=http://es.com:9200/index-name/alias-filter \
  --output=alias.json \
  --type=alias

# 导入别名文件到es中
elasticdump \
  --input=./alias.json \
  --output=http://es.com:9200 \
  --type=alias

# 模板备份到一个文件中
elasticdump \
  --input=http://es.com:9200/template-filter \
  --output=templates.json \
  --type=template

# 将模版导入到ES中
elasticdump \
  --input=./templates.json \
  --output=http://es.com:9200 \
  --type=template

# 索引数据导出到一个文件中，并将文件拆分成多个部分，每部分的大小为10MB
elasticdump \
  --input=http://production.es.com:9200/my_index \
  --output=/data/my_index.json \
  --fileSize=10mb

# 从 Amazon S3 导入到 Elasticsearc
export access_key_id="你的AWS访问密钥ID"
export access_key_secret="你的AWS秘密访问密钥"
elasticdump \
  --s3AccessKeyId "${access_key_id}" \
  --s3SecretAccessKey "${access_key_secret}" \
  --input "s3://${bucket_name}/${file_name}.json" \
  --output=http://production.es.com:9200/my_index

# 从 ES 导入到Amazon S3
export access_key_id="你的AWS访问密钥ID"
export access_key_secret="你的AWS秘密访问密钥"
elasticdump \
  --s3AccessKeyId "${access_key_id}" \
  --s3SecretAccessKey "${access_key_secret}" \
  --input=http://production.es.com:9200/my_index \
  --output "s3://${bucket_name}/${file_name}.json"

# 从指定的 MinIO 存储中读取一个 JSON 文件，然后将该文件中的数据导入到指定的 Elasticsearch 索引中
export access_key_id="你的MinIO访问密钥ID"
export access_key_secret="你的MinIO秘密访问密钥"
elasticdump \
  --s3AccessKeyId "${access_key_id}" \
  --s3SecretAccessKey "${access_key_secret}" \
  --input "s3://${bucket_name}/${file_name}.json" \
  --output=http://production.es.com:9200/my_index
  --s3ForcePathStyle true
  --s3Endpoint https://production.minio.co

# 从指定的 Elasticsearch 索引导入到指定的 MinIO 存储中
export access_key_id="你的MinIO访问密钥ID"
export access_key_secret="你的MinIO秘密访问密钥"
elasticdump \
  --s3AccessKeyId "${access_key_id}" \
  --s3SecretAccessKey "${access_key_secret}" \
  --input=http://production.es.com:9200/my_index \
  --output "s3://${bucket_name}/${file_name}.json"
  --s3ForcePathStyle true
  --s3Endpoint https://production.minio.co

# 将文件csv数据导入到ES中
elasticdump \
  # csv:// prefix must be included to allow parsing of csv files
  # --input "csv://${file_path}.csv" \
  --input "csv:///data/cars.csv"
  --output=http://production.es.com:9200/my_index \
  --csvSkipRows 1    # used to skip parsed rows (this does not include the headers row)
  --csvDelimiter ";" # default csvDelimiter is ','

参数详解

--input                    源位置（必需）
--input-index              源索引和类型（默认：全部，例如：index/type）
--output                   目标位置（必需）
--output-index             目标索引和类型（默认：全部，例如：index/type）
--big-int-fields           指定应检查大整数支持的字段的逗号分隔列表（默认：''）
--bulkAction               设置用于准备发送到 Elasticsearch 请求体的操作类型（默认：index，可选项：[index, update, delete, create]）
--ca, --input-ca, --output-ca CA 证书。如果源和目标相同，请使用 --ca。否则，根据需要使用前缀为 --input 或 --output 的证书。
--cert, --input-cert, --output-cert 客户端证书文件。如果源和目标相同，请使用 --cert。否则，根据需要使用前缀为 --input 或 --output 的证书。
--csvConfigs               设置所有 fast-csv 配置。可以提供一个转义的 JSON 字符串或文件。文件位置必须以 @ 符号为前缀（默认：null）
--csvCustomHeaders         用作数据标题的逗号分隔值列表。此参数必须与 `csvRenameHeaders` 一起使用（默认：null）
--csvDelimiter             分隔列的分隔符（默认：','）
--csvFirstRowAsHeaders     如果设置为 true，则第一行将被视为标题（默认：true）
--csvHandleNestedData      设置为 true 以处理嵌套的 JSON/CSV 数据。注意：这是一个非常有主见的实现！（默认：false）
--csvIdColumn              提取记录标识符（id）的列名。导出到 CSV 时，可以使用此列覆盖默认的 id (@id) 列名（默认：null）
--csvIgnoreAutoColumns     设置为 true 以防止将以下列 @id、@index、@type 写入输出文件（默认：false）
--csvIgnoreEmpty           设置为 true 以忽略空行（默认：false）
--csvIncludeEndRowDelimiter 设置为 true 以在 CSV 末尾包含行分隔符（默认：false）
--csvIndexColumn           提取记录索引的列名。导出到 CSV 时，可以使用此列覆盖默认的索引 (@index) 列名（默认：null）
--csvLTrim                 设置为 true 以左侧修剪所有列（默认：false）
--csvMaxRows               如果数字 > 0，则仅解析指定数量的行（例如：100 将返回前 100 行数据）（默认：0）
--csvRTrim                 设置为 true 以右侧修剪所有列（默认：false）
--csvRenameHeaders         如果希望删除文件的第一行并用 `csvCustomHeaders` 选项中提供的行替换（默认：true）
--csvSkipLines             如果数字 > 0，则将跳过指定数量的行（默认：0）
--csvSkipRows              如果数字 > 0，则跳过指定数量的解析行。注意：（如果第一行被视为标题，它们不算在内）（默认：0）
--csvTrim                  设置为 true 以修剪所有列中的空白（默认：false）
--csvTypeColumn            提取记录类型的列名。导出到 CSV 时，可以使用此列覆盖默认的类型 (@type) 列名（默认：null）
--csvWriteHeaders          决定是否将标题写入 CSV 文件（默认：true）
--customBackoff            启用自定义退避函数（s3）
--debug                    显示正在使用的 Elasticsearch 命令（默认：false）
--delete                   在将文档从输入位置移动时逐个删除文档。不会删除源索引（默认：false）
--delete-with-routing      将路由查询参数传递给删除函数，用于将操作路由到特定分片（默认：false）
--esCompress               如果为 true，则在请求中添加一个 Accept-Encoding 头以请求服务器的压缩内容编码（如果尚未存在），并解码响应中的支持内容编码。注意：对响应内容的自动解码仅对通过请求返回的 body 数据执行（包括通过请求流和传递给回调函数），但不对响应流执行（从响应事件中可获得的未修改的 http.IncomingMessage 对象，可能包含压缩数据）
--fileSize                 支持文件拆分。该值必须是 **bytes** 模块支持的字符串。以下缩写必须用于表示单位大小：b 表示字节，kb 表示千字节，mb 表示兆字节，gb 表示千兆字节，tb 表示太字节，例如：10mb / 1gb / 1tb。分区有助于通过有效地将文件分割成较小的块来缓解溢出/内存不足异常，然后可以根据需要合并这些块。
--filterSystemTemplates    是否删除 metrics-*-* 和 logs-*-* 系统模板（默认：true）
--force-os-version         强制使用 elasticsearch-dump 使用的 OpenSearch 版本（默认：7.10.2）
--fsCompress               在将输出发送到文件之前进行 gzip 压缩。在导入时使用此命令解压缩 gzipped 文件
--handleVersion            告诉 elasticsearch 传输处理数据集中存在的 `_version` 字段（默认：false）
--headers                  向 Elasticsearch 请求添加自定义头（当你的 Elasticsearch 实例位于代理后面时很有用）（默认：'{"User-Agent": "elasticdump"}'）。支持基于类型/方向的头。例如：input-headers/output-headers（这些头仅在当前流程类型为 input/output 时添加）
--help                     帮助页面
--ignore-errors            在写入错误时继续读/写循环（默认：false）
--ignore-es-write-errors   在 Elasticsearch 写入错误时继续读/写循环（默认：true）
--inputSocksPort, --outputSocksPort Socks5 主机端口
--inputSocksProxy, --outputSocksProxy Socks5 主机地址
--inputTransport           提供一个自定义的 js 文件用作输入传输
--key, --input-key, --output-key 私钥文件。如果源和目标相同，请使用 --key。否则，根据需要使用前缀为 --input 或 --output 的密钥。
--limit                    每个操作移动的对象数量。对于文件流，限制是近似的（默认：100）
--maxRows                  支持文件拆分。文件按指定的行数拆分
--maxSockets               进程可以进行的同时 HTTP 请求数量是多少？（默认：5 [node <= v0.10.x] / Infinity [node >= v0.11.x]）
--noRefresh                禁用输入索引刷新。优点：1. 大幅增加索引速度，2. 硬件需求大幅降低。缺点：1. 最近添加的数据可能未被索引。建议用于大数据索引，在速度和系统健康优先于最近添加的数据时使用。
--offset                   包含要从输入传输中跳过的行数的整数。当导入大型索引时，可能会出现问题，例如连接中断、崩溃、忘记 `screen` 等。这允许你从上次记录的偏移量重新开始导出。请注意，由于初始导出时没有指定排序，因此无法保证跳过的行已被写入/解析。这更像是一个选项，用于在不关心丢失一些行的情况下获取尽可能多的数据到索引中，类似于 `timeout` 选项（默认：0）
--outputTransport          提供一个自定义的 js 文件用作输出传输
--overwrite                如果输出文件存在则覆盖（默认：false）
--params                   向 Elasticsearch 请求 URI 添加自定义参数。当你希望使用 elasticsearch preference 时很有用。--input-params 是一个特定的参数扩展，可在使用 scroll API 获取数据时使用。--output-params 是一个特定的参数扩展，可在使用 bulk index API 索引数据时使用。注意：这些是为了避免在一个输入参数用于输出源时出现的参数污染问题（默认：null）
--parseExtraFields         要解析的元字段的逗号分隔列表
--pass, --input-pass, --output-pass 私钥的密码短语。如果源和目标相同，请使用 --pass。否则，根据需要使用前缀为 --input 或 --output 的密码短语。
--quiet                    除错误外，抑制所有消息（默认：false）
--retryAttempts            指定在连接失败时应自动重试请求的次数，例如遇到 `ECONNRESET`, `ENOTFOUND`, `ESOCKETTIMEDOUT`, `ETIMEDOUT`, `ECONNREFUSED`, `EHOSTUNREACH`, `EPIPE`, `EAI_AGAIN` 等错误时（默认：0）
--retryDelay               指定重试尝试之间的回退/中断时间（毫秒）（默认：5000）
--retryDelayBase           用于操作重试的指数回退的基础毫秒

注意事项

版本兼容性：确保 elasticdump 版本与 Elasticsearch 版本兼容。在导出和导入数据之前，查看官方文档以了解特定版本的兼容性问题。
数据一致性：在进行数据迁移时，尤其是大规模数据迁移时，数据的一致性非常重要。可以考虑在迁移前将索引设置为只读模式，以避免数据写入不一致的情况。
性能和资源使用：elasticdump 进行大规模数据迁移时可能会消耗大量的资源，包括 CPU、内存和网络带宽。建议在非高峰时段进行操作，或分批次进行迁移以减少对生产环境的影响。
权限：确保有足够的权限来访问 Elasticsearch 集群和数据存储（如 S3）。在使用带有身份验证的集群时，需要正确配置用户名、密码和其他认证信息。
数据安全：在涉及敏感数据时，确保数据传输是加密的。例如，使用 HTTPS 而不是 HTTP，以防止数据在传输过程中被截获。
错误处理：elasticdump 提供了一些选项来处理错误，例如 --ignore-errors 和 --retryAttempts。在使用这些选项时，需要权衡数据完整性和迁移速度。

总结

elasticdump 是一个功能强大且灵活的工具，能够简化 Elasticsearch 数据的导出和导入过程。无论是备份、恢复，还是集群迁移，它都提供了丰富的选项和配置，以满足不同场景的需求。然而，在使用 elasticdump 时，需要注意版本兼容性、性能影响和数据一致性等问题，以确保数据迁移过程顺利进行。通过合理的规划和配置，elasticdump 可以有效地帮助用户管理和维护 Elasticsearch 数据。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2024-05-23，如有侵权请联系 cloudcommunity@tencent.com 删除

大数据