搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏码匠的流水账
聊聊G1 GC的String Deduplication
序本文主要研究一下G1 GC的String Deduplication the-performance-engineers-guide-to-java-hotspot-virtual-machine -76-638.jpg -XX:+UseStringDeduplication jdk8u20给G1 GC带来了String Deduplication特性来将相同的字符串指向同一份数据，来减少重复字符串的内存开销确实能够节省一定的内存，可以节约20%左右的内存，不过这个是理想的情况，因为普通应用里头的string重复的可能不多 doc Java 8 String deduplication vs. String.intern() JEP 192: String Deduplication in G1 String Deduplication – A new feature in Java 8 Update String deduplication feature (from Java 8 update 20) G1 GC: Reducing Memory Consumption by 20%
1.9K10发布于 2019-04-09
来自专栏Lansonli技术博客
2021年大数据Spark（五十三）：Structured Streaming Deduplication
---- Streaming Deduplication 介绍在实时流式应用中，最典型的应用场景：网站UV统计。 1:实时统计网站UV，比如每日网站UV； 2:统计最近一段时间（比如一个小时）网站UV，可以设置水位Watermark； Structured Streaming可以使用deduplication对有无
87060发布于 2021-10-11
来自专栏数据库架构之美
PostgreSQL13新特性解读-Btree索引去重Deduplication
在这里面最闪亮的特性非deduplication莫属。 Deduplication从字面意思也很好理解：“重复数据删除”，总的来说这个功能使得PG数据库有了新的方式去处理重复的索引键值，这大大减小了btree索引所占用的空间，提升了索引扫描的性能，deduplication Deduplication 了解了索引结构，再来看看deduplication的原理。Deduplication的工作原理是定期将多组重复元组合并在一起，为每个组形成一个“posting list”。 Deduplication对于CREATE INDEX和REINDEX来说也是有益的。对于唯一索引，deduplication有特殊的处理，它通常可以直接跳到拆分叶页，从而避免在无用的deduplication过程中导致的性能损失。
1.9K30发布于 2020-11-09
来自专栏大数据羊说
Flink SQL 知其所以然（二十九）：Deduplication去重 & 获取最新状态操作
DML：Deduplication 大家好，我是老羊，今天我们来学习 Flink SQL 中的 Deduplication 去重以及如何通过 Deduplication 操作获取最新的状态。 ⭐ Deduplication 定义（支持 Batch\Streaming）：Deduplication 其实就是去重，也即上文介绍到的 TopN 中 row_number = 1 的场景，但是这里有一点不一样在于其排序字段一定是时间属性列在 row_number = 1 时，如果排序字段是普通列 planner 会翻译成 TopN 算子，如果是时间属性列 planner 会翻译成 Deduplication，这两者最终的执行算子是不一样的，Deduplication 相比 TopN 算子专门做了对应的优化，性能会有很大提升。 ⭐ 应用场景：比如上游数据发重了，或者计算 DAU 明细数据等场景，都可以使用 Deduplication 语法去做去重。
1.6K20编辑于 2022-12-16
来自专栏ClickHouse的秘密基地
让MergeTree也具备ReplicatedMergeTree的数据去重能力
使用的方法很简单，在创建 MergeTree 的时候，增加一项 non_replicated_deduplication_window 参数即可: CREATE TABLE deduplication_test =3; non_replicated_deduplication_window 表示，保存最后多少个 block 的 hash，默认是 0 (不开启)。现在写入数据: INSERT INTO deduplication_test (id, value) VALUES (1, '1'); 再写入一次重复的数据: INSERT INTO deduplication_test 如果我们写入不同的数据，则写入成功: INSERT INTO deduplication_test (id, value) VALUES (1, '2'),(1, '3'); SELECT id, value,part FROM deduplication_test; ┌─id─┬─value─┬─part─┐ │ 1 │ 1 │ 111 │ │ 1 │ 2 │ 111 │
3.8K31发布于 2021-08-25
来自专栏大数据羊说
flink sql 知其所以然（十一）：去重不仅仅有 count distinct 还有强大的 deduplication
解决方案基于 Deduplication 的解决方案及原理解析：博主期望你了解到，deduplication 中，当 row_number order by proctime（处理时间）去重的原理就是给每一个 4.2.proctime 下 flink 生成的算子图及 sql 算子语义算子图如下所示： deduplication source 算子：source 通过 keyby 的方式向 deduplication 算子发数据时，其中 keyby 的 key 就是 sql 中的 id deduplication 算子：deduplication 算子为每一个 partition key 都维护了一个 value 原理解析具体的去重算子为 deduplication。，还能保留原始字段数据来一个实战案例：博主以一个日志上报重复的场景，来引出下文要介绍的 flink sql deduplication 解决方案基于 Deduplication 的解决方案及原理解析
1.4K20编辑于 2022-04-04
来自专栏腾讯云中间件的专栏
Message deduplication 这里的去重与你想的可能不一样|Apache Pulsar 技术系列
本文是Pulsar技术系列中的一篇，主要介绍Pulsar 的 Message Deduplication 特性，供大家参考，避免在使用过程中踩坑。下面，我们着重介绍一下Pulsar的Message deduplication（相当于对exactly-once的一种实现）功能，可能与你想的并不一样。 Pulsar Message Deduplication 功能配置 Pulsar提供的Message deduplication 功能，默认是关闭的。 #deduplication功能下，生产者的数量限制brokerDeduplicationMaxNumberOfProducers#broker端生成deduplication 快照信息的间隔brokerDeduplicationEntriesInterval 当Broker开启Message Deduplication 功能后，Broker对对每个收到的消息请求进行是否重复的判断。
1.2K10编辑于 2022-01-20
来自专栏大魏分享（微信公众号：david-share）
内存虚拟化技术介绍之---内存去重
CPU 时钟周期 deduplication table 大小 deduplication table 的大小由如下公式决定： deduplication table size = AMS max pool size *deduplication table ratio 通过调整 deduplication table ratio，可以达到调整 deduplication table 的大小的目的查看 deduplication table size 的大小 ? deduplication table size =92160MB*1/1024=90 因此，本实验中，deduplication table 的大小为 90MB。 deduplication table ratio 来实现。
2.7K80发布于 2018-03-22
来自专栏python3
Python文本去重
() f.close() for i in range(0,len(text)-1): text[i] = text[i][:-1] return text #deduplication text_dealed[i] +'\n' f = open("output.txt","w") f.writelines(text_dealed) f.close() deduplication_num preprocessed file: :" + str(len(text_dealed)) print "The num of data removed :" + str(deduplication_num
3K10发布于 2020-01-06
来自专栏AustinDatabases
MYSQL IN EXISTS LEFT JOIN 结果不同的问题？
(film_id=fi.film_id) (actual time=0.001..0.001 rows=1 loops=1) -> Materialize with deduplication film_id=200) (cost=0.80 rows=5) (actual time=0.007..0.009 rows=3 loops=1) 这里执行计划出现了 Materialize with deduplication 这里Materialize with deduplication 的意思是，当第一次MYSQL需要这个子查询的结果的情况下，会将临时结果产生为一个临时表，当再次需要这个结果的时候会再次调用。，而是通过索引连接的方式将子查询进行了处理，原因是因为两个表的主键都包含了 film_id 并且子查询中的条件也是主键包含，所以语句优化的过程中并没有出现 materialize with deduplication 通过这个问题，可以看出虽然有 masterialize with deduplication 但是对于子查询中的数据的过滤还是一个必选项，也可以有效的提高查询的效率。
2.6K50编辑于 2023-02-28
来自专栏编程大主教
ClickHouse MergeTree 实现只有一次语义的插入
Deduplication parameters are controlled by merge_tree server settings.[2] 每次插入 ClickHouse 的数据称为一个 Block ，会在插入时计算 hashsums 存储于 Zookeeper（默认保留 100 个、最长保留 1 周，通过 replicated_deduplication_window、replicated_deduplication_window_seconds rebalance 时，因为 partition 将会发生调整，所以所有节点需要停止消费、清理数据再恢复 https://clickhouse.com/docs/en/guides/developer/deduplication
52810编辑于 2024-05-15
来自专栏前端开发随记
JS数组、数组对象去重方法
let arr1 = [3, 5, 3, 6, 7, 'test', 'test'] function deduplication(arr) { let newArr = [] tArr[arr[i]] = true } } return newArr } } console.log(deduplication
15.6K30编辑于 2022-12-15
来自专栏FreeBuf
DataTrove：一款针对大规模文本数据的处理、过滤和消除重复数据工具
process_common_crawl_dump.py：完整的管道，可读取常见的warc文件，并提取文件内容，然后过滤并存储至S3； tokenize_c4.py：直接将数据读取至tokenize； minhash_deduplication.py ：完整管道读取并消除重复数据； sentence_deduplication.py：精确消除重复数据； exact_substrings.py：ExactSubstr的运行样例；工具使用读取数据 ${rank}.jsonl.gz", # folder structure: language/dump/file ) 消除重复数据关于消除重复数据的使用，可以参考项目提供的minhash_deduplication.py 、sentence_deduplication.py和exact_substrings.py脚本。
1.5K10编辑于 2024-05-17
来自专栏AI科技大本营的专栏
程序员硬核“年终大扫除”，清理了数据库 70GB 空间
激活 B 树索引 Deduplication PostgreSQL 13引入了一种在B树索引存储重复值的新方法，称为“B树 Deduplication”（重复数据删除）。从PostgreSQL 13开始，将 B树Deduplication后，重复值仅存储一次，这对具有许多重复值的索引的大小产生影响。在PostgreSQL 13中，索引 Deduplication 默认情况下处于启用状态： -- Activating de-deduplication for a B-Tree index, this 为了说明 B树 Deduplication 对索引大小的影响，可创建一个包含唯一列和非唯一列的表，填充1M行。在每列上创建两个B树索引，一个启用 Deduplication，另一个禁用 Deduplication： db=# CREATE test_btree_dedup (n_unique serial, n_not_unique
2.8K10发布于 2021-02-05
来自专栏Python全栈零碎笔记
Python列表去重且不改变元素顺序的代码
这里还涉及到的几个方法和函数，如下：not in：用于判断元素是否在返回列表中，以判断是否是重复的元素；append()：用于向返回列表添加元素；Python列表去重且不改变元素顺序的函数设计def deduplication returnList.append(i) return returnList# 测试该函数list1 = [1,2,2,3,5,3,6,5,8]returnList = deduplication
56320编辑于 2023-12-21
来自专栏FreeBuf
“风水逆转” | 获取云端虚拟机的完整控制权其实很容易
这种攻击就是篡改deduplication操作——deduplication在云端主机中应用得很常见，这种技术可让两个或者更多虚拟主机共享特定的数据块，起到节约内存资源的作用。发起攻击的虚拟机通过Flip Feng Shui，针对公钥的某个特定部分进行比特位翻转，也就是我们上面提到的Rowhammer攻击方式——这里实际上还利用了云环境的deduplication技术。另外，这种攻击也需要一些条件才能发起，比如说像前文提到的，要求虚拟机开启Deduplication；而且本次实验依赖于基于内核的虚拟机，以及Linux中的Kernel SamePage Merging特性至于软件层面，包括禁用内存的deduplication，开发者和工程师也应该考虑加入额外的措施，比如检查安全敏感信息完整性。 “这种攻击不需要攻击者进行什么复杂的操作，就能完全控制共用主机的云虚拟机。
1.2K110发布于 2018-02-08
来自专栏WalkingCloud
企业级备份软件Veritas NetBackup(NBU) 8.1.1服务端的安装部署
[y,n] (y) y Starting NetBackup Deduplication installer testing: /tmp/pdde_pkg_dir_2368 NetBackup Deduplication NetBackup Deduplication software is installed. NetBackup Deduplication is not yet configured. Installing NetBackup Deduplication server package (/usr/openv/pddeserver.tar.gz)... NetBackup Deduplication install finished successfully. Starting the NetBackup Deduplication Manager. Starting the NetBackup Deduplication Engine.
4.9K10编辑于 2022-07-05
来自专栏运维ABC
NBU7.5 Activity Monitor展示时长调整手册
NetBackup Deduplication Manager started. NetBackup Deduplication Engine started.
1.2K20发布于 2021-09-08
来自专栏小麦苗的DB宝专栏
PG 13新特性汇总
索引的Deduplication选项默认是开启的，如果想关闭指定索引的Deduplication，设置存储参数deduplicate_items为off即可。 Deduplication介绍 PostgreSQL 13 版本前 Btree 索引会存储表的所有索引键，从而产生很多重复的索引项，13 版本引入的 deduplication 技术，可以大幅度减少重复索引项 Deduplication的优点 Deduplication技术的引入具有以下优点: 减少存储空间: 重复的索引项被合并，能显著减少索引的存储空间。唯一索引是否受Deduplication影响？手册上提到: 即使是unique索引也可以使用Deduplication技术控制重复数据的膨胀，因为索引项的TIDs指向同一行数据的不同版本。如何关闭索引的Deduplication? 可通过存储参数deduplicate_items控制索引是否启用Deduplication，这个参数默认为开启。
2.1K10编辑于 2023-08-09
来自专栏GreatSQL出品技术文章
GreatSQL 优化技巧：将 MINUS 改写为标量子查询
.169186.99 rows=55375) (actual time=2420.123..2420.896 rows=1758 loops=1) -> Except materialize with deduplication .56552.91 rows=55375) (actual time=221.965..223.384 rows=4855 loops=1) -> Temporary table with deduplication rows=498477) (actual time=1520.965..1571.682 rows=307431 loops=1) -> Temporary table with deduplication 3172.53..3235.95 rows=4875) (actual time=168.555..168.775 rows=1758 loops=1) -> Temporary table with deduplication
33310编辑于 2024-04-11

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页

点击加载更多

聊聊G1 GC的String Deduplication

2021年大数据Spark（五十三）：Structured Streaming Deduplication

PostgreSQL13新特性解读-Btree索引去重Deduplication

Flink SQL 知其所以然（二十九）：Deduplication去重 & 获取最新状态操作

让MergeTree也具备ReplicatedMergeTree的数据去重能力

flink sql 知其所以然（十一）：去重不仅仅有 count distinct 还有强大的 deduplication

Message deduplication 这里的去重与你想的可能不一样|Apache Pulsar 技术系列

内存虚拟化技术介绍之---内存去重

Python文本去重

MYSQL IN EXISTS LEFT JOIN 结果不同的问题？

ClickHouse MergeTree 实现只有一次语义的插入

JS数组、数组对象去重方法

DataTrove：一款针对大规模文本数据的处理、过滤和消除重复数据工具

程序员硬核“年终大扫除”，清理了数据库 70GB 空间

Python列表去重且不改变元素顺序的代码

“风水逆转” | 获取云端虚拟机的完整控制权其实很容易

企业级备份软件Veritas NetBackup(NBU) 8.1.1服务端的安装部署

NBU7.5 Activity Monitor展示时长调整手册

PG 13新特性汇总

GreatSQL 优化技巧：将 MINUS 改写为标量子查询

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐