我正在寻找一个在原始数据(非ASCII)中发现重复模式的算法。
可配置的最短和最大图案大小。要搜索的数据的大小将是数万字节。
例如,给定以下数据:
AB CD 01 AB CD 02 EF 03 02 EF 04 02 EF
将输出遇到重复模式的次数。在这种情况下:
ABCD x2
02EF x3
我看过几种算法,例如后缀树,但通常看起来都是基于字符串的。
这将使用Python编写,但我更感兴趣的是其中涉及的概念,而不是实际的实现。
非常感谢你的帮助。
我想知道压缩算法是如何写笔记的。假设"4x4x“意味着4倍"4x”。
如果算法标记重复字符如下:
23*(“文本”)和重复的文本是34*(“某物”)
程序如何知道这不是重复文本的标签,而是实际文本。我不知道如何更好地解释这件事。
压缩这串之后:
"Compression programs label how many times string is repeated like this: 4x("text"), this is repeated repeated repeated ."
你会得到:
"Compression program