前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >海量短文本场景下的去重算法

海量短文本场景下的去重算法

作者头像
腾讯云大数据
修改于 2018-10-30 08:14:13
修改于 2018-10-30 08:14:13
19.2K0
举报
文章被收录于专栏:腾讯云大数据腾讯云大数据

最朴素的做法

在大多数情况下,大量的重复文本一般不会是什么好事情,比如互相抄袭的新闻,群发的垃圾短信,铺天盖地的广告文案等,这些都会造成网络内容的同质化并加重数据库的存储负担,更糟糕的是降低了文本内容的质量。因此需要一种准确而高效率的文本去重算法。而最朴素的做法就是将所有文本进行两两比较,简单易理解,最符合人类的直觉,对于少量文本来说,实现起来也很方便,但是对于海量文本来说,这明显是行不通的,因为它的时间复杂度是,针对亿级别的文本去重时,时间消耗可能就要以年为单位,此路不通。

另外,我们讲到去重,实际上暗含了两个方面的内容,第一是用什么方式去比较更为高效,第二是比较的时候去重标准是什么。这里的去重标准在文本领域来说,就是如何度量两个文本的相似性,通常包含编辑距离,Jaccard距离,cosine距离,欧氏距离,语义距离等等,在不同领域和场景下选用不同的相似性度量方法,这里不是本文的重点,所以按下不表,下面着重解决如何进行高效率比较的问题。

核心思想

降低时间复杂度的关键: > 尽力将潜在的相似文本聚合到一块,从而大大缩小需要比较的范围

simHash算法

海量文本去重算法里面,最为知名的就是simHash算法,是谷歌提出来的一套算法,并被应用到实际的网页去重中。 simHash算法的最大特点是:将文本映射为一个01串,并且相似文本之间得到的01串也是相似的,只在少数几个位置上的0和1不一样。为了表征原始文本的相似度,可以计算两个01串之间在多少个位置上不同,这便是汉明距离,用来表征simHash算法下两个文本之间的相似度,通常来说,越相似的文本,对应simHash映射得到的01串之间的汉明距离越小。

为了让这个过程更为清晰,这里举个简单的例子。

t1 = "妈妈喊你来吃饭" t2 = "妈妈叫你来吃饭"

可以看到,上面这两个字符串虽然只有一个字不同,但是通过简单的Hash算法得到的hash值可能就完全不一样了,因而无法利用得到的hash值来表征原始文本的相似性。然而通过simHash算法的映射后,得到的simHash值便是如下这样:

SH1 = "1000010010101101[1]1111110000010101101000[0]00111110000100101[1]001011" SH2 = "1000010010101101[0]1111110000010101101000[1]00111110000100101[0]001011"

仔细观察,上面的两个simHash值只有三个地方不一样(不一样的地方用"[]"标出),因此原始文本之间的汉明距离便是3。通常来说,用于相似文本检测中的汉明距离判断标准就是3,也就是说,当两个文本对应的simHash之间的汉明距离小于或等于3,则认为这两个文本为相似,如果是要去重的话,就只能留下其中一个。

simHash算法的去重过程思路很简单,首先有一个关键点: > 假如相似文本判断标准为汉明距离3,在一个待去重语料集中存在两个相似文本,那也就是说这两个相似文本之间的汉明距离最大值为3(对应hash值最多有3个地方不同),如果simHash为64位,可以将这个64位的hash值从高位到低位,划分成四个连续的16位,那么这3个不同的位置最多只能填满4个中的任意3个区间(可以反过来想,如果这4个区间都填满了,那就变成汉明距离为4了)。也就是说两个相似文本必定在其中的一个连续16位上完全一致。

想明白了这个关键点之后,就可以对整个待去重文本都进行一次simHash映射(本文中使用64位举例),接着将这些01串从高位到低位均分成四段,按照上面的讨论,两个相似的文本一定会有其中一段一样,仍用上面的例子,分成的四段如下所示:

t1 = "妈妈喊你来吃饭" SH1 = "1000010010101101[1]1111110000010101101000[0]00111110000100101[1]001011" SH1_1 = "1000010010101101" #第一段 SH1_2 = "[1]111111000001010" #第二段 SH1_3 = "1101000[0]00111110" #第三段 SH1_4 = "000100101[1]001011" #第四段 t2 = "妈妈叫你来吃饭" SH2 = "1000010010101101[0]1111110000010101101000[1]00111110000100101[0]001011" SH2_1 = "1000010010101101" #第一段 SH2_2 = "[0]111111000001010" #第二段 SH2_3 = "1101000[1]00111110" #第三段 SH2_4 = "000100101[0]001011" #第四段

这一步做完之后,接下来就是索引的建立。按照上面的讨论,每一个simHash都从高位到低位均分成4段,每一段都是16位。在建立倒排索引的过程中,这些截取出来的16位01串的片段,分别作为索引的key值,并将对应位置上具有这个片段的所有文本添加到这个索引的value域中。 直观上理解,首先有四个大桶,分别是1,2,3,4号(对应的是64位hash值中的第一、二、三、四段),在每一个大桶中,又分别有个小桶,这些小桶的编号从0000000000000000到1111111111111111.在建立索引时,每一个文本得到对应的simHash值后,分别去考察每一段(确定是1,2,3和4中的哪个大桶),再根据该段中的16位hash值,将文本放置到对应大桶中对应编号的小桶中。 索引建立好后,由于相似文本一定会存在于某一个16位hash值的桶中,因此针对这些分段的所有桶进行去重(可以并行做),便可以将文本集合中的所有相似文本去掉。

整个利用simHash进行去重的过程如下图所示:

总结一下,整个simHash去重的步骤主要是三个: 1. 针对每一个待去重文本进行simHash映射; 2. 将simHash值分段建立倒排索引; 3. 在每一个分段的hash值中并行化去重操作。

利用simHash进行去重有两个点非常关键: - simHash映射后仍然保持了原始文本的相似性; - 分而治之的思想大大降低了不必要的比较次数。

因此,有了这两点做保证,对于长文本下的simHash算法以及使用汉明距离来度量文本之间的相似性,可以极大降低算法的时间复杂度,并且也能取得很好的去重效果。但是在短文本场景下,这种度量方法的效果将会变得很差,通常情况下,用来度量长文本相似的汉明距离阈值为3,但是短文本中,相似文本之间的汉明距离通常是大于3的,并且该算法中,基于汉明距离的相似性阈值选取的越高,该算法的时间复杂度也会越高,此时汉明距离无法继续作为短文本相似性的度量标准应用到短文本去重中。

基于文本局部信息的去重算法

基于文本局部信息的去重过程,其基本思想和simHash类似,只不过不是利用hash值,而是直接利用文本的一个子串作为key,然后凡是拥有这个子串的文本都会被放入到这个子串对应的桶中。 这里隐含了一个前提: > 任意两个可判定的相似文本,必定在一个或多个子串上是完全一致的。

此外,子串的产生,可以通过类似于n-grams(如果是词和字层面的,对应shingles)的方法,直接从原始文本上滑动窗口截取,也可以去掉停用词后在剩下的有序词组合中截取,还可以对原始文本进行摘要生成后再截取,总之只要是基于原始文本或可接受范围内的有损文本,都可以利用类似的思想来产生这些作为索引的子串。

整个去重算法分为五个大的框架,分别包括:文本预处理,倒排索引的建立,并行化分治,去重算法的实现,文本归并等。

文本预处理

文本预处理根据所选用的具体子串截取方法的不同,而有所不同。如果子串是由词组合形成的,则需要对文本进行分词,如果需要去掉停用词,那么这也是文本预处理的工作。为了简化过程的分析,这里主要以原始文本直接截取子串为例,因此预处理的工作相对偏少一些。

倒排索引的建立

假定潜在的两个相似文本(要求去重后其中一个被去掉)分别是t1和t2,二者之间完全一致的最大连续子文本串有k个,它们组成一个集合,将其定义为S = {s1,s2,...,sk},这些子文本串的长度也对应一个集合L = {l1,l2,...,lk},针对该特定的两个文本进行去重时,所选择的截取子文本串长度不能超过某一个阈值,因为如果截取长度超过了该阈值,这两个文本便不再会拥有同一个子文本串的索引,因而算法自始至终都不会去比较这两个文本,从而无法达到去重的目的。这个阈值便被定义为这两个文本上的最大可去重长度,有:

在所有的全局文本上去重的话,相应的也有一个全局去重长度m,它表征了如果要将这部分全局文本中的相似文本进行去重的话,针对每一个文本需要选取一个合适的截取长度。一般来说,全局去重长度的选择跟去重率和算法的时间复杂度相关,实际选择的时候,都是去重率和时间复杂度的折中考虑。全局去重长度选择的越小,文本的去重效果越好(去重率会增大),但相应的时间复杂度也越高。全局去重长度选择越大,相似文本去重的效果变差(部分相似文本不会得到比较),但时间复杂度会降低。这里的原因是:如果全局去重长度选择的过高,就会大于很多相似文本的最大可去重长度,因而这些相似文本便不再会判定为相似文本,去重率因而会下降,但也正是因为比较次数减少,时间复杂度会降低。相反,随着全局去重长度的减小,更多的相似文本会划分到同一个索引下,经过相似度计算之后,相应的相似文本也会被去除掉,因而全局的去重率会上升,但是由于比较次数增多,时间复杂度会增大。

假定有一个从真实文本中抽样出来的相似文本集C,可以根据这个样例集来决定全局去重长度m,实际情况表明,通常来说当m>=4(一般对应两个中文词的长度),算法并行计算的时候,时间复杂度已经降低到可以接受的范围,因此可以得到:

假定某个待去重的文本t,其长度为n。定义S为截取的m-gram子串的集合,根据m和n的大小关系,有下列两种情况: (1)当n>=m时,可以按照m的大小截取出一些m-gram子串的集合,该集合的大小为n-m+1,用符号表示为S = {s1,s2,...,sn-m+1}; (2)当n<m时,无法截取长度为m的子串,因此将整个文本作为一个整体加入到子串集合当中,因此有S={t}. 每一个待去重文本的m-gram子串集合生成之后,针对每个文本t,遍历对应集合中的元素,将该集合中的每一个子串作为key,原始文本t作为对应value组合成一个key-value对。所有文本的m-gram子串集合遍历结束后,便可以得到每一个文本与其n-m+1个m-gram子串的倒排索引。 接下来,按照索引key值的不同,可以将同一个索引key值下的所有文本进行聚合,以便进行去重逻辑的实现。

算法的并行框架

这里的并行框架主要依托于Spark来实现,原始的文本集合以HDFS的形式存储在集群的各个节点上,将这些文本按照上面所讲的方法将每一个文本划分到对应的索引下之后,以每一个索引作为key进行hash,并根据hash值将所有待去重文本分配到相应的机器节点(下图中的Server),分布式集群中的每一个工作节点只需负责本机器下的去重工作。基于Spark的分布式框架如下,每一个Server便是一个工作节点,Driver负责分发和调配,将以HDFS存储形式的文本集合分发到这些节点上,相当于将潜在的可能重复文本进行一次粗粒度的各自聚合,不重复的文本已经被完全分割开,因而每个Server只需要负责该节点上的去重工作即可,最终每个Server中留下的便是初次去重之后的文本。

去重的实现

并行化框架建立后,可以针对划分到每一个索引下的文本进行两两比较(如上一个图所示,每一个Server有可能处理多个索引对应的文本),从而做到文本去重。根据1中的分析,任意两个可判定的相似文本t1和t2,必定在一个或多个子文本串上是完全一致的。根据3.1.1中的设定,这些完全一致的最大连续子串组成了一个集合S = {s1,s2,...,sk},针对t1和t2划分m-gram子串的过程中,假定可以分别得到m-gram子串的集合为S1和S2,不妨假设S中有一个子串为si,它的长度|si|大于全局去重长度m,那么一定可以将该子串si划分为|si|-m+1个m-gram子串,并且这些子串一定会既存在于S1中,也会存在于S2中。更进一步,t1和t2都会同时出现在以这|si|-m+1个m-gram子串为key的倒排索引中。

去重的时候,针对每一个索引下的所有文本,可以计算两两之间的相似性。具体的做法是,动态维护一个结果集,初始状态下随机从该索引下的文本中选取一条作为种子文本,随后遍历该索引下的待去重文本,尝试将遍历到的每一条文本加入结果集中,在添加的过程中,计算该遍历到的文本与结果集中的每一条文本是否可以判定为相似(利用相似性度量的阈值),如果与结果集中某条文本达到了相似的条件,则退出结果集的遍历,如果结果集中完全遍历仍未触发相似条件,则表明此次待去重的文本和已知结果集中没有任何重复,因此将该文本添加到结果集中,并开始待去重文本的下一次遍历。 去重的时候,两个文本之间的相似性度量非常关键,直接影响到去重的效果。可以使用的方法包括编辑距离、Jaccard相似度等等。在实际使用时,Jaccard相似度的计算一般要求将待比较的文本进行分词,假定两个待比较的文本分词后的集合分别为A和B,那么按照Jaccard相似度的定义可以得到这两个文本的相似度  显然,两个完全不一致的文本其Jaccard相似度为0,相反两个完全一样的文本其Jaccard相似度为1,因此Jaccard相似度是一个介于0和1之间的数,去重的时候,可以根据实际需要决定一个合适的阈值,大于该阈值的都将被判定为相似文本从而被去掉。

整个的去重实现伪代码如下:

初始状态: 文本集合T = {t_1,t_2,...,t_n} 去重结果R = {} 相似度阈值sim_th 输出结果: 去重结果R 算法过程: for i in T:    flag = true    for j in R:        if( similarity(i,j) < sim_th )            flag = false            break -> next i        else            continue -> next j    if( flag )        R.append(i) #表示i文本和当前结果集中的任意文本都不重复,则将i添加到结果集中

文本归并去重

这一个步骤的主要目的是将分处在各个不同机器节点上的文本按照预先编排好的id,重新进行一次普通的hash去重,因为根据上一步的过程中,可能在不同子串对应的桶中会留下同一个文本,这一步经过hash去重后,便将这些重复的id去除掉。 最终得到的结果便是,在整个文本集上,所有的重复文本都只保留了一条,完成了去重的目的。整个的去重流程如下图所示:

和simHash进行比较

这里提出来的去重算法与simHash比较,分别从时间复杂度和去重准确度上来说,

首先,时间复杂度大大降低 - 分桶的个数根据文本量的大小动态变化,大约为文本数的2倍,平均单个桶内不到一条文本,桶内的计算复杂度大大降低;而simHash算法中,桶的个数是固定的4*216=26万个 - 一般来说,只有相似文本才有相似的词组合,所以某个特定的词组合下相似文本占大多数,单个桶内的去重时间复杂度倾向于O(N);相应的,simHash单个桶内依然有很多不相似文本,去重时间复杂度倾向于O(N^2)

其次,相似性的度量更为精准: - 可以使用更为精准的相似性度量工具,但是simHash的汉明距离在短文本里面行不通,召回太低,很多相似文本并不满足汉明距离小于3的条件

总结

这里提出的基于文本局部信息的去重算法,是在短文本场景下simHash等去重算法无法满足去重目的而提出的,实际上,同样也可以应用于长文本下的去重要求,理论上,时间复杂度可以比simHash低很多,效果能够和simHash差不多,唯一的缺点是存储空间会大一些,因为算法要求存储很多个文本的副本,但在存储这些文本的副本时候,可以使用全局唯一的id来代替,所以存储压力并不会提升很多,相比时间复杂度的大大降低,这点空间存储压力是完全可以承担的。


本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-10-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 腾讯QQ大数据 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
图扑软件与华为云共同构建新型智慧工厂
图扑软件与华为云合作,构建数字化、智能化、智慧化的工业生产环境,助力芯片企业向更高科技化的方向发展。
数字孪生
2022/08/04
9410
图扑软件与华为云共同构建新型智慧工厂
图扑 HT for Web 手机端运维管理系统
随着信息技术的快速发展,网络技术的应用涉及到人们生活的方方面面。其中,手机运维管理系统可提供数字化、智能化的方式,帮助企业和组织管理监控企业的 IT 环境,提高运维效率、降低维护成本、增强安全性、提升服务质量,并支持企业实现数字化转型,满足客户需求和市场竞争力至关重要。
HT for Web
2023/11/02
5180
图扑 HT for Web 手机端运维管理系统
图扑 Web SCADA 零代码组态水泥生产工艺流程 HMI
水泥是建筑工业三大基本材料之一,素有“建筑工业的粮食”之称。2022 年 1-9 月水泥产量为 15.63 亿吨,生产方法包括新型干法、立窑、湿窑、干法中空窑和立波尔窑等。
数字孪生
2022/11/21
1.2K0
图扑 Web SCADA 零代码组态水泥生产工艺流程 HMI
图扑软件 3D 组态编辑器,低代码零代码构建数字孪生工厂
随着中国制造 2025 计划的提出,新一轮的工业改革拉开序幕。大数据积累的指数级增长为智能商业爆发奠定了良好的基础,传统制造业高污染、高能耗、低效率的生产模式已不符合现代工业要求。
数字孪生
2022/11/08
1.4K0
图扑软件 3D 组态编辑器,低代码零代码构建数字孪生工厂
图扑软件荣获第七届“创客中国”中小企业创新创业大赛优胜奖!
2022 年 11 月 17 日,由工业和信息化部、财政部共同主办的第七届“创客中国”中小企业创新创业大赛全国总决赛在浙江杭州落下帷幕。
HT小吴
2022/11/28
2380
图扑软件荣获第七届“创客中国”中小企业创新创业大赛优胜奖!
图扑软件智慧云展厅,开启数字化展馆新模式
随着疫情的影响以及新兴技术的不断发展,展会的发展形式也逐渐从线下转向线上。通过“云”上启动、云端互动、双线共频的形式开展。通过应用大数据、人工智能、沉浸式交互等多重技术手段,构建数据共享、信息互通、精准匹配的高精度“云展厅”,突破时空壁垒限制。
HT for Web
2022/11/14
1.5K0
图扑软件智慧云展厅,开启数字化展馆新模式
值得推荐的7个vue3 UI组件库
前端 UI 组件库是前端开发者必备的工具之一,它们可以帮助开发者快速构建用户界面,提高开发效率。本文推荐几款热门的vue3 UI组件库,排名不分前后。
M.Talen
2024/05/22
9.8K0
值得推荐的7个vue3 UI组件库
图扑软件 | 虚拟电厂负荷控制系统可视化
随着国家“双碳”及“构建以新能源为主体的新型电力系统”等目标的提出,清洁化、数字化越来越成为电力系统面临的迫切需求,负控系统的发展对电力营销现代化建设具有重要的意义。
HT for Web
2023/03/07
6960
图扑软件 | 虚拟电厂负荷控制系统可视化
传统与现代可视化 PK:再生水厂二维工艺组态系统
随着可视化技术的进步与发展,传统再生水厂组态系统所展示的组态页面已逐渐无法满足当前现阶段多样化的展示手段。使得系统对污泥处理处置及生产运行成本方面的监控、分析方面较为薄弱,急需对信息化应用成果和各项信息资源进行多元化的展示并支持多元化终端的便捷访问。
HT for Web
2022/06/19
4580
传统与现代可视化 PK:再生水厂二维工艺组态系统
九八投洽会,图扑为你再现工业元宇宙
9 月 8 日至 11 日,以“全球发展:共享数字机遇 投资绿色未来”为主题的第二十二届投洽会将在厦门国际会展中心举行。2022国际投资论坛是投洽会最具代表性的品牌活动,分论坛围绕数字经济和绿色化工分享发展机遇展开。在投洽会的项目对接中心,围绕数字经济、工业互联网、人工智能、生物医药和元宇宙等十几个产业赛道,配套举办相关项目路演和专场对接。图扑软件在 B4 号馆 B4082 展位带你开启元宇宙之旅。
数字孪生
2022/09/14
1.2K0
九八投洽会,图扑为你再现工业元宇宙
图扑虚拟现实解决方案,实现 VR 数智机房
如今,虚拟现实技术作为连接虚拟世界和现实世界的桥梁,正加速各领域应用形成新场景、新模式、新业态。
数字孪生
2022/12/09
7000
图扑虚拟现实解决方案,实现 VR 数智机房
汽车制造工艺 2.5D 可视化组态监控 | 图扑软件
随着世界经济的不断发展,汽车作为一个如今随处可见的物体,从大体上概括是由四大部分组成:发动机、底盘、车身、电气系统。看似简单的几个名词组件,其内部却是由无数的细小零件构成,一辆汽车更是由上万个微小零件构成的一种机电产品。在汽车的设计、生产中,无论从汽车的外表到内饰,还是从风格到品质都蕴含着丰富的文化内涵。对汽车进行合理的设计和制造,会加速促进人类史上最有价值之一发明的进步,那么对于每一个步骤的把控,则成为了汽车完成和进步的关键要素!
HT for Web
2023/03/31
8330
汽车制造工艺 2.5D 可视化组态监控 | 图扑软件
还在为大屏分辨率困扰?图扑提供响应式(自适应)可视化大屏
数据可视化在当下信息时代已经成为炙手可热的话题,而 B/S 化趋势,也使得许多大屏应用上在网页端出现,今天给大家分享一套不一样风格的大屏页面,与传统深蓝色不同,这次采用了暗红色设计,搭配粉色及黄色,加入了一些工业元素,让页面有别具一格的效果。而 Hightopo 独特的自适应机制,也解决了大屏需要针对分辨率设计的困扰,达到了可以一页用多屏的效果。
HT for Web
2020/07/10
9340
还在为大屏分辨率困扰?图扑提供响应式(自适应)可视化大屏
10.5亿人次观看珠海航展!图扑助力展商数字孪生演示,太震撼!
第十四届中国国际航空航天博览会约21.5万人进入航展现场参观,超10.5亿人次通过各种媒介观看航展直播,相关航展话题阅读量超过110亿次。航展期间签订合作协议意向总额接近400亿美元的,成交飞机总数为549架。
数字孪生
2022/11/22
4520
10.5亿人次观看珠海航展!图扑助力展商数字孪生演示,太震撼!
图扑 Web SCADA 智慧制硅厂,打造新时代制硅工业
我国目前是全球最大的工业硅生产国、消费国和贸易国,且未来该产业的主要增量也将来源于我国。绿色低碳发展已成为全球大趋势和国际社会的共识,随着我国“双碳”目标的推进,光伏产业链快速发展,在光伏装机需求的带动下,预计 2021—2025 年中国多晶硅产业对工业硅需求增长率将超过 30%,对工业硅的需求增长将起主导作用。
HT for Web
2023/03/07
4330
图扑 Web SCADA 智慧制硅厂,打造新时代制硅工业
图扑软件携数字孪生产品与解决方案亮相高交会
“科技改革驱动创新,科技创新驱动发展”。第二十四届中国国际高新技术成果交易会(以下简称:高交会)如期而至。
数字孪生
2022/11/23
3350
图扑软件携数字孪生产品与解决方案亮相高交会
图扑数字孪生青岛城轨,赋能智慧交通低碳发展
始于出行,融于生活。“双碳”战略目标的提出,为智慧城市建设创造了新的机遇,智慧交通作为城市引导承载低碳出行的骨干交通方式,已成为当今时代各地区作为推进城市高质量发展的重要目标。
数字孪生
2022/07/27
1.3K0
图扑数字孪生青岛城轨,赋能智慧交通低碳发展
图扑数字孪生数据中心机房,助力产业绿色低碳转型
随着“东数西算”工程和新基建的加速落地,数智化技术正逐渐渗透到各领域。但随着数据中心建设规模的逐步扩大,必然带来能耗的大幅增长和机房设备数量的不断扩充,传统机房的监控和管理模式已无法满足数据中心“集中监控、统一管理”的需求。
数字孪生
2022/10/11
1.5K0
图扑数字孪生数据中心机房,助力产业绿色低碳转型
图扑软件亮相 2022 福建福州数博会,构建数字时代
因数字而变,因数字而兴。数字中国建设正乘着数字化变革的东风,昂首阔步迈上新征程。在全球经济复苏乏力的背景下,数字经济伴随信息革命浪潮快速发展、逆势上扬。
数字孪生
2022/07/29
1.8K0
元宇宙与图扑国风的碰撞,科技与文化的虚实融合
当今时代,各领域互融互通,各种表现形式交叉融合,要主动适应新的发展趋势,推动中华优秀传统文化与新媒体、新技术的融合传播,让新时代的文艺与科技创新呈现更具深度、更有潜力的新境界。
数字孪生
2022/07/26
4770
元宇宙与图扑国风的碰撞,科技与文化的虚实融合
推荐阅读
相关推荐
图扑软件与华为云共同构建新型智慧工厂
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档