首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

【喜讯】擎盾在机器学习国际重要会议PAKDD发表的论文被收录

近日,擎盾集团联合北京大学知识计算实验室在机器学习、数据挖掘领域国际重要会议PAKDD:《Pacific-Asia Conference on Knowledge Discovery and Data Mining》发表题为“Alignment-aware Word Distance”的研究论文。

PAKDD介绍

亚太地区知识发现与数据挖掘国际会议(Pacific Asia Knowledge Discovery and Data Mining,PAKDD)是数据挖掘和知识发现领域中历史最悠久的顶尖国际会议之一,旨在为数据挖掘相关领域的研究者和从业者提供一个共享经验的国际化论坛,以分享他们在数据挖掘、数据仓库、机器学习、人工智能、数据库、统计学、知识工程、可视化、决策系统和新兴应用等所有KDD相关领域的创新想法、研究成果和实际开发经验。该会议在全球数据挖掘领域享有盛誉,一直受到业内各国科学家的高度重视和广泛认可。

本次论文的研究内容

论文提出一种新的词距离表示方法:对齐感知词距离。该模型使用两个句子间的先验词位置信息来衡量单词的差异性。在该模型中,设计了两种简单有效的机制来捕获先验词对齐信息,这一信息对解决无监督语义文本相似性(STS)任务有较大帮助。实验验证可知,该模型与性能较好的经典模型相比,表现出更好的性能。

研究优势

传统模型使用静态的词距离来解决无监督语义的文本相似性任务。该模型考虑两个句子词与词之间对应位置的信息利用,从而更全面挖掘了词的信息。

背景任务

STS(Semantic Textual Similarity),回归问题,给定一个句子对,模型预测一个[0, 5]之间的分数表示两句话的语义相似度。

数据介绍

STS基准测试包括在2012年至2017年之间根据SemEval组织的STS任务中使用的英语数据集。数据集的选择包括图像标题(image captions),新闻标题(news headlines)和用户论坛(user forums)中的文本。

举例

第一列是句子1,第二列是句子2,第三列是两个句子的相似性分数。

该论文为研究回归问题提供了一种新的方法,能够帮助解决无监督语义文本相似性。该论文在挖掘词信息过程中用到的感知距离及词与词之间的位置信息能够给其他研究者启发,让该领域研究者在论文基础上继续进行深入的研究。同时,该模型在工业界领域,如对话问答,语义搜索,推荐等方面能够有效发挥作用,更好地理解用户输入,对其输入与后台预料,提高输入文本的理解程度。

擎盾集团长期以来对前沿科技保持高度关注,中关村技术团队与北京大学也保持紧密的沟通,在众多课题上展开合作研究;云与智慧法律BU技术总监肖熊锋表示,期望更多优秀的小伙伴加入团队共同推进相关课题的探究,集团也将持续提供算法实习及全职岗位。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20230331A06TQF00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券