近日,知识分享平台知乎宣布与NLPCC(自然语言处理与中文计算会议)合作,开放自身所汇集的问题标签预测数据,并全部使用明文提供,供业界研究和讨论。
据悉,此次开放的问题标签预测数据来源于2017年8月知乎与 IEEE 联合举办的首届“知乎 · 看山杯机器学习挑战赛”,该比赛共吸引近千支来自全球各个院校以及工业界的算法挑战队伍参与。此次公布的数据内容包含问题的Title、描述、话题的名字等,此外,知乎对其中的一些错误标签进行了人工纠正,并对数据进行了严格的脱敏及审查,确保数据内容仅包含提问内容及内容标签,不涉及用户的知乎帐号等信息,用户的个人隐私和信息安全将享有高优先级的保护。
知乎方面表示:欢迎学术界和工业界同仁下载并参与讨论。也希望通过比赛和开放数据,为自然语言理解(NLU)领域在国内的发展提供助力。相比国外的ImageNet、Gigaword等高质量数据集,中文互联网相关的高质量数据集相对缺乏。而作为中文互联网最大的知识分享平台,知乎累积了较多高质量文本语料及数据。目前,知乎机器学习团队已经搭建了一套基础生态体系,通过算法实现了用户画像、内容分析、内容个性化推送等,其效率比过去的人工运营方式提高了数十倍。
未来,知乎还希望通过机器学习和算法满足用户的阅读兴趣,进一步满足关乎用户自我提升的优质信息获取需求。作为一个拥有超过 3400 万日活用户,每天有数以十万计的高质量的 UGC 内容产生的网站。机器学习技术可以帮知乎做到的不只是“分发”内容,还能更深入地“理解”内容,从而帮助用户更好地获取有价值信息。
而作为此次的合作的另一方,NLPCC在业内也可谓“鼎鼎大名”。NLPCC全称为CCF国际自然语言处理与中文计算会议,由中国计算机学会(CCF)主办,CCF中文信息技术专业委员会(CCF TCCI)及高校(每年通过投票选举)承办。会议内容主要围绕自然语言处理(NLP)和中文计算(CC)两方面来进行。目前,NLPCC已成为国内自然语言处理领域的年度盛会,同时也在逐渐走向国际化道路。
领取专属 10元无门槛券
私享最新 技术干货