《亲爱的数据》
搜索技术出现了一次历史性的飞跃,2018年,谷歌研发团队绞尽脑汁,用BERT改进搜索引擎。
以Google BERT为代表的预训练语言模型刷新了多项NLP任务的最佳水平,创建NLP(自然语言处理)研究的新范式:先用大量无监督语料,进行语言模型预训练(Pre-training),再用少量标注语料进行微调(Fine-tuning)来完成下游的NLP任务(可分为文本分类、序列标注,句间关系判断和机器阅读理解等)。
有了技术思路,工程实现的难度还要攻克,因BERT的深层网络结构和超级庞大的参数量,互联网企业要部署上线的话,实时性的挑战随之而来。
《亲爱的数据》
目前,互联网企业的搜索场景搜索需求丰富,一般地,头部流量相关性问题基本很好地解决,长尾流量的相关性优化则要依赖更多的高质量数据。
有两个方法:
一,可以利用知识图谱信息,将一些结构化先验知识融入到BERT预训练中,对长尾信息进行增强,可以更好进行语义建模。
二,语义相关性是影响搜索体验的重要因素之一,将BERT相关性和排序模型进行端到端联合训练,因为BERT相关性模型和排序模型是两阶段训练方式,可以将BERT语义相关性作为特征加入排序模型来提升点击率,可以将相关性和点击率目标进行多目标联合优化,进而提升搜索排序的综合体验。
《亲爱的数据》
人工智能克服语言理解仍然是一个持续的挑战,科学家和工程师正在一路狂奔。
(完)
《亲爱的数据》
《亲爱的数据》
领取专属 10元无门槛券
私享最新 技术干货