更多精彩 第一时间直达
✎摘要
有人说来自语言的数据是“非结构化数据”,事实证明这是一个错误的说法。如果没有特定的语言结构,人们可能无法用语音或者书面语言进行正确交流。语法是语言的结构,它有助于定义语言的含义。
大家学习任何一门语言,都要学习该门语言的语法结构。要想推动计算机的快速发展,就要摆脱传统处理计算机的思维,推陈出新,理解自然语言的结构。
从平面文件数据库结构到关系型数据库(RDBMS),这之中经历了数十年的结构化数据发展历程,对于习惯于这种结构的人来说,语言似乎是高度非结构化的,这直接导致使用错误的术语。
近几年,文本和语音技术的快速增长让传统数据库领域的人对于该问题更加混淆不清。所以,现在是时候停止引用非结构化数据了。
相比之下,人工智能(AI)一直在模仿人类沟通和行动。从人工智能出现以来,研发人员一直对人类的交流方式很感兴趣,也就衍生了自然语言处理(NLP)和自然语言生成(NLG)这两个重叠学科。
语法和语义
由于早期计算技术的局限性, AI在语言上的大部分原创工作都是通过专家系统完成的,通过定义好的系统执行规则来理解语言。
但是这些规则几乎只关注语法,虽然也帮助解决了很多问题,但语言是流动的,语义也并不是完全取决于语法,有时语法比预期的更难检测。
不断的增加规则减慢了系统的速度,并且也没有达到对话所需的高度精准。
就十年前的技术水平而言,书面语言被认为是语言的重点,大家都将精力投放在创建语法的正确输出上,而忽视了NLP的复杂性。
这就是为什么专家系统(Expert System)在图灵测试中屡次失败,因为测试者一般都是通过扭曲的语言逻辑去获取机器的基本反映,这就很容易判断对方是人还是机器。
ANN推进自然语言发展
云计算的发展加速了自然语言的进步,计算机和处理器集群可以帮助完成更复杂的语义分析,人工神经网络(ANN)也因此成为机器学习的前沿技术。
ANN不必明确定义所有的语法规则将它们连接到语义,程序员可以通过创建不同的网络层来分析语言的基本组件,让系统通过实例学习的方式理解更为复杂的语句,实现更精准的NLP和NLG。
在自然语言处理方面,ANN使得系统能够更快的分析大量文本和数据,推动了互联网搜索、客户服务情绪分析以及其他领域的进步。
ThoughtSpot的首席数据专家Doug Bordonaro表示:商家在思考问题时输入的查询及查询结果甚至可以直接决定一个业务的成败。自然语言处理技术可以帮助一个非技术出身的商业人士成为一个合格的成功商人。我们财富100强的每一个客户每周都要有10000多次的搜索记录,也正是这些搜索的帮助,客户每天都可以深入了解业内销售趋势、产品盈利情况以及市场行情。
这些进步在很大程度上推动了音频、语音识别技术的发展。一般情况下,口头表达往往比书面语言更为多变,音量和重音的变化很大程度上会影响语义的理解。
近十年,美国硅谷在声音(特别是美国男音)研究上一直很有优势,但是数据库近段时间才被扩展到对各类型语言的理解。
人工神经网络同样也推动了自然语言的生成,在它的帮助下,生成的口语没有之前那么生硬,并且灵活的语法驱动规则提供了更加自然的客户体验。
NLG另一个关键领域是语音和文本,可以帮助实现其他类型的输出形式,比如许多仪表板中的可视化效果。
SAP(企业管理系列软件)副总裁David Judge表示:“目前的可视化虽然已经很强大,但还是远远不够。图像和文本的结合更加方便公司员工之间的沟通。在NLG解决方案中,动态文本的构建成为了一个很大的优势,它为那些无法使用视觉效果的人提供了可访性。”
联合NLP、NLG深入学习自然语言
要想更深入的理解NLP和NLG,就不能将它们分开。自然的语言理解和交流可以加速分析和决策的过程。
人们学习的方式有很多种,自然语言在商业分析中的重要性与日俱增。因此我们判断,自然语言工具将在未来两年内迅速渗入市场。
IT168企业级
让一部分人先看到企业IT的未来
领取专属 10元无门槛券
私享最新 技术干货