从人工智能学科诞生之初起,自然语言处理(NLP)就是人工智能核心的研究问题之一。NLP的重要性是毋庸置疑的,它能够实现以自然语言交流为特征的高级人机交互,使机器能“阅读”所有以文字形式记录的人类知识,并提供各种高层智能服务的基础和关键技术。
目前在NLP领域最受瞩目的要数谷歌的NLP模型BERT(Bidirectional Encoder Representa-tions from Transformers),它在Trans-former的基础上,借助海量跨领域语料和超高计算能力,通过多任务预训练,在十余种不同NLP任务达到了目前最高水平。
在金融领域,NLP技术的作用主要在于自动从海量的宏观、行业、微观资讯中发现、分析并整合与各类决策(特别是投资决策)相关的信息,即首先通过信息检索技术获取相关文本,然后借语义分析技术从非结构化文本中提取结构化的信息,最后将这些信息加以提炼,并且使之关联到未来可能的发展趋势,从而为预测和决策提供有价值的及时信息。
NLP技术与机器学习技术的结合,也正在成为智能金融浪潮中的新热点,已在多个场景得以成功应用,包括:智能客服、智能投研、智能投顾、智能风控、智能监管、智能运营等。
这方面国外值得关注的应用案例包括:华尔街的巨头开始应用自然语言处理和机器学习技术帮助客户理财和制订退休计划(类似财务经理角色);美国麻省理工学院融合机器学习等技术用于创建新的商业模式和重新定义金融服务,以提高投资的安全性;澳大利亚一家公司尝试采用自然语言处理技术自动监测和规范公司的金融服务。
目前NLP技术虽然已经在金融领域开展了一些尝试和探索,但仍然处于起步和发展阶段,存在一些有待解决的难点。
BERT能有效破解金融NLP难题吗?
金融是专业性很高的领域,很多词汇和表达在金融语境下有特殊含义,并且某些专业词汇在其他文本中很难见得到。数据集的缺乏也是目前NLP在金融领域应用所面临的问题之一,这也是金融领域高度的专业性所导致的。
另外,金融领域对发生的事件有其独特的理解,评价分析处理结果的方式也与其他领域有所不同。因而,金融领域的自然语言处理任务需要重新定义任务目标和评价方法,传统和成熟的NLP解决方案不一定仅通过简单订制就可以满足金融领域对文本信息分析和处理的需求。
那么在众多传统NLP任务上取得了实质性提升的BERT,能否助力破解金融NLP的难题呢?这是很多人都关心的问题,不过从目前看来可能收效甚微。因为BERT的设计目的和关注点着眼于纯自然语言表示模式本身,而任务本身与具体领域或者业务越密切,则其贡献越小。
虽然仍然需要通过实验才能确切了解BERT和Transformer对金融领域特定任务的影响,但可以预见的是,由于推理能力缺乏、输入长度限制、可解释性缺失等方面先天性的不足,其在市场消息面影响评估、事件因果关系发现、任务导向型上下文相关对话、文本摘要、智能推荐等方面影响比较有限。
金融NLP进阶的两种思路
与知识图谱、智能推理结合
将“NLP”和“知识图谱”看作金融科技领域的“双子星”是十分可取的想法,这两项关键技术在金融领域的应用场景高度重合,两者相互依托、互为补充。前者不断丰富后者的内容,后者则为前者提供背景知识的支持。
不过,在“NLP+知识图谱”这两个“双子星”中,还应加上“智能推理”一环,从而形成“语义理解+知识支撑+动态推理”的“三驾马车”。因为如果模型缺乏推理能力,欠缺揭示分析结果深层原因的“可解释性”,对于金融这种需要“刨根问底”的领域容易引发“灾难后果”。
知识图谱一般认为仅存储静态的知识,静态的知识需要与动态的推理规则相结合才能推导并得出新的认识和结论,发挥所构建知识库的最大效用。虽然目前已经提出“事理图谱”概念,其是否属于动态知识仍有待商榷。引入“智能推理”可以形成事实到结论之间的推理链条,从而能够对所得结论进行必要的解释。
例如,引入类似“原材料供应紧张 生产成本上升 净利润下降 股价下跌”反映专业知识的规则与推理不仅可以引导模型学习的方向,缩小的搜索空间,还可以作为先验信息,进行更为合理的贝叶斯统计推断。
经验主义、理性主义缺一不可
一般认为,NLP主要有两种研究思想和方法,第一种是理性主义方法,其主要思路是通过归纳语言学规则来分析和生成语言,优点是语言表达结构和组成成分可以借助规则直接清晰地表示出来,但规则过于“刚性”会导致无法处理例外情况、鲁棒性差、规则获取和更新代价高等问题。
另一种研究方法是经验主义方法,主要是采用机器学习(特别是统计学习)从语料集中自动或半自动地获取语言学统计知识来构建模型,然后对新的文本进行推断。目前最热门的深度学习也属于经验主义方法,近年来取得了快速进展和广泛应用,在学术界和企业界备受瞩目。
对于金融领域的NLP应用来说,经验主义和理性主义这两方面不应是“离异”状态,而应该积极的“联姻”,就如哲学家培根所主张的,既反对狭隘的理性主义,也反对纯粹的经验主义。具体说来,以逻辑推理为代表的符号主义与神经网络为代表联结主义的深度融合应是未来最具发展潜力的方向之一。
目前NLP技术在自然语言的深度理解方面,仍然存在大量的探索空间,例如如何准确处理篇章范围内的指代消歧;如何正确理解比拟、比喻和隐喻等。随着金融NLP经验主义与理性主义研究方法的融合提升,并且与知识图谱、智能推理等进一步结合,更多的难题将期望得到解决。
领取专属 10元无门槛券
私享最新 技术干货