当前位置: 主页 > 876888.com > 语义解析:人工神经网络之外不容忽视的自然语言处理利器
 

语义解析:人工神经网络之外不容忽视的自然语言处理利器

【论文时间: 2019-10-01 23:52

  如何合理地表示语言的内在意义?这是自然语言处理业界中长久以来悬而未决的一个命题。

  在2013年分布式词向量表示(Distributed Representation)出现之前,one-hot是最常用的字词数值表示形式。在这样的词袋模型下,语言被表示为极其稀疏的向量形式,词之间的相互关系完全独立,语言深刻的内在含义被简化成0-1关系。

  而之后出现的一系列预训练词向量(如Word2Vec、Glove等),在一定程度上解决了词袋模型的稀疏性,对大部分NLP任务的表现都带来了一定程度的提升,但其仍无法对如组合性,多义性、五不中公式规律照应性、依赖性等复杂语言现象进行合理的表示。到了2018年,随着一系列在大规模语料上训练的深度语言模型的出现,以阅读理解为代表的一大批NLP任务的榜单屡被刷新,人工智能在语言上的理解能力超过人类的言论一度甚嚣尘上。但当我们回过头来仔细思考,在真实的“自然语言理解”业务场景中,这一轮“技术革新”带来的利好似乎乏善可陈。

  那么,对大规模语料的暴力拟合是不是真的能让模型理解语言的语义呢?2019年出现的GTP2模型参数数量达到了惊人的15亿之巨,由它生成的新闻甚至能骗过专业的记者。但值得玩味的是,今年早些时候台湾成功大学的几位研究者发现,BERT更多地学到了语言中的统计线索,而不是理解文本当中的真正逻辑。当我们用同样的模型对武侠小说进行学习之后,在其生成的文本中我们看到“三柄长剑断作两截”这样的“statistically impeccable but logically wrong的句子,让我们进一步验证基于人工神经网络的大规模语言模型对语言的深度理解仍然有限。

  其实,对于语言表示的问题,在统计学派兴起之前的20世纪初期,以索绪尔为代表的一批符号学派语言学家就开始系统地研究了。到了六十年代末期,随着逻辑学家和语言学家之间的屏障开始被打破,一批理论语言学家们着手为自然语言寻求一套完整的语义理论模式,来对语义进行完整的表示。美国逻辑学家理查德·蒙塔古是其中的佼佼者,他认为自然语言与形式语言在基本文法逻辑上是一致的,他提出的“蒙太古语法”也为之后的语义表示研究奠定了基础。

  在语义解析这个领域,语义表示早期的工作几乎都是符号学派为主的,例如一阶逻辑表达式和lambda计算式。举个例子,对于:

  但这些早期的逻辑表达式有一些限制条件,例如,在一阶逻辑中,量词只能用于个体变元,取消这一限制条件,允许量词也可用于命题变元和谓词变元,由此构造起来的谓词逻辑就是高阶逻辑。FMR(Functional Meaning Representation) 就是利用高阶函数来做意义表达,将语义(函数声明的调用)和语用(函数具体实现逻辑,函数体)的实现解耦合,让模块的复用性和实用性更好。

  也有一些研究者希望用有向无环图来更完备地表达语义,例如由帕尔默等人提出的AMR(Abstract Meaning Representation)。近年来,一些工业界机构也根据自己的业务场景提出了满足各自需求的多种语义表示方法,例如亚马逊的Alexa语音助手就采用了同样基于有向无环图的AMRL(Alexa Meaning Representation Language)来表示以对话为主的自然语言。


最新文章
热门文章
大姐心水论坛| 金牌高手论坛火爆一肖| 铁算盘买码论坛论| 醉红颜心水主论坛平特| 彩霸王中特网综合资料| 金沙论坛香港最快开奖118| 大家族香港王中王论坛| 万料堂论坛| 香港马会特区总站二号| 环球博彩网|