微软研究院在IJCAI2016的Tutorial上讲述了自己将深度学习、深度神经网络应用于不同场景的情况,之前第二部分提到了深度学习在统计机器翻译和会话中的应用,第三部分是选中自然语言处理任务的连续表达。第四部分是自然语言的理解和连续语言词语的表达。
联合编辑:李尊,章敏,陈圳
自然语言理解,重点在于 建立能与使用自然语言的人类进行交互的智能系统。其研究挑战:1)文本意义表达 2)支持有用推理任务。
连续词语表达包括:
l 多种创建词语矢量的流行办法
l 编码条件共存信息
l 测量语义相似井
语义嵌入将原始文本转换成连续语义空间
嵌入有效的原因在于:
l 词汇语义词相似度
l 文本简单的语义表达
对神经网络模型进行预先训练
词语嵌入模型样本、评估、相关工作
潜在语义分析包括:SVD概括原始数据、同义词典中不存在明确关系、术语矢量投射K维潜在空间、词语相似度等
RNN-LM词语嵌入
SENNA词语嵌入
CBOW/Skip-gram词语嵌入
DSSM:学习词语含义
GloVe:词语表达的全局矢量
语义相关度能够从词语同现次数个概念来观察
评估:语义词相似度
l 数据:人类判断词组
l 词语相似度排名与人类判断之间的关系
l 独立语义嵌入模型通常不能实现最好的结果
评估:关系相似度
判断两组词是否有同样的关系以及为什么它会有效?
意外发现:从递归神经网络语义模型提取的词语嵌入,关系相似度由余弦值得来。
实验结果
在其他数据集上的相似结果
词汇类比评估。
讨论。1.方向相似性无法处理语义关系;2.矢量计算=相似性计算3.通过计算找到最接近的x。
一些相关工作——模拟不同的词汇关系如:判断是同义词还是近义词。
相关工作——词汇嵌入模型如:其它的词汇嵌入模型;Word2Vec的分析和方向相似性;理论论证与统一;评估NLP的矢量空间表示。
神经语言的理解。
知识库:通过储存上百万实体的性能和它们之间的关系捕获世界的知识。
现在的KB在NLP&IR中的一些应用——回答问题,信息提取,网络搜索。
知识库推理-知识库永远不会完整,模拟多关系数据,知识库嵌入效率和精准度都更高。
知识库嵌入:KB中每一个实体都由一个Rd矢量表示,通过fr(Ve1,Ve2)预测(e1,r,e2)是否是正确的。最在KB嵌入方面的工作:张量分解,神经网络。
张量分解-知识库表示(1/2):收集-主-谓-宾-(e1,r,e2)
张量分解-知识库表示(2/2):0输入意味着不正确或者不知道
张量分解对象
测量关系的程度
键入张量分解:关系的主要知识有键入信息,约束和损耗中唯一合法的实体。利用键入信息的好处有三点:模型训练时间短,大KB可高度扩展,预测精度更高。
键入张量分解对象重建误差
加入张量分解对象重建误差
训练过程-交替最小二乘法
实验—KB完成
实体检索
相关性进行检索及其平均精度
知识库的嵌入模式
相关操作的评价函数及其参数
基于神经网络的KB嵌入式方法的经验比较:参数少表现更佳;双线性操作符十分关键;建模时,乘法要优于加法;pre-trained 短语和嵌入式向量对于表现十分关键。
霍恩子句的最小化规则
相关路径中进行学习
自然语言理解
连续的词表达和词汇语义学
知识库嵌入
KB为基础的问题回答和机器理解
语义分析
极具挑战性的语言任务可能会导致重大失误
极具挑战性的语言任务可能会导致重大失误
极具挑战性的语言任务可能会导致重大失误
问题配对有三种方法:通过释义进行语义分析;使用源于单词校对结果的单词表创造短语配对特征;把问题用向量表示。
镶嵌子图模式
使用DSSM确定推理链
深度学习的回答和问题数据集。
把原始版本和匿名版本进行了比较。
神经网络模式中Attentive Reader的具体运行结构图。
神经网络结构中Impatient Reader的运行结构图。
各模式运行结果精准度的比较,其中以NN为基础的模式表现最好。
对所有的问题进行了全面的检查,发现问题在于需用智能的方法创建大规模的受监督数据以及弄清楚理解程度问题。此外好的消息是实体能平等地进行工作且Attentive Reader模式表现最好。坏消息是任务难度较大,需达到最优化(25%的问题还是无法回答)。
连续空间表现对于一些神经网络语义理解任务还是很有帮助的;例如,连续词语表达和词汇任务,知识库镶嵌,以KB为基础的问题回答和机器理解。
在NN和连续表达方面实现了较大进步,例如,文本处理和知识推理。
对于未来展望提出了以下几个方面:
建立一个通用的智能空间
文本,知识和推理等等
从部件模式到端至端解决方法。
总结:
自然语言理解,重点在于 建立能与使用自然语言的人类进行交互的智能系统。此外需要连续词语表达和词汇语义学。
连续词语表达,重点在于知识基础嵌入和基于知识基础的问题回答&机器理解。