《中国人工智能学会通讯》——6.6 实体消歧技术研究-白红宇

6.6 实体消歧技术研究

实体是文本信息的重要承载，每一段有意义的文本都描述了一组实体及这些实体相互之间的关联和交互。识别并理解文本中的实体信息也就成为了自然语言理解的基础问题之一。

然而，文本中实体信息的理解存在两方面的挑战。首先，文本中的实体名通常具有歧义。例如，给定如下三个包含“苹果”的句子：

●　今天上午苹果由乔布斯发布了新一代iPhone。

●　我早餐吃了一个苹果。

●　范冰冰在苹果中演的不错。

上述三个句子中的 “苹果”分别指向实体“苹果公司”、“水果苹果”及“电影苹果”。其次，实体的提及（mention）形式具有多样性，也就是人们可能会用不同的实体名来指向同一个实体。例如，在提到 IBM 公司时，人们可以使用 IBM、Big Blue 或 International Business MachinesCorporation 等不同名字。为解决实体名的歧义性和多样性问题，在许多应用中需要确定实体名所指向的真实世界实体，也就是实体消歧 (EntityDisambiguation)。图1展示了一个实体消歧的示例。

随着大数据时代的到来，实体消歧已经成为了许多重要应用和任务的基础技术，在越来越多的地方发挥重要作用，例如：

知识图谱的构建和补全。自然语言理解和类人智能推理一直是人工智能的长期目标之一。然而上述两项任务都依赖于海量的世界知识，也就是知识图谱的帮助。通过识别知识图谱中特定实体在文本中的出现，同时发现文本中知识图谱未覆盖的实体，实体消歧在知识图谱的构建和补全上都起到重要作用。

基于知识的自然语言理解。近年来越来越多的智能信息服务（如苹果的智能手机助手 SIRI 和IBM 的 Watson 智能问答系统）依赖于海量自然语言文本的分析和理解。然而在过去几十年里，绝大多数计算机自然语言处理技术仅利用了句子的表层词法和句法信息[1] 。与之相对的是，人类理解自然语言会利用到许多语言深层信息，甚至很多外部世界知识[2-3] 。通过建立文本中实体名与知识图谱中真实世界实体之间的关联，实体消歧可以有效地在自然语言理解过程中引入知识图谱中存储的大量世界知识，从而为基于知识的自然语言理解奠定基础。

当前实体消歧的主流技术是实体链接 (EntityLinking) 技术，下面分别从任务、系统、主要技术挑战、发展趋势等多个方面来介绍实体链接。