知识表示与框架构建
# 1. 概述
人们提出了很多知识表示理论,可以粗略分成:基于网络的方法、基于逻辑的方法和基于分布式表示的方法三类。
Quillian 等人提出的语义网络(Semantic Network)是利用图结构来述事件和对象,是基于人类认知和记忆存储的成果而发明的。Minsky 提出的框架则是另一种表示方法,与图式(schema)、认知模型(cognitive model)、全局模式(global pattern)、场景(scenario)等表示理论具有相似的结构。脚本(script)则可以视为一种特殊的框架,用于描述事件的序列。概念从属(Conceptual Dependency)则是另一种利用图结构和基础原语表示自然语言语义的 模型。总体来说,这些表示法将复杂的概念和意义表示为键值对集合,进而组成图的形式,其主要目的是描述知识结构,而不追求严密的形式化定义,这类方法可以称为基于网络的方法。
基于逻辑的方法主要包括命题逻辑、一阶谓词逻辑、描述逻辑等。随着数理逻辑的发展,基于逻辑的知识表示天然地具有基于网络的方法所不具备的形式化、公理化等优点。因此,将语义网络、框架等表示方法与逻辑相结合便成为知识表示重要的发展方向。另外,由于知识表示的设计也关系到推理算法的效率,相对简单的描述逻辑便取代了一阶逻辑成为知识表示的主要研究对象。随着互联网的发展,人们汲取了描述逻辑的发展成果,提出了语义网技术体系,并通过W3C组织进行标准化。最近几年来,在互联网发展和大量用户需求的推动下,许多商业公司推出了各自的知识图谱。它继承了语义网的很多特性,并得到了飞速发展。
基于分布式表示的方法则依赖于计算机性能的提高和深度学习算法的发展。人们将基于经典知识表示的大规模知识库嵌入低维的向量空间中,赋予其数值化的向量表示。概念间的相似性衡量、知识推理等需求就可以使用数值空间中的距离函数或神经网络来计算。这使得推理算法可以用数值计算来实现,大大提升了传统的推理算法效率,也使得数值化或分布式的知识表示获得了更多关注。
# 2. 经典知识表示理论
这些理论都是符号化的,其共同点是将知识记作具体符号,以某种结构组织起来,并用形式化的方法完成推理过程。
# 2.1 语义网络
语义网络将知识表示为由节点和边组成的图,每个节点对应一个概念,而连接节点的边则表达概念之间的关系。在自然语言处理领域,WordNet (opens new window) 和知网 HowNet 是两个著名的语义网络,它们分别建立了语义与语义之间的联系,以及词义与义原之间的联系。