notebook notebook
首页
  • 计算机网络
  • 计算机系统
  • 数据结构与算法
  • 计算机专业课
  • 设计模式
  • 前端 (opens new window)
  • Java 开发
  • Python 开发
  • Golang 开发
  • Git
  • 软件设计与架构
  • 大数据与分布式系统
  • 常见开发工具

    • Nginx
  • 爬虫
  • Python 数据分析
  • 数据仓库
  • 中间件

    • MySQL
    • Redis
    • Elasticsearch
    • Kafka
  • 深度学习
  • 机器学习
  • 知识图谱
  • 图神经网络
  • 应用安全
  • 渗透测试
  • Linux
  • 云原生
面试
  • 收藏
  • paper 好句
GitHub (opens new window)

学习笔记

啦啦啦,向太阳~
首页
  • 计算机网络
  • 计算机系统
  • 数据结构与算法
  • 计算机专业课
  • 设计模式
  • 前端 (opens new window)
  • Java 开发
  • Python 开发
  • Golang 开发
  • Git
  • 软件设计与架构
  • 大数据与分布式系统
  • 常见开发工具

    • Nginx
  • 爬虫
  • Python 数据分析
  • 数据仓库
  • 中间件

    • MySQL
    • Redis
    • Elasticsearch
    • Kafka
  • 深度学习
  • 机器学习
  • 知识图谱
  • 图神经网络
  • 应用安全
  • 渗透测试
  • Linux
  • 云原生
面试
  • 收藏
  • paper 好句
GitHub (opens new window)
  • 深度学习

  • 机器学习

  • 知识图谱

    • Recording of Knowledge Graph
    • 论文精读 - 知识表示学习

    • Sematic Web

    • 浙大知识图谱导论

      • 知识图谱概述
      • 知识图谱的表示
      • 知识图谱的存储与查询
      • 知识图谱的抽取与构建
        • 1. 重新理解知识工程与知识获取
        • 2. 知识抽取——实体识别与分类
          • 2.1 什么是实体识别
          • 2.2 实体识别的常用方法
          • 2.3 常见序列标注模型:HMM(隐马尔可夫模型)
          • 2.4 常见序列预测模型:CRF 条件随机场
          • 2.5 基于深度学习的实体识别方法
        • 3. 知识抽取——关系抽取与属性补全
      • 知识图谱推理
      • 知识图谱融合
      • 知识图谱问答
    • 知识图谱算法与实践-赵军

  • AI
  • 知识图谱
  • 浙大知识图谱导论
yubin
2022-03-30
目录

知识图谱的抽取与构建

知识图谱是一个交叉领域:

image-20220330161130923

# 1. 重新理解知识工程与知识获取

符号主义的核心思想:人工智能源于数理逻辑、智能的本质是符号的操作和运算

Knowledge is the power in AI,知识工程是以知识为处理对象,研究知识系统的知识表示、处理和应用的方法和开发工具的学科。

上世纪的七八十年代,传统知识工程的确解决了很多问题,但大部分都在规则明确、边界清晰、应用封闭的场景取得了成功,而对于开放的问题则难以实现。传统知识工程往往是自上而下实现,由专家去表达知识、运用知识,这会存在很多问题:

  • 人工构建的知识库规模和知识覆盖率很有限
  • 专家对知识的认知也很难统一且具有高度的不确定性和不精确性

知识获取的瓶颈:成年人脑包含近1000亿神经元,每个神经元都可能有近1000的连接。模拟这样的人脑需要约100TB的参数,如果需要获取全体人类知识,这靠人工编码是无法完成的。

知识图谱工程:简化的知识工程:

image-20220330173605476

从不同来源、不同结构的数据中进行知识提取,形成知识存入到知识图谱:

image-20220330173704480

# 1)从关系数据库获取知识

定义一个本体,利用映射语言将关系模型映射到本体语言。

image-20220330173912923
  • 利用 W3C 的 r2rml (opens new window) 映射语言

# 2)从视觉数据获取知识

在 CV 领域有一个 Scene Graph Construction,旨在识别对象的基础之上,进一步识别对象之间的关联关系并形成关系图。

image-20220330174121487

# 3)从文本获取知识

  • 命名实体识别:
image-20220330174217199
  • 术语抽取(概念抽取):从语料中发现多个单词组成的相关术语
  • 关系抽取:从句子中抽取出实体关系:
image-20220330174300516
  • 事件抽取:事件是更为复杂的结构化数据,事件抽取可以看成一组三元组联合抽取的过程:
image-20220330174415102

小结:知识图谱 ≠ 专家系统,知识图谱是新一代的知识工程,不再过于依赖人工,像百度、阿里等公司的知识图谱已经达到了百亿、千亿的规模。

# 2. 知识抽取——实体识别与分类

# 2.1 什么是实体识别

实体识别的主要目标:从文本中识别实体边界及其类型

image-20220330175003656

# 2.2 实体识别的常用方法

# 2.2.1 基于模板和规则

将文本与规则进行匹配来识别出命名实体,定义很多正则表达式来描述这些规则。

  • 优点:准确,有些实体识别只能依靠规则抽取
  • 缺点:
    • 需要大量的语言学知识
    • 需要谨慎处理规则之间的冲突问题
    • 构建规则的过程费时费力、可移植性不好

# 2.2.2 基于序列标注的方法

利用机器学习算法,将实体识别任务视为一个序列标注问题,通过 classifier 给每一个词打一个标签,这需要设计各种类型的特征来训练这个 classifier,比如:

  • 词本身的特征:边界特征(边界词概率)、词性、依存关系
  • 前后缀特征:姓氏、地名(xx省、xx市)
  • 字本身的特征:是否是数字、是否是字符

这样首先就要确定实体识别的序列标签体系:

image-20220330180002294

# 2.3 常见序列标注模型:HMM(隐马尔可夫模型)

HMM 是非常传统的实体识别模型,虽然这些模型都已逐渐被深度学习所替代,但了解这些基本知识对理解事物的本质是非常重要的。

HMM 是有向图模型,基于马尔可夫性,假设特征之间是独立的。图中的节点分为两类:隐变量代表需要预测的标签,观测变量是句子本身:

image-20220330180448067

这里不再介绍 HMM

# 2.4 常见序列预测模型:CRF 条件随机场

// TODO

# 2.5 基于深度学习的实体识别方法

// TODO

小结

  • 实体识别仍面临着标签分布不平衡,实体嵌套等问题,制约了现实应用
  • 中文的实体识别面临一些特有的问题,例如:中文没有自然分词、用字变化多、简化表达现象严重等等
  • 实体识别是语义理解和构建知识图谱的重要一环,也是进一步抽取三元组和关系分类的前提基础

# 3. 知识抽取——关系抽取与属性补全

// TODO

编辑 (opens new window)
上次更新: 2022/09/17, 14:13:25
知识图谱的存储与查询
知识图谱推理

← 知识图谱的存储与查询 知识图谱推理→

最近更新
01
Deep Reinforcement Learning
10-03
02
误删数据后怎么办
04-06
03
MySQL 一主多从
03-22
更多文章>
Theme by Vdoing | Copyright © 2021-2024 yubincloud | MIT License
  • 跟随系统
  • 浅色模式
  • 深色模式
  • 阅读模式
×