notebook notebook
首页
  • 计算机网络
  • 计算机系统
  • 数据结构与算法
  • 计算机专业课
  • 设计模式
  • 前端 (opens new window)
  • Java 开发
  • Python 开发
  • Golang 开发
  • Git
  • 软件设计与架构
  • 大数据与分布式系统
  • 常见开发工具

    • Nginx
  • 爬虫
  • Python 数据分析
  • 数据仓库
  • 中间件

    • MySQL
    • Redis
    • Elasticsearch
    • Kafka
  • 深度学习
  • 机器学习
  • 知识图谱
  • 图神经网络
  • 应用安全
  • 渗透测试
  • Linux
  • 云原生
面试
  • 收藏
  • paper 好句
GitHub (opens new window)

学习笔记

啦啦啦,向太阳~
首页
  • 计算机网络
  • 计算机系统
  • 数据结构与算法
  • 计算机专业课
  • 设计模式
  • 前端 (opens new window)
  • Java 开发
  • Python 开发
  • Golang 开发
  • Git
  • 软件设计与架构
  • 大数据与分布式系统
  • 常见开发工具

    • Nginx
  • 爬虫
  • Python 数据分析
  • 数据仓库
  • 中间件

    • MySQL
    • Redis
    • Elasticsearch
    • Kafka
  • 深度学习
  • 机器学习
  • 知识图谱
  • 图神经网络
  • 应用安全
  • 渗透测试
  • Linux
  • 云原生
面试
  • 收藏
  • paper 好句
GitHub (opens new window)
  • 爬虫

  • Python 数据分析

    • 方法

      • TF-IDF
    • pandas

    • matploitlib

  • MySQL

  • Redis

  • Elasticsearch

  • Kafka

  • 数据仓库

  • 数据科学
  • Python 数据分析
  • 方法
yubin
2023-01-11

TF-IDF

在寻找一个文章中哪些词比较重要时,最简单的方法可以对这个文档进行词频(Term Frequency,TF)的统计,词频指的是在一个文档中某个词汇出现的频率或次数。但是这种方法存在明显的缺点,当对一个文档进行分析时,像“我们”、“的”这种词语往往都会有很高的词频,但由于这类词语在大多数文档中都具有较高的词频,因此这种词语的高词频往往无法体现出该文档的特征,相反,某些词语如“篮球”、“卧推”等虽然词频并没有很高,但却集中出现在了某些文档当中,这类词语就可以很明显地体现出这些文档的特点。

为了解决上面所说的问题,人们又引入了逆文档频率(Inverse Document Frequency,IDF)这个概念,将词频与逆文档频率进行结合共同组成了 TF-IDF 这个指标,一个词语的 TF-IDF 计算方式为:

其中,词频(TF)的计算方式如下图:

image-20230111221947111

逆文档频率(IDF)的计算方式如下图:

image-20230111222033243

可以看出,对于给定分析的语料库,总文档数 D 是一个固定值,因此一个词语的 IDF 值取决于含有该词语的文档数目 d,所以包含这个词语的文档越多,这个词语的 IDF 值将越小。

综合来看 TF 与 IDF 两个指标,当一个词语在一个文档中出现次数越多时,它的 TF 值将越大,但随着它在更多文档中出现,它的 IDF 值将变小。将 TF 与 IDF 进行结合起来的 TF-IDF 指标就由此实现了突出重要词语,而抑制次要词语的效果。

当然,TF-IDF 也有一些缺点。比如一些语境下可能并不符合 TF-IDF 指标所做的假设,这时计算得到的 TF-IDF 指标可能对词语重要性的衡量出现误差。同时 TF-IDF 没有考虑文档的上下文语境,无法区分一词多义等情况。

以上所介绍的 TF-IDF 指标计算方式是一种经典的计算方式,在具体实现中可能会在归一化、平滑处理等方面存在稍许计算上的差异,但这些计算方式的所蕴含的本质思想都是共通的。

编辑 (opens new window)
上次更新: 2023/01/11, 16:26:42
Python 的协程
10 分钟上手 pandas

← Python 的协程 10 分钟上手 pandas→

最近更新
01
Deep Reinforcement Learning
10-03
02
误删数据后怎么办
04-06
03
MySQL 一主多从
03-22
更多文章>
Theme by Vdoing | Copyright © 2021-2024 yubincloud | MIT License
  • 跟随系统
  • 浅色模式
  • 深色模式
  • 阅读模式
×