LinuxSir.cn,穿越时空的Linuxsir!

 找回密码
 注册
搜索
热搜: shell linux mysql
查看: 226|回复: 0

词袋(BOW)模型

[复制链接]
发表于 2023-12-29 17:23:40 | 显示全部楼层 |阅读模式

词袋 - 英文为:Bag of Word(BoW) ,它是自然语言处理中的一个模型,基本上用于从文本中提取特征,以便文本可用于建模,以便在机器学习算法中使用。
现在问题出现了,为什么我们需要从文本中提取特征。 这是因为机器学习算法不能处理原始数据,他们需要数字数据,以便可以从中提取有意义的信息。 将文本数据转换为数字数据称为特征提取或特征编码。

它是怎么运行的这是从文本中提取特征的非常简单的方法。 假设我们有一个文本文档,并且希望将其转换为数字数据或者说想从中提取特征,那么首先这个模型从文档中的所有单词中提取词汇。 然后通过使用文档术语矩阵,它将建立一个模型。通过这种方式,BoW仅将文件表示为一袋文字。 丢弃关于文档中单词的顺序或结构的任何信息。

文档术语矩阵的概念

BoW算法通过使用文档术语矩阵来建立模型。 顾名思义,文档术语矩阵就是文档中出现的各种字数的矩阵。 在这个矩阵的帮助下,文本文档可以表示为各种单词的加权组合。 通过设置阈值并选择更有意义的单词,我们可以构建文档中可用作特征向量的所有单词的直方图。 以下是了解文档术语矩阵概念的示例 -

示例

假设有以下两个句子 -

句子1 - 正在使用词袋模型。

句子2 - Bag of Words模型用于提取特征。

现在,通过考虑这两句子,有以下13个不同的单词 -

we
are
using
the
bag
of
words
model
is
used
for
extracting
features

现在,我们需要使用每个句子中的单词计数为每个句子建立一个直方图 -

子句1 − [1,1,1,1,1,1,1,1,0,0,0,0,0]
子句2 − [0,0,0,1,1,1,1,1,1,1,1,1,1]

这样,就得到了已经提取的特征向量。每个特征向量都是13维的,因为这里有13个不同的单词。


//更多请阅读:https://www.yiibai.com/ai_with_python/ai_with_python_nltk_package.html


您需要登录后才可以回帖 登录 | 注册

本版积分规则

快速回复 返回顶部 返回列表