当前位置:首页 > 向量空间模型
由于它在很多文本中都出现,会被赋予一个很低的 IDF 值,以此体现它对于我们分辨文本的特征并没有太大的帮助。而像“偏微分”这种专业词汇由于只会在相关专业文本中才会出现,会被赋予高 IDF 值以体现它的文本特征鉴别能力。
TF-IDF 是基于统计的权重计算方式,在全局文本集包含的语料特征足够的情况下,这种基于统计学的方法经过实践检验是一种有效的特征项权重衡量方法。其局限性在于它的准确度受全局文本集的影响较大:全局文本集越大,语料越完备,所得的权重也就越准确,但相应地计算效率也会随着全局文本集的增大而降低。
共分享92篇相关文档