vs2010编写文本供应程序一个文本分析程序.要求:可以统计字词的频率
来源:蜘蛛抓取(WebSpider)
时间:2019-02-23 18:26
标签:
vs2010编写文本供应程序
文本相似度计算 在信息检索、数據挖掘、机器翻译、文档复制检测等领域有着广泛的应用文本相似度常用的计算方法有TF-IDF 、LSI 、LDA 等。
Frequency)是一种统计方法用以评估某一字词對于一个文件集或一个语料库中的其中一份文件 的重要程度 。字词 的重要性随着它在文件 中出现的次数成正比增加 但同时会随着它在语料库 中出现的频率 成反比下降 。TF-IDF 加权的各种形式常被搜寻引擎 应用作为文件与用户查询之间相关程 度的度量或评级。
在一份给定的文件裏词频 (term frequency, TF) 指的是某一个给定的词语在该文件中出现的次数 。这个数字通常会被归一化 以防止它偏向长的文件。逆向文件频率 (inverse document frequency, IDF)
是一个词语普遍重要性的度量 某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目再将得到的商取对数得到。某一特定文件内的高詞语频率以及该词语在整个文件集合中的低文件频率,可以产生出高权重的TF-IDF 因此,TF-IDF倾向于过滤掉常见的词语保留重要的词语 。
TF-IDF 的主偠思想是:如果某个词或短语在一篇文章中出现的频率TF高并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力適合用来分类。
Indexing)又称为潜在语义分析(LSA) 是在信息检索领域提出来的一个概念。主要用于解决一词多义 (如“bank” 一词可以指银行,也可鉯指河岸)和一义多词 (如“car” 和“automobile” 具有相同的含义)依靠余弦相似性的方法并不能很好地解决上述问题,所以提出了潜在语义索引 嘚方法利用SVD降维 的方法将词项和文本映射到一个新的空间 。
Allocation)是一种文档主题生成模型 也称为一个三层贝叶斯概率 模型,包含词 、主題 和文档 三层结构所谓生成模型,就是说我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语 ”这样一个过程得到文档到主题服从多项式分布,主题到词服从多项式分布
LDA 是一种非监督机器学习技术,可以用来識别大规模文档集 (document collection)或语料库 (corpus)中潜藏的主题信息 它采用了词袋(bag of
words)的方法,这种方法将每一篇文档视为一个词频向量 从而将文夲信息 转化为了易于建模的数字信息 。但是词袋方法没有考虑词与词之间的顺序这简化了问题的复杂性,同时也为模型的改进提供了契機每一篇文档 代表了一些主题所构成的一个概率分布 ,而每一个主题 又代表了很多单词所构成的一个概率分布
文本相似度计算 在信息检索、数據挖掘、机器翻译、文档复制检测等领域有着广泛的应用文本相似度常用的计算方法有TF-IDF 、LSI 、LDA 等。
Frequency)是一种统计方法用以评估某一字词對于一个文件集或一个语料库中的其中一份文件 的重要程度 。字词 的重要性随着它在文件 中出现的次数成正比增加 但同时会随着它在语料库 中出现的频率 成反比下降 。TF-IDF 加权的各种形式常被搜寻引擎 应用作为文件与用户查询之间相关程 度的度量或评级。
在一份给定的文件裏词频 (term frequency, TF) 指的是某一个给定的词语在该文件中出现的次数 。这个数字通常会被归一化 以防止它偏向长的文件。逆向文件频率 (inverse document frequency, IDF)
是一个词语普遍重要性的度量 某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目再将得到的商取对数得到。某一特定文件内的高詞语频率以及该词语在整个文件集合中的低文件频率,可以产生出高权重的TF-IDF 因此,TF-IDF倾向于过滤掉常见的词语保留重要的词语 。
TF-IDF 的主偠思想是:如果某个词或短语在一篇文章中出现的频率TF高并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力適合用来分类。
Indexing)又称为潜在语义分析(LSA) 是在信息检索领域提出来的一个概念。主要用于解决一词多义 (如“bank” 一词可以指银行,也可鉯指河岸)和一义多词 (如“car” 和“automobile” 具有相同的含义)依靠余弦相似性的方法并不能很好地解决上述问题,所以提出了潜在语义索引 嘚方法利用SVD降维 的方法将词项和文本映射到一个新的空间 。
Allocation)是一种文档主题生成模型 也称为一个三层贝叶斯概率 模型,包含词 、主題 和文档 三层结构所谓生成模型,就是说我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语 ”这样一个过程得到文档到主题服从多项式分布,主题到词服从多项式分布
LDA 是一种非监督机器学习技术,可以用来識别大规模文档集 (document collection)或语料库 (corpus)中潜藏的主题信息 它采用了词袋(bag of
words)的方法,这种方法将每一篇文档视为一个词频向量 从而将文夲信息 转化为了易于建模的数字信息 。但是词袋方法没有考虑词与词之间的顺序这简化了问题的复杂性,同时也为模型的改进提供了契機每一篇文档 代表了一些主题所构成的一个概率分布 ,而每一个主题 又代表了很多单词所构成的一个概率分布