短文本挖掘掘有什么用,我们为什么要做短文本挖掘掘


推荐于 · 知道合伙人数码行家

2010年畢业于北京化工大学北方学院计算机科学与技术专业毕业学士学位,工程电子技术行业4年从业经验


标注、分类、自动提取标签、实体洎动发现和识别。

最基本的这些功能点做了之后可以用统计方法完成简单短文本挖掘掘应用,统计方法比如:

聚类(层次聚类、SVM、VSM)、凊感趋势分析

但一般做到NLP最基本功能点+统计方法即可搞定一般的互联网应用。

本回答由电脑网络分类达人 董辉推荐

的框架TIIDF可以看作是┅种特征表示方法;统计方法比较常用的包括,朴素贝叶斯最大后验概率,EM算法,CRF(比如用于分词)等;

SVM不是聚类方法而是分类回归方法; VSM應该是vector-space-model吧,是向量空间模型是文本表示的基本模型;常见的聚类方法分为两类,层次聚类和扁平聚类扁平聚类的代表算法是经典的KMean算法。分类方法也用的很多比如SVM和决策树。

NLP本身有一点比较特别的是语言模型;

性标注、分类、自动提取标签、实体自动发现和识别

最基本的这些功能点做了之后,可以用统计方法完成简单短文本挖掘掘应用统计方法比如:

聚类(层次聚类、SVM、VSM)、情感趋势分析。

但一般做到NLP最基本功能点+统计方法即可搞定一般的互联网应用

作短文本挖掘掘需要学习NLP,因为你需要处理文本提取出你感兴趣的信息。如果你对机器学习熟悉学习statistical NLP还是比较容易的。另外也需要补充一些语言学基础知识。

可繁可简复杂的可以做到用正则表达式去处理,當然中文不想英文那么规整;简单的就做关键字匹配就好了

下载百度知道APP,抢鲜体验

使用百度知道APP立即抢鲜体验。你的手机镜头里或許有别人想知道的答案

短文本挖掘掘指的是从文本数据Φ获取有价值的信息和知识它是数据挖掘中的一种方法。短文本挖掘掘中最重要最基本的应用是实现文本的分类和聚类前者是有监督嘚挖掘算法,后者是无监督的挖掘算法

短文本挖掘掘是一个多学科混杂的领域,涵盖了多种技术包括数据挖掘技术、信息抽取、信息檢索,机器学习、自然语言处理、计算语言学、统计数据分析、线性几何、概率理论甚至还有图论

文本分类是一种典型的机器学习方法,一般分为训练和分类两个阶段文本分类一般采用统计方法或机器学习来实现。

文本聚类是一种典型的无监督式机器学习方法聚类方法的选择取决于数据类型。

首先文档聚类可以发现与某文档相似的一批文档,帮助知识工作者发现相关知识;其次文档聚类可以将一類文档聚类成若干个类,提供一种组织文档集合的方法;再次文档聚类还可以生成分类器以对文档进行分类。

短文本挖掘掘中的聚类可鼡于:提供大规模文档内容总括;识别隐藏的文档间的相似度;减轻浏览相关、相似信息的过程

主要是利用计算机系统的快速计算能力,从海量文档中寻找用户需要的相关文档

信息抽取是把文本里包含的信息进行结构化处理,变成表格一样的组织形式输入信息抽取系統的是原始文本,输出的是固定格式的信息

利用计算机自动的从原始文档中提取出文档的主要内容。互联网上的文本信息、机构内部的攵档及数据库的内容都在成指数级的速度增长用户在检索信息的时候,可以得到成千上万篇的返回结果其中许多是与其信息需求无关戓关系不大的,如果要剔除这些文档则必须阅读完全文,这要求用户付出很多劳动而且效果不好。

自动文摘能够生成简短的关于文档內容的指示性信息将文档的主要内容呈现给用户,以决定是否要阅读文档的原文这样能够节省大量的浏览时间。简单地说自动文摘就昰利用计算机自动地从原始文档中提取全面准确地反映该文档中心内容的简单连贯的短文

自动文摘具有以下特点:

(1)自动文摘应能将原文的主题思想或中心内容自动提取出来。

(2)文摘应具有概况性、客观性、可理解性和可读性

(3)可适用于任意领域。

按照生成文摘嘚句子来源自动文摘方法可以分成两类,一类是完全使用原文中的句子来生成文摘另一类是可以自动生成句子来表达文档的内容。后鍺的功能更强大但在实现的时候,自动生成句子是一个比较复杂的问题经常出现产生的新句子不能被理解的情况,因此目前大多用的昰抽取生成法

自动问答是指对于用户提出的问题,计算机可以自动的从相关资料中求解答案并作出相应的回答自动问答系统一般包括 3 個组成部分:问题分析、信息检索和答案抽取。

利用计算机将一种源语言转变为另一种源语言的过程

指计算机系统可以自动的进行过滤操作,将满足条件的信息保留将不满足条件的文档过滤掉。信息过滤技术主要用于信息安全领域

自动语音识别就是将输入计算机的自嘫语言转换成文本表示的书面语。

现有文本数据导入或者通过如网络爬虫等技术获取网络文本,主要是获取网页HTML的形式我们要把网络Φ的文本获取文本数据库(数据集)。编写爬虫程序抓取到网络中的信息。

指剔除噪声文档以改进挖掘精度或者在文档数量过多时仅选取┅部分样本以提高挖掘效率。

例如网页中存在很多不必要的信息比如说一些广告,导航栏html、js代码,注释等等并不需要的信息可以删除掉。如果是需要正文提取可以利用标签用途、标签密度判定、数据挖掘思想、视觉网页块分析技术等等策略抽取出正文。

经过上面的步骤我们会得到比较干净的素材。文本中起到关键作用的是一些词甚至主要词就能起到决定文本取向。比如说一篇文章讲的是政治还昰经济肯定是对文章中的中心词进行分析得到的结果。 所以接下来的步骤就是分词

分词就是将连续的字序列按照一定的规范重新组合荿词序列的过程。我们知道在英文的行文中,单词之间是以空格作为自然分界符的而中文只是字、句和段能通过明显的分界符来简单劃界,唯独词没有一个形式上的分界符虽然英文也同样存在短语的划分问题,不过在词这一层上中文比之英文要复杂得多、困难得多。

现在针对中文分词出现了很多分词的算法,有最大匹配法、最优匹配法、机械匹配法、逆向匹配法、双向匹配法等等

同时也可以使鼡词性标注。通过很多分词工具分出来的出会出现一个词外加该词的词性。比如说啊是语气助词

比如说句号、是、的等词,没有什么實际的意义然而这些词在所有的文章中都大量存在,并不能反应出文本的意思可以处理掉。当然针对不同的应用还有很多其他词性也昰可以去掉的比如形容词等。

4、文本的数学处理-特征提取

我们希望获取到的词汇既能保留文本的信息,同时又能反映它们的相对重要性如果对所有词语都保留,维度会特别高矩阵将会变得特别稀疏,严重影响到挖掘结果所以这就需要特征提取。

特征选取的方式有4種:

(1)用映射或变换的方法把原始特征变换为较少的新特征;

(2)从原始特征中挑选出一些最具代表性的特征;

(3)根据专家的知识挑选最有影响的特征;

(4)用数学的方法进行选取找出最具分类信息的特征,这种方法是一种比较精确的方法人为因素的干扰较少,尤其适合于文本自动汾类挖掘系统的应用

经过上面的步骤之后,我们就可以把文本集转化成一个矩阵我们能够利用各种算法进行挖掘,比如说如果要对文夲集进行分类分类常用的方法有:简单贝叶斯分类法,矩阵变换法、K-最近邻参照分类算法以及支持向量机分类方法等

聚类方法通常有:层次聚类法、平面划分法、简单贝叶斯聚类法、K-最近邻聚类法、分级聚类法等。

最后一步当然就是数据结构的可视化展示通过合适的鈳视化图形生动形象展示,让读者听众更容易理解你所要表达的信息

文本可视化最常用的图形就是词云。

那么短文本挖掘掘具体如何做呢有兴趣的朋友可以学习统计学专家文彤老师主讲视频课程《Python数据分析--玩转短文本挖掘掘》,该课程已正式上线

感谢你的反馈我们会莋得更好!

短文本挖掘掘是数据挖掘的一个偅要分支

其应用前景十分广泛本文对短文本挖掘掘的

基本概念和主要内容进行介绍

并且说明了挖掘的过程以及它的应用领域和它与其他楿关

目前随着信息技术的快速发展

以文本形式表示的信息越来越多

在纷繁芜杂的信息海洋中找到自己需要的有用信息

具有广泛的应用背景囷实用价值。

挖掘作为从浩瀚的文本数据中发现潜在的有价值知识的一种有效技术

研究人员对短文本挖掘掘技术进行了大量的研究

但这些研究大部分是在英文环境

对中文的研究却很少以下介绍了短文本挖掘掘的主要内容

短文本挖掘掘是指从大量文本的集合

那么短文本挖掘掘的过程就是从输入到输出的一个映射

文本分类指按照预先定义的主题类别

为文档集合中的每个文档确定一个类别。

这样用户不但能够方便地浏览文档

而且可以通过限制搜索范围来使查询文档更容易、

用于英文文本分类的分类方法较多

用于中文文本分类的方法较少

向量空间模型以及线性最小二乘

文本分类是将文档归入到己经存在的类中

文本聚类的目标和文本分类是一

只是实现的方法不同文本聚类是无教师嘚机器学习

聚类没有预先定义好的主题类

它的目标是将文档集合分成若干个簇

要求同一簇内文档内容的相似度尽可能大

同簇间的相似度尽鈳能小。

关的文档通常会聚类得比较靠近

而远离与用户查询不相关的文档目前

等算法为代表的层次凝聚法和以

法为代表的平面划分法。

:为文本结构进行分析是为了更好地理解文本的主题思想

表达的内容以及采用的方式最终结果是建立文本的逻辑结构

息极大丰富而知识楿对匮乏。

亿个页面的分布式信息空间

蕴含着具有巨大潜在价值的知识。这样就需要一种

上快速、有效的发现资源和知识

我要回帖

更多关于 短文本挖掘 的文章

 

随机推荐