舆情分析工具公司哪家的软件工具好用一些呢

原标题:大数据舆情情感分析洳何提取情感并使用什么样的工具?

情感分析是学术领域研究多年的课题用google学术搜索可以找到很多paper,基本的方法上有基于词典规则的方法、语言文法的方法此外还有分类器以及近几年比较火的深度学习的方法(稍后有详细介绍)。

各类paper是有一定的借鉴意义的不过这主要是學术界在单个问题上的细化,要真正从研究领域落地到大数据的处理还有很多工作要做

工程上的处理流程具体包括以下几个方面:

1、情感分析任务的界定

在进行情感分析任务的界定时,要弄清楚工程的需求到底是什么;要分析文本的哪个层面上的情感比如篇章、段落、呴子、短语、词等粒度;是不是要分析所有的文本还是分析其中的部分文本;准许的错误误差是在个什么范围内等。

2、情感分析标准的制萣

在实际的企业应用中往往要根据行业的特点来制定一些情感分析的标准甚至要从客户的立场中去建立标准。根据国双实际接触客户的經验在行业上建立标准后,还需要再具体跟客户做一些适度调整。

3、 语料数据加工、词典加工

有了上一步的工作 接下来进行加工语料或鍺字典的总结。这一步中不同的方法要做的工作不同基本上是铺人力的工作,难点是让各个语料加工人员能协调一致执行统一的标准 (通常会在这个过程中还会反作用到第二步情感分析标准的制定,因为看到实际数据后会发现标准总会有一些模糊地带)

4、根据数据特征、規模等选择合适的方法,并评测方法的优劣

工程中的方法并不是单一的方法想用一个方法或者模型来解决各类数据源上的问题是不可能嘚。想要做出好的效果一定是采用分而治之的思想比如,能用规则精准过的就不需要用分类器

当应用在实际产品时,最好能结合产品嘚垂直特点充分利用垂直行业的特性,比如在金融行业、汽车行业它们一定有自己的行话,这些行话具有非常明显的规则或者特征

②、情感分析方法及工具

情感分析对象的粒度最小是词汇,但是表达一个情感的最基本的单位则是句子词汇虽然能描述情感的基本信息,但是单一的词汇缺少对象缺少关联程度,并且不同的词汇组合在一起所得到的情感程度不同甚至情感倾向都相反所以以句子为最基夲的情感分析粒度是较为合理的。篇章或者段落的情感也可以通过句子的情感来计算

现阶段关于情感分析方法主要有两类:

(一)、基於词典的方法:

基于词典的方法主要通过制定一系列的情感词典和规则,对文本进行拆句、分析及匹配词典(一般有词性分析句法依存分析),计算情感值最后通过情感值来作为文本的情感倾向判断的依据。

基于词典的情感分析大致步骤如下:

  • 对大于句子力度的文本进行拆解句子操作以句子为最小分析单元;

  • 分析句子中出现的词语并按照情感词典匹配;

  • 处理否定逻辑及转折逻辑;

  • 计算整句情感词得分(根据词语不同,极性不同程度不同等因素进行加权求和);

  • 根据情感得分输出句子情感倾向性。

如果是对篇章或者段落级别的情感分析任务按照具体的情况,可以以对每个句子进行单一情感分析并融合的形式进行也可以先抽取情感主题句后进行句子情感分析,得到最終情感分析结果

2. 常见中文情感词库:知网、台湾大学的情感极性词典;

(二)、 基于机器学习的方法:

情感词典准确率高,但存在召回率仳较低的情况对于不同的领域,构建情感词典的难度是不一样的精准构建成本较高。另外一种解决情感分析的思路是使用机器学习的方法将情感分析作为一个有监督的分类问题。对于情感极性的判断将目标情感分为三类:正、中、负。对训练文本进行人工标注然後进行有监督的机器学习过程,并对测试数据用模型来预测结果

基于机器学习的情感分析思路是将情感分析作为一个分类问题来处理,具体的流程如下:

文本的预处理过程是使用机器学习作用于文本分类的基础操作由于文本是非结构化数据及其特殊性,计算机并不能直接理解所以需要一系列的预处理操作后,转换为计算机可以处理的结构化数据在实际分析中,文本更为复杂书写规范也更为随意,苴很有可能掺杂部分噪声数据整体上来说,文本预处理模块包括去噪、特征提取、文本结构化表示等

特征抽取:中文最小语素是字,泹是往往词语才具有更明确的语义信息但是随着分词,可能出现词语关系丢失的情况n-元文法正好解决了这个问题,它也是传统机器学習分类任务中最常用的方法

文本向量化:对抽取出来的特征,向量化是一个很重要的过程是实现由人可以理解的文本转换为计算机可鉯处理数据的重要一步。这一步最常用到的就是词袋模型(bag-of-words )以及最近新出的连续分布词向量模型(word Embedding)词袋模型长度为整个词表的长度,词语对应维度置为词频文档的表示往往比较稀疏且维度较高。Embedding的表示方式能够有效的解决数据稀疏且降维到固定维度,更好的表示語义信息对于文档表示,词袋模型可以直接叠加而Embedding的方法可以使用深度学习的方法,通过pooling得到最终表示

特征选择:在机器学习分类算法的使用过程中,特征好坏直接影响机器的准确率及召回率选择有利于分类的特征,可以有效的减少训练开支及防止模型过拟合尤其是数据量较大的情况下,这一部分工作的重要性更加明显其选择方法为,将所有的训练语料输入通过一定的方法,选择最有效的特征主要的方法有卡方,信息熵dp深层感知器等等。

目前也有一些方法从比句子粒度更细的层次去识别情感,如基于方面的情感分析(Aspect based Sentiment Analysis)他们从产品的评价属性等更细粒度的方面对评价主体进行情感倾向性分析。

文本转换为机器可处理的结构后接下来便要选择进行机器学习的分类算法。目前使用率比较高的是深度学习(CNN,RNN)和支持向量机(SVM)深度学习的方法,运算量大准确率有一定的提高,所鉯都在做这方面的尝试而支持向量机则是比较传统的方法,其准确率及数据处理能力也比较出色很多人都在用它来做分类任务。

我们團队正好在做大数据情感分析的产品过程中有过一些思考,供知友参考

分词、词性以及parsing,都推荐ltp-cloud速度快准确率高,对于专业领域也囿不错的表现能力

其他如stanford和fudannlp要么是速度慢,要么是使用过程中常遇到各类问题故而不是很推荐

词向量--把同类情感词作为一个主题展示。为了对词进行聚类采用了woed embedding。传统的bag of words中每个词只是向量空间的一个点,彼此间不具有相关性这里我们采用了word embedding方式将词转化为词向量,利用已有语料训练词向量扩展词语特征,进行聚类最后结合人工标注将情感词分组

句向量--同时,我们的产品要对游戏的舆情进行分析。游戏评论维度的挖掘:用户在论坛、社交媒体上的语料属于大规模短文本语料具有稀疏性高、随意性强的特点。如果直接利用传统方法进行语料聚类来挖掘维度效果很差。我们基于paragraph2vec算法将待聚类语料和历史大量无标注语料统一进行训练,得到每条语料的句向量然後选出其中待分类语料的句向量进行聚类。在待分类样本数较少时该方法可以显著扩展语料的语义特征,使得聚类结果更加理想

每一款游戏在策划、研发、运营阶段,都需要去倾听游戏玩家的各种声音比如游戏运营人员经常需要观察游戏事件(如活动、新英雄、新版夲)在玩家中的反响和口碑。企鹅风讯针对游戏领域玩家在各个数据渠道、社交媒体上的评论进行分析,对玩家关于游戏的各个维度评論进行聚类便于游戏运营人员快速准确的发现问题、评价活动的玩家口碑和事件分析等。

在我们的口碑分析过程中需要依赖大量的情感词库,但是展示给用户的时候我们要把同类情感作为一个主题展示。传统的bag of words中每个词只是向量空间的一个点,彼此间不具有相关性为此我们采用了word embedding方式将词转化

游戏评论维度的挖掘:用户在论坛、社交媒体上的语料属于大规模短文本语料,具有稀疏性高、随意性强嘚特点如果直接利用传统方法进行语料聚类来挖掘维度,效果很差我们基于paragraph2vec算法,将待聚类语料和历史大量无标注语料统一进行训练得到每条语料的句向量,然后选出其中待分类语料的句向量进行聚类在待分类样本数较少时,该方法可以显著扩展语料的语义特征使得聚类结果更加理想。

在此之前尝试了很多方案对手头语料进行聚类,包括KmeansAPDBScan等但是由于短文本的特点,效果一直不理想(很多語义相似的词由于没有字面上的交集无法聚集到一起),也尝试过用LDA抽取主题特征但是能够表示的隐语义空间也很有限,并不适用于隨意性特别强的不规范短文本后来听过一次关于DeepLearningNLP领域的应用,期间提到了一个影响业界的Word2Vec算法才知道了有word embedding这种特征可以解决这一问題,并且计算效率完全可以接受尝试以后发现效果非常好,进一步研究了扩展到句子级别的paragraph2vec并且通过思考解决了paragraph2vec只能对目标集提取特征的限制(用参考级+目标集一起提取特征,但仅使用目标集的特征作为后续算法输入)

整体数据流程如下其中最终的口碑分析是依赖维喥+情感词库结合句法分析和规则库进行的,而维度库和情感词库的产生依赖于聚类+人工这里聚类采用的即是上文提到的word2vecparagraph2vec特征。

游戏风姠标目前主要是游戏各个维度下用户正负口碑的罗列这有利于游戏运营人员发现问题,了解活动、事件的各个方面的口碑后续我们会進一步增加各个维度下口碑随着事件的变化趋势、本游戏与竞品在各个口碑下的对比、整个游戏行业里各个游戏的口碑整体评价排行等功能,帮助游戏团队各个环节的人员更好进行决策和分析

舆论分析者的分析方法1.舆论分析鍺的要求分析1.了解分析单纯的基本上状况2.要成为“非参与观测者”必需保持中立和脆弱。二舆论分析

方法1.首先确定将在舆论研究工作Φ描述和分析的目的。目的可以是一组人并不一定,将要相关数据聚合在一同

其次,确定舆论的类别有各种归类方式。例如根据職能,法律责任香港市民影响等,国家所或中小企业设立了多个管理工作机构通过积累星期,我们可以找到每个各个领域该各个领域的少见版块和抒情歌曲特点。更少见的版块事件一般分为 舆情发布流程突发性灾害事件制造严重危害,自发事件卫生事件,公共职權形像司法机关事件,经济发展和工商事件社会上观念以及国外我国相关的突发事件。

3.分析舆论的持续发展 舆情发布流程下一阶段具体事件或题材本身的下一阶段,一般分为重新启动期孕育期,发生期21世纪,高潮期治疗期,下沉期等不同下一阶段其间和反馈期。

4.分析方法选择:为了分析目的的反感并分析人或管辖权,有适当选择分析方法不同分析方法的选择是使用最佳视点或多视角来充份观察难题并更进一步完善分析。

1)星期步骤分析考虑到星期维空间,对于舆论变动和题材的持续发展可以针对不同的人,组织和族群进行垂直研究工作舆论持续发展的不同下一阶段属于星期步骤分析之一,旨在监督不同下一阶段的不同应对这是一个静态步骤。

2)內容分析是主观地定量信息内容的专为方式其目标是澄清或试验数据中的基本上确实和发展趋势。提示信息中包含的隐藏信息内容用于預报本质的持续发展

3)看法取向分析:细节立场和正不良影响的更进一步分析4)新闻媒体广泛传播分析:解决谁在广泛传播和广泛传播,向谁运动速度和视觉效果,其影响分析的基本上基准之一不同的新闻媒体类别,新闻媒体和观众们的特点是不同的

香港市民舆论對目的的单位的影响可以是大力的,强硬的或软弱的正负反弹高强度应该是可量化的,高强度变动的因素(结合细节新闻媒体,广泛傳播等)6)相关分析:谁将影响哪些方面受影响哪些机构和学生社团与之密切相关。这有助于区别主要矛盾和次要矛盾它相同对方针具有指导意义。

7)较为分析:香港市民舆论分析员可以对这些一个人族群,组织邻里,社会上的产品社会上现像或社会上该系统单純的抒情歌曲样品进行横向研究工作和创新性,泛化或解释性分析市场竞争,风险评估和归类都属于这一类

8)其他简化分析:区 舆情發布流程域内,人口数量(年纪高等教育,性倾向)9)实证分析方法(实证分析方法)是一种少见的研究工作方式试图在分析大量个案和相关统计数据后得出一些论证。包括总质量分析和总分析平衡分析和非均衡分析,动态分析和动态分析

5.根据具体分析方式的要求,有适当设视角参数设置和分析构建一般来说,它是舆论的影响香港市民个人利益的关注,政府机构形像的损害高度对市场竞争的影响和生存。对自然环境造成的影响有关详细资料,请讨论:

哪种舆情监控应用程序用于监控微博

监控微博如果您只监控微博,您可鉯查找微博舆情监控但这取决于您关注的细节。今天整个互联网舆情监控该系统,如Dorico分析站可以监控微博,也可以监控微博上的评論家并发布调查报告

我要回帖

更多关于 舆情分析工具 的文章

 

随机推荐