说明:如果您有任何疑问或想咨询其他业务请拨打电话 400 685 0732
全网监测海量数据按需发布监测预警
实时把握舆情动态精准追溯信息源头
对于舆情分析这个行业来说,需要的不仅仅是事件的罗列,更重要的还要在技术,舆情分析报告如何写。舆情分析不需要针对一件事情掌握大量的信息资源,更要遵循科学的方法、技术手段以及信息化的工具,舆情分析报告如何写,对采集到的内容进行梳理,对事件作出一个全面、综合的评价。能够及时预测到事件的发展态势,提出合理化的建议以供大家决策。
对于舆情分析的流程大致分为如下,信息获取-信息清洗-数据统计型分析-数据挖掘型分析-得出用于支持决策的结论或深加工数据。在舆情系统的社会化宏观分析,通常只是对关键词进行大规模监测以获取最粗的线索,在这一步关键词之间通常只是或的关系,并且数量大,也就是监测结果成百上千,导致人工二次研判分析的任务量和难度都不小。但是常规监测只是线索发现,也就是大海捞针,对召回率和准确率都有容忍度,而事件分析则不同,对两项数值都有较高的要求,否则分析的结果可能会差别巨大。
对于计算机系统,通常从宏观来说,就是输入-计算-输出,所有功能基本都离不开这个简单的逻辑。所谓事件监测也是如此,输入指用哪些条件来圈定事件,计算指对符合前述设定条件的数据做什么计算,输出则是以何种形式展示什么数据已提供结果给用户。目前大多数国内舆情系统的现状是:
事件监测输入条件-现状:支持多组关键词,每组间支持多个关键词,类似搜索引擎,但是组的数量更多,最终形成复杂的查询语句,并且关键词会在搜索引擎或特定网站中进行检索和收录以提高召回率。时间维度,可以限定时间范围,通常以发布时间为准。数据范围,可以限定哪些网站或平台来源。附加条件,例如词距离值,对标题和正文的匹配倾向,主体词、事件词、地域等限制条件。
事件监测数据计算-现状:通常,关键词进入系统后,会先在目前的数据库(一般是ES)中进行查找,找到符合的数据并展现。但是好的系统会同时启用多种手段提高数据召回率,例如搜索引擎、特定渠道的文章搜索等等。每篇文章都会进行细致的NLP语义分析以用于更详细的挖掘用,但是由于算力和技术问题,大部分NLP计算都用于标签分类、实体提取、依存文法关系、情感分析等基本提取上了,并没有形成很好的协同效应。
事件监测输出-现状:目前由于各方面成本限制,大部分市面产品主要以统计性图表输出为主,包括日数据量曲线图、来源分布柱状图、传播路径树形图等。
一个事件在网络上传播的版本会很多,标题和正文都会有很大的变化,所以直接找出他们的共性是很难的,通过定义关键词规则,实际上是将其中最大的共性找出来,但是词向量间关系无法详细定义,关键词规则目前都是布尔表达式,也就是与或非关系,仅此而已了。
说明:如果您有任何疑问或想咨询其他业务请拨打电话 400 685 0732