大数据带来舆情预测的新可能
发布时间:2015-07-23

 

原题:大数据下的舆情监测与预测

 

摘要:Web2.0环境下,原有的舆情监测方式已难以适应现实需要。而大数据的特点契合了Web2.0的网络环境和舆情研究的需要,能够实现更准确及时且基于“关系”的舆情监测。同时,大数据技术对舆情预测也有着独特的优势,并具进行更高质量的舆情预测的潜力。

 

关键词:舆情;大数据;数据分析;舆情预测

 

一、Web1.0与早期舆情监测

 

与即时通讯类的网络应用不同,博客、个人空间、微博都具有一定的公共性质,并被统称为自媒体。自媒体的兴盛,使其成为热点舆情形成的重要推动者,而网络舆情也成为社会舆情的重要组成部分。

 

自媒体几乎没有准入门槛,同时又具有匿名性,使用者的媒介素养良莠不齐,很容易产生各种失范现象;自媒体也不像传统媒体那样容易监督,对于失范现象难以追溯源头,同时给各方主体带来影响舆论、把控舆论走向的机会,使得网络舆情处于更加复杂的环境中。自媒体的网状结构又决定了网络舆情可以快速发酵,甚至在短时间内多次转向,因此更加难以监控和把握。

 

而对自媒体勃兴之后网络舆情的监测,传统的现场调查、访问调查、问卷调查等方式收效不佳,早期曾经广泛使用的网络舆情监测手段也暴露出了越来越多的问题。早期的网络舆情监测,主要是针对Web1.0设计的。互联网发展至今经历了两个阶段:Web1.0和Web2.0。两者的主要区别并不在于技术规范或物理设备,而是用户之间以及用户和网络应用之间的交互方式。

 

在Web1.0时代,互联网内容主要由各大网站生产,用户和网站的交互主要体现为寻找和接受相应的内容,用户之间也只能通过有限的方式进行散落联系。早期的网络舆情监测,就是针对这样层次的交互而设计。流程大致是:一、通过相关样本库,把需要监测的网页进行模板匹配,并设定为监测数据源;二、应用爬虫程序抓取数据,存储到本地,再进行数据的净化和简略的分析;三、利用简单的图表模板和文字描述,呈现监测和分析的结果。①

 

早期的网络舆情监测方式有一些原生的问题,譬如:一、由于处理能力有限,只能抽取部分样本进行监测,无法避免偶然误差;二、文本分析算法的准确度、监测对象和系统模板匹配的程度、对数据的净化,以及分析的算法等因素对于最后监测结果的准确度都有决定性的影响,无法避免系统误差;三、将监测的对象简化为独立的信息元,欠缺分析网络内容之间联系的能力和预测能力。

 

早期的网络舆情监测方式,尽管有很多问题,对Web1.0时代的离散的网络内容和单向的交互方式来说还可以适用。随着互联网发展到了Web2.0时代,早期网络舆情监测方式的局限性表现得日渐明显,其监测功能已经弱化而无法适应新的舆论环境。

 

二、大数据技术下的网络舆情监测

 

Web2.0时代最突出的特征就是更紧密的网状结构。用户自主生成内容使网络内容生产者数量呈几何级增长,用户与网站之间双向交互,用户与用户之间也在进行多渠道、多层次的立体的交互。Web2.0的网络内容不再是离散的,具有强烈的“关系”属性。这种基于各种强弱关系的网状结构,也直接使网络舆情能够快速成型、发酵,短时间内可以多次转向。Web2.0时代的舆情监测,更关注“关系”,能够更快速、更准确地跟踪舆情变化。这正是早期网络舆情监测的缺陷。

 

新的舆论环境,需要加强网络舆情的监测,而新的网络舆情,需要新的监测方式。大数据技术下的网络舆情监测,就是这样一种新的方式。

 

自1980年以来,全球的数据存储能力每40个月就翻一倍。②不断进行量级上的增加的庞大数据量和数据背后蕴藏的信息,带来了大数据时代。

 

大数据通常指的是庞大、复杂,难以用传统的软件工具来分析处理的数据集。对大数据的处理,又牵涉到从数据抓取、整理、分析、共享、可视化到存储、传输等一系列问题。大数据集合常常来源于日常生活,与人的行动、交往有一定的同构性,部分条目直接附加了时间、地理等信息。可以说,在大数据的数据集合中天然蕴含着各种关系。因此,大数据集合能提供同数据量的若干小数据集合无法带来的新信息。人们可以通过数据挖掘寻找数据之间的联系,确立数据之间相关关系的规律,进而提供多方面的预测。

 

显而易见,大数据处理技术的优势,正契合了Web2.0时代的特点。正因为大数据在挖掘数据之间的关系、进行发展趋势预测方面的能力,已经有很多机构借助其进行舆情监测和呈现,并取得了不俗的成绩。譬如在新闻业,就有不少国际传媒机构已经在各种项目中采用了大数据分析和数据可视化技术,如BBC以及《卫报》《华盛顿邮报》《纽约时报》等。

 

三、大数据带来舆情预测的新可能

 

“预测”本身就是大数据的一个重要应用。针对同一主题的海量数据进行分析,经过数据挖掘和建模后,可以得到相应的预测模型,进而预测将来的发展趋势。譬如奥巴马竞选团队,就在2012年竞选的多个环节运用了大数据技术,特别是在实时监测选民意向、预测投票情况方面。竞选团队每晚都会使用特制的模拟大选的模型,根据实时监测的选民意向模拟大选,并在第二天上午根据模拟结果对各州重新分配竞选资源。这种对舆情的实时监控和预测对奥巴马2012年总统连任起到了重要作用。

 

麻省理工学院博士内森·凯乐斯的一项以2013年埃及爆发的民众抗议活动的大数据预测为主要案例的研究,获取了全球范围主流媒体新闻、政府出版物、社交媒体、博客等各种类型超过三百万个数据源的目标数据。其证明可以通过大数据技术和特定模型来发掘公众的情绪、态度变化,并最终预测以大型抗议活动为代表的大型公共事件的发生,包括事件即将发生的时间地点。③

 

而这还仅仅是一个开始。大数据有不同的来源,互联网中以自媒体为代表的各种原创内容持续爆炸式增长,各种移动通讯设备、可穿戴设备也在不停地产生和存储、传递各种数据,除此之外的数据来源还有麦克风、摄像头记录的音频、视频数据,运营数据,遥感数据等等。

 

按照来源不同,数据大致可以分为三类,即以自媒体内容为代表的用户原创数据、各种经营活动中产生的运营数据(如销售记录、医疗记录等)、感知数据(如各种可穿戴设备获取的数据)。④ 其中用户原创数据对舆情监测的重要性已经显现,而对其他数据来源的大数据分析、不同数据来源的融合分析,也蕴含着巨大的舆情预测潜力。

 

与用户原创数据相比,感知数据和运营数据似乎与“舆情”没有直接联系。然而,舆情从来不是孤立地存在的,舆情的发酵、转向源于现实社会的事件和环境,舆情的发展又会影响现实活动。而感知数据和运营数据和人们日常生活具有同构性,甚至直接记录着人们的举动和身体变化。如可穿戴设备,已经可以检测使用者的心跳、体温、血液含氧量等数据,并通过模型分析使用者的情绪变化。而对位置移动、购买行为的相关数据的监测,以及基于这些数据对个人行动的预测,更是已经投入营销活动的应用。

 

在这些感知数据、运营数据中可以获知人们的情绪、态度、日常行动的变化,也就可以结合其他数据源进行舆情预测。数据源从用户原创内容扩展到感知数据、运营数据,必然会带来舆情预测整体质量的提高。从这个意义上来说,大数据给舆情研究带来的不仅是更准确、即时、动态的舆情监测,更给舆情预测带来无限可能。

 

注释

 

①李彪,郑满宁.社交媒体时代的网络舆情——生态变化及舆情研究现状、趋势[J].新闻记者,2014(01):36-41

② Hilbert·Martin,López?Priscila . The World’s Technological Capacity to Store, Communicate, and Compute Information [J]. Science 332 (6025): 60–65

③ Nathan Kallus . Predicting Crowd Behavior with Big Public Data[A]. In the Proceedings of the 23rd international conference on World Wide Web

④孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展.2013(01):146-149

 

来源:《视听》2015年第5期 作者:张冰清 刘高见 (张冰清:安徽广播影视职业技术学院;刘高见:安徽大学新闻传播学院)