互联网文本分析:快速信息挖掘战胜对手 (转载)
发布时间:2011-11-15

世界上有两种迷信,一种是封建迷信,一种是真的。

香港股市有一个现象叫做“丁蟹效应”,就是只要郑少秋(他在《大时代》里的角色名是丁蟹)主演的电视开播,那么股市就会很诡异的下跌。

对这类现象的朴素解释便是大家对于此类迷信宁可信其有不可信其无,看见郑少秋就先选择落袋为安,结果就导致股市大面积抛盘。对此还有一个专门的学术名词——自我实现的预言(Self-fulfilling Prophecy)

而互联网信息生产和处理的技术发展,可能能够大大增强各类预言自我实现的能力。

去年12月22日纽约时报的一篇文章 Wall St. Computers Read the News, and Trade on It 报道说,华尔街开始利用程序来读取各类新闻,社论,公司网站信息,微博;分析其中的词汇,语法结果,甚至是表情符号,这些程序会判断解析得到信息对市场的影响,并且自动进行交易。(转注: 用乐思网络信息采集系统即可完成)

对于金融这样一个对信息无限贪婪的行业而言,谁拥有更快更准的信息获取方式,谁就能战胜对手。如同文中一个投资基金经理所言,争夺这类技术就是一场军备竞赛。类似彭博,道琼斯,汤姆森路透已经宣称向华尔街提供新闻内容筛选的服务。

而且,所有此类技术并非都是那么高科技,譬如道琼斯公司就是利用一个包含3700个情感词的词典,来判断对一篇文章的主题为正面还是负面。当然会对 一些特殊语言现象进行处理,譬如“terribly”单独出现是负面的,但是“terribly good”则是正面的;而彭博会监控新闻和微薄内容,如果提到某公司的内容数量突然大幅变动,就会通知相关客户。

人们当然有理由怀疑这些程序是否能够那么准确的判断信息的正负面。事实上以我个人对情感分析技术的了解,如果不限定分析领域,如果能取得 70%-80%的准确率,就已经是不错的成绩;此外文本分析的另一个重要指标覆盖率也不容易保证,因为一篇看似完全不包含情感词的文章很可能已经在进行讽 刺挖苦,譬如形容一本书的糟糕可能有人这么说:“当年那些树应该用来做家具”。

但问题在于,如前文所言,华尔街的公司已经在直接利用这些还不算特别靠谱的技术产生的还不那么靠谱的数据来进行交易。去年五月,当希腊的经济危机还在恶化时,华尔街的电脑在一篇相关文章中逮到了深渊(abyss)这个词,于是立刻启动了抛售相关金融产品的指令。

可是为什么这类技术也还远非完美的时候,就会有人迫不及待的使用呢?基本原因大概有二:

一,信息瞬息万变,远非人力能够处理,因此不成熟的技术也强过没有;

二,即便你不想用,但是无法保证别人不用,且当这类技术和数据左右已经能够左右市场的时候,你大概只有跟着不靠谱才行。就好像如果明天TVB重播“大时代”,香港股民也得掂量掂量。

所谓感知即现实(Perception is Reality),即便这是来自机器的感知。

不难联想,如果香港银行家们也利用相关的技术分析新闻,那么“郑少秋”一定会成为一个敏感词。

Twitter 曾经在内部会议上雄心勃勃的宣称要做地球的脉搏(the Pulse of the Planet) 。的确,互联网能够产生的海量信息,一方面在时时刻刻反映现在的状态,另一方面也在对下一时刻产生影响;包括CIC在内提供信息挖掘和分析的公司,就是这个时代的老中医,来替大家搭搭脉。

(转载自网络 )

分类: 公司博客 标签: