大数据Hadoop应用分析案例:电信业的应对之策
HBase本身利用自动复制机制保证Hbase本身存储的高可靠性。我们会做一些数据挖掘工作,除了采用MapReduce技术之外,还采用数据仓库技术,针对海量数据进行高性能查询和分析工作。中国联通已经构建了一个全国集中的一级架构海量数据存储和查询系统,第一,是一级架构,全国所有用户所有上网记录数据都放北京数据中心里,在国内电信行业当中也是首创的方式。
另外一个方式,首先将开源Hadoop、Hbase技术应用商用电信服务系统中来,开源的软件架构基本上没有商用系统的,但是这次是商用系统,系统的构成,包括数据采集、数据入库、数据存储、数据查询和数据分析技术,基本技术采用Hadoop,目前上网记录数据存储一般不小于30分钟,30分钟之前的上网记录现在可以通过我们系统查询到。
在实际使用过程中,联通发现约10分钟的记录可以查到,用HBase处理这么海量的数据时候,入库速度非常非常迅速,另外查询速度也非常非常迅速。另外系统的存储不少于6个月原始上网记录能力,中间的统计报表会保存不少于5年,现在的数据查询速度,查询一个用户上网记录,比如有几万条记录,在几千亿条记录当中检索的时间小于一秒钟,当然,这个时间不包括查询页面的时间。
这是上网记录详单内容,存储了很多用户上网记录信息,随着系统的发展,为了数据挖掘的需要,联通会进一步提取更多信息存到上网记录系统当中来。
Hadoop三节点 控制数据
整个系统部署情况是这样的,我们采用普通PC服务器部署这个系统,Hadoop本身有三个节点,一个是数据存储节点,现在有178个数据存储节点,每个数据存储节点有14T的容量,集群的监控节点有一台,入库服务节点24台,Web查询应用服务节点20台,在同一个机架上的数据交换采用千兆交换机。这是查询系统的界面,用户详细信息都可以通过这个系统查询出来。
在目前情况下,现在已经部署完成了4个省份,北京、黑龙江、浙江、重庆,四个省份所有用户上网记录都可以上来,每天入库条数超过42亿条用户上网数据记录,每天入库数据量超过1.2T,在这种数据量的情况下,现在已经保存了几个月的上网记录数据,在这种情况下,上网记录数据保存在一张表当中,保存4个省的数据,一个月可能超过1200亿条的数据,在这种情况下,在1200亿条数据当中检索一个用户数据会达到不小于一秒,目前1200亿条只用到15个数据节点,随着178个数据节点上线之后,保存全国31省的数据以及进行快速入库、查询和检索我们认为都没有问题。
现在预估,31省上线之后,每个月用户上网记录超过8千亿条,我们系统明年6月份才可能考虑到下一期扩容工程,在这种情况下,我们相信每个月会有1万亿条数据,保存6个月用户数据,原始数据量会超过6万亿条,目前每条上网记录基本上在300个字节,随着我们把更多的字段加入进来之后,可能平均每条用户上网记录的长度还会增加,可能达到400字节,对整个集群的要求会更高。
联通研究院处长王志军表示,联通第一次采用了开源技术,在此之前,在电信行业当中比较少见。联通采用了Hadoop、HBase,这里面还有用户管理员信息等等。目前,在客服使用当中感觉也是非常非常好的,更重要的是利用这个系统可以做深入的数据挖掘工作。
中国联通在查询用户上网记录之前会征得用户的同意,有可能通过口服开头同意,如果客服后台查询的话,我们可能会通知用户有人要查询其上网记录,在安全方面联通做了考虑。
集成系统网络情报信息数据库
CIO频道人物视窗
CIO频道方案案例库
大数据建设方案案例库
电子政务建设方案案例库
互联集成系统构建方案案例库
商务智能建设方案案例库
系统集成类软件信息研发企业名录

