乐思软件

提交需求|联系我们|请电400-603-8000

关注BI应用性能 数据仓库引擎选择是关键

存储技术
在关系型数据库内核中,数据库是按行来存储数据记录的,也就是说数据库表最典型的表示为一条数据页链,每一数据页中有一行或者多行数据记录。而在数据仓库应用中,从查询性能的观点出发,这种存储方式并不可取。因为在OLTP(在线事务处理,即传统数据库应用)环境中,一个事务处理是与一行(或多行)数据有效对应的,而在OLAP(在线分析处理,即BI应用)环境中,以查询处理最多,而查询是基于特定的列来选择的。Sybase IQ是按列来组织数据的,每张表是一组相互独立的页链,每个页链代表表中的一列。
基于列存储所带来的一个直接好处是,在压缩方面比传统的关系型数据更加有效。这是因为同一列的所有数据域有相同的类型,因而每一列都可以为优化的效率和检索进行压缩。而基于行的存储,各个不同的域拥有各不相同的数据类型,尽管这非常适合交易进程,但并不适合压缩,因为压缩很可能只能采用一种最低通用原则。
事实上,在压缩效果上,Sybase非常自信。Sybase中国公司CTO卢东明对记者表示,Sybase IQ能保证至少3倍以上的压缩比。高的压缩能力能带来存储成本的节约,有人曾经对数据的存储成本进行过估算,目前每管理1TB数据的软硬件加人力成本大约为5万美元左右。
列存储的另一个好处是性能上的提高。在行存储方式的情况下,如果需要访问数据必须读出完整的一行,而不管你实际感兴趣的是其中哪一个或几个域。因此,这可能形成只需要50K的数据却需要读出500k的情况。而在采用列存储方式时,可以只读出所需要的列数据。读出数据量的减少直接后果就是性能的提高。特别是在处理大数据量、复杂的跨多表查询时,列存储在性能上的提升非常明显。
除此之外,Sybase IQ还采用了其他的一些专有技术,如位图索引和BitWise索引技术等。“由于这些技术的采用,最终保证了Sybase IQ查询速度的极大改进,这种速度的提高能达到10倍以上。因此,我们认为Sybase IQ的技术是革命性的。”Sybase的卢东明在接受记者采访时表示。
目前,上述三种不同的数据仓库技术到底哪种更好,各家都有自己的说法。因此,对用户而言,具体选择时还需多了解同类型的BI应用。不过,用户倒是乐观其成,毕竟竞争可以带给用户更好的技术和产品。

(c112)


集成系统网络情报信息数据库

CIO频道人物视窗
CIO频道方案案例库
大数据建设方案案例库
电子政务建设方案案例库
互联集成系统构建方案案例库
商务智能建设方案案例库
系统集成类软件信息研发企业名录