最新纪录:在3万字的文章中查找1万个关键词的出现次数, 仅需11.6毫秒
发布时间:2012-02-14

问题:在长文章中找出大量关键词的位置及出现次数

环境:Intel Core2 Duo CPU, E7500, 2.93Hz/4GB/Win7
测试结果:如图

高速字符串搜索测试

高速文本搜索测试

在旧版本中,我们使用的是普通优化的算法,在3万字的文章中查找1万个关键词的出现次数需要456毫秒
在新版本中,我们完全抛弃了旧算法,另辟蹊径,重起炉灶,反复试验摸索,花了几周时间,最终优化结果可达: 在3万字的文章中查找1万个关键词的出现次数仅需11.6毫秒,速度整整提升了40倍

打个比方:马拉松赛是一项长跑比赛项目,其距离为42.195公里。

马拉松

马拉松

2011年9月25日,柏林马拉松赛,肯尼亚名将帕特里克-马考以2小时3分38秒的成绩,创造了新的世界记录并夺冠,普通选手跑完全程的时间大约为2小时30分钟至3小时;这时乐思软件派出了已刻苦训练了良久的超级选手,仅用4.5分钟就跑完了全程!

值得开瓶茅台庆祝!

分类: 公司博客 标签: ,