博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
倒排索引优化 - 跳表求交集 空间换时间 贪心
阅读量:7048 次
发布时间:2019-06-28

本文共 1387 字,大约阅读时间需要 4 分钟。

from:http://www.cnblogs.com/jcli/p/3984809.html

如果待合并的两个倒排表数据量很大, 但是交集很少时, 会是什么情况呢?
1
2
[
1
2
3
4
5
, ... 
10001
10005
]
[
1
10001
10008
]

如果对这两个做合并操作, 最后的交集结果只有  [1, 10001] 2个元素, 但是却要做10001次移动和比较操作, 所以肯定有什么办法来优化这一点. 可能你已经想到了, 我们做了这么多无用比较, 是因为我们每次指针向前移动的步子太小了点, 如果我们在每次比较后向前多移动一点, 可以忽略很比无用的操作. 这就是跳表的思想.

我们看第一个倒排表, 如果它以5000为步长前进, 进我们只需要向前查找两个即可找到我们需要的元素: 10001 . 这里写一个跳表功能的合并算法代码:

a = range(10008)b = [1, 10001, 10008] i = j = 0result = []step = 100count = 0while i < len(a) and j < len(b):    if a[i] == b[j]:        result.append(a[i])        i = i +1        j = j + 1        count = count + 1    elif a[i] < b[j]:        while (i + step < len(a)) and a[i+step] <= b[j]:            i = i + step            count = count + 1        else:            i = i + 1            count = count + 1    else:        while (j + step < len(b)) and b[j+step] <= a[i]:            j = j + 5000            count = count + 1        else:            j = j + 1            count = count + 1 print resultprint count
上面代码中故意构造了一个很大的集合 [0 ... 10007], 然后用变量count作为计数器来分析两个算法分别执行的操作次数, 可以看到采用跳表算法时(我们模拟了step=100)的计算次数是207, 而用之前的方式计算次数是10008, 可见性能提升了很多倍.

这里有几点说明下:

1. 这里为了简单说明跳表的思路, 全部用了数组表示倒排表, 其实真实的数据结构应该是链表结构(linked list). 这才符合磁盘存储结构. 

2. 跳表的原始结构算法比这个复杂, 而且根据场景的不同, 跳表有不同的实现. 这里因为不是利用跳表的快速查询功能, 所以没有多级指针索引概念, 详细跳表实现查考: 

 

本文转自张昺华-sky博客园博客,原文链接:http://www.cnblogs.com/bonelee/p/6589839.html,如需转载请自行联系原作者

你可能感兴趣的文章
保存指定品质的图片
查看>>
多目标跟踪baseline methods
查看>>
关于QT_Creator不能在线调试问题
查看>>
六、python小功能记录——递归删除bin和obj内文件
查看>>
阅读《移山之道》及讲义感想
查看>>
python进阶-面向对象编程五:类的内置方法
查看>>
JAVA入门到精通-第52讲-面试题讲评
查看>>
05-spark streaming & kafka
查看>>
python杂记
查看>>
cd 简化命令
查看>>
LeetCode--205--同构字符串
查看>>
python-ConfigParser模块【读写配置文件】
查看>>
wireshark使用方法总结
查看>>
Window Server 2008 R2 TFS2010 安装前的准备
查看>>
20141123
查看>>
translucent 属性
查看>>
android listView嵌套gridview的使用心得
查看>>
[ES7] Descorator: evaluated & call order
查看>>
安卓动态调试七种武器之离别钩 – Hooking(上)
查看>>
从P6 EPPM 8 R3 到P6 EPPM 16 R1 有哪些改变?
查看>>