本文共 1387 字,大约阅读时间需要 4 分钟。
1 2 | [ 1 , 2 , 3 , 4 , 5 , ... 10001 , 10005 ] [ 1 , 10001 , 10008 ] |
如果对这两个做合并操作, 最后的交集结果只有 [1, 10001] 2个元素, 但是却要做10001次移动和比较操作, 所以肯定有什么办法来优化这一点. 可能你已经想到了, 我们做了这么多无用比较, 是因为我们每次指针向前移动的步子太小了点, 如果我们在每次比较后向前多移动一点, 可以忽略很比无用的操作. 这就是跳表的思想.
我们看第一个倒排表, 如果它以5000为步长前进, 进我们只需要向前查找两个即可找到我们需要的元素: 10001 . 这里写一个跳表功能的合并算法代码:
a = range(10008)b = [1, 10001, 10008] i = j = 0result = []step = 100count = 0while i < len(a) and j < len(b): if a[i] == b[j]: result.append(a[i]) i = i +1 j = j + 1 count = count + 1 elif a[i] < b[j]: while (i + step < len(a)) and a[i+step] <= b[j]: i = i + step count = count + 1 else: i = i + 1 count = count + 1 else: while (j + step < len(b)) and b[j+step] <= a[i]: j = j + 5000 count = count + 1 else: j = j + 1 count = count + 1 print resultprint count
这里有几点说明下:
1. 这里为了简单说明跳表的思路, 全部用了数组表示倒排表, 其实真实的数据结构应该是链表结构(linked list). 这才符合磁盘存储结构.
2. 跳表的原始结构算法比这个复杂, 而且根据场景的不同, 跳表有不同的实现. 这里因为不是利用跳表的快速查询功能, 所以没有多级指针索引概念, 详细跳表实现查考:
本文转自张昺华-sky博客园博客,原文链接:http://www.cnblogs.com/bonelee/p/6589839.html,如需转载请自行联系原作者