问题为什么哈希表通过加倍来调整大小？

在线检查java和google搜索哈希表代码示例，似乎通过加倍来完成表的大小调整。
但是大多数教科书都说桌子的最佳尺寸是素数。
所以我的问题是：
加倍的方法是因为：

它易于实现，或
找到素数太低效（但我认为这个发现下一个素数会结束 n+=2 并使用。来测试素数 modulo是O（loglogN）哪个便宜）
或者这是我的误解，只有某些哈希表变体只需要素数表？

更新：
某些属性需要使用素数在教科书中呈现的方式（例如，二次探测需要一个素数大小表来证明例如如果一个表不是完整的项目X将被插入）。
发布为重复的链接通常要求增加任何数量，例如25％或下一个素数和答案接受表明我们加倍，以保持调整大小操作“罕见”，所以我们可以保证摊销时间。
这并没有回答这样一个问题：使用一个表格大小是素数并且使用素数来调整大小甚至大于两倍。因此，我们的想法是保持主要大小的属性考虑调整大小开销

9444

2018-05-21 19:33

起源

还有一个很好的讨论 stackoverflow.com/a/1147232/1076640。特别关注包括“因此你依赖哈希函数不使用偶数乘数”的部分。 - yshavit

stackoverflow.com/a/2386132/139010 - Matt Ball

当您的表的大小为2的幂时查找更快，因为余数可以使用位掩码来完成，但这更像是一个微优化。 - David Ehrmann

并且java的哈希表实现为外部链接，因此没有问题。我不是在追问这个问题。 - amit

我们应该记住的是，内置的Java集合都基于一定程度的折衷：它们必须合理地工作才能获得非常广泛的使用模式。在应用程序中，您可以使用更适合您的特定用例的算法重新实现集合，但代价是在其他情况下表现更差。这是很多人做过的事情。 - biziclop

答案:

问：但是大多数教科书都说桌子的最佳尺寸是素数。

关于大小素数：

什么是大小的素数，它取决于你选择的碰撞分辨率算法。一些算法需要素数表大小（双重散列，二次散列），其他算法不需要，并且它们可以从2的幂表大小中受益，因为它允许非常便宜的模运算。但是，当最接近的“可用表大小”相差2倍时，哈希表的内存使用可能不可靠。因此，即使使用线性散列或单独链接，您也可以选择2大小的非幂。在这种情况下，反过来，值得选择特定的素数，因为：

如果你选择素数表大小（因为算法需要这个，或者因为你对2的幂大小暗示的内存使用不可靠性不满意），表格槽计算（按表大小模数）可以与散列相结合。看到这个答案更多。

当哈希函数分布不好（来自Neil Coffey的答案）时，表2的幂大小是不可取的，这是不切实际的，因为即使你有糟糕的哈希函数，雪崩它仍然使用2的幂大小将是切换到主表大小的速度更快，因为在现代CPU上单个积分除法仍然较慢，因为良好的雪崩函数所需的多个多重复用和移位操作，例如。 G。来自MurmurHash3。

问：另外说实话，如果你真的推荐素数，我会迷失一点。似乎它取决于哈希表变体和哈希函数的质量？

哈希函数的质量无关紧要，你总是可以通过MurMur3平衡来“改进”哈希函数，这比从2表格大小切换到素数表大小便宜，见上文。
我建议选择素数大小，使用QHash或二次散列算法（不一样）只要什么时候需要 精确控制哈希表加载因子 和 可预测的高实际负载。对于2的幂表大小，最小调整大小因子是2，并且通常我们不能保证散列表将具有高于0.5的实际负载因子。看到这个答案。

否则，我建议使用带有线性探测功能的2-power大小哈希表。

问：加倍的方法是因为：
它易于实现，或

基本上，在许多情况下，是的。看到关于载荷因子的这个大答案：

负载因子不是哈希表数据结构的重要部分 - 它是为动态系统定义行为规则的方法（增长/收缩哈希表是一个动态系统）。

此外，在我看来，在95％的现代哈希表案例中，这种方式过于简化，动态系统表现不理想。

什么是加倍？这只是最简单的调整大小策略。该策略可能是任意复杂的，在您的用例中表现最佳。它可以考虑当前的哈希表大小，增长强度（自上次调整大小以来完成了多少操作）等等。没有人禁止你实现这样的自定义大小调整逻辑。

问：找到素数太低效了（但我认为找到下一个素数超过n + = 2并使用模数测试素数是O（loglogN）这很便宜）

有一个很好的做法是预先计算一些主要哈希表大小的子集，在运行时使用二进制搜索在它们之间进行选择。看到列表双哈希容量和解释， QHash能力。或者，甚至使用直接查找，这是非常快的。

问：或者这是我的误解，只有某些散列表变体只需要主表大小？

是的，只有某些类型需要，见上文。

2018-05-22 02:00

谢谢您的回答。首先是什么 when closest "available table sizes" differ in 2 times memory usage of hash table might be unreliable 意思？ - Jim

另外说实话，如果你真的推荐素数，我会迷失一点。似乎它取决于哈希表变体和哈希函数的质量？ - Jim

@Jim意味着“使用2的幂表大小，最小调整大小因子是2，通常我们不能保证哈希表的实际负载因子高于0.5。” - leventov

@Jim推荐 - 请参阅答案更新。 - leventov

I recommend choosing prime size, with QHash or quadratic hash algorithm (aren't same), only when you need precise control over hash table load factor and predictably high actual loads 但对于二次型负载表应小于50％才有效 - Jim

Java HashMap（java.util.HashMap链链接列表中的桶冲突（或[从JDK8]树开始，取决于块的大小和过量填充）。

因此，关于二次探测功能的理论不适用。似乎消息“使用散列表的素数大小”已经脱离了多年来适用的情况......

使用2的幂具有将表格条目的哈希值减少的优点（如其他答案所述）可以通过比特掩码来实现。整数除法相对昂贵，在高性能情况下，这可能有所帮助。

我将观察到“重新分配碰撞链时，重新划分对于能够为2的幂的表来说是一个很大的力量”。

请注意，当使用两次重新散列的权限时，根据哈希码的“下一个”位，在两个桶之间“拆分”每个桶。也就是说，如果哈希表有256个桶，那么使用哈希值重新散列的最低8位根据第9位拆分每个冲突链，并且保留在同一个桶B（第9位为0）或转到桶B + 256（第9位为1）。这种分裂可以保留/利用铲斗处理方法。例如， java.util.HashMap 保持小桶按照插入的相反顺序排序，然后将它们分成遵循该顺序的两个子结构。它将大桶保存在按哈希码排序的二叉树中，并类似地拆分树以保留该顺序。

注意： 直到JDK8才实现这些技巧。

（我很确定） Java.util.HashMap 只有大小（从不下降）。但是将哈希表减半使其加倍也有类似的效率。

这种策略的一个“缺点”是 Object 没有明确要求实现者确保散列码的低阶位分布良好。完全有效的哈希码可以在整体上很好地分布，但在其低阶位中分布不佳。因此，服从一般合同的对象 hashCode() 实际使用时可能仍然是坦克 HashMap！ Java.util.HashMap 通过在提供的上应用额外的散列“spread”来缓解这个问题 hashCode() 实现。那''传播'真的是快速的原油（16位高位和低位）。

对象implmenters应该知道（如果还没有）他们的哈希码（或缺少哈希码）中的偏差会对使用哈希的数据结构的性能产生重大影响。

为了记录，我将此分析基于此源的副本：

http://hg.openjdk.java.net/jdk8/jdk8/jdk/file/687fd7c7986d/src/share/classes/java/util/HashMap.java

2018-05-22 13:37

非常有趣的分析。但是JDK通过加倍来调整表格的大小。我假设他们选择了外部chaning，因为它很容易实现。但我想知道一张素数表是否不能与你提到的相同的“技巧”一起使用 - Jim

还有关于你提到的哈希表减半。我从未读过任何教科书，甚至暗示这种技术。这实际上是用于任何实现吗？ - Jim

@Jim是的，它会通过加倍来调整大小。 “技巧”是通过意识到碰撞桶整齐地减半来简化倍增。在JDK8之前，代码显然没有使用那招。减半是经常被忽视的操作。但是对于复杂或长期运行的应用程序，可能是必要的。我注意到 Java.util.HashMap 不打扰。有没有注意到服务器如何从定期重启中获益？阻塞，例如不卸载类和内部“缓冲区”的大小，但从不下降是一个永远不会泄漏的系统不必要地保留空闲资源的原因。 - Persixty

我不确定这是否能解决你的观点。即使在C ++中，当您释放内存时，它也不会进入系统进行重用，但保留在将来的请求中由相同的进程重用。结果，整个过程的记忆永远不会消失。对于像firefox或chrome这样的应用程序而言，这已经很长时间了。他们最终消耗了你的大部分系统。因此，我不确定将表格减半的努力是否会使我们免于您正确指出的重新启动时间。我有道理吗？ - Jim

@Jim。 C ++标准没有这样的规定。这是一个讨论主题的讨论 new 和 delete。以Visual Studio为例，他们调用了 malloc(.) 和 free()。你会在这里注意到的 free(.) 可能导致资源被转回。 msdn.microsoft.com/en-us/library/we1whae7.aspx。这将是一个非常糟糕的平台/运行时间决不交回资源。请参阅Windows 95/98以证明这一点！他们没有做到这一点，但同样被认为是“最糟糕的。操作系统。永远。” - Persixty

问题 为什么哈希表通过加倍来调整大小？

答案:

热门问题

问题为什么哈希表通过加倍来调整大小？