学会扒源码-HashMap

Python涨薪研究所

共 2129字,需浏览 5分钟

 ·

2021-02-18 21:40

来源 转行程序员
顶级程序员 | 公众号 Topcoding


hashmap-node

好久不见,最近我要复习了,随时准备面试,顺便整理笔记,所以这又是一篇没有感情的纯物理输出!!!

哎 !如果你也准备面试就看看吧。

正文

这一看就是HashMap结构不用说了吧

学会扒系统层源码

HashMpa源码分析

这里,我尝试抛弃1.8之前都源码分析,技术在进步,从现在开始分析1.8之后的版本区别。

结构:数组+链表 位于java.util包中

public class HashMap<K,Vextends AbstractMap<K,V>
    implements Map<K,V>, CloneableSerializable 

静态内部类实现了map的接口,允许使用null值,null键。

JDK 1.8采用的是Node链表

/**
 * Basic hash bin node, used for most entries.  (See below for
 * TreeNode subclass, and in LinkedHashMap for its Entry subclass.)
 */

static class Node<K,Vimplements Map.Entry<K,V{
    final int hash;
    final K key;
    V value;
    Node next;

    Node(int hash, K key, V value, Node next) {
        this.hash = hash;
        this.key = key;
        this.value = value;
        this.next = next;
    }

    public final K getKey()        return key; }
    public final V getValue()      return value; }
    public final String toString() return key + "=" + value; }

    public final int hashCode() {
        return Objects.hashCode(key) ^ Objects.hashCode(value);
    }

    public final V setValue(V newValue) {
        V oldValue = value;
        value = newValue;
        return oldValue;
    }

    public final boolean equals(Object o) {
        if (o == this)
            return true;
        if (o instanceof Map.Entry) {
            Map.Entry e = (Map.Entry)o;
            if (Objects.equals(key, e.getKey()) &&
                Objects.equals(value, e.getValue()))
                return true;
        }
        return false;
    }
}

hashmap就是一个entry的数组,entry对象中包含了 key 和 value,其中 next 是为了解决 hash 冲突构成的一个链表。

image-20200603172755101

负载因子:0.75。

static final float DEFAULT_LOAD_FACTOR = 0.75f;

public HashMap() {
     this.loadFactor = DEFAULT_LOAD_FACTOR; // all other fields defaulted
}

HashMap中的数据量 / HashMap的总容量(initialCapacity),

当loadFactor达到指定值或者0.75时候,HashMap的总容量自动扩展一倍,以此类推。

负载因子代表了hash表中元素的填满程度。加载因子越大,填满的元素越多,但是冲突的机会增大了,链表越来越长,查询速度会降低。反之,如果加载因子过小,冲突的机会减小了,但是hash表过于稀疏。冲突越大,查找的成本就越高。

数组大小初始值

    /**
     * The default initial capacity - MUST be a power of two.
     */

static final int DEFAULT_INITIAL_CAPACITY = 1 << 4// aka 16

数组Node的初始化值是16,使用位与运算速度更快。

HashMap最大容量

static final int MAXIMUM_CAPACITY = 1 << 30;

必须是2的幂且小于2的30次方,传入容量过大将被这个值替换)

当看到 1<<30 时,对“<<” 有点模糊,当了解“<<”的用法之后,又有一个问题;

int类型不是4个字节共32位吗,为什么不是 1<<31呢?

首先介绍下等号右边数字及字符的含义:

1、"<<"为左移运算符,1表示十进制中的“1”,30表示十进制数字1转化为二进制后向左移动30位。在数值上等同于2的30次幂。

2、为什么是2的30次幂?

以一个字节为例:

1<<2 = 4

0000 0001(十进制1)

向左移动两位之后变成

0000 0100(十进制4)

可见 1<<30 等同于十进制中2的30次幂。

回到题目,为什么会是2的30次幂,而不是2的31次幂呢?

首先:JAVA规定了该static final 类型的静态变量为int类型,至于为什么不是byte、long等类型,原因是由于考虑到HashMap的性能问题而作的折中处理!

由于int类型限制了该变量的长度为4个字节共32个二进制位,按理说可以向左移动31位即2的31次幂。但是事实上由于二进制数字中最高的一位也就是最左边的一位是符号位,用来表示正负之分(0为正,1为负),所以只能向左移动30位,而不能移动到处在最高位的符号位!

此处参考原文链接:https://blog.csdn.net/qq_33666602/article/details/80139620

HashMap中的红黑树

由链表转换成树的阈值TREEIFY_THRESHOLD:8

解释:一个桶中bin(箱子)的存储方式由链表转换成树的阈值。即当桶中bin的数量超过TREEIFY_THRESHOLD时使用树来代替链表。默认值是8。

static final int TREEIFY_THRESHOLD = 8;

由树转换成链表的阈值UNTREEIFY_THRESHOLD:6。当执行resize操作时,当桶中bin的数量少于UNTREEIFY_THRESHOLD时使用链表来代替树。默认值是6

static final int UNTREEIFY_THRESHOLD = 6;

构造方法

    /**
     * Constructs an empty HashMap with the specified initial
     * capacity and load factor.
     *
     * @param  initialCapacity the initial capacity
     * @param  loadFactor      the load factor
     * @throws IllegalArgumentException if the initial capacity is negative
     *         or the load factor is nonpositive
     */

    public HashMap(int initialCapacity, float loadFactor) {
        if (initialCapacity < 0)
            throw new IllegalArgumentException("Illegal initial capacity: " +
                                               initialCapacity);
        if (initialCapacity > MAXIMUM_CAPACITY)
            initialCapacity = MAXIMUM_CAPACITY;
        if (loadFactor <= 0 || Float.isNaN(loadFactor))
            throw new IllegalArgumentException("Illegal load factor: " +
                                               loadFactor);
        this.loadFactor = loadFactor;
      
      
       //这里的threshold按照定义应该再乘一个加载因子。没有乘的原因是没有对table进行初始化,在put里面会对其进行初始化的。这里有一个问题,我在初始化加载因子的时候,貌似只能初始化大于1的数字,这个地方留着,有待商榷。
        this.threshold = tableSizeFor(initialCapacity);

第一个参数有两个的。这里首先保证了参数和合法性。当参数合法的时候,将输入的容量转换为距离该树最近的2的整数次幂。调用的tableSizeFor函数,分析如下:可以看到能够得到距离该数最近的整数次幂了。

    /**
     * Returns a power of two size for the given target capacity.
     */

    static final int tableSizeFor(int cap) {
        int n = cap - 1;
        n |= n >>> 1;
        n |= n >>> 2;
        n |= n >>> 4;
        n |= n >>> 8;
        n |= n >>> 16;
        return (n < 0) ? 1 : (n >= MAXIMUM_CAPACITY) ? MAXIMUM_CAPACITY : n + 1;
    }

HashMap重写equals方法做了什么

public final boolean equals(Object o) {
    if (o == this)
        return true;
    if (o instanceof Map.Entry) {
        Map.Entry e = (Map.Entry)o;
        if (Objects.equals(key, e.getKey()) &&
            Objects.equals(value, e.getValue()))
            return true;
    }
    return false;
}

相比Object方法equals多了一个if判断,要判断Entry数据里的key和value同时相等,因为hashcode可能key有碰撞,意思就是key相同,value不同,这个时候value在一个链表上,需要重写equals方法,确保value相同。

思考:为什么要同时重写 equals & hashcode?

put方法源码分析

 public V put(K key, V value) {
        return putVal(hash(key), key, value, falsetrue);
    }

    /**
     * Implements Map.put and related methods
     *
     * @param hash hash for key
     * @param key the key
     * @param value the value to put
     * @param onlyIfAbsent if true, don't change existing value
     * @param evict if false, the table is in creation mode.
     * @return previous value, or null if none
     */

    final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
                   boolean evict)
 
{
        Node[] tab; Node p; int n, i;
      
      
       //判断了该hash表是否为空,如果为空,需要resize
        if ((tab = table) == null || (n = tab.length) == 0)
            n = (tab = resize()).length;
      
        if ((p = tab[i = (n - 1) & hash]) == null)
            tab[i] = newNode(hash, key, value, null);
        else {
            Node e; K k;
           //else中即为hash出现了冲突(但是他们的key不一定冲突的,这里要注意)。
           //这个if的就是key相同而且hash还相同的,对于这种的,就需要直接修改这个节点的值,所以讲p赋值于e,对e进行稍后的处理。
            if (p.hash == hash &&
                ((k = p.key) == key || (key != null && key.equals(k))))
                e = p;
            else if (p instanceof TreeNode) //jdk1.8中引入了红黑树,如果链表的长度超过了8,就会把链表转化为红黑树。这里就判断p是否为红黑树的节点。
                e = ((TreeNode)p).putTreeVal(this, tab, hash, key, value);
            else {  //这里的else说明,要么hashcode的值相同,但是key不同,那么就要开始遍历当前的链表,一直遍历到链表末尾。如果出现了以下的情况:
                for (int binCount = 0; ; ++binCount) {
                    if ((e = p.next) == null) {
                        p.next = newNode(hash, key, value, null);
                     
                        if (binCount >= TREEIFY_THRESHOLD - 1// -1 for 1st   //这里的TREEIFY_THRESHOLD为8,是当链表长度超过8,就会将链表便转化为红黑树。如果在长度以内,便在链表末尾new一个节点,把数据存储。
                            treeifyBin(tab, hash);
                        break;
                    }
                    if (e.hash == hash &&
                        ((k = e.key) == key || (key != null && key.equals(k))))
                        break;
                    p = e;
                }
            }
            if (e != null) { // existing mapping for key
                V oldValue = e.value;
                if (!onlyIfAbsent || oldValue == null)
                    e.value = value;
                afterNodeAccess(e);
                return oldValue;
            }
        }
        ++modCount;
        if (++size > threshold)
            resize();
        afterNodeInsertion(evict);
        return null;
    }

调用的put方法中,可以看到会计算出这个key值的hashcode,然后将该hashcode,key,value作为参数调用putVal方法。

  1. 首先根据hash(key)&(n-1)取得hash值二进制低m位找到index,这样的散列算法使key比较均匀的分布在各个桶里,找到 index索引到Node节点,如果为空,直接put在此节点,否则判断是否是红黑树,如果是则找到红黑树部分的节点直接put,否则查找链表中下一个Node节点的key值和hash等于插入的key和hash值的话直接更新Node节点的value值,否则找到Node节点为NULL的节点,
  2. 判断链表个数是否超过阈值7,超过链表转换为红黑树,不超过在链表new 新出的节点,然后判断HashMap的节点数是否大于阈值(负载因子*table的长度),大于的话resize扩容,否则不扩容。
image-20200603173316683

get方法源码分析

public V get(Object key) {
    Node e;
    return (e = getNode(hash(key), key)) == null ? null : e.value;
}

/**
 * Implements Map.get and related methods
 *
 * @param hash hash for key
 * @param key the key
 * @return the node, or null if none
 */

final Node getNode(int hash, Object key) {
    Node[] tab; 
   Node first, e; 
   int n; 
   K k;
    if ((tab = table) != null && (n = tab.length) > 0 &&
        (first = tab[(n - 1) & hash]) != null) {
        if (first.hash == hash && // always check first node
            ((k = first.key) == key || (key != null && key.equals(k))))
            return first;
        if ((e = first.next) != null) {
            if (first instanceof TreeNode)
                return ((TreeNode)first).getTreeNode(hash, key);
            do {
              // 遍历红黑树,调用equals方法判断key对应的value
                if (e.hash == hash &&
                    ((k = e.key) == key || (key != null && key.equals(k))))
                    return e;
            } while ((e = e.next) != null);
        }
    }
    return null;
}
image-20200603173131206

vx搜:【转行程序员】 拉你进群

扩容函数resize源码分析

final Node[] resize() {
        Node[] oldTab = table; //定义了一个临时Node类型的数组
        int oldCap = (oldTab == null) ? 0 : oldTab.length; //判断目前的table数组是否为空,记录下当前数组的大小
        int oldThr = threshold; //记录下原始的hashmap的大小的阈值
        int newCap, newThr = 0//新Cap的大小和阈值
        if (oldCap > 0) {//原table不为空
            if (oldCap >= MAXIMUM_CAPACITY) {//原数组的大小超过2^30
                threshold = Integer.MAX_VALUE;
                return oldTab;
            }
            else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&
                     oldCap >= DEFAULT_INITIAL_CAPACITY)
                newThr = oldThr << 1// double threshold,扩大原阈值两倍,现容量扩大为原两倍
        }
        else if (oldThr > 0
            newCap = oldThr; // 用构造器初始化了阈值,将阈值直接赋值给容量
        else { // 原始的阈值和容量值都为0,使用默认的阈值和容量值进行初始化,这个在我们new HashMap就是这么处理的。
            newCap = DEFAULT_INITIAL_CAPACITY;
            newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);
        }
        if (newThr == 0) {//这里为0,说明进入了else if或者if,即为原table不为空,或者初始化的时候用构造器人为设定的阈值
            float ft = (float)newCap * loadFactor;
            newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ?
                      (int)ft : Integer.MAX_VALUE);
        }
        threshold = newThr;
        @SuppressWarnings({"rawtypes","unchecked"})
        Node[] newTab = (Node[])new Node[newCap];//初始化新的Node类型数组
        table = newTab;
        //当原来的table不为空,需要将数据迁移到新的数组里面去
        if (oldTab != null) {
            for (int j = 0; j < oldCap; ++j) {//开始对原table进行遍历
                Node e;
                if ((e = oldTab[j]) != null) {//取出这个数组第一个不为空的元素
                    oldTab[j] = null;//把空间释放掉
                    if (e.next == null)//说明这个entry对应的链表中只有一个节点,
                        newTab[e.hash & (newCap - 1)] = e;计算相应的hash值,把节点存储到新table的对应位置处
                    else if (e instanceof TreeNode)//若e是红黑树的节点,要按照红黑树的节点移动
                        ((TreeNode)e).split(this, newTab, j, oldCap);
                    else { // preserve order,说明此链表中不止一个节点,需要全部移到新的table中
                        Node loHead = null, loTail = null;
                        Node hiHead = null, hiTail = null;
                        Node next;
                        //这里的循环是将链表按照(e.hash & oldCap) == 0,把节点分成两部分,进行了一次rehash lo串的位置与原来相同,hi串的位置为原来位置+oldCap。
                        do {
                            next = e.next;
                            if ((e.hash & oldCap) == 0) {
                                if (loTail == null)
                                    loHead = e;
                                else
                                    loTail.next = e;
                                loTail = e;
                            }
                            else {
                                if (hiTail == null)
                                    hiHead = e;
                                else
                                    hiTail.next = e;
                                hiTail = e;
                            }
                        } while ((e = next) != null);
                        if (loTail != null) {
                            loTail.next = null;
                            newTab[j] = loHead;
                        }
                        if (hiTail != null) {
                            hiTail.next = null;
                            newTab[j + oldCap] = hiHead;
                        }
                    }
                }
            }
        }
        return newTab;
    }

对于rehash这一段,还是有必要讲解一下的。刚开始我是一点都不懂这是干什么玩意呢,后来理解了一下。

因为我们的阈值和容量都会变为原来的2倍。想想一下,如果hash值和原大小相与为0,说明啥?说明了即使阈值和容量变为原来的2倍,索引还是不会变。比较难懂,举个例子:

cap:0000 1111
key1:0000 0000
key2;0000 0101

key1&cap = 0;key2&cap != 0

当我cap变为原来的2倍时,

cap:0001 1111

key1&cap:0000 0000

key2&cap:0001 0101

发现扩容后的key1的索引不变,key2的变了。那么有人会问,为毛key1&cap这个就是索引?其实这里的key是索引,即key.hashcode,那么我这个hashcode&cap=hashcode,这个是没错的。所以才有了以上的种种推断。这个是设计思路,而上面是代码实现。这个设计很巧妙,不用重新计算hashcode,省去了不少时间。

Node链表尾部插入法原因(1.8之前是头部插入法)

并发put导致环形结构,get操作时⽆无限循环。

image-20200603173833618
image-20200603173937989
image-20200603174008821
image-20200603174152896

结果就是造成一个环。

—  —


一键三连「分享」、「点赞」和「在看」

技术干货与你天天见~


浏览 32
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报