学习Java Collection Framework的Iterator实现
/ 13 min read
继续研读JDK的源码,在比较HashMap
和ConcurrentHashMap
的不同之处发现了一个细节——关于Iterator
的实现的不同,其实HashMap
和ConcurrentHashMap
还有更多不同的地方,这也是面试经常问到的问题,有一篇文章我觉得讲的很好了,Java进阶(六)从ConcurrentHashMap的演进看Java多线程核心技术。
Iterator是一种设计模式,在Java Collection Framework
中经常作为容器的视图(view),大多数时候只支持删除、不支持增加,提供统一的接口方法等特点。在Java Collection Framework
的Iterator
实现中大多数是fast-fail
方式的,而支持并发的容器数据结构则没有这个限制。
非并发数据结构的情况
常见的使用方法
1)使用Iterator遍历字符串列表
这种做法是for..each的语法的展开形式
2)使用Iterator遍历LinkedList
3) 使用Iterator遍历HashMap
非并发数据结构Iterator的实现
1)ArrayList中的Iterator
list中的结构是顺序的,Iterator既然是List的视图,那它也表现了相同的顺序。
ArrayList获得Iterator,
源码,
Itr
是ArrayList
的一个内部类,它能使用宿主类的成员变量,事实上Itr
反映了ArrayList的内部情况,使用了size
、expectedModCount
和elementData
等属性。通过游标cursor的方式不断往前递进,只要游标小于size就说明依然还有元素可以访问。
应该看到的是,在调用了new Iterator()
之后,可以看做Itr
对ArrayList
做了快照,这里的快照并不是很严格,是基于modCount
比较来实现的。它在初始化时备份了modCount
的值,保存为私有的变量expectedModCount
。
首先Iterator
接口并没有诸如add的方法,即不能通过Iterator来为容器增加元素;
其次,如果有其他线程变化了容器的结构(structural modification),那么ArrayList.this.modCount
的值会发生改变,那么在Itr
执行next或者remove方法时会判断出来modCount != expectedModCount
的情况,从而抛出异常fast-fail
。
再次,如果执行了Itr
的remove方法,它能够调用ArrayList.this.remove
的方法,然后修正游标和expectedModCount
等。
2)LinkedList中的Iterator
LinkedList
的Iterator
和ArrayList
中的有一些类似的地方。
首先,LinkedList
的iterator入口方法其实是AbstractSequentialList
抽象类中,
而这个ListIterator
是一个接口,它被LinkedList$ListItr
实现,
LinkedList
的Iterator
要比ArrayList
中的复杂一些,它更支持了add等方法;
类似原来游标的遍历方式,基于size
、expectedModCount
等比较逻辑依然存在,只不过遍历的方式不是原来的下标增进,而是节点之间的next指针来实现。
3)HashMap中的Iterator
HashMap
有多个view视图,keySet
, values
, entrySet
,这里分析下entrySet
这个视图,另外两个原理和entrySet
视图的差不多。
EntrySet的iterator方法中调用了newEntryIterator
,将构造EntryIterator
实例,
EntryIterator
源码
EntryIterator
继承了HashIterator
类,复用了父类的大部分方法,只是覆盖了next方法。
HashIterator
源码,
由于HashMap的结构并不是顺序的,在执行Iterator.next方法时不能通过next指针或下标的方式直接找到下一个元素,HashIterator
为了能达到这个目的,在构造函数和nextEntry
方法中预先做了advance
处理。
构造函数中预先在HashMap的table数组找到第一个头结点不为null的元素;
(next = t[index++]) == null
的写法有点迷惑性,不考虑HashMap为空的情况,index自增停在next != null
的情况,即 next = t[index-1], index已经往前一步了;
在nextEntry中如果发现e.next是null,此时表示table这个数组元素的链表遍历结束了,需要跳到下一个头节点不为空的元素继续遍历,而index刚好往前一步了,此时继续执行
假设next[index]不为空,那么下一个遍历的数组元素头节点找到,并且index已经自增了。
并发数据结构的情况
以ConcurrentHashMap
为例,看ConcurrentHashMap$HashInteraotr
的实现
这里能看到ConcurrentHashMap的segment分段因素所在,在构造函数中指定了最后一个segment数组元素,然后做advance处理,也是从后往前处理的。首先找到不为null的分段segment,然后才是在segment的table数组中找到不为null的元素,这都是从后往前“前进”的。
而与HashMap不同的地方,ConcurrentHashMap的Iterator并不是fast-fail
的,它并没有判断modCount;除此之外还应该看到它对nextEntry
的处理,在advance的方法调用以下两个方法,
它们都是调用了UNSAFE.getObjectVolatile
方法,利用了volatile access的方式,相较于上锁的方式性能更好。
番外篇
JavaScript实现的Iterator的例子
这个例子来自MDN的文档,做法比较简洁,迭代器
可以考虑给这个makeIterator
的返回值加上hasNext
属性,
JavaScript利用了闭包实现了Iterator和Java利用内部类实现有相似的地方。
总结
Iterator的主要目的还是为了表现底层数据结构的所有元素,提供一种统一的遍历方式。在不同的数据结构需要针对不同语义做出改动,像LinkedList
的支持add方法,像ConcurrentHashMap
和HashMap
的advance
处理,像ConcurrentHashMap
那样不判断modeCount
而使用volatile access
等。