深度好文:Python之列表生成式、生成器、可迭代对象与迭代器(二)
作者:云游道士
原文:https://www.cnblogs.com/yyds/p/6281453.html
三、生成器(Generator)
从名字上来看,生成器应该是用来生成数据的。
1. 生成器的作用
按照某种算法不断生成新的数据,直到满足某一个指定的条件结束。
2. 生成器的构造方式
构造生成器的两种方式:
使用类似列表生成式的方式生成 (2*n + 1 for n in range(3, 11))
使用包含yield的函数来生成
如果计算过程比较简单,可以直接把列表生成式改成generator;但是,如果计算过程比较复杂,就只能通过包含yield的函数来构造generator。
说明:Python 3.3之前的版本中,不允许迭代函数法中包含return语句。
3. 生成器构造实例
# 使用类似列表生成式的方式构造生成器
g1 = (2*n + 1 for n in range(3, 6))
# 使用包含yield的函数构造生成器
def my_range(start, end):
for n in range(start, end):
yield 2*n + 1
g2 = my_range(3, 6)
print(type(g1))
print(type(g2))
输出结果:
<class 'generator'>
<class 'generator'>
4. 生成器的执行过程与特性
生成器的执行过程:
在执行过程中,遇到yield关键字就会中断执行,下次调用则继续从上次中断的位置继续执行。
生成器的特性:
只有在调用时才会生成相应的数据
只记录当前的位置
只能next,不能prev
5. 生成器的调用方式
要调用生成器产生新的元素,有两种方式:
调用内置的next()方法
使用循环对生成器对象进行遍历(推荐)
调用生成器对象的send()方法
实例1:使用next()方法遍历生成器
print(next(g1))
print(next(g1))
print(next(g1))
print(next(g1))
输出结果:
7
9
11
Traceback (most recent call last):
File "***/generator.py", line 26, in <module>
print(next(g1))
StopIteration
print(next(g2))
print(next(g2))
print(next(g2))
print(next(g2))
输出结果:
7
9
11
Traceback (most recent call last):
File "***/generator.py", line 31, in <module>
print(next(g2))
StopIteration
可见,使用next()方法遍历生成器时,最后是以抛出一个StopIeration异常终止。
实例2:使用循环遍历生成器
for x in g1:
print(x)
for x in g2:
print(x)
两个循环的输出结果是一样的:
7
9
11
可见,使用循环遍历生成器时比较简洁,且最后不会抛出一个StopIeration异常。因此使用循环的方式遍历生成器的方式才是被推荐的。
需要说明的是:如果生成器函数有返回值,要获取该返回值的话,只能通过在一个while循环中不断的next(),最后通过捕获StopIteration异常
实例3:调用生成器对象的send()方法
def my_range(start, end):
for n in range(start, end):
ret = yield 2*n + 1
print(ret)
g3 = my_range(3, 6)
print(g3.send(None))
print(g3.send('hello01'))
print(g3.send('hello02'))
输出结果:
7
hello01
9
hello02
11
print(next(g3))
print(next(g3))
print(next(g3))
输出结果:
7
None
9
None
11
结论:
next()会调用yield,但不给它传值
send()会调用yield,也会给它传值(该值将成为当前yield表达式的结果值)
需要注意的是:第一次调用生成器的send()方法时,参数只能为None,否则会抛出异常。当然也可以在调用send()方法之前先调用一次next()方法,目的是让生成器先进入yield表达式。
6. 生成器与列表生成式对比
既然通过列表生成式就可以直接创建一个新的list,那么为什么还要有生成器存在呢?
因为列表生成式是直接创建一个新的list,它会一次性地把所有数据都存放到内存中,这会存在以下几个问题:
内存容量有限,因此列表容量是有限的;
当列表中的数据量很大时,会占用大量的内存空间,如果我们仅仅需要访问前面有限个元素时,就会造成内存资源的极大浪费;
当数据量很大时,列表生成式的返回时间会很慢;
而生成器中的元素是按照指定的算法推算出来的,只有调用时才生成相应的数据。这样就不必一次性地把所有数据都生成,从而节省了大量的内存空间,这使得其生成的元素个数几乎是没有限制的,并且操作的返回时间也是非常快速的(仅仅是创建一个变量而已)。
我们可以做个试验:对比一下生成一个1000万个数字的列表,分别看下用列表生成式和生成器时返回结果的时间和所占内存空间的大小:
import time
import sys
time_start = time.time()
g1 = [x for x in range(10000000)]
time_end = time.time()
print('列表生成式返回结果花费的时间:%s' % (time_end - time_start))
print('列表生成式返回结果占用内存大小:%s' % sys.getsizeof(g1))
def my_range(start, end):
for x in range(start, end):
yield x
time_start = time.time()
g2 = my_range(0, 10000000)
time_end = time.time()
print('生成器返回结果花费的时间:%s' % (time_end - time_start))
print('生成器返回结果占用内存大小:%s' % sys.getsizeof(g2))
输出结果:
列表生成式返回结果花费的时间:0.8215489387512207
列表生成式返回结果占用内存大小:81528056
生成器返回结果花费的时间:0.0
生成器返回结果占用内存大小:88
可见,生成器返回结果的时间几乎为0,结果所占内存空间的大小相对于列表生成器来说也要小的多。
四、可迭代对象(Iterable)
我们经常在Python的文档中看到“Iterable”这个此,它的意思是“可迭代对象”。那么什么是可迭代对象呢?
可直接用于for循环的对象统称为可迭代对象(Iterable)。
目前我们已经知道的可迭代(可用于for循环)的数据类型有:
集合数据类型:如list、tuple、dict、set、str等
生成器(Generator)
可以使用isinstance()来判断一个对象是否是Iterable对象:
from collections import Iterable
print(isinstance([], Iterable))
五、迭代器(Iterator)
1. 迭代器的定义
可以被next()函数调用并不断返回下一个值的对象称为迭代器:Iterator。
很明显上面讲的生成器也是迭代器。当然,我们可以使用isinstance()来验证一下:
from collections import Iterator
print(isinstance((x for x in range(5)), Iterator))
输出结果为:True
2. 对迭代器的理解
实际上,Python中的Iterator对象表示的是一个数据流,Iterator可以被next()函数调用被不断返回下一个数据,直到没有数据可以返回时抛出StopIteration异常错误。可以把这个数据流看做一个有序序列,但我们无法提前知道这个序列的长度。同时,Iterator的计算是惰性的,只有通过next()函数时才会计算并返回下一个数据。
生成器也是这样的,因为生成器也是迭代器。
六、Iterable、Iterator与Generator之间的关系
生成器对象既是可迭代对象,也是迭代器: 我们已经知道,生成器不但可以作用与for循环,还可以被next()函数不断调用并返回下一个值,直到最后抛出StopIteration错误表示无法继续返回下一个值了。也就是说,生成器同时满足可迭代对象和迭代器的定义;
迭代器对象一定是可迭代对象,反之则不一定: 例如list、dict、str等集合数据类型是可迭代对象,但不是迭代器,但是它们可以通过iter()函数生成一个迭代器对象。
也就是说:迭代器、生成器和可迭代对象都可以用for循环去迭代,生成器和迭代器还可以被next()方函数调用并返回下一个值。
觉得不错,点个在看呗!