前言
首先来看一段代码
x_list = [i for i in range(30)]
y_list = [i for i in range(10, 20)]
for y in y_list:
x_list = filter(lambda a: a != y, x_list)
x_list = list(x_list)
print(x_list)
print(len(x_list))
这段代码会输出什么呢?
正确答案是一个长度为29的List。
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29]
29
但是实际上,上述代码我们想要表达的意图是从x_list中剔除所有在y_list中的元素。为什么在实际情况下,最终只会剔除一个元素呢?这主要与Python的作用域机制有关。
Python作用域机制
Python与其他语言不同,Python没有循环作用域这个说法。Python的作用域遵循LEGB原则。
L, local – 在lambda函数内或者def函数内部的变量
E, Enclosing-function – 闭包的作用域
G,Global – 全局作用域
B, Build-in – 内建作用域
为了证明Python没有循环作用域,可以通过下面一段代码验证
for i in range(10):
pass
print(i)
运行代码,发现可以正常运行,运行结果i==9。由此可以证明Python不存在循环作用域,循环变量属于全局作用域。
基于上述结论,就可以很好地说明为什么上述的filter函数最终只去掉了一个元素。
因为filter函数是一个惰性函数,因此在循环过程中并不会进行实际运算,而当循环完成,需要实际输出的时候,此时全局作用域环境下的i已经变为了一个固定值19,因此最终只有19可以从x_list中去掉。
解决方案——闭包
面对上述问题,我们有两个解决方案。
第一个解决方案——避免惰性求值。可以发现,问题的根源在于filter函数是一个惰性求值函数,因此造成了这个问题。可以通过强制求值运算,强制每一次循环都进行filter操作,从而实现正常的筛选操作。代码如下所示。
x_list = [i for i in range(30)]
y_list = [i for i in range(10, 20)]
for y in y_list:
x_list = list(filter(lambda a: a != y, x_list))
x_list = list(x_list)
print(x_list)
print(len(x_list))
第二个解决方案——闭包。有时候我们不想放弃惰性求值这个特性,那么我们就需要引入更高级的函数式编程思想——闭包。
因为Python支持函数式编程语法,可以将函数作为变量,因此可以很容易的实现闭包特性。
x_list = [i for i in range(30)]
y_list = [i for i in range(10, 20)]
def check(a, b):
print('check')
return a != b
for y in y_list:
def x_filter(y):
global x_list
x_list = filter(lambda x: check(x, y), x_list)
x_filter(y)
print('loop')
x_list = list(x_list)
print(x_list)
print(len(x_list))
上面的代码为了证明惰性求值的有效性,因此稍微繁琐了一些。在实际场景中,check函数可以直接写成lambda函数的形式。
闭包之所以能解决循环作用域问题,是因为闭包有独立的作用域。因此即便是惰性求值,但是由于闭包作用于已经将临时变量进行了存储,因此依然可以正确进行筛选操作。
总结
Python与其他编程语言不同,不存在循环临时作用域,因此在某些场景下会出现与其它编程语言结果不一致的BUG。面对这种情况,我们一般可以通过两种方式来解决:1.避免惰性求值 2.使用闭包来保存循环临时变量