使用空花括号将创建一个字典,而非集合。
为简便起见,本文示例使用整数集合,但集合可包含所有 Python 支持的可哈希hashable[1]数据类型,例如整数、字符串和元组,但不包括列表或字典等可变类型。
>>> s = {1, 'coffee', [4, 'python']} Traceback (most recent call last): File "<stdin>", line 1, in <module> TypeError: unhashable type: 'list'登录后复制
了解了集合的创建方法及其可包含的元素类型后,我们来探讨一下为什么应该将集合纳入你的编程工具箱。
**为什么需要使用集合**编程中,解决问题的方法不止一种。有些方法效率低下,而另一些则清晰、简洁、易于维护,或者更“Pythonicpythonic[2]”。根据 Python Hitchhiker's Guide[3]:
当经验丰富的 Python 开发者遇到不够“Pythonicpythonic”的代码时,通常认为这些代码不符合通用指南,表达意图的方式不够理想。
让我们看看集合如何提升代码可读性并提高程序执行效率。
**集合元素的无序性**集合元素无法通过索引访问:>>> s = {1, 2, 3} >>> s[0] Traceback (most recent call last): File "<stdin>", line 1, in <module> TypeError: 'set' object does not support indexing登录后复制
也无法使用切片修改:
>>> s[0:2] Traceback (most recent call last): File "<stdin>", line 1, in <module> TypeError: 'set' object is not subscriptable登录后复制
但如果需要去除重复项或进行集合运算,则应该使用集合。
迭代时,集合的效率优于列表。原因涉及集合的内部实现细节,感兴趣的读者可以参考以下链接:
时间复杂度[4] set() 的实现[5] Python 集合 vs 列表[6] 列表中使用集合的优缺点[7] **集合不包含重复项**过去,我经常使用 `for` 循环和 `if` 语句来检查并去除列表中的重复元素,代码如下:>>> my_list = [1, 2, 3, 2, 3, 4] >>> no_duplicate_list = [] >>> for item in my_list: ... if item not in no_duplicate_list: ... no_duplicate_list.append(item) ... >>> no_duplicate_list [1, 2, 3, 4]登录后复制
或者使用列表推导式:
>>> my_list = [1, 2, 3, 2, 3, 4] >>> no_duplicate_list = [] >>> [no_duplicate_list.append(item) for item in my_list if item not in no_duplicate_list] [None, None, None, None] >>> no_duplicate_list [1, 2, 3, 4]登录后复制
现在,我们可以使用集合:
>>> my_list = [1, 2, 3, 2, 3, 4] >>> no_duplicate_list = list(set(my_list)) >>> no_duplicate_list [1, 2, 3, 4]登录后复制
使用 timeit 模块比较列表和集合去除重复项的效率:
>>> from timeit import timeit >>> def no_duplicates(list): ... no_duplicate_list = [] ... [no_duplicate_list.append(item) for item in list if item not in no_duplicate_list] ... return no_duplicate_list ... >>> # 列表的执行时间: >>> print(timeit('no_duplicates([1, 2, 3, 1, 7])', globals=globals(), number=1000)) 0.0018683355819786227登录后复制
>>> from timeit import timeit >>> # 集合的执行时间: >>> print(timeit('list(set([1, 2, 3, 1, 2, 3, 4]))', number=1000)) 0.0010220493243764395 >>> # 更快更简洁登录后复制
使用集合比列表推导式更简洁,效率更高。
注意:集合是无序的,转换为列表后元素顺序可能发生变化。
Python 之禅[8]:
优美胜于丑陋Beautiful is better than ugly.
明了胜于晦涩Explicit is better than implicit.
简洁胜于复杂Simple is better than complex.
扁平胜于嵌套Flat is better than nested.
集合正是如此。
**成员测试**使用 `if` 语句检查元素是否存在于列表中,称为成员测试:my_list = [1, 2, 3] >>> if 2 in my_list: ... print('Yes, this is a membership test!') ... Yes, this is a membership test!登录后复制
集合的成员测试效率更高:
>>> from timeit import timeit >>> def in_test(iterable): ... for i in range(1000): ... if i in iterable: ... pass ... >>> timeit('in_test(iterable)', ... setup="from __main__ import in_test; iterable = list(range(1000))", ... number=1000) 12.459663048726043登录后复制
>>> from timeit import timeit >>> def in_test(iterable): ... for i in range(1000): ... if i in iterable: ... pass ... >>> timeit('in_test(iterable)', ... setup="from __main__ import in_test; iterable = set(range(1000))", ... number=1000) .12354438152988223登录后复制
注意:以上测试来自 StackOverflow[9]。
对于大型列表,将其转换为集合可以提高成员测试效率。
**如何使用集合**了解了集合及其用途后,我们来快速浏览一下集合的修改和操作方法。 **添加元素**根据需要添加的元素数量,选择 `add()` 或 `update()` 方法。add() 用于添加单个元素:
>>> s = {1, 2, 3} >>> s.add(4) >>> s {1, 2, 3, 4}登录后复制
update() 用于添加多个元素:
>>> s = {1, 2, 3} >>> s.update([2, 3, 4, 5, 6]) >>> s {1, 2, 3, 4, 5, 6}登录后复制
集合会自动去除重复元素。
**移除元素**如果需要在删除不存在的元素时引发异常,使用 `remove()`;否则,使用 `discard()`:>>> s = {1, 2, 3} >>> s.remove(3) >>> s {1, 2} >>> s.remove(3) Traceback (most recent call last): File "<stdin>", line 1, in <module> KeyError: 3登录后复制
discard() 不会引发异常:
>>> s = {1, 2, 3} >>> s.discard(3) >>> s {1, 2} >>> s.discard(3) >>> # 无任何操作登录后复制
pop() 用于随机移除一个元素:
>>> s = {1, 2, 3, 4, 5} >>> s.pop() # 移除一个任意元素 1 >>> s {2, 3, 4, 5}登录后复制
clear() 用于清空集合:
>>> s = {1, 2, 3, 4, 5} >>> s.clear() # 清空集合 >>> s set()登录后复制 **并集 `union()`**`union()` 或 `|` 操作符创建包含所有元素的新集合:
>>> s1 = {1, 2, 3} >>> s2 = {3, 4, 5} >>> s1.union(s2) # 或 's1 | s2' {1, 2, 3, 4, 5}登录后复制 **交集 `intersection()`**`intersection()` 或 `&` 操作符返回集合的公共元素:
>>> s1 = {1, 2, 3} >>> s2 = {2, 3, 4} >>> s3 = {3, 4, 5} >>> s1.intersection(s2, s3) # 或 's1 & s2 & s3' {3}登录后复制 **差集 `difference()`**`difference()` 或 `-` 操作符创建新集合,包含在 `s1` 中但在 `s2` 中不存在的元素:
>>> s1 = {1, 2, 3} >>> s2 = {2, 3, 4} >>> s1.difference(s2) # 或 's1 - s2' {1}登录后复制 **对称差集 `symmetric_difference()`**`symmetric_difference()` 或 `^` 操作符返回集合中不同的元素:
>>> s1 = {1, 2, 3} >>> s2 = {2, 3, 4} >>> s1.symmetric_difference(s2) # 或 's1 ^ s2' {1, 4}登录后复制 **结论**本文介绍了 Python 集合的概念、操作方法和应用场景。熟练掌握集合的使用可以编写更清晰、更高效的代码。
如有任何疑问,请随时提出。此外,Python 速查表[10]中也包含了集合的相关内容[11],方便查阅。