使用collections库在python中引入高性能数据类型

python

作者：skura

2019/10/18 19:36

python 就像一件艺术珍藏品！

python 最大的优点之一是它可以广泛地选择模块和包。它们将 python 的功能扩展到许多流行的领域，包括机器学习、数据科学、web 开发、前端等等。其中最好的一个优点是 python 的内置 collections 模块。

在一般意义上，python 中的集合是用于存储数据集合（如 list、dict、tuple 和 set）的容器。这些容器直接构建在 python 中，可以直接调用。collections 模块提供额外的高性能数据类型，这些数据类型可以提高代码的性能。

让我们浏览一下 collections 模块最流行的数据类型以及如何使用它们吧！

1.counter

counter 是 dictionary 对象的一个子类。collections 模块中的 counter（）函数接受 iterable，例如 list 或 tuple，并返回计数器字典。字典的键将是 iterable 的唯一元素，每个键的值将是 iterable 中元素的计数。

作为开始，让我们从集合导入计数器数据类型：

from collections import Counter

若要创建计数器对象，请将其分配给变量，这和任何其他对象类是一样的。你唯一想传给它的参数就是你的变量。

lst = [1, 2, 3, 3, 2, 1, 1, 1, 2, 2, 3, 1, 2, 1, 1]
counter = Counter(lst)

如果我们在对象 print（counter）周围使用一个简单的 print 函数来打印计数器，我们会得到一个看起来有点像字典的东西：

Counter({1: 7, 2: 5, 3: 3})

你可以使用其 key 访问任何计数器项，如下所示。这与从标准 python 字典中提取元素的方法完全相同。

lst = [1, 2, 3, 3, 2, 1, 1, 1, 2, 2, 3, 1, 2, 1, 1]
counter = Counter(lst)
print(counter[1])

most_common() 函数

到目前为止，计数器对象最有用的函数是 most_common() 函数。当它应用于计数器对象时，它返回 n 个最常见元素及其计数的列表，按从最常见到最少见的顺序排列。

lst = [1, 2, 3, 3, 2, 1, 1, 1, 2, 2, 3, 1, 2, 1, 1]
counter = Counter(lst)
print(counter.most_common(2))

上面的代码打印出以下元组列表：

[（1，7），（2，5）]

每个元组的第一个元素是列表中唯一的项，每个元组的第二个元素是计数。这是一种简单快捷的方法，比如「获取列表中最常见的前 3 个元素及其计数」。

要了解更多有关计数器功能的信息，请查看官方文档。

2.defaultdict

该函数的工作原理与普通的 python 字典完全相同，额外的好处是当你试图访问一个不存在的键时，它不会抛出错误。

相反，它使用默认值初始化 key。默认值是根据创建 DefaultDict 对象时作为参数传递的数据类型自动设置的。以下面的代码为例。

from collections import defaultdict

names_dict = defaultdict(int)
names_dict["Bob"] = 1
names_dict["Katie"] = 2
sara_number = names_dict["Sara"]
print(names_dict)

在上面的示例中，int 作为默认值传递给 defaultdict 对象。接下来，为每个键定义值，为键「bob」和「katie」定义数值。但在最后一行，我们试图访问一个尚未定义的 key，即「sara」。

在普通字典中，这会抛出一个错误。但是使用 defaultdict，一个新的 key 会自动初始化为「sara」，值为 0，对应于我们的 int 数据类型。因此，最后一行打印出一个包含所有 3 个名称和相应值的字典。

defaultdict（<class'int'>，{'bob'：1，'katie'：2，'sara'：0}）

如果我们用一个类似于这个名称的列表初始化 defaultdict，那么「sara」将用一个空列表 [] 初始化，代码将输出以下内容：

defaultdict（<class'int'>，{'bob'：1，'katie'：2，'sara'：[]}）

要了解更多有关 DefaultDict 功能的信息，请查看官方文档。

3.deque

队列是计算机科学中遵循先进先出（fifo）原则的基本数据结构。简单地说，这意味着添加到队列中的第一个对象也必须是要删除的第一个对象。我们只能在队列前面插入内容，只能从后面删除内容——队列中间不能执行任何操作。

collections 库的 deque 实现了该功能的优化版本。该实现的一个关键特性是保持队列大小，即如果将队列的最大大小设置为 10，则 deque 将根据 fifo 原则添加和删除元素，以保持最大大小为 10。这是目前为止 python 中队列的最佳实现。

让我们从下面这个例子开始吧。我们要创建一个 deque 对象，然后用从 1 到 10 的整数初始化它。

from collections import deque

my_queue = deque(maxlen=10)

for i in range(10):
my_queue.append(i+1)

print(my_queue)

在上面的代码中，我们首先初始化了我们的 deque，指定我们希望它始终保持最大的长度 10。其次，我们通过循环将值插入到队列中。请注意，填充队列的功能与使用常规 python 列表完全相同。最后，我们打印出结果。

deque([1, 2, 3, 4, 5, 6, 7, 8, 9, 10], maxlen=10)

因为我们的队列有一个 maxlen=10，并且我们的循环添加了 10 个元素，所以我们的队列包含从 1 到 10 的所有数字。现在让我们看看当我们增加更多的数字时会发生什么。

for i in range(10, 15):
my_queue.append(i+1)

print(my_queue)

上面的代码中，我们向队列中添加了另外 5 个元素，即从 11 到 15 的数字。但是我们的队列只有 maxlen=10，所以它必须删除一些元素。由于队列必须遵循 fifo 原则，因此它会删除插入队列的前 5 个元素，正是按照它们的插入顺序：[1、2、3、4、5]。print 语句的结果如下：

deque([6, 7, 8, 9, 10, 11, 12, 13, 14, 15], maxlen=10)

要了解更多有关 deque 的信息，请查看官方文档。

4.namedtuple

在 python 中创建常规元组时，其元素是通用的和未命名的。这迫使你记住每个元组元素的确切索引。namedtuple 就是这个问题的解决方案。

namedtuple（）返回一个元组，该元组中每个位置的名称都是固定的，而 namedtuple 对象的名称是通用的。要使用 namedtuple，首先为它创建一个模板。下面的代码创建一个名为「person」的 namedtuple 模板，该模板具有「name」、「age」和「job」参数。

from collections import namedtuple

Person = namedtuple('Person', 'name age job')

创建模板后，可以使用它创建 namedtuple 对象。让我们为 2 个 person 创建 2 个 namedtuple 并打印出他们的表示。

Person = namedtuple('Person', 'name age job')

Mike = Person(name='Mike', age=30, job='Data Scientist')
Kate = Person(name="Kate", age=28, job='Project Manager')

print(Mike)
print(Kate)

上面的代码非常直截了当——我们用 namedtuple 模板的所有属性初始化一个「person」。上面的打印语句将给出以下结果：

Person(name='Mike', age=30, job='Data Scientist')
Person(name='Kate', age=28, job='Project Manager')

因此，namedtuples 允许更大的易用性、可读性和更容易组织元组对象。

要了解 namedtuple 的更多功能，请查看官方文档。

结论

好了，你学完这些啦！接下来你可以使用 collections 库使用 python 中的高性能数据类型了~

如果你渴望更多，别担心！在 python 集合中还有很多东西需要学习，你还需要学习如何最有效地使用它们。作为推荐阅读材料，pymotw 网站是一个很好的选择。如果你想了解更多关于 python 的基础知识，coursera 有一个“Python for Everybody”课程，该课程更侧重于应用程序，快去加入学习吧~

via：https://levelup.gitconnected.com/introducing-high-performance-datatypes-in-python-with-the-collections-library-3d8c334827a5

雷锋网雷锋网雷锋网