Pandas 时间序列概述
1. 前言
上节我们学习了 Pandas 用于统计描述的常用操作方法,为我们数据分析提供了编辑的操作。我们前面接触到的数据类型有缺失值、字符串型、数值型,也学习了这些数据的常用的处理和分析方法,除了这些数据类型,我们实际应用中还有一类数据,那就是时间,那在 Pandas 库中,时间数据又是怎么样表示的呢?
这节我们就一起来学习 Pandas 库中一种重要的结构化数据形式 —— 时间序列。
2. 时间序列对比
学习过 python 的同学都应该知道,在原生的 python 语言中,就有关于日期、时间的表示方式,最简单的就是通过 datetime 日期和时间处理包创建日期时间对象,或者结合第三方的日期时间处理模块,如 dateutil ,可以方便的对日期和时间数据进行处理分析,虽然他们用起来简单易懂,但在较为复杂的数据结构中,对于时间的处理功能就不能很好胜任了。
在此基础上,NumPy 团队开发优化了时间序列数据,提出了 datetime64 数据类型,因此有效的提升了复杂数据结构在时间序列处理过程中的效率和精度问题,但该数据类型在操作过程中却没有那么简便和灵活。而 Pandas 库对于时间和日期的处理,正是结合了他们的优点,不仅操作起来简单便捷,还提供了丰富的操作方法,使得时间序列的处理能力上较为强大。
3.Pandas 中的时间序列
实际数据分析中,时间是我们经常用到的数据量,如具体时间点,某个时间段,不同的应用场景,时间序列的数据表现形式不一样,比如金融领域股票价格随时间变化的波动,某个时间点的天气温度,化学元素的衰变周期等,Pandas 库中根据实际应用的时间数据特点,将时间序列主要分为了三种:
时间戳 (Timestamp):表示具体的某个时间点,比如 2021 年 01 月 04 日 12 点 11 分 46 秒;
时间间隔 (Period):由具体的开始和结束时间,比如 2020 年 11 月 1 日 ——2020 年 11 月 28 日;
持续时长 (Timedeltas):是一个特定的时间长度,比如 10 秒钟。
4. 小结
本节课程我们主要学习了 Pandas 库中时间序列的优势,以及认识了 Pandas 库中的常用的三种序列类型。本节课程的重点如下:
- Pandas 库中的常用的三种序列类型和他们的特点。