1.学习Python for Data Science:基础知识
要进入Python for Data Science世界,您不需要像自己的孩子那样了解Python。只是基础就足够了。
2.设置你的机器
为了配合Python for Data Science,我们建议使用Anaconda。它是用于大规模数据处理,预测分析和科学计算的Python和R编程语言的免费增值开源发行版。您可以从Continuum.io下载它。Anaconda拥有您使用Python进行数据科学之旅所需的一切。
3.学习正则表达式
如果您处理文本数据,正则表达式将在数据清理时派上用场。它是从记录集,表或数据库中检测和纠正损坏或不准确记录的过程。它识别数据的不完整,不正确,不准确或不相关的部分,然后替换,修改或删除脏数据。我们将在后面的教程中详细讨论正则表达式。
4.用于数据科学的Python基本库
就像我们提到的,有一些用Python的库用于数据科学之旅。库是一组预先存在的函数和对象,您可以将其导入脚本以节省时间和精力。在这里,我们列出了您不想放弃的重要库,如果您想通过数据科学去Python的任何地方。
Python for Data Science - Python库
一个。NumPy的
NumPy有助于简单有效的数值计算。它还有许多其他库。确保学习NumPy数组。
湾 熊猫
建立在NumPy之上的一个图书馆是熊猫。它与数据结构和探索性分析相结合。它提供的另一个重要功能是DataFrame,这是一个二维数据结构,具有可能不同类型的列。熊猫将成为您一直需要的最重要的图书馆之一。
C。SciPy的
SciPy将为您提供科学和技术计算所需的所有工具。它具有优化,线性代数,积分,插值,特殊函数,FFT,信号和图像处理,ODE求解器和其他任务的模块。
d。Matplotlib
Matplotlib是一个灵活的绘图和可视化库,功能强大。但是,它很麻烦,所以,你可能会选择Seaborn。
即 scikit学习
scikit-learn是机器学习的主要库。它具有用于预处理,交叉验证和其他此类目的的算法和模块。一些算法处理回归,决策树,集合建模和非监督学习算法,如聚类。
F。Seaborn
使用Seaborn,绘制通用数据可视化比以往更容易。它建立在Matplotlib之上,提供更舒适,高级的包装。您应该学习有效的数据可视化。
5.项目和进一步学习
要真正了解技术并学习Python用于数据科学,您必须在其中构建一些东西。很可能,你会遇到困难,每次遇到困难,你都会找到自己的出路。从互联网上可用的问题开始,并建立您的技能。然后,提出自己的问题,并定义和解决它们。
作者:大数据首席数据师
链接:https://www.jianshu.com/p/15640aaaf098