【九月打卡】第六天数据分析进阶：统计分析与机器学习-原创手记-慕课网

学习课程：Python全能工程师2022版

章节名称：第21周数据分析进阶：统计分析与机器学习

讲师：DeltaF

课程内容：

SciPy

SciPy是一个开源的Python算法库和数学工具包。

SciPy包含的模块有最优化、线性代数、积分、插值、特殊函数、快速傅里叶变换、信号处理和图像处理、常微分方程求解和其他科学与工程中常用的计算。

pip install scipy

import scipy

scipy.optimize.curve_fit() #拟合曲线

随机变量

概率分布

正态分布

自然分布大都呈现正态分布，比如身高、体重、成绩、价格

import scipy.stats as st

st.norm.rvs(loc=0,scale=1,size=1000)

统计推断

假设检验

显著性检验

单样本t检验

问题：样本均值与标准t分布是否存在显著性差异

假设（α=0.05）

H0：不存在显著差异

H1：存在小助兴差异

Scikit-Learn

scikit-learn，又写作sklearn，是一个开源的基于python语言的机器学习工具包。它通过NumPy, SciPy和

Matplotlib等python数值计算的库实现高效的算法应用，并且涵盖了几乎所有主流机器学习算法。

sklearn有一个完整而丰富的官网，里面讲解了基于sklearn对所有算法的实现和简单应用。然而，这个官网是全英文的，并且现在没有特别理想的中文接口，市面上也没有针对sklearn非常好的书。

pip install sklearn

非监督学习：KMeans

聚类算法，是无监督学习的代表算法之一，其目的是将数据划分成有意义或有用的组（或簇）

作为聚类算法的典型代表，KMeans可以说是最简单的聚类算法没有之一

KMeans算法将一组N个样本的特征矩阵X划分为K个无交集的簇，直观上来看是簇是一组一组聚集在一起的数

据，在一个簇中的数据就认为是同一类。簇就是聚类的结果表现。

簇中所有数据的均值通常被称为这个簇的“质心”（centroids）。在一个二维平面中，一簇数据点的质心的

横坐标就是这一簇数据点的横坐标的均值，质心的纵坐标就是这一簇数据点的纵坐标的均值。同理可推广至高

维空间。

学习收获：

1、对SciPy和Scikit-Learn这2个python包有了进一步理解

2、了解了一些统计学原理

打卡截图：

【九月打卡】第六天 数据分析进阶：统计分析与机器学习