手记

【九月打卡】第六天 数据分析进阶:统计分析与机器学习

学习课程:Python全能工程师2022版

章节名称:第21周 数据分析进阶:统计分析与机器学习

讲师:DeltaF


课程内容:


SciPy

SciPy是一个开源的Python算法库和数学工具包。

SciPy包含的模块有最优化、线性代数、积分、插值、特殊函数、快速傅里叶变换、信号处理和图像处理、常微分方程求解和其他科学与工程中常用的计算。

pip install scipy

import scipy

scipy.optimize.curve_fit() #拟合曲线


随机变量

概率分布

正态分布

自然分布大都呈现正态分布,比如身高、体重、成绩、价格

import scipy.stats as st

st.norm.rvs(loc=0,scale=1,size=1000)


统计推断

假设检验

显著性检验

单样本t检验

问题:样本均值与标准t分布是否存在显著性差异

假设(α=0.05)

H0:不存在显著差异

H1:存在小助兴差异


Scikit-Learn

scikit-learn,又写作sklearn,是一个开源的基于python语言的机器学习工具包。它通过NumPy, SciPy和

Matplotlib等python数值计算的库实现高效的算法应用,并且涵盖了几乎所有主流机器学习算法。

sklearn有一个完整而丰富的官网,里面讲解了基于sklearn对所有算法的实现和简单应用。然而,这个官网是全英文的,并且现在没有特别理想的中文接口,市面上也没有针对sklearn非常好的书。

官方文档:https://scikit-learn.org/stable/index.html

pip install sklearn


非监督学习:KMeans

聚类算法,是无监督学习的代表算法之一,其目的是将数据划分成有意义或有用的组(或簇)

作为聚类算法的典型代表,KMeans可以说是最简单的聚类算法没有之一

KMeans算法将一组N个样本的特征矩阵X划分为K个无交集的簇,直观上来看是簇是一组一组聚集在一起的数

据,在一个簇中的数据就认为是同一类。簇就是聚类的结果表现。

簇中所有数据的均值通常被称为这个簇的“质心”(centroids)。在一个二维平面中,一簇数据点的质心的

横坐标就是这一簇数据点的横坐标的均值,质心的纵坐标就是这一簇数据点的纵坐标的均值。同理可推广至高

维空间。


学习收获:

1、对SciPy和Scikit-Learn这2个python包有了进一步理解

2、了解了一些统计学原理


打卡截图:




0人推荐
随时随地看视频
慕课网APP