继续浏览精彩内容
慕课网APP
程序员的梦工厂
打开
继续
感谢您的支持,我会继续努力的
赞赏金额会直接到老师账户
将二维码发送给自己后长按识别
微信支付
支付宝支付

【九月打卡】第六天 数据分析进阶:统计分析与机器学习

zengxing358
关注TA
已关注
手记 46
粉丝 2
获赞 0

学习课程:Python全能工程师2022版

章节名称:第21周 数据分析进阶:统计分析与机器学习

讲师:DeltaF


课程内容:


SciPy

SciPy是一个开源的Python算法库和数学工具包。

SciPy包含的模块有最优化、线性代数、积分、插值、特殊函数、快速傅里叶变换、信号处理和图像处理、常微分方程求解和其他科学与工程中常用的计算。

pip install scipy

import scipy

scipy.optimize.curve_fit() #拟合曲线


随机变量

http://img2.mukewang.com/631d813000015c9013700727.jpg

概率分布

http://img2.mukewang.com/631d815e00016f4d13690730.jpg

正态分布

自然分布大都呈现正态分布,比如身高、体重、成绩、价格

http://img2.mukewang.com/631d81da0001a69c13720730.jpg

import scipy.stats as st

st.norm.rvs(loc=0,scale=1,size=1000)


统计推断

http://img4.mukewang.com/631d86020001610b17680973.jpg

假设检验

http://img2.mukewang.com/631d86270001a3a817360964.jpg

显著性检验

http://img.mukewang.com/631d8643000131d417480968.jpg

单样本t检验

问题:样本均值与标准t分布是否存在显著性差异

假设(α=0.05)

H0:不存在显著差异

H1:存在小助兴差异


Scikit-Learn

scikit-learn,又写作sklearn,是一个开源的基于python语言的机器学习工具包。它通过NumPy, SciPy和

Matplotlib等python数值计算的库实现高效的算法应用,并且涵盖了几乎所有主流机器学习算法。

sklearn有一个完整而丰富的官网,里面讲解了基于sklearn对所有算法的实现和简单应用。然而,这个官网是全英文的,并且现在没有特别理想的中文接口,市面上也没有针对sklearn非常好的书。

官方文档:https://scikit-learn.org/stable/index.html

pip install sklearn


非监督学习:KMeans

聚类算法,是无监督学习的代表算法之一,其目的是将数据划分成有意义或有用的组(或簇)

作为聚类算法的典型代表,KMeans可以说是最简单的聚类算法没有之一

KMeans算法将一组N个样本的特征矩阵X划分为K个无交集的簇,直观上来看是簇是一组一组聚集在一起的数

据,在一个簇中的数据就认为是同一类。簇就是聚类的结果表现。

簇中所有数据的均值通常被称为这个簇的“质心”(centroids)。在一个二维平面中,一簇数据点的质心的

横坐标就是这一簇数据点的横坐标的均值,质心的纵坐标就是这一簇数据点的纵坐标的均值。同理可推广至高

维空间。


学习收获:

1、对SciPy和Scikit-Learn这2个python包有了进一步理解

2、了解了一些统计学原理


打卡截图:

http://img1.mukewang.com/631d7f3b00015cea18101016.jpg

http://img3.mukewang.com/631d80fc0001569d13690729.jpg




打开App,阅读手记
0人推荐
发表评论
随时随地看视频慕课网APP