手记

【九月打卡】第1天 - 数据诊断

模块一:Python制作数据分析工具 - 2 数据诊断 - Alex Cen

模块二:数据诊断是数据挖掘和机器学习的第一步, 事实上确实也是很重要的基石,需要重新把基础学好.

模块三:必要包 - numpy, pandas, scipy

数据读取用Kaggle,下载网页https://www.kaggle.com/c/santander-customer-satisfaction


数据诊断:最小最大均值中位数;计数类;方差,缺失值;分位点的频数

计数类 先避免缺失值,然后计算所有的独有值,可以用iloc来找到数值

如果需要对多个数组进行操作,可以用pandas里面的lambda函数,返回true/false值,np.sum把true的函数加起来

实际操作时,iloc找合适的时候,可以返回head(3)先看看数列怎么样,再用lambda函数对所有的进行操作apply

模块四:


0人推荐
随时随地看视频
慕课网APP