《概率论》《数据统计》是机器学习的基石
传统的统计学,受运算能力的限制,所以是用抽样的方式, 抽取一定量的样本然后进行概率统计,然后得到结论之后进行假设检验
统计学受限于计算能力,依赖于采样的方法,再反作用于原来的数据。步骤:抽样-->描述统计-->结论-->假设检验。
现在无需考虑数据量的问题,无需抽样技术,直接全样。可利用可视化技术来观察数据。要进行数据分析,需要先进行量化,用模型拟合规律,函数-->函数曲线-->拟合。高维度时很难用可视化的方法,只能用数学运算。
一、从数据中寻找规律
基石:概率论、数理统计
统计学(计算力不足 ):
抽样 —— 描述 统计—— 假设验证
机器学习(计算力充足):
用模型拟合规律
抽样,描述统计,结论,假设检验
从数据中寻找规律,人们干了几十年、上百年了。基础的学科:概率论和数理统计。
统计学问题:因为计算能力有限,往往采样只采少量数据
从数据中寻找规律
从数据中找规律,其实很难的。但是又必须做。
概率论和数据统计
《概率论》《数据统计》是机器学习的基石
传统的统计学,抽取一定量的样本然后 进行概率统计,然后得到结论 之后进行假设检验
传统的统计学受运算能力的限制,所以是用抽样的方式;
而现在计算能力足够强,就不需要采用抽样的方式了。
做数据分析要对数据进行量化,才方便计算、比较。
传统统计:抽样-描述统计-结论-假设检验-推断
机器学习不受计算量的限制,直接跳过抽样
统计学受限于计算能力,依赖于采样的方法,再反作用于原来的数据。步骤:抽样-->描述统计-->结论-->假设检验。
现在无需考虑数据量的问题,无需抽样技术,直接全样。可利用可视化技术来观察数据。要进行数据分析,需要先进行量化,用模型拟合规律,函数-->函数曲线-->拟合。高维度时很难用可视化的方法,只能用数学运算。
从数据中寻找规律:
传统统计学的处理方式:抽样--描述统计--结论---假设检验
观察数据----用模型刻画(拟合)规律(函数---函数曲线---拟合)
机器学习:利用计算机从历史数据中找到规律,并把这些规律用到对未来不确定场景的决策。
Python机器学习影印版,东南大学出版社
斯坦福公开课机器学习,在网易公开课上可以找到
《数据挖掘概念与技术》、《机器学习实战》、《人工智能及其应用》、《数据库系统概论》、《算法导论》、《Web数据挖掘》、《 Python标准库》、《thinking in Java》、《Thinking in C++》、《数据结构》等
利用模型去拟合规律
传统的统计学
概率论是基石, 统计学去找规律 传统的统计学,抽取一定量的样本然后 进行概率统计,然后得到结论 之后进行假设检验 传统的统计学受运算能力的限制,所以是用抽样的方式; 传统统计:抽样-描述统计-结论-假设检验-推断 求均值 统计学: 抽样, 求均值, 每次结果可能不一样 机器学习: 计算机运算能力已经提高, 可以进行直接运算, 不必抽样 做数据分析要对数据进行量化,才方便计算、比较。
用模型刻画(拟合)规律
函数——函数曲线——拟合
实际解决问题时,几百维,很难用可视化的方法去描述问题
统计学 ——数据处理——采样、抽样;检验。
函数可以是多种形态
机器学习 & 数据分析
从数据中寻找规律
概率论 数据统计:抽样-描述统计-结论-假设检验
用模型刻画(拟合)规律
传统数据分析,受限于计算能力的限制,所以采用抽样而非全量的计算模式,随着计算机的计算能力的发展,产生了大数据
基石为概率论和统计学