手记

TipDM数据挖掘建模平台-使用拖拽方式快速构建数据挖掘工程

TipDM数据挖掘建模平台是基于Python引擎、用于数据挖掘建模的开源平台。平台提供数量丰富的数据分析与挖掘建模组件,用户可在没有编程基础的情况下,通过拖拽的方式进行操作,将数据输入输出、数据预处理、挖掘建模、模型评估等环节通过流程化的方式进行连接,帮助用户快速建立数据挖掘工程,提升数据处理的效能。平台的界面如图1所示。

图1 平台界面图

1. 平台简介

TipDM数据挖掘建模平台主要有以下几个特点。

(1) 平台算法基于Python引擎,用于数据挖掘建模。Python是目前最为流行的用于数据挖掘建模的语言之一,高度契合行业需求。

(2) 用户可在没有Python编程基础的情况下,使用直观的可视化图形界面,通过拖拽的方式构建数据挖掘流程,无需编程。

(3) 提供公开可用的数据挖掘示例工程,一键创建,快速运行。支持挖掘流程每个节点的结果在线预览。提供实时日志查看功能,出现问题快速定位。

(4) 提供十大类数十种算法组件,包括数据预处理、统计分析、分类、聚类等常用数据挖掘算法。同时提供Python脚本与SQL脚本,粘贴代码即可运行。

(5) 平台将每个功能模块封装成接口,接口基于标准RESTful设计,可以通过浏览器在线浏览、测试各个接口,方便用户进行二次开发。

平台主要分为模板、数据源、工程和系统组件四个模块。

1.1 模板

登录平台后,用户即可看到系统提供的示例工程(模板),如图2所示。

图2 示例工程(模板)

【模板】主要用于常用大数据挖掘案例的快速创建和展示。通过【模板】,用户可以创建一个无需导入数据及配置参数就能够快速运行的工程。同时,用户可以将自己搭建的数据挖掘工程生成为模板,显示在【首页】,供其他用户一键创建。

1.2 数据源

【数据源】主要用于数据挖掘工程的数据导入与管理,根据情况用户可选择【CSV文件】或者【SQL数据库】。【CSV文件】支持从本地导入CSV类型的数据,如图3所示;【SQL数据库】支持从DB2、SQL Server、MySQL、Oracle、PostgreSQL等关系型数据库导入数据,如图4所示。

图3 数据来源于CSV文件

图4 数据来源于SQL数据库

数据上传成功后,用户可以使用数据分享功能,如图5所示,将搭建工程涉及到的数据分享给其他用户。其他用户可在【共享数据源】内查看到分享给自己的数据,如图6所示,并使用该数据进行分析挖掘。

图5 数据源分享功能

图6 【共享数据源】

1.3 工程

【工程】主要用于数据分析与挖掘流程化的创建与管理,如图7所示。通过【工程】,用户可以创建空白工程,进行数据挖掘工程的配置,将数据输入输出、数据预处理、挖掘建模、模型评估等环节通过流程化的方式进行连接,达到数据分析与挖掘的目的。

图7 平台提供的示例工程

1.4 系统组件

【系统组件】主要用于数据分析与挖掘常用算法组件的管理。组件包括输入/输出、统计分析、预处理、脚本类组件、聚类、分类、回归、时序模型、模型评估和模型预测,共十大类,如图8所示。

(1) 【输入/输出】提供配置数据挖掘工程的输入和输出组件,包括:输入源、输出源。

(2) 【统计分析】提供对数据整体情况进行统计的常用组件,包括:数据探索、纯随机性检验、相关性分析、单样本T检验、正态性检验、双样本T检验、主成分分析、频数统计、全表统计、平稳性检验、因子分析、卡方检验。

(3) 【数据预处理】提供对数据进行清洗的组件,包括:特征构造、表堆叠、记录选择、表连接、新增序列、数据集划分、类型转换、缺失值处理、记录去重、异常值处理、数据标准化、数学类函数、排序、分组聚合、修改列名。

(4) 【脚本】提供一个代码编辑框,用户可以在代码编辑框中粘贴已经写好的程序代码,直接运行,无需再额外配置成组件,包括:Python脚本、SQL脚本。

(5) 【分类】提供常用的分类算法组件,包括:CART分类树、ID3分类树、最近邻分类、朴素贝叶斯、支持向量机、逻辑回归、多层感知神经网络。

(6) 【聚类】提供常用的聚类算法组件,包括:层次聚类、DBSCAN密度聚类、K-Means聚类。

(7) 【回归】提供常用的回归算法组件,包括:CART回归树、线性回归、支持向量回归、最近邻回归、LASSO回归。

(8) 【时间序列】提供常用的时间序列算法组件,包括:ARIMA、GM(1,1)、差分。

(9) 【模型评估】提供对通过分类算法或回归算法训练得到的模型进行评价的组件。

(10) 【模型预测】提供对通过分类算法或回归算法训练得到的模型进行预测的组件。

图8 平台提供的系统组件

​2. TipDM数据挖掘建模平台的本地化部署

通过开源TipDM数据挖掘建模平台官网(http://python.tipdm.org),如图9所示,进入Github或码云开源网站,如图10所示,同步平台程序代码到本地,按照说明文档进行配置部署。

图 9 TipDM数据挖掘建模平台官网

图10 平台程序代码(码云)

平台官网提供了数量丰富的不同行业的解决方案,主要介绍使用平台搭建数据挖掘工程的不同行业的案例,包含【电子商务】【智能设备】【金融保险】等,如图11所示,用户可以根据步骤提示,动手搭建数据挖掘工程。

图 11 【解决方案】

平台官网还提供了详细的帮助资料,包含【操作文档】【常见问题】【操作视频】,如图12所示,用户可以根据这些资料,轻松入门平台的使用。

图12 【帮助中心】

完整步骤,大家可以 进入http://python.tipdm.org,点击“下载文档”查看操作文档。 登陆http://python.tipdm.cn,体验TipDM工程。
0人推荐
随时随地看视频
慕课网APP