结构化数据:
结构化数据是指可以使用关系型数据库表示和存储,表现为二维形式的数据。一般特点是:数据以行为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的。
·数据特点:关系模型数据,关系数据库表示
·常见格式:比如MySQL、Oracle、SQL Server等
·应用场合:数据库、系统网站、数据备份、ERP等
·数据采集:DB导出、SQL等方式
·优缺点:结构化的数据的存储和排列是很有规律的,这对修改和查询等操作很有帮助。但是,它的扩展性不好。
半结构化数据:
半结构化数据是结构化数据的一种形式,它并不符合关系型数据库或其他数据表的形式关联起来的数据模型结构,但包含相关标记,用来分隔语义元素以及对记录和字段进行分层。因此,它也被称为自描述的结构。半结构化数据,属于同一类实体可以有不同的属性,即使他们被组合在一起,这些属性的顺序并不重要。
·数据特点:非关系模型数据,还有一定的格式
·常见格式:比如Email、HTML、XML、JSON等
·应用场合:邮件系统、档案系统、新闻网站等
·数据的采集:网络爬虫、数据解析等方式
·优点:不同的半结构化数据的属性的个数是不定的。有些人说半结构化数据是以树或者图的数据结构存储的数据,标签是树的根节点,和标签是子节点。通过这样的数据格式,可以自由地表达很多有用的信息,包括自我描述信息(元数据)。所以,半结构化数据的扩展性是很好的。
非结构化数据:
就是没有固定结构的数据。各种文档、图片、视频/音频等都属于非结构化数据。对于这类数据,我们一般直接整体进行存储,而且一般存储为二进制的数据格式。
·数据特点:没有固定格式的数据
·常见格式:Word、PDF、PPT、图片、音视频等
·应用场合:图片识别、人脸识别、医疗影像、文本分析等
·数据采集:网络爬虫、数据存档等方式
第1章重点
一堆杂乱无章的数据
常见数据类型与数据采集——非结构化数据
常见数据类型与数据采集——半结构化数据
常见数据类型与数据采集——结构化数据