《深入浅出数据科学》的第二章笔记,大致为对书中一些突出的概念进行记录和略微补充,这本书购于大一,但是拖到现在才开始翻看(

数据集分类

结构化数据(organized data)

  • 结构化数据也称作行数据,是由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理

    非结构化数据(unorganized data)

  • 非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、XML, HTML、各类报表、图像和音频/视频信息等等

    半结构化数据(semi-structured data)

  • 半结构化数据具有一定的结构性,它是结构化数据的一种形式,介于完全结构化数据和完全非结构化数据之间,它一般是自描述的,结构与数据相交融,常见的半结构化数据有HTML文档、XML等

    定量数据和定性数据

    定量数据(quantitative)

  • 通常用数字表示,并支持包括加法在内的数学运算,且该运算的结果是有意义的(如邮政编码虽然通常用数字表示,但是两个邮政编码进行数学运算并不能得到一个新的邮政编码,而是一个没有意义的数字)
  • 定量数据可以继续细分为:

    • 离散型(discrete)数据:即不连续数据,指其数值只能用自然数或整数单位计算
    • 连续型(continuous)数据:在一定区间内可以任意取值的变量,其数值是连续不断的,相邻两个数值可作无限分割,即可取无限个数值

      定性数据(qualitative)

  • 在统计学上的包括分类数据和顺序数据,是一组表示事物性质、规定事物类别的文字表述型数据通常用自然类别和文字表示,不支持数字格式和数学运算

    数据的四个尺度

    定类尺度(nominal level)

  • 主要指名称或类别数据,它们通常是无序的、不支持数学运算的,如性别、国际、动物种类等,他们无法用数字表示,因此属于定性数据
  • 作为定性数据,定类尺度中的数据不能进行基本数学运算,因为得到的结果是无意义的,但是等式和集合隶属除外

    测度中心(measure of center)

  • 测度中心是一个描述数据趋势的数值,也被称为数据平衡点(balance point),常见的测度中心有:
    • 平均值、
    • 中位数
  • 定类尺度数据通常使用模(mode)作为测度中心
  • 不采用中位数和平均值作为定类尺度的测度中心,因为定类尺度数据既不能排序也无法相加

    定序尺度(ordinal level)

  • 定序尺度为我们提供了一个可以对观测值进行排序的方法(或者叫等级次序),然而它仍不支持两个观测值间的相对差异,观测值间简单的加减仍然是没有意义的结果,通常定序数据是有自然排序的、支持排序的。
  • 定序尺度数据中最常见的是李克特量表(Likert):

    • 李克特量表(Likert scale)是属评分加总式量表最常用的一种,属同一构念的这些项目是用加总方式来计分,单独或个别项目是无意义的。它是由美国社会心理学家李克特于1932年在原有的总加量表基础上改进而成的。该量表由一组陈述组成,每一陈述有"非常同意"、"同意"、"不一定"、"不同意"、"非常不同意"五种回答,分别记为5、4、3、2、1,每个被调查者的态度总分就是他对各道题的回答所得分数的加总,这一总分可说明他的态度强弱或他在这一量表上的不同状态。
  • 显然,在这个表中各个数字之间的差异并没有实际意义。

    测度中心

    定序尺度通常使用中位数(meidan)表示测度中心,模也是可以使用的,之所以不使用平均值(average),是因为定序尺度数据不支持除法。

    定距尺度(interval level)

  • 定距尺度的数据可以进行有意义的减法运算,而定距尺度和定类尺度最大且唯一的差异就是这个,定距尺度的数据没有自然的起始点或者自然零点,这与下方的定比尺度有着显著不同。比如,零摄氏度不意味着没有温度。

    测度中心

  • 对于定距尺度数据,我们仍然可以使用中位数和模来表示数据的测度中心,但更优选是使用算术平均值(arithmetic mean),通常将其称为"均值(mean)"。

    变差测度

  • 在数据科学中,了解数据分布的广度也同样重要,描述这一现象的度量叫做变差测度(measure of variation),它是一个描述数据分散程度的数字,变差测度和测度中心是描述数据集最重要的两个数字。

    标准差

  • 标准差是定距尺度和更高尺度数据中应用最为广泛的变差测度,标准差可以被理解为"数据点到均值点的平均距离"。

    定比尺度

  • 定比尺度(ratio level)除了支持加法和减法外,还支持乘法和除法,它又被称为比率尺度或比较水平,是对事物之间比值的一种测量,可用于参数与非参数统计推断,通常为非负数,主要特征为:

    • 能区分类别、排序、比较大小、求出大小差异、支持加减乘除运算
    • 与定距不同,定比具有绝对的零点,表示没有或不存在
    • 所有统计量均可对其进行分析

      测度中心

  • 除了算术平均值外,还有一种新均值类型几何平均值(geometric mean),虽然在定比类型中不常使用,但仍值得提及,它是指n个观察值连乘积的n次方根。
Last modification:March 24th, 2020 at 11:50 pm
如果觉得我的文章对你有用,请随意赞赏