好好学一下统计学,这系列主要是记一下《商务与经济统计》的每章笔记与个人简单的理解,自强吧

  • 个体(elements):搜集数据的实体,一般是指数据集表格中的第一列
  • 变量(variable):是个体中所感兴趣的那些特征,一般是数据集表格中除第一列之外的列
  • 观测值(observation):数据集中每个个体的测量值的集合。观测值的个数总是与个体的个数一致,每个个体的测量值个数等于变量个数,因此数据项的总数个体的个数乘以变量的个数
  • 总体(population):一个特定研究中所有感兴趣的个体组成的集合
  • 样本(sample):样本是总体的一个子集
  • 测量尺度:
    • 名义尺度(nominal scale):是指用数据的标记或名称来识别个体属性的一种变量尺度,名义数据既可以是非数值型的也可以是数值型的
    • 顺序尺度(ordinal scale):具有名义数据的性质,并且数据的顺序或等级是有意义的一种变量测量尺度。顺序数据既可以是非数值型的也可以是数值型的
    • 间隔尺度(interval scale):具有顺序数据的性质,并且可以按某一固定度量单位标识数值间的间隔的一种变量测量尺度。间隔数据永远都是数值型的
    • 比率尺度(ratio scale):具有所有间隔数据的性质,并且两个数值之比是由意义的一种变量测量尺度。比率数据永远都是数值型的。比率尺度需要有一个零值,表示什么都不存在,比如考虑汽车成本,零值代表汽车没有成本或免费。另外如果我们比较成本为30000美元和15000美元的汽车,比率值30000/15000=2,表示前者是后者的成本的两倍
  • 分类型数据和数量型数据
    • 分类型数据:用于识别每一个个体属性的标记或名称。分类型数据既可以用名义尺度度量,也可以使用顺序尺度度量,既可以是非数值型也可以是数值型的
      • 分类变量:用分类型数据表示的变量
    • 数量型数据:表示事物大小或多少的数值。数量型数据既可以用间隔尺度度量也可使用比率尺度度量。可以是离散的也可以是连续的,区分连续和离散数据的关键在于数据可不可数,可数的数据是离散的
      • 数量变量:用数量型数据表示的变量
  • 截面数据和时间序列数据
    • 截面数据(cross-sectional data):在相同或近似相同的同一时间节点上搜集的数据
    • 时间序列数据(time series data):在几个时期内搜集的数据
  • 观测性研究和实验
    • 观测性研究:仅观测发生了什么,记录一个或多个感兴趣变量的数据,并对结果数据进行统计分析。关键在于武松们没有办法去选择个体的条件
    • 实验:与前者最大的不同是,实验是在控制条件下进行的,因此,从设计好的实验中得到的数据通常比现有来源或进行观测性研究得到的数据包含更多信息
  • 描述性统计(descriptive statistics):将数据以表格、图形或数值形式汇总的统计方法被称为描述性统计
  • 普查(census):搜集总体全部数据的调查过程
  • 抽样调查(sample survey):搜集样本数据的调查过程
  • 统计推断(statistical inference):利用样本数据估计或对总体特征进行假设检验的过程
  • 逻辑分析方法(analytics):将数据转化为做出好决策的科学过程
    • 预测性分析(predictive analytics):利用过去数据建立的模型来预测未来或评估一个变量对另一个变量的影响的分析技术合集
    • 描述性分析(descriptive analytics):包含描述过去发生状况的分析技术合集
    • 规范性分析(prescriptive analytics):产生一个最佳行动过程的分析技术合集


总结:数据是指搜集和分析的事实和数字,我们可以通过观测性研究和实验以及网络来源获得数据,而为了有效取得一个特定变量的数据,我们可以使用不同的测量尺度。在取得数据后,我们需要进行统计分析,不同数据所使用的统计分析方法也不同,大体可分为分类型数据数量型数据(有时候为了方便统计分析,我们也会对截面数据时间序列数据进行区分)。在确定数据类型之后,我们可以使用描述统计使用表格、图形等方法汇总数据,然后使用统计推断对数据进行预估,接着视业务而确定使用何种逻辑分析方法驱动决策。

Last modification:April 16th, 2021 at 01:10 am
如果觉得我的文章对你有用,请随意赞赏