这里是 week 2-2的笔记,数值摘要听着很熟悉,Z分数好像也在统计学课本中存在过,一起来看看吧

Start with Me | Coursera - Understanding and Visualizing Data with Python week 2-2 - Numerical Summaries and Standard Score

又是 week2 ,这次 week2 的更新会分为几次?

Quantitative Data: Numerical Summaries

5 Number Summary:

  • Min
  • 1st Quartile
  • Median
  • 3rd Quartile
  • Max

IQR = Q3 - Q1

Numerical Summaries are used alongside our graphical representation of data to give a first impression of what our data looks like.

Depending on the software you are using you may get slightly different numerical summaries.

数值数据 : 数值总结/数值摘要

week2-1 对成年男子身高直方图的形状、中心、离散程度和离群值进行了讨论,但是都是比较粗略的描述,而通过数值总结可以对数据有一个明确的描述,精确到小数点,

任何软件中,通常都可以看到五个数字的摘要:

  • 最小值

  • 第一四分位数 Q1 [25%] 25%的数据低于这个值

  • 中位数 [50%]

  • 第三四分位数 Q3 [75%] 75%的数据低于这个值

  • 最大值

成年男子的身高数值摘要

  • 最小值 61.7

  • Q1 第一四分位数 66.5,在这个研究中,25%的人身高是在66.5或以下

  • 中位数 68.3,在研究中,有一半参与者是小于68.3,一半是高于68.3

  • 平均值 68.3, 与中位数一样是因为这是一个对称分布

  • Q3 第三四分位数 70.1,75%的数据在70.1以下,25%的数据在70.1以上

  • 最大值 75.1

  • IQR 四分位数范围

    IQR = Q3 - Q1

    • 上例中,IQR = 70.1 - 66.5 = 3.6
    • 如果不想使用全距Range,也可以使用IQR

旧金山的工资数值摘要

更常见的Python形式的数据

Python 中的 scribe 函数,经常被用来获取数值摘要

  • Min 最小值 Min = $ -618.1

    工资最小值是负数,可能因为工资拖欠(

  • 25% 第一四分位数 Q1 = $ 36169

  • 50% 中位数 Median = $ 71427

  • 75% 第三四分位数 Q3 = $ 105839

  • Max 最大值 Max = $ 567595

  • Mean 平均值 Mean = $ 74768

    实际平均工资为74768美元,与中位数71427相比,平均值比中位数多了3000+美元,所以旧金山工资分布是右偏的

  • SD 标准差 SD = $ 50517

    平均一个人将比平均值高或低50517美元

  • n 样本数 n = 148654

    148654个样本

  • IQR = Q3 - Q1 = 69670

考试成绩的数值摘要

  • 最小值 Min = 14.0

  • 第一四分位数 Q1 = 68.0

  • 中位数 Median = 78.0

  • 第三四分位数 Q3 = 87.0

  • 最大值 Max = 100.0

  • 平均值 Mean = 76.3

    中位数 > 平均值,左偏分布(因为低端有离群值,所以平均值被拉向低端,而中心值不受离群值的影响)

  • 标准差 Standard dev = 14.4

    平均来说,一个学生在这次考试中的分数离平均值大约有14.4分的差距

  • 样本数 n = 1802.0

  • IQR = Q3 - Q1 = 19

    左偏/右偏分布时,加上 IQR 估计是更好的形式,可以让用户了解大部分数据在什么范围

数值摘要总结

图形的表示通常是粗略的,而数字摘要可以进行更深入的分析

根据使用的软件不同,通常会得到稍微不同的数字摘要

有的可能只有五个总结,有的会加上样本量、标准差、平均值

Standard Score

  • SD
    • the standard deviation is going to measure how far away our values are from the mean.
    • We like to interpret it as roughly the average distance that our values are from the mean.
  • 68-95-99.7 Rule

标准分数 / Z分数 / 标准化值

Z分数是一个数与平均值的差再除以标准差的过程

Z = (Observation - Mean) / SD

Z分数可以回答这样一个问题:"一个给定分数距离平均数多少个标准差?"

在平均数之上的分数会得到一个正的标准分数,在平均数之下的分数会得到一个负的标准分数

Z分数是一种可以看出某分数在分布中相对位置的方法

正态分布与Z分数的关系

案例 : 大学生每天的睡眠时间

由上图可知:

  • 这是一个正态分布,x轴表示睡眠时间

  • 标准差 SD = 1.7 h

    衡量数值与平均值的距离,大学生睡眠时间与平均值相差1.7小时

  • 平均值 Mean = 7h

  • 68-95-99.7 原则

    68–95–99.7原則是在正态分布中,距平均值小于一个标准差、两个标准差、三个标准差以内的百分比,更精确的数字是68.27%、95.45%及99.73%

    • 大约 68% 的观测值在5.3 h - 8.7 h范围,即 [Mean - SD, Mean + SD]
    • 大约 95% 的观测值在3.6 h - 10.4 h范围,即 [Mean - 2SD, Mean + 2SD]
    • 大约 99.7% 的观测值在1.9 h - 12.1 h范围,即 [Mean - 3SD, Mean + 3SD]
  • A同学每天睡眠时间是10 h

    • A同学的睡眠时间10 h 比平均值多3 h
    • 但是计算Z分数是一个更好的衡量方式
    • Z = (Observation - Mean) / SD =(10 - 7)/1.7 = 1.76
    • 1.76 表明略高于平均值
  • B同学每天睡眠时间是6h

    • Z = (6 - 7) / 1.7 = -0.59
    • 负号表明低于平均值
    • 0.59表明只是稍微低于平均值,离平均值并不远
  • C同学的Z分数是 -2.7,那么他每天睡眠时间是?

    • -2.7 = (x - 7) / 1.7
    • x = 2.41 h
    • C同学的睡眠时间是2.41 h

了解了数值摘要还有Z分数,今天有人给你讲解 68-95-99.7 原则了吗