不知不觉终于到了 week2 ,频率表、条形图、饼图还有直方图,你 pick 哪一个

Start with Me | Coursera - Understanding and Visualizing Data with Python week 2-1 - Tables、Bar Chart、Pie Chart、Histograms

终于有了新的进度,开启 week2 啦

Categorical Data : Tables, Bar Charts & Pie Charts

About categorical data and the different ways we can summarize and view it.

  • Frequency Table -- Great for numerical summaries

    • Counts

    • Percentages

  • Bar Chart -- Great for visualization

  • Pie Chart

分类数据

  • 分类数据只是将个人/项目分为不同的组别

上图是以六个不同个体和他们的婚姻状况为例,对婚姻状况进行分组,编码:

1:已婚

2:丧偶

3:离婚

4:分居

5:从未结婚

6:与伴侣同居

7:拒绝

8:不知道

频率表

  • 总结这些数据时,最常见的方法是用 频率表 , 可以是计数,也可以是百分比
  • 在这个频率表中,对不同婚姻状况类别进行相应的计数,以及这些类别相应的百分比
    • 总共调查了5560个样本
    • 有2683人已婚,占比48.3% = 2683/5560
    • 有467人丧偶,占比8.4% = 467/5560

条形图/柱状图

  • 显示分类数据时,最常用的方法是 条形图 , 可以是计数,也可以是百分比
  • 这个条形图展现了不同婚姻状态的人数
    • x 轴为婚姻状态,有八类不同的婚姻分类
    • y 轴为每一类婚姻状态对应的频数/总数
    • 第一个条形表明了数据集中有2683人已婚
  • 这个条形图展现了不同婚姻状态的比例
    • x 轴为婚姻状态
    • y 轴为每一类婚姻状态对应的百分比
    • 第一个条形表明了数据集中有48.3%人已婚
  • 按照降序重新排列条形图

  • 这对于研究哪个群体在调查中所占比例最大更有帮助

  • 可以看出,已婚、从未结婚、离婚是占比最高的三类

  • 对于名义分类变量,可以用更有用的方式重新排列条形图

饼图

不推荐使用饼图的原因:

  • 有时对于非常非常小的切片来说,会有重叠,其中“拒绝”和“不知道”标签相互重叠,难以阅读
  • 如果没有使用适当的标签,就很难看出饼图的哪一块比其他的大,“丧偶”、“离婚”、“与伴侣同居”都非常相似,如果没有标记百分比,可能就不知道哪个部分在整个图表中占比例更大
  • 尽量少使用饼图,多使用条形图

总结

对于分类数据:

  • 最好的总结方法是频率表,要么是计数,要么是百分比,或两者都有
  • 条形图也是一个很好的可视化方法,同样是用计数/百分比
  • 如果选择使用饼图,请谨慎使用

Quantitative Data - Histograms

  • What are Quantitative Variables?

    Variables that have a numerical value that we can perform mathematical operations on

  • Examples:

    • height

    • weight

    • income

    • test scores

    • shoe size

    • number of "heads" after 10 coin flips

  • Why Use Histograms?

    We can get a quick view of what our data looks like and what we might want to go on to analyze with our data.

    Histograms allow us to display data graphically

  • 4 Main Aspects

    • Shape

      overall appearance of histograms

      can be symmetric, bell-shaped, left skewed, right skewed

    • Center

      Mean or Median

    • Spread

      how far our data spreads

      range

      Interquartile Range (IQR)

      standard deviation

      variance

    • Outliers

      data points that fall far from the bulk of the data

  • Your one sentence summary should allow for any person to read it and have a general understand of what your data looks like. ## 数值数据 - 直方图

什么是数值数据?

例如:身高、体重、收入、考试分数、鞋子大小

直方图

可以快速了解数据是什么样子的

  • 左图是100个样本中,部分成年男子的身高

  • 右图是100个样本的直方图

  • 右图的直方图有钟形的外观

  • y轴 - 频率

  • x轴 - 变量,高度(英寸)

  • 每一个小矩形是bin

  • 在第一个bin可以看出,身高在62英寸左右的大约有3个人

  • 四个主要方面

    • 形状

      • 直方图的整体外观

      • 可以是对称的、正态分布、左偏的、右偏的

    • 中心

      • 平均值

      • 中位数

    • 离散程度

      • 数据分布情况如何

      • 全距 range

      • 四分位距 IQR

      • 标准差 standard deviation

      • 方差 variance

    • 离群值

      • 与其他观察值由显著差异的数据点 ### 直方图分析案例

成年男子的身高分布

  • 形状

    大致是正态分布,正态分布在统计学中是非常常见的,对于统计分析非常友好

  • 中心

    正态分布,且单峰,所以是对称的,中心点就在中间,68英寸,平均值大概也是68英寸

  • 离散程度

    • 全距 = 最大值 - 最小值

      最大值大约75,最小值大约62,所以全局大约为13

  • 离群值

    对于上图,没有明显的离群值 #### 旧金山的工资分布

  • 形状

    右偏 + 双峰

    有两个峰,长长的右尾,是右偏分布,两个峰一个大约在0,一个大约在60000左右,双峰分布

  • 中心

    • 中位数 Median ≈ $80,000

      如果在80000左右画一条垂直线,那么左边bins和右边的bins同等大小,也就是左边面积和右边面积差不多

      所以可以说中位数是8万美元左右

    • 平均数 Mean ≈ $ 85,000

      因为是右偏分布,所以平均数将会被拉到右边,大于中位数

      可以称8.5万美元是该数据的平均数

  • 离散程度

    • 全距 Range ≈ $ 600,000

      最大值大概60万,最小值是0,所以全距大概是60万美元

  • 离群值

    • 当有偏态分布时,也会有离群值

    • 可以认为过了20万,就是离群值

  • 总结

    旧金山的工资分布是双峰型的,并且右偏,以8万美元左右为中心,大部分数据在4万-12万美元之间,全距是60万美元,离群值出现在高端,大于20万。

考试成绩的分布

自己先试着分析一下

  • 形状

    尾部是向左的,左偏分布,单峰

  • 中心

    • 中位数

      可以尝试画一条垂直线,将其分为两个相等的部分,大约是80

    • 平均数

      因为是左偏,所以平均数小于中位数,可以认为是75左右

  • 离散程度

    • 全距

      最大值是100,最小值大约是15,所以全距大约是85

  • 离群值

    低端有离群值,可以认为大概低于50以下是离群值,因为在考试中成绩小于50的人数较少

  • 总结

    考试分数的分布是左偏的,以80分左右为中心,大部分在65-90分之间,全距是85分左右,50分以下存在一些离群值

直方图的总结

  • 可以用直方图来初步展示数据的图形化

  • 主要有四个方面

    • 形状

    • 中心

    • 离散程度

    • 离群值

  • 通过这四个方面的描述,可以构建一句话的总结,这个一句话总结可以让任何人明白你的数据是什么、大概是什么样子的