终于开始 week3 啦

Start with Me | Coursera - Understanding and Visualizing Data with Python week 3-1 - Multivariate Categorical Data

终于有了新的进度,开启 week3 啦

Multivariate Categorical Data

Gathering Multivariate Categorical Data

  • What is your gender ?

    gender is a categorical data, because their responses are either categories or groups

  • What is your marital status ?

    marital status is a categorical data

We have two different variables that we're measuring, this is called bivariate

bivariate is two variables, it's also multivariate

multivariate is anything that's more than two variables

  • What is your highest education level ?

    education level is a categorical data

  • What is your age grouping ?

    age grouping is a categorical data

In each of these cases, these are all categorical data, and once we've gathered these four variables, we definitely have multivariate categorical data

Recoding Multivariate Categorical Data

  • it's hard to gain a good picture of our sample from just this one image.
  • It's hard to get a sense of what our sample looks like.

Univariate Categorical Data Table

  • Once we've collected our full sample, we could choose to record our variables in the form of tables.

  • It is much easier to gain a good sense of what was going on within our entire sample at a single glance.

Two-way or Contingency Tables

  • If we're interested in knowing what factors influence that highest education level, we want to look at one of our other factors first.
  • So, we'll split up this univariate categorical data table into two variables in the form of a two-way table or a contingency table.

Marginal and Conditional Distribution

Bar Chart

Side-by-side Bar Chart

Stacked Bar Chart

Mosaic Plot

获取多元分类数据

在进行数据搜集时,可能会问以下的问题:

  • 你的性别是?
  • 你的婚姻状态是?
  • 你的最高教育水平是?
  • 你的年龄处于什么分组?

性别、婚姻状态、教育水平、年龄分组都属于分类变量,一旦收集了这四个变量,就会有多元分类数据

记录多元分类数据

可以用电子表格的形式来观察受访者对这些变量的反应

数据的记录
  • 从第一个数据可以看出,这是一个男性,有高中/GED学历,没有结婚,也从未结过婚,年龄在18-29之间

  • 仅仅从上面的一张图片,很难知道样本的是什么样的

  • 需要研究不同的方法,将收集到的数据以更容易管理的形式显示出来

单变量分类数据表

在收集了全部样本之后,可以选择以表格的形式记录变量,以最高教育水平为例

单变量表格

从上表可以看出

  • 整个样本中有1331人的学历在高中以下
  • 可以更容易了解整个样本的情况
  • 可以引出之后研究的问题 “是什么因素影响了最高教育水平”

列联表

如果想研究是什么因素影响了最高教育水平,首先要看一下其他的因素,将单变量分类数据表分成两个变量

  • 在这种情况下,可以将每一类拆分为受访者是男性还是女性
  • 为了便于理解,可以添加总行、总列
最高教育水平分按性别分类
  • 可以看到有多少个人属于每个类别
  • 其中644名女性是高中以下的学历,总体样本为5549人,由此可以计算出样本中女性高中以下学历的比例为11.6%

边缘分布

添加百分比,有助于更好地了解样本中四类人群的分布情况

教育水平的边缘分布

条件分布

根据性别看教育水平的条件分布

用图形来看也很有帮助 ## 图形 ### 条形图

单变量

最高教育水平条形图
  • 最常见的类别是有一些大学/副学士学位的

  • 这可以非常快速、一目了然地发现样本特征

两个变量,根据性别做两个教育水平的条形图

不同性别的教育水平条形图
  • 与男性相比,似乎更多的女性是有一些大学/副学士学位
  • 但是很难看出两个分布具体的比较

群组条形图

  • 如果将分布改为比例/百分比,这样就可以直接比较不同性别的分布

  • 需要注意的是,在这种情况下,当计算比例的时候,应该除以该类别中的总人数,即,除以女性的2814人,或男性的2735人

不同性别教育水平的条件分布,注意比例计算

通过并排的条形图显示

按比例计算的不同性别分布
  • 在这种情况下,条形图中可以直接比较两个性别类别内属于四个教育水平类别的比例
  • 根据比例来看,确实是一些大学/副学士级别的女性比男性多
  • 这就是女性和男性教育水平的最大差异

堆积条形图

堆积条形图显示了两组中属于四类教育水平的个人比例

堆积条形图
  • 由于它们是紧挨着的,所以也可以看出两组之间的比较

马赛克图

年龄-教育水平马赛克图
  • 每个方框的面积都与该类别的个人数量成正比
  • 可以一目了然地观察我们的数据的分布情况
  • 可以画一条线将有高中学历和有一些大学学位的人分开,从中可以看出
    • 18-29岁年龄段的人拥有一定大学学位的比例是最高的
    • 之后每个年龄段的比例都会降低
    • 如果这两个变量是完全独立/没有关联,那么希望看到的是一个全部都是直线的网格
性别、年龄-马赛克图
  • 可以看出三个变量年龄、性别、教育水平之间的关联
  • 45-59年龄段中,男性和女性之间的差异是相似的,一直到高中、大学间隔的时候会有一点点突兀,但是还是一条比较直线
  • 说明性别在45-59这个年龄段对于教育水平的作用没那么大
  • 而在30-44年龄段,性别在其中有更大的关联