很快就到了最后一周,week 4,week 3 的一些实例部分等后面 blog 更新吧

Start with Me | Coursera - Understanding and Visualizing Data with Python week 4-1 - Samples

连续日更之后,又濒临断更了

Sampling from Well-Defined Populations

  • Where data come from?

    • Up until early-to-mid 20th century, researchers attempted to take a census = measure every unit in a given population

    • 1930s : Jerzy Neyman and others enabled researchers to use random sampling

  • Target Populations

    Important first step = Define Target Population of interest in concrete terms

    • Who are we measuring?
      • Males?

      • African-American males?

      • Older African-American males?

      • What does "Older" mean? Be specific!

    • What time frame are we interested in?
      • 2018 ? April 2018?
      • The first half of April in 2018?
    • Where is the population located?
      • The Midwest? Michigan?
      • Washtenaw country?
      • The city of Ann Arbor?
    • The target population should be clearly defined, in a manner that everyone can understand!
  • How can we make inferential statements about it ?

    • Option 1: conduct a census

      • Easier for smaller target populations
      • Incredibly expensive for larger populations
      • Requires a careful evaluation of
        • how much it will cost to measure all population units
        • what administrative data sources already available
    • Option 2: select a scientific probability sample from the population, and attempt to measure all units in the sample

      Probability sampling basics

      • construct list of all units in population = sampling frame
      • determine probability of selection for every unit on list (known and non-zero)
      • select units from list at random, with sampling rates for different subgroups determined by probabilities of selection
      • attempt to measure randomly selected units
    • Option 3: select a non-probability sample from the population, and attempt to measure all units in the sample

      • generally does not involve random selection

      • probabilities of selection can't be determined for population units

      • Examples:

        opt-in web surveys

        quota sampling

        snowball sampling

        convenience sampling

从特定人群中抽样

数据从哪里来?

  • 20世纪初到中期,研究者们所掌握的工具都很有限,他们试图进行人口普查,也就是试图测量特定人群中的每一个人
  • 20世纪30年代,Jerzy Neyman 博士在这一领域取得了重要突破 -- 随机抽样,这意味着,不需要对人群中每一个个体进行测量
  • 所以,当考虑进行人群推断或基于数据样本对人群进行描述时,非常重要的第一步就是先具体定义目标人群

确定目标人群

谁是你的目标人群?在数据分析的时候,最终要对这个人群进行陈述的是谁?

在思考希望研究的人群时,必须非常具体、弄清楚细节

  • Who 我们测量的是谁?

    • 男性?
  • 非裔美国男性?

    • 年长的非裔美国男性?
    • 年纪大是什么意思?
  • What 我们对什么时间段感兴趣?

    • 2018年?
    • 2018年4月?
    • 2018年4月上旬?
  • Where 人群在哪里?

    地理因素

    • 美国中西部?
    • 密歇根州?
    • 密歇根州的某一个市?

建议:将目标人群的定义写下来,是谁?是什么?在哪里?这个定义应该明确到每个人都能理解的程度

Test1 - 目标人群 - 多选题

A researcher selects a sample of 100 adults ages 18 and older, and asks them a single question about their political party preference. Based on the data collected, the researcher concludes that 40% of adults prefer the Republican party. What is unclear about the researcher’s target population? Select all responses that apply.

A. The socio-demographic features of the target population

B. The location of the target population

C. The time when the sample was selected

参考答案:

Test1 :ABC

如何对人群进行推断

  • 人口普查

    人群中的所有人

    为了得到描述该人群的数据,可以尝试测量人群中的每一个人

    这是非常费时费力的工作,但仍然是选择之一

    • 对于比较小的目标人群比较容易

      也许是小的地理区域,在那里进行人口普查并不难

    • 对于较大的人群来说,是非常耗费时间、金钱

    • 需要仔细评估测量所有人的成本,以及已经有哪些数据来源

      是否真的需要测量每个人?

      是否可以从其他已有的来源中获取一些信息?

  • 概率抽样

    选择一个人们具有已知选择概率的样本

    从人群中选择一个科学的概率样本,并尝试测量样本中的每一个人

    • 首先,构建一个人群中所有人的列表 -- 抽样框架

      这是一个人群的列表,我们从其中抽取样本,最终进行测量

    • 其次,确定列表中每个人/抽样框架中每个人的选择概率

      列表中的每一个单位,无论是一个人、一个家庭、一个企业或是一个机构,都有一个已知的、非零的概率被选入样本

    • 然后,给定这些选择概率,我们从列表中随机选择,其中该列表中不同子群的抽样概率由这些选择概率决定

      所以有些子群的选择概率可能比其他子群高

    • 最后,尝试测量这些随机选择的人

  • 非概率抽样

    从人群中选择一个非概率样本,并再次尝试测量样本中的每一个人

    • 非概率抽样一般不需要根据选择的概率随机选择个人

      从各种收集样本数据的技术来看,这也是一个主要的缺点

      并不是像概率抽样那样,随机选择进行样本的人

    • 人群单位的选择概率无法确定

      这会使得在分析数据时,更能进行代表性的推断

    • 例子

      可能已经看到了邀请

      • 选择加入的调查

        你可能会看到屏幕上闪烁的调查,或者正在访问网站时看到其他邀请

        在这些选择加入的网络调查中,你其实只是想让有兴趣参加调查的人加入,并不是从一些定义的明确的名单中随机选择人

        而是谁愿意自愿参加那个网络调查就选择谁

        所以无法确定这些选择概率

      • 配额抽样

        也就是说,你要尽量多地招募符合某些群体定义的人

        在这种情况下,研究人员试图收集尽可能多的个人,他们可以不根据任何概率方案,但只是基于谁的可用

        只要他们达到他们的目标/配额就可以

        也不能计算选择概率,只是想达到目标,找到足够的人去达到这些目标

      • 滚雪球抽样

        你可以想象一个雪球从山上滚下来,它就会不断变大,随着雪球的滚动,收集到的雪也越来越多

        在这种情况下,你招募某人参与研究,然后他们可能会告诉朋友,然后这个朋友可能会告诉他的朋友,你的样本最终会变得更大

        而我们并不能控制他们招募的对象,或者他们招募其他个体的概率

        滚雪球抽样是一个非常方便获取样本的工具

      • 方便抽样

        • 可以到街上去,只是与那些可以收集数据和提问的人交流

        • 贴告示,向任何经过的人询问是否有兴趣参加

        • 如果你在大学中教学,你可能只是向你的课程中的个人收集数据

        • 从你的同事或者你身边的人那里收集数据

        只是想从那些方便的、离你很近的人那里收集数据

    • 非概率抽样的主要问题就是没有统计学基础来对目标人群进行推断,会存在偏差

Test2 - 概率抽样 - 单选题

From a classroom roster of 10 males and 20 females, a professor wishes to select a probability sample of 5 males and 5 females. What are the probabilities of selection for males and females, respectively?

A. 1/10 for males, 1/20 for females

B. 1/2 for males, 1/4 for females

C. 1/5 for males, 1/5 for females

参考答案:

Test2 :B

Why Probability Sampling?

  • The known probabilities of selection for all units

    allow us to make unbiased statements about both population features and uncertainty in sury estimates

  • Random selection of population units protects us against bias from the sample selection mechanism

    allow us to make population inferences based on sampling distributions

为什么进行概率抽样

  • 概率抽样有一些重要的特点

    有了概率抽样,已知人群中所有单位的选择概率,这才能让我们对于人口特征和调查估计的不确定性做出无偏进行推断

    除了说平均收入是多少,或者人群中某一特征的比例是多少,还可以表述一下我们对于这些估计的不确定性

  • 从抽样框架中随机选择可以保护我们免受样本选择机制可能带来的偏差

What's Next? 下节预告

  • Probability sampling details with lots of examples
  • Examples of non-probability samples + potential pitfalls
  • Sampling distributions + methods for making population inferences bsed on analyses of data from different types of samples