故事的开始永远是简介,那统计学是什么呢

Start with Me | Coursera - Understanding and Visualizing Data with Python week 1-1 - Statistics

Start with Me 系列终于又更新了,已经新的一周了,依然拖延第一名。

美其名曰双语版本,太长不想看可以直接滑到最后~

What is Statistics ?

A few perspectives about the field of statistics

  • Methodological

subject encompassing all aspects of learning from data

tools and methods for working with and understanding data

  • Statisticians

apply and develop data analysis methods, seek to understand their properties

when do these tools provide insight?

when are they possibly misleading?

  • Researchers and workers

They apply and extend statistical methodology, and contribute new ideas and methods for conducting data analysis.

关于统计学领域的一些观点

  • 方法学

    包含了从数据中学习的所有方面

    是让我们用数据来理解数据的工具、方法

  • 统计学家

    应用和开发数据分析方法,不断地了解它们的特性

    什么时候这些工具会给我们提供洞察力?

    什么时候它们可能会有误导性?

  • 研究人员和工作人员

    应用和拓展统计方法,为进行数据分析提出新的思路和方法

Difference between a statistic and the field of statistics

A Statistic

numerical or graphical summary of a collection of data.

  • Average sore on final exam
  • Minimum temperature at location over year
  • Proportion of people who are retired

The field of Statistics

academic discipline focusing on research methodology

Statisticians develop new tools, calculate statistics from data, and collaborate with subject-matter experts to interpret them.

统计值与统计学的区别

统计值

  • 是指数据收集的数字或图形的总结
  • 学生期末考试平均成绩的报告
  • 某地一段时间的最低温度
  • 调查中退休人群的比例

统计学

  • 是指专注于研究方法的学术学科
  • 统计学家要开发新的统计工具,从数据中计算出统计数据

The Landscape of Statistics

evolving and dynamic field,emerging challenges and opportunities

  • Properties of statistical methods are under continuing study

  • New application areas -> development of new analytic methods

  • New types of sensors -> new type of data

  • Advances in computing -> sophisticated analyses on Big Data

统计学的前景

不断发展、充满活力的领域,面临挑战和机遇

  • 各种统计方法的特性在不断研究中
  • 新的应用领域 -> 开发新的分析方法
  • 测量数据的方式,新型的传感器 -> 分析新型数据
  • 依赖计算方面的进步 -> 利用大数据进行更复杂的分析

Perspectives on Statistical Science

Statistics is a "big tent" discipline, incorporates new ideas from theory, practice, allied fields.

Different Perspectives:

  • art of summarizing data
  • science of uncertainty
  • science of decisions
  • science of variation
  • art of forecasting
  • science of measurement
  • basis for principled data collection

统计学的观点

统计学领域有不同的学派,融合了理论、实践和相关领域的新思想

统计学领域的不同观点:

  • 总结数据的艺术
  • 不确定的科学
  • 决策科学
  • 变化的科学
  • 预测的艺术
  • 测量的科学
  • 原则性数据收集的基础

Statistics as the "art of the summarizing data"

  • Data can be overwhelming

  • Making sense of data usually involves reduction and summarization

  • reduction : make a dataset comprehensible to human observer

  • summarization : always depends primarily on goals of "data consumer" to be meaningful -- many approaches

统计学是总结数据的艺术

把难以接受的数据变得有意义

统计学家需要经过良好的训练,利用适当的、严格的、有效的方法来总结数据

  • 数据可能会让人难以接受,那就需要让数据变得有意义,通常涉及减少和总结

  • 减少数据

    让数据集对观察者来说是可以理解的

  • 总结数据

    需要与数据消费者的目标保存一致才有意义

Statistics as the "science of uncertainty"

  • Data can be misleading
  • Statistics provides framework for assessing whether claims based on data are meaningful
  • Uncertainty is inevitable, but it is highly desirable to quantify how far our reported findings may fall from "the truth"
  • Many public opinion polls report ± margin of error -> potential discrepancy between reported and actual states of public opinion

统计学是不确定的科学

数据的误导性 -> 评估基于数据的研究结果是否有意义 -> 量化研究值与真实值的差异

  • 数据可能具有误导性

  • 发展统计学领域的一个主要动机是让我们有一个结构、框架,能够评估基于数据的说法是否有意义

  • 从数据中得到洞察力并不是百分之百的准确,但是我们有办法量化报告的结果可能与真相之间有多大的差距

例如:许多民意调查报告在报告结果的同时也报告一个误差范围

  • 误差范围:报告的结果和实际的民意状态之间的潜在差异是什么

Statistics as the "science of decisions"

  • Understanding data is very important -> only consequential if we act on what we've learned.

  • Decision-making = ultimate goal of any statistical analysis

  • We make decisions in face of uncertainty ! What are costs and benefits of different approaches?

    a person who finds that he might be at higher than average risk for cancer ...

    should they undergo preventative procedure?

统计学是决策科学

数据分析 -> 决策

  • 理解数据是非常重要的,但当然,这也导致了需要能够根据所学习的内容采取行动

  • 决策 = 任何统计分析的最终目标

  • 在我们的个人生活和职业生活中,我们都是在面对不确定性的情况下做出决策

  • 我们需要平衡不同方法的成本和收益是什么

例如:一个人发现自己患病的风险可能高于平均水平,那么他们是否应该进行预防?

  • 统计数据可以作为决策过程提供信息

Statistics as the "science of variation"

  • Often focus on most typical or "central" value

  • Great emphasis on understanding variation in data

  • Average American has around $6000 of credit card debt

    central value of credit card debt in US population

  • 10% of Americans have more than $30,000 in credit card debt

    variation of credit card debt in US population

统计学是变化的科学

  • 总结数据时,往往首先关注的是那个典型的或者中心的数值

  • 在统计学中非常强调理解数据的变异性

例如:

  • 美国人平均有6000美元左右的信用卡债务 --> 信用卡债务分布的中心值

  • 大约10%的人有超过3万美元的信用卡债务 --> 人口的信用卡债务的变异性

Statistics as the "art of forecasting"

  • Forecasting or prediction = central tasks in statistics

  • Cannot know future with absolute certainty, but efficient use of available data can sometimes make accurate predictions about future

  • weather prediction

  • earthquake prediction

  • product's demand prediction

  • predict the outcome of an election

  • whether or not a patient will respond favorably to some treatment

统计学是预测的艺术

  • 统计学的一些核心任务 -> 预测
  • 我们不能绝对地知道未来
  • 如果我们能有效地利用现有的数据,我们有时可以对未来做出相当准确的预测

例如:

  • 天气预测
  • 地震预测
  • 新产品需求的预测
  • 选举结果预测
  • 病人对治疗的反应预测

Statistics as the "science of measurement"

  • High accuracy : person's age or height
  • More difficult : blood pressure (varies minute to minute)
  • Harder : "mood", "political ideology", "personality"
  • Statistics : major role in constructing and evaluating rigorous approaches for measuring difficult-to-define concepts and in assessing quality

统计学是测量的科学

测量的一些变量,有些是能够被测量的,准确度很高,有些是有点难以测量的。有些是更难定义、量化的

统计学在构建和评估衡量这些难以定义的概念的方法,以及评估各种方法的质量方面发挥着重要的作用

  • 能够被测量的,准确度高 : 年龄、身高
  • 有点难以测量 : 血压(每分钟都会变化)
  • 更难测量 : 情绪、性格、政治意识形态

Statistics as the “basis for principled data collection”

  • Data often expensive and difficult to collect
  • Resource limitations -> collect least data possible
  • Statistics : provides a rational way to manage this trade-off

统计学是原则性数据收集的基础

统计学提供了一个很好的合理的方法来权衡想要更多的数据 - 资源限制

  • 有时数据可能会很昂贵,而且很难获取

    如果必须破坏产品才能对其进行测量,那么当然希望有能力收集尽可能少的数据

  • 资源局限性限制了数据收集的数量

    如果数据太少,可能结果会不尽如人意

History of Statistics Milestones

Ancient Times

Data Collection on harvests floods population sizes

1700's

Probability Theory -> randomness and variation

19th Century

Modern Statistics emerges, via genetics demography economics

20th Century

Statistical Theory advances , new application areas, computers

21th Century

"massive data", "data science", "machine learning"

统计学里程碑的历史

古代

  • 数据收集
  • 收集收成、洪水、人口数量的数据

1700年代

  • 概率论的发展
  • 随机性和变异可以被更多的数学定义

19世纪

  • 现代统计学
  • 解决遗传学、计量经济学领域的问题

20世纪

  • 统计理论的进步
  • 在科学和工业领域出现了很多新的应用领域
  • 出现了有计算机来做这种数据分析的能力

21世纪

  • 大数据
  • 数据科学
  • 机器学习

Statistics and its Allied Fields

Computer Science

algorithms, data structures for working with data, programming languages for manipulating data

Mathematics

language and notation for expressing statistical concepts concisely, tools for understanding properties of statistical methods

Probability Theory

branch of mathematics, crucial part of foundations of statistics - to express ideas about randomness and uncertainty

Data Science

database management, machine learning, computational infrastructure to carry out data analysis

统计学和它的相关领域

计算机科学

  • 提供算法
  • 提供处理数据的结构
  • 提供处理数据的编程语言

数学

  • 得到了更简洁地表达统计概念的语言和符合
  • 得到了能够评估和理解这些统计方法特性的工具

概率论

  • 数学的一个分支
  • 是统计学基础的关键部分
  • 表达随机性和不确定性概念

数据科学

  • 提供了数据库管理、机器学习、数据分析的基础设施

Summary

Statistics has certainly grown from a small but important field to now be a major linchpin in research and industry.

Different applications:

  • computer vision

  • automated driving

  • facial recognition

  • recommender systems

  • precision medicine

  • fraud detection

  • risk assessment

Statistics and statistical thinking helps us to understand that data and that information that surrounds us.

总结

统计学已经从一个小而重要的领域发展到现在成为研究和工业的主要支柱

新兴应用:

  • 计算机视觉
  • 自动驾驶
  • 面部识别
  • 推荐系统
  • 精准医疗
  • 欺诈检测
  • 风险评估

统计学和统计思维可以帮助我们理解这些数据和我们周围的信息

也就是说,统计学很重要 ······


本博客所有文章除特别声明外,均采用 CC BY-SA 4.0 协议 ,转载请注明出处!

week1-2 - Data 上一篇
week0 - Introduction 下一篇