网站首页 > 资源文章 正文
数据分析师,无疑是数据时代最耀眼的职业之一,而统计学,又是数据分析师必备的基础知识。今天给大家分享一下数据分析师必备的统计学知识点,主要有以下8个:
集中趋势(Central Tendency)
变异性(Variability)
归一化(Standardizing)
正态分布(Normal Distributions)
抽样分布(Sampling Distributions)
估计(Estimation)
假设检验(Hypothesis testing)
T检验(T-test)
集中趋势(Central Tendency)
1. 众数
出现频率最高的数。
2. 中位数
把样本值排序,分布在最中间的值。
样本总数为奇数时,中位数为第(n+1)/2个值
样本总数为偶数时,中位数是第n/2个,第(n/2)+1个值的平均数
3. 平均数
所有数的总和除以样本数量。
小结:现在大家接触最多的概念应该是平均数,但有时候,平均数会因为某些极值(Outlier)的出现收到很大影响。
举个小例子,你们班有20人,大家收入差不多,19人都是5000左右,但是有1个同学创业成功了,年入1个亿,这时候统计你们班同学收入的“平均数”就是500万了,这也很好的解释了,每年各地的平均收入数据出炉,小伙伴们直呼给祖国拖后腿了,那是因为大家收入被平均了,此时,“中位数”更能合理的反映真实的情况;
变异性(Variability)
1. 四分位数
上面说到了“中位数”,把样本分成了2部分,再找个这2部分各自的“中位数”,也就把样本分为了4个部分,其中1/4处的值记为Q1,2/4处的值记为Q2,3/4处的值记为Q3。
2. 四分位距 IQR=Q3-Q1
四分位数
3. 异常值(Outlier)
小于Q1-1.5(IQR)或者大于Q3+1.5(IQR),对于异常值,我们在处理时需要剔除。
4. 方差(Variance)
方差variance
5. 平方偏差(Standard Deviation)
方差的算术平方根。
6. 贝塞尔矫正
修正样本方差。
为什么要用贝塞尔矫正?
实际在计算方差时,分母要用n-1,而不是样本数量n,原因如下
贝塞尔矫正
归一化(Standardizing)
1. 标准分数(Z-score)
一个给定分数 距离 平均数 多少个标准差?
标准分数是一种可以看出某分数在分布中相对位置的方法
标准分数能够真实的反映一个分数距离平均数的相对标准距离
归一化standardizing
正态分布(Normal Distributions)
1. 定义
随机变量X服从一个数学期望为μ,方差为σ2的正态分布,记为N(μ,σ2)
随机取一个样本,有68.3%的概率位于距离均值μ有1个标准差σ内:
有95.4%的概率位于距离均值μ有2个标准差σ内
有99.7%的概率位于距离均值μ有3个标准差σ内
正态分布normal distribution
抽样分布(Sampling Distributions)
1. 中心极限定理(Central Limit Theorem)
设从均值为μ,方差为σ2的任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ2/n的正态分布。
2. 抽样分布(Sampling Distributions)
设总体共有N个元素,从中随机抽取一个容量为n的样本,在重置抽样时,共有N·n种抽法,即可以组成N·n不同的样本,在不重复抽样时,共有N·n个可能的样本。每一个样本都可以计算出一个均值,这些所有可能的抽样均值形成的分布就是样本均值的分布。但现实中不可能将所有的样本都抽取出来,因此,样本均值的概率分布实际上是一种理论分布。数理统计学的相关定理已经证明:在重置抽样时,样本均值的方差为总体方差的1/n
例子:48盆MM豆,计算出每盆有几个蓝色的MM豆,48个数据构成了总体样本。然后随机选择五盆,计算五盆中含有蓝色MM豆的平均数,然后反复进行了50次。这就是n为5的样本均值抽样。
抽样分布sampling distributions
估计(Estimation)
1. 误差界限(Margin of error)
误差界限margin of error
2. 置信度(Confidence level)
我们有百分之多少确信总体中的值落在一个特定范围内,一般情况下,取95%的置信度就可以。
3. 置信区间(Confidence Interval)
置信区间
假设检验(Hypothesis testing)
假设检验hypothesis testing
1. 问题:什么是显著性水平?
显著性水平是估计总体参数落在某一区间内,可能犯错误的概率,也就是Type I Error
假设检验-零假设和对立假设
假设检验-案例:鸡
假设检验-案例:鸡
2. 如何选择备选检验和零假设?
一个研究者想证明自己的研究结论是正确的,备择假设的方向就要与想要证明其正确性的方向一致;同时将研究者想收集证据证明其不正确的假设作为原假设H0。
T检验(T-test)
1. 主要用于样本含量较小(例如n<30),总体标准差σ未知的正态分布
流程如下:
t检验
是用t分布理论来推论差异发生的概率,从而比较两个平均数的差异是否显著,一般检验水准α取0.05即可,计算检验统计量的方法根据样本形式不同。
2. 独立样本T检验
现在要分析男生和女生的身高是否相同两者的主要区别在于数据的来源和要分析的问题。
t检验
问题:为什么T检验查表时候要n-1?
样本均值替代总体均值损失了一个自由度
3. 配对样本t检验
分析人的早晨和晚上的身高是否不同,于是找来一拨人测他们早上和晚上的身高,这里每个人就有两个值,这里出现了配对。
t检验-配对样本
样本误差(Standard Error)
t检验-样本误差
t检验-样本误差2
4. Pooled variance 合并方差
当样本平均数不一样,但实际上认为他们的方差是一样的时候,需要合并方差。
不要被公式吓到,他的本质是两个样本方差加权平均
t检验-合并方差1
t检验-合并方差2
5. Cohen’s d
效应量(effect size):提示组间真正的差异占统计学差异的比例,值越大,组间差异越可靠。
End.
作者:肖彬AI
来源:简书
猜你喜欢
- 2024-10-18 统计学中的方差分析实操:用Excel做单因素方差分析
- 2024-10-18 深度学习术语汇总(2)(深度学习第92讲)
- 2024-10-18 质量管理的专业术语(质量管理专业术语缩写)
- 2024-10-18 单机训练速度提升640倍!独家解读快手商业广告模型GPU训练平台Persia
- 2024-10-18 统计学基础笔记:概念梳理12(统计学ci)
- 2024-10-18 统计学基础笔记:概念梳理10(统计学基础概念和方法)
- 2024-10-18 描述性统计分析 之 频率分析(描述性统计频数分析)
- 2024-10-18 科普一下机器学习热门概念(机器学习的概念是什么)
- 2024-10-18 单因素方差分析及两两比较(单因素方差分析两两比较方差)
- 2024-10-18 14单因素方差分析:One-Way ANOVA(单因素方差分析解释)
你 发表评论:
欢迎- 最近发表
- 标签列表
-
- 电脑显示器花屏 (79)
- 403 forbidden (65)
- linux怎么查看系统版本 (54)
- 补码运算 (63)
- 缓存服务器 (61)
- 定时重启 (59)
- plsql developer (73)
- 对话框打开时命令无法执行 (61)
- excel数据透视表 (72)
- oracle认证 (56)
- 网页不能复制 (84)
- photoshop外挂滤镜 (58)
- 网页无法复制粘贴 (55)
- vmware workstation 7 1 3 (78)
- jdk 64位下载 (65)
- phpstudy 2013 (66)
- 卡通形象生成 (55)
- psd模板免费下载 (67)
- shift (58)
- localhost打不开 (58)
- 检测代理服务器设置 (55)
- frequency (66)
- indesign教程 (55)
- 运行命令大全 (61)
- ping exe (64)
本文暂时没有评论,来添加一个吧(●'◡'●)