二、密度曲线
三、关于概率 (一)三种解释:
古典概率(63页)
统计概率(64页)
主观概率(65页)
概率的以上三种定义,各有其特定的应用范围,也存在局限性,都缺乏严密性。 古典定义要求试验的基本事件有限且具有等可能性 统计定义要求试验次数充分大,但试验次数究竟应该取多大、频率与概率有多么接近都没有确切说明
主观概率的确定又具有主观随意性
苏联数学家柯尔莫哥洛夫于1933年提出了概率的公理化定义 ——通过规定应具备的基本性质来定义概率
公理化定义为概率论严谨的逻辑推理打下了坚实的基础。 (二)概率的基本性质(67页)
非负性:对任意事件A,有 0 P(A) 1。
规范性:必然事件的概率为1,即: P()=1;不可能事件的概率为0 ,即:P()=0。 可加性:若A与B互斥,则:P ( A∪B ) = P ( A ) + P ( B ) 对于多个两两互斥事件A1,A2,…,An,则有:
P ( A1∪A2 ∪… ∪An) = P ( A1 ) + P (A2 ) + …+ P (An ) 上述三条基本性质,也称为概率的三条公理。
四、随机变量及其数字特征 (75---86页)
随机变量——表示随机试验结果的变量 取值是随机的,事先不能确定取哪一个值 一个取值对应随机试验的一个可能结果
用大写字母如X、Y、Z...来表示,具体取值则用相应的小写字母如x、y、z…来表示 根据取值特点的不同,可分为:
离散型随机变量——取值可以一一列举 连续型随机变量——取值不能一一列举 离散型随机变量
(1)离散型随机变量的第一个数字特征 是指数学期望,又称均值
描述一个随机变量的概率分布的中心位置 离散型随机变量 X的数学期望:(77页公式3.12)
相当于所有可能取值(以概率为权数)的加权平均值 数学期望的主要数学性质
若k是一常数,则E (k X) =k E(X)
对于任意两个随机变量X 、Y , 有 E(X+Y)=E(X) +E(Y) 若两个随机变量X 、Y 相互独立,则 E(XY)=E(X) E(Y)
(2)离散型随机变量X的方差——第二个数字特征
方差是它的各个可能取值偏离其均值的离差平方的均值,记为D(x)或σ2
公式:(77页公式3.13) 标准差=方差的平方根
方差和标准差都反映随机变量取值的分散程度。
它们的值越大,说明离散程度越大,其概率分布曲线越扁平。 方差的主要数学性质:
2
若k 是一常数,则 D(k)=0;D(kX)=kD(X)
若两个随机变量X、Y 相互独立,则D(X+Y)=D(X) +D(Y)
五、随机变量的概率分布
1.离散型随机变量的概率分布(76页)
X的概率分布——X的有限个可能取值为xi与其概率 pi(i=1,2,3,…,n)之间的对应关系。 概率分布具有如下两个基本性质: 76页公式(1)(2) 离散型概率分布的表示: 概率函数:P(X= xi)= pi 分布列: 分布图:
常用离散型随机变量的概率分布(78—85页) 二点分布 二项分布
泊松分布(略) 超几何分布(略)
二点分布(0—1分布、Bernoulli伯努利分布、贝努里分布)教材78页 二项分布(教材79页)
(背景)——n重贝努里试验: 一次试验只有两种可能结果
用―成功‖代表所关心的结果,相反的结果为―失败‖ 每次试验中―成功‖的概率都是 p n 次试验相互独立。
(教材79页公式3.15——重点公式)
在n重贝努里试验中,―成功‖的次数X服从参数为n、p的二项分布,记为 X ~B(n , p) 一元二项分布概率计算函数 教材80页 BINOMDIST
【复习】85页表3.11常用离散型随机变量概率分布的数字特征 重点公式
2.连续型随机变量
连续型随机变量的概率分布
可以取某一区间或整个实数轴上的任意一个值 连续型随机变量的概率分布只能表示为:
数学函数——概率密度函数f (x)和分布函数F (x) 图 形——概率密度曲线和分布函数曲线 连续型随机变量取任何一个特定值的概率等于0
不能列出每一个值及其相应的概率,只能计算随机变量落在一定区间内的概率 ——由x轴以上、概率密度曲线下方面积来表示
概率密度函数全面描述了连续型随机变量的统计规律
概率密度函数f (x) 的性质
(1)概率密度是非负函数(即位于横轴的上方)。 (2)概率密度曲线与横轴之间的面积为1 分布函数(86页)
设X是一个随机变量,对任一实数x,事件―X≤x‖称为随机变量X的分布函数,记为F(x) 分布函数也全面描述随机变量的统计规律——离散型随机变量的分布函数
常用连续型随机变量的概率分布(85—96页)
均匀分布 正态分布
指数分布(略)
t分布(第四章讲) F分布(第五章讲)
1. 均匀分布(93--94页)
X 只在一有限区间 [a ,b] 上取值 且概率密度是一个常数 1f(x),axb其概率密度为: baX 落在子区间 [c,d ] 内的概率与该子区间的长度成正比,与具体位置无关 2. 正态分布(86--93页)
(1)X~N (μ、σ 2 ),其概率密度为:
f(x)12e(x)222 -∞< x <∞
(2)正态分布的均值和标准差 均值 E(X) =μ 方差 D(X)= σ 2
(3)正态曲线(87页) 正态曲线的主要特性:
关于x = μ 对称的钟形曲线 参数μ 决定正态曲线的中心位置
参数σ 决定正态曲线的陡峭或扁平程度
以X 轴为渐近线,即当x→ ± ∞ 时,概率密度函数f(x) → 0
(4)正态分布的68-95-99.73经验规则(教材87页图3.12) 又称3西格玛原则或小概率原理
68.27% 95.45% 99.73% x -3σ -2σ -σ +σ +2σ -3 +3 σ -2 -1 0 +1 +2+3 z 图3-12 常用的正态概率值 (在一般正态分布及标准正态分布中) (5)正态分布的线性变换——标准正态分布(88页) μ=0、σ=1的正态分布,记为N (0, 1) 其概率密度φ(x),分布函数 Ф(x)
X~N (μ、σ 2 ), 则 : Z~N (0,1 ) 标准正态分布函数NORMDIST
(6)标准化值(Standard score) (教材88页) 又称标准计分或z-得分(重点公式) 观测值 – 平均数 Z=—————————— 标准差
用标准正态分布来确定随机变量取值的概率 【教材89页例题】
(7)正态分布是一种最常用、最重要的概率分布
大千世界中许多常见的随机现象服从或近似服从正态分布 特点是 ―中间多两头少‖
由于正态分布特有的数学性质,正态分布在很多统计理论中都占有十分重要的地位 正态分布是许多概率分布的极限分布
统计推断中许多重要的分布(如χ2分布、t分布、F分布)都是在正态分布的基础上推导出来的。
(8)数据正态性的判断方法(教材91——92页) 1)频数分布直方图或茎叶图
2)计算样本数据的四分位差与标准差的比值。当 d
Q1.3s表示数据近似服从正态分布 3)绘制正态概率图
(9)二项分布的正态近似(教材92页)二项分布图形 p=0.5时,二项分布是以均值为中心对称 p≠0.5时,二项分布总是非对称的
p<0.5时峰值在中心的左侧 p>0.5时峰值在中心的右侧
随着n无限增大,二项分布趋近于正态分布 【教材例题3.28】
六、抽样方法(第三节)教材96——98页
1.简单随机抽样(教材第97页) (simple random sampling)
•从总体N个单位中随机地抽取n个单位作为样本,使得每一个容量为样本都有相同的机会(概率)被抽中
•抽取元素的具体方法有重复抽样和不重复抽样 •特点
简单、直观,在抽样框完整时,可直接从中抽取样本 用样本统计量对目标量进行估计比较方便 •局限性
当N很大时,不易构造抽样框
抽出的单位很分散,给实施调查增加了困难 没有利用其他辅助信息以提高估计的效率
2.分层抽样(教材第97页) (stratified sampling)
•将总体单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本 •优点
保证样本的结构与总体的结构比较相近,从而提高估计的精度 组织实施调查方便
既可以对总体参数进行估计,也可以对各层的目标量进行估计
3.系统抽样(教材第98页) (systematic sampling)
•将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本单位
先从数字1到k之间随机抽取一个数字r作为初始单位,以后依次取r+k,r+2k…等单位 •优点:操作简便,可提高估计的精度 •缺点:对估计量方差的估计比较困难
4.整群抽样(教材第98页) (cluster sampling)
•将总体中若干个单位合并为组(群),抽样时直接抽取群,然后对中选群中的所有单位全部实施调查 特点
抽样时只需群的抽样框,可简化工作量
调查的地点相对集中,节省调查费用,方便调查的实施 缺点是估计的精度较差
七、 统计推断的理论依据(补充)——中心极限定理和大数定理
(一)中心极限定理
1. 独立同分布中心极限定理
2. 棣莫佛-拉普拉斯中心极限定理
1.独立同分布的中心极限定理(也称列维——林德伯格定理) 结论 :
不论总体服从何种分布,只要其数学期望和方差存在,对这一总体进行重复抽样时,当样本量n充分大,就趋于正态分布。
该定理为均值的抽样推断奠定了理论基础。 2、棣莫佛-拉普拉斯中心极限定理
设随机变量X服从二项分布B(n,p)的,那么当n→ ∞时,X服从均值为np、方差为 np(1-p) 的正态分布,即:
上述定理表明:
n很大,np 和 np(1-p)也都不太小时,二项分布可以用正态分布去近似。
(二)大数定理 又称大数法则。大数定律是阐述大量同类随机现象的平均结果具有稳定性的一系列定理的总称。 大数定理是通过偶然现象,揭示必然性、规律性的工具。 1. 独立同分布大数定律
2. 贝努里(伯努利)大数定律 1、独立同分布大数定律
该大数定律表明:当n充分大时,相互独立且服从同一分布的一系列随机变量取值的算术平均数,与其数学期望μ的偏差任意小的概率接近于1。
该定理给出了平均值具有稳定性的科学描述,从而为使用样本均值去估计总体均值(数学期望)提供了理论依据。
2、贝努里(伯努利)大数定律
表明:当重复试验次数n充分大时,事件A发生的频率m/n依概率收敛于事件A发生的概率 阐明了频率具有稳定性,提供了用频率估计概率的理论依据。
第四节 抽样分布
一、有关概念
(一)总体分布总体中各元素的观察值所形成的分布 •分布通常是未知的
•可以假定它服从某种分布 (二)样本分布
一个样本中各观察值的分布 •也称经验分布
•当样本容量n逐渐增大时,样本分布逐渐接近总体的分布 (三)抽样分布(99页)指样本统计量的概率分布 •是一种理论概率分布
•样本统计量是一种随机变量(样本均值, 样本比例,样本方差等) •结果来自容量相同的所有可能样本
•反映了样本指标的分布特征,是进行推断的理论基础,也是抽样推断科学性的重要依据 •分为两大类:
小样本方法(精确抽样分布,在正态总体条件下得到) 大样本方法(渐进抽样分布) 影响抽样分布的五个主要因素:
X~N(np,np(1p)) 总体分布
样本容量(最有效、最关键因素) 抽样方法 样本个数
抽样组织形式 样本结构、样本个数 估计量构造形式
二、样本均值的抽样分布 (一)内涵
•容量相同的所有可能样本的样本均值的概率分布 •一种理论概率分布
•进行推断总体均值的理论基础
样本均值的抽样分布 (教材99页)
比较及结论:1. 样本均值的均值(数学期望) 等于总体均值 2. 样本均值的方差等于总体方差的1/n 样本均值的分布与总体分布的比较 (例题分析)
(二)样本均值的抽样分布 与中心极限定理和大数定理
(101页)当总体服从正态分布N~(μ,σ2)时,来自该总体的所有容量为n的样本的均值X也服从正态分布,X 的数学期望为μ,方差为σ2/n。即X~N(μ,σ2/n)
设从均值为,方差为 2的一个任意总体中抽取容量为n的样本,当n充分大时(n 30),样本均值的抽样分布近似服从均值为μ、方差为σ2/n的正态分布
x
(三)抽样分布与总体分布的关系(103页 图3.26) (四)样本均值抽样分布的特征(记忆) (数学期望与方差)(103页) 样本均值的数学期望
E(X)
样本均值的方差 222X 重复抽样 Xn22Nn 22X 不重复抽样 XnN1三、样本比例(比率、成数)的抽样分布(教材107--108页) (一)比例
1、总体(或样本)中具有某种属性的单位与全部单位总数之比 不同性别的人与全部人数之比
合格品(或不合格品) 与全部产品总数之比 2、总体比例可表示为
NN 0或11NN
3、样本比例可表示为 n0n1P或1P
nn
(二)关于样本比例的抽样分布
n•容量相同的所有可能样本的样本比例的概率分布
•当样本容量很大时,样本比例的抽样分布可用正态分布近似 •一种理论概率分布
•推断总体比例的理论基础
(三)样本比例抽样分布的数学期望与方差(108页公式3.40 3.41)(记忆) 样本比例的数学期望
样本比例的方差 重复抽样 (1)22P Pn
不重复抽样 (1)Nn22PP nN1
E(P)
因篇幅问题不能全部显示,请点此查看更多更全内容