蓝田玉PDF文档网 / 管理法律 / 哈佛商学院MBA教程(下)
 


哈佛商学院MBA教程(下)



全美金融商业世头对哈佛 MBA 的评价 Harvard Business School
哈佛商学院,商界的梵蒂冈。MBA,成功与富有的象征。 以前,美国的年轻学子梦寐以求进入法学院与医海陆空院;现在,学生们纷
纷地挤向商学院,去追求企管硕士 MBA 文凭。
MBA,通往上流社会的通行证。 哈佛商学院培养的是总经理人材。这一宗旨近一个世纪以来从未改变。哈佛
之所以有非同凡响的影响,是因为学校抱着以培养总经理为已任这坚定不移的宗 旨,这就是哈佛的使命。
刚出校门的哈佛商学院工商管理硕士平均年薪可达 10 万美元。 它不一定培养“知识分子”,而只造就“能力分子”;它不注重造就知识型
的“专业人才”,而只造就“职业老板”。
哈佛 MBA 学位是全球各科硕士学位中的含金量最高的。 不论学生们从事何种行业,哈佛商学院都教给了他们一整套企业管理和增加
利注的方法和工具,这一点毫无问题。


  哈佛的教学是将工商界高层管理经验浓缩在两年的学习中。学习使学生们广 泛地接触了经营管理的各个领域,并为学生提供了制定各种决策的工具和构架。


  哈佛 MBA 基本的风险分析、财务分析、制定策略的技能都是相当高明的。学 生们毕业后,分析数据的能力看起来好象特别受雇主的重视。


  哈佛毕业生的特点之一,就是可以巧妙地处理多种多样的情况,有极强的适 应能力及解决问题的能力。他们受到了良好的基础训练,800 多个案例分析,使 他们接触了远远超过了一个企业可能发生的所有问题。
  
哈佛商学院 MBA 教程(下)

第十章 统计学

第一节 统计学的研究方法


  统计学研究对象的性质决定着统计学的研究方法。以下阐述统计学上所 特有的基本方法:大量观察法、综合指标法、归纳推断法。至于一般的统计 方法,则分别在其它章节中论述。由于统计学所研究的是特定总体数量关系 的方法论,这些方法的数学依据是大数定律,所以本节中也讲述大数定律的 意义和作用。
            一、大量观察法 所谓大量观察法,是指对所研究事物的全部或足够数量进行观察的方
法。社会经济现象是受各种因素相互影响的结果。在社会现象的总体中,个
别单位往往受偶然因素影响,如果只选择一部分单位进行观察,是不能代表 总体的一般特征的,必须观察事物的全部或足够数量单位并加以综合分析, 这样可使事物中非本质的偶然因素的影响互相抵消或削弱,社会现象的一般 特征就能显示出来。这是由于统计研究对象的多样性和复杂性所决定的。
政治算术学派的苏斯密尔希,被称为大量观察法的倡导者。他从人口规
律的研究中得出结论:“事实若多一分,人事现象的规律则多发现一分;事 实若少一分,人事现象的规律则少发现一分。”“因此,不能用太少的事实, 要尽可能地多,而且更好的是要尽可能包含更多的年份。”
社会统计学派梅尔认为,统计学研究的是社会总体而不是个别的社会现
象,由于社会现象的复杂性和总体性,必须对总体进行大量观察和分析,研 究其内在联系,方能反映社会现象的规律。以大量观察法作为统计研究的方 法是由梅尔全部完成的,并成为 19 世纪末到 20 世纪初支配德国统计学界的 主要理论体系,统计调查运用大量观察法,可以对总体的所有单位进行全面 调查。大量观察法并不排斥对个别单位的典型调查,它可以同典型调查结合 起来,加深对社会现象的认识。
            二、综合指标法 任何统计对象的具体项目,都是以统计指标表示的。统计所要了解的,
不是个别事物的数值,而是将个别事物的数值综合汇总而成总体数值,这个
数值是通过综合指标反映的。综合指标表示的具体现象的总体数量关系,它 包括指标名称和指标数值。社会经济现象的统计指标是根据政治经济学以及 其他有关的社会科学而确定的。
  常用的综合指标有总量指标、相对指标、平均指标等,这些综合指标概 括地描述了总体各单位变量分布的综合数量特征。综合指标法是统计分析的 基本方法,其他各种统计分析方法都以它作为基础。如时间数列法、指数法、 抽样法、相关法等都离不开综合指标的对比分析。

三、归纳推断法

  所谓归纳法是从个别到一般的推理方法,是统计研究中常用的方法。上 面所谈的综合指标法将个别现象的数值综合汇总成总体数值,概括反映了总 体一般的数量特征,所采用的方法就是归纳法。
  在研究社会经济现象的总体数量关系时,我们需要了解的总体对象范围 常常是很大的,有时甚至是无限的,以致只能从中观察宣传部分单位进行计 算和分析,根据结果来推论总体。例如,正在流水线上大规模生产的产品零 件,需要及时了解它们的质量,只能抽取其中的部分产品检验,借以推断这 一批产品质量的好坏,并以一定的置信标准来推论所作结论的可靠程度。
  这种根据样本数据来判断总体数量特征的归纳推理的方法称为统计推断 法。统计推断是现代统计学的基本方法,这种方法既可以用于对总体参数的 估计,也可以用作对总体的某些假设检验。
四、大数定律 大数定律最早由瑞士数学家雅各布·伯努里提出,后由凯特勒完成了大
数定律和概率论同统计的结合。他从莫阿弗尔,拉普勒斯等人所证实的大数
定律的数学定理出发,又吸收了格朗特、苏斯密尔希等人对社会经济现象所 提出的大数法则思想,从而首次在社会科学的范畴内提出他的大数定律的思 想,并把统计理论建立在大数定律的基础上。在他的代表作《论人类》中, 他通过大量统计资料的计算论证,社会生活现象并非偶然结合。他说根据现 象的大量数据所产生的、概括的平均数,反映着人们所研究的现象的典型面 貌及其发展规律。
大数定律是随机现象出现的基本规律,也是随机现象大量重复中出现的
必然规律。总体中所包含的个体存在着共同的规律性,这种规律性只有在大 量观察中才能显示出来。大数定律的本质意义,在于经过大量观察,把个别 的、偶然的差异性互相抵消,而必然的、集体的规律性便显示出来。
社会经济现象也具有随机性,因为社会经济现象是受多种原因影响的,
而这些原因的发生有许多的偶然因素,有些是必然因素,这两种因素总是交 错结合在一起。分析社会经济现象必须对总体中全部或足够数量的单位进行 观察,通过平均数将偶然的随机因素抵消,从而显示出现象的典型水平。

第二节 如何开展一个项目的研究


  管理者怎样才能获得能够做出最优决策的信息呢?下面就开始我们的学 习。首先介绍一下统计学的应用范围:
财政收入预测 竞争威胁的判断 消费者态度调查 广告效用的评价 价格政策的制订 质量控制标准评价
  管理者收集的信息来自各种渠道。这些信息要经过整理和分类,才能作 为决策的依据。一些信息是用来做主要研究工作的;另外一些则用于辅助研 究工作。取得辅助研究的资料很容易而且费用不高。他们可以从以下的途径 获得:
市场调查公司 广告代理机构 促销公司 公关部门 贸易协会 行业协会 政府机构 半官方机构
专业杂志和出版物
商业杂志和出版物 报纸的研究部门 杂志的研究部门 邮寄公司 科学研究机构
主要研究工作迄今为止还不具有创造性,可以说只有固定的模式。其资
料常常可利用上述途径得到,然后就能进行研究
一、分析数据 整理检查完原始数据后,可以用定量的方法分析数据。特别是描述变量
的概率及相关关系时,用定量方法分析数据所得到的结果,能使结论的表述 更加简练。例如:90%的被访者都认为,自己更喜欢新品牌的某产品,而不 是X牌的旧产品。
二、频率分布 在进行数据分析时,人们感兴趣的是数据(观察值)集中或者离散、相
似或者差异的程度。数据的波动程度是指数据的离散度,可以用图形来表示,
即图形分布。 图形分布大致可分为三类:


(一)对称分布(正态分布)
  对称分布的图形如钟形(如图 10—1)。大多数观察值落在图形的中部, 其他的均匀分布在两边。例如人的身材,过于矮小和过于高大的人,在整个 人群中所占的比例极小;较为矮小和较高大的人占较大的比例;而中等身材 的人占最大的比例。所以,我们说,人在身材上的比例分布基本上属于对称 分布。



图 10—1 对称分布

(二)偏斜分布
  偏斜分布的图形如图 10—2 所示。它是指大多数观察值分布在一边(或 说聚集在一边),而较少数处于另一边。它又有两种形态:一种是如图 10—
2(a)所示的向下偏斜;另一种是图上出售的各种产品的数量,取决于他希 望得到的价格。需求与供给的分析方法,是把这两种力分别开来,轮流分析, 然后再把它们合到一起,说明价格和产出。
A 先生要买多少某种消费物品?第一,这取决于他的个人偏好。有的人
喜欢菠菜,而别的人却不喜欢,因而购买情形不同。第二,这与 A 先生的收 入大有关系。个人收入愈高,他购买各种物品愈多。
第三,物品的价格有一种效应。总的说,价格越低,购买量越大。最后,
有关物品的价格也有关系。可能联系到另一种物品,有的是因为可以代有, 或是因为正常情况下一块儿使用(用作补充)。奶油和植物油是可以相互代 用的物品。奶油价格高了,购



  图 10—2 偏斜分布 买植物油就会多起来。汽油和汽车是相互补充,汽车价格低些,汽油的购买 量就大起来。
充分地说明消费者的行为,要求在所有这些方面进行探究。但是,在本
章,探究重点放在需求方面:购买物品的数量与该物品价格的关系。在分析 时假定购买者的收入、口味,一切有关联的产品的价格,都是既定的,都是 常数。
  这一切都肯定了,那么关于 A 先生对某一特定物品,比如说咖啡的需求, 我们能说什么呢?在这个意义上,需求是什么呢?怎么叙述它呢?
  需求是按各种价格要购买的数量单(或表)。在经济学中,“需求”这 术语,说的总是一个表。它不是单一的数量。如果要侧重研究按某种特定价 格购买的数量,它是所需求的量(需求量)。
  要说明 A 先生对咖啡的需求,必须按咖啡的各种可能的价格,指明每种 所需求的数量。例如,A 先生的需求可能象图 10—2(b)。如果价格是 2.5 美元,他就只买 1 磅。价格低些,他就多买些。如果价格降到 25 美分,他就 每月买 10 磅。
  10—2(b)所示的向上偏斜。例如,假定两个群体都以图 10—2 的横轴 代表收入水平,收入水平从低到高排列,假设两群体中所拿最低收入相同,
  
最高收入也相同。纵轴代表拿某种收入人数的话,那么就可以看出,图 10—
2(b)所代表的群体;比(a)所代表的群体要富裕。



(三)双峰分布
  这种图形的形状像驼峰,见图 10—3。它表明观察值形成为两个集中区 域。例如某班级考试的成绩,得较低分数和较高分数的人都较多,只有少数 人得中等分数,所以形成双峰分布。
  
第三节 集中趋势和离散趋势
           一、集中趋势的测试 常用来表述数列集中趋势的测试有算术平均数、调和平均数、几何平均
数、中位数和众数。这些测试在统计学中也为平均指标或平均数,可以用来 反映标志值的典型水平和标志值分布的中心位置或集中趋势。

(一)算术平均数
  算术平均数是平均指标中最重要的一种。一般不特别说明时所称的“平 均数”就是指算术平均数。算术平均数的定义公式
如下:


算术平均数=

总体标志总量
总体单位总量

例:某企业工人月工资总额为 80,000 元,人数为 2,00 人,则该月工
80,000

人的平均工资

2 ,00

=400元。

  计算算术平均数时,标志总量和单位总量必须属于同一总体,分子和分 母所包含的口径必须一致。否则,计算出来的平均数指示便失去科学性。利 用以上定义式计算的平均数,可分为简单算术平均数和加权算术平均数两 种。

1.简单算术平均数
  计算算术平均数在不具备总体的标志总量和单位总量资料时,要依据总 体各个单位的具体资料来计算。将总体的各个单位标志值简单相加,然后除 以单位个数,求出的平均标志值,叫做简单算术平均数。简单算术平均数的 计算公式为:
  

x ? X1 ? X 2 ? X 3 ? ? ? X n
n

n
? X i
i?1
n

式中: x 代表算术平均数;
Xi 代表第 i 个单位的标志值,i=1,2,3,?n;
n 代表总体单位数; Σ代表总和。
例:企业车间中有 12 个工人,每个工人日产某种产品件数为:17,15,
18,16,17,16,14,17,16,15,18,16,则某工厂生产班组的平均日产 量用简单算术平均数计算如下:
x
17 ? 15 ? 18 ? 16 ? 17 ? 16 ? 14 ? 17 ? 16 ? 15 ? 18 ? 16
?
12
195
? ? 16.25(件)
12

2.加权算术平均数
当资料中被平均的变量值重复出现时,例如某个变量值X重复出现 f
次,按照简单平均法,就要对变量值X连加 f 次。为了简化计算,可以用X
乘 f 来代替同一变量值X的连加 f 次。用这种方法计算的平均数就称为加权 算术均数。其计算公式为:
n
? ? Xi fi





简写为:

X i ?1
? fi
i?1


??Xf

X ?
? f
式中:X i(或 X)代表标志值;
fi(或 f)代表标志值 Xi(或 X)B 出现的次数;
n 代表组数;
n
? X i fi ( 或? Xf )代表总量.
i?1
表 10—1 某车间工人数及日产量资料
工人按是零件分组
(X) 工人数(f) 每个工人生产件数×工人数
(Xf) 20
22
24
26
30
32
33
合 计 10
12
25
30
18
15
10
120 200
264
600
780
540
480
330
3,194



根据上表资料,计算中权算术平均数为:

? Xf


3,194

X ? ? ? 26.61( 件)

f
??Xf
X ?
? f

120

式表明,平均数的大小,不仅取决于总体各单位的标志值,

??Xf

而且受单位标志值出现的次数的影响。所以,统计学里把 X ?
? f

式中的

fi(或f)也称作为权数。权数可以分为绝对数权数和相对数权数。记相对


数权数 W


? fi
?


,则 X ?
i

??Xf
?


式的加权平均数可以表述为:

i Xf f

X ? ? X i W 其中:Wi 是 Xi 的权数(Xi 出现的相对次数),即它对平均的 结果起权衡轻重的作用。
显然,如果各组次数完全相等,则f对各组标志值产生同等的影响,它
不再起权衡轻重的作用,这时加权算术平均数就等于前述的简单算术平均 数,所以可把简单算术平均数看作是加权算术平均数的一个特例,即,当各 组的次数 fi 相等时:
f1 ? f2 ?? ? fn ? f0

? Xf

f ? X ? X

则: X ? ? ?
? f nf n
  如果你所掌握的资料不是单项数列资料,而是组距数列资料时,计算算 术平均数的方法与上述方法基本相同。只是先要计算出各组的组中值
(下限+上限)
,以各组组中值代表该组标志值进行计算。
2
例:某企业工人每月工资分组资料如表(10—2):

表 10—2 某企业每月工资分组资料
月工资分组 组中值(元) 工人人数
(元) ( X ) ( f ) 各组工人工资总额
(元 Xf ) 50 ~ 60 55 10
60 ~ 70 65 10
70 ~ 80 75 30
80 ~ 90 85 10
90 ~ 100 95 10 550
650
2,250
3,400
950 合计 — 100 7,800



以各组的组中值为标志值代人中权算术平均数的公式得:

??Xf


7 ,800

X ? ? ? 78(元)
? f 100
  利用组中值计算算术平均数,是以假定各组内的标志值均匀分布为前 提,而计算的结果同实际情况可能会有一些偏差,因此是平均数的近似值。

(二)调和平均数
  调和平均数又称“倒数平均数”,它是根据各标志值的倒数来计算的平 均数。具体地说,调和平均数就是各个标志值倒数的算术平均数的倒数。但 计算结果并非是算术平均数的倒数。调和平均数应用并不广泛,统计工作中 往往是把调和平均数的计算形式,作为算术数的变形来使用。
  调和平均数也分简单调和平均数和加权调和平均数。如以 Xh 代表调和平 均数,以 n 代表资料项数,则简单调和平均数的计算公式为:
  
1 1 1
? ? ? ?
1 ? X1 X 2 X h
X H n
n n

即: XH ?

1 1 1 ? 1

(10·3)

? ? ? ?
X1 X 2 X h X
  例:有三种商品,一种是每千克 1.00 元,一种是每千克 0.80 元,一种 是每千克 0.50 元,现在各买 1 元,问平均每千克的价格。用上式计算可得:
  
ls X ? n ?
1
X



1
?
1.0

3
1
?
0.8



1
0.50

? 0.71(元 / 千克)

  显然这个计算结果同实际情况相符合,因为,分别用 1 元买得第一种 1 千克,第二种商品 1.25 千克,第三种商品 2 千克,3 元买 4.25 千克,平均 每千克为 3÷4.25=0.71 元。
若设 m 为权数,则加权调和平均数的计算公式为:
m1 ? m 2 ? m3 ? ? ? mn
1 ? X 1 X2 X 3 X n

X H m1 ? m2 ? m3 ? ? ? mn



n
? mi

则X H ?

m1 ? m 2 ? m 3 ? ? ? m n


i?1
n

m1 ? m2

m m
? 3 ? ? ? n

? mi

X1 X 2 X 3

X n i?1 X i

  在统计的实际应用中,若已知标志值和标志总量时,则可把上式作为算 术平均数的变形来使用,其变形形式为:
  

X H ?

? m ?? Xf
?
m ?Xf

? Xf
?
? f


? X(这里m ? Xf )

? X ? X
  例:企业本月购进某材料四批,每批价格以及采购金额如表(10—3)所 示,求这四批材料的平均价格。
平均每千克价格 X h 为:
4

? mi


50,000

i?1

X h ? 4
? i

?
1,219

? 41.02(元)

i?1 X 1


表 10—3 企业材料价格和金额资料

价格(元/千克)
X 采购金额(元)
m 采购量(千克)
m
X 第一批
第二批
第三批
第四批 35
40
45
50 10,000
20,000
15,000
5,000 286
500
333
100 合 计 — 50,000 1,219


(三)几何平均数
几何平均数是计算平均比率和平均速度最适用的一种方法。几何平均数 有简单几何平均数和加权几何平均数之分。
简单几何平均数是n个标志值连乘积的n次方根,其计算公式为:

XG ? n X 1·X 2 ·??X n

? n ? X

式中: XG 代表几何平均数; X 代表标志值;
n 代表标志值的次数;
п为连乘的符号。
  在用几何平均数法计算平均数时,如果 n 大于 2 可采用对数法来计算。 将上式两边同时取对数,可得:
1

log X G ?

n (log X1 ? log x2 ?? ? log X n ?1 ? log X n )

? n ? log X
所以,几何平均数也称为对数平均数。
几何平均数的加权公式为:
k
XG ? ? fi X1 f1 ·X 2 f2 ·X3 f3 ·X k fk
i?1
式中:Xi 代表标志值(i=1,2,?,k);
fi 代表标志值 Xi 重复出现的次数(i=1,2,?,k)。

(四)中位数
  中位数和前面几种计算的平均数不同,它是一种按其在数列中的特殊位 置而决定的平均数。把总体各单位标志值按大小顺序排列后,处在中点位次 的标志值就是中位数,它将全部标志值分成两个部分,一半标志值比它大, 一半标志值比它小,而且比它大的标志值个数和比它小的标志值个数相等。 要求得中位数,首先要确定中位数的位次。对于中位数的位次由以下公
式确定。

中位数位次 ?

n ? 1
2



表 10—4 某百货公司所属商店处销售额资料

商店按年销售额分组(万元) 商 店 数
50 ~ 60 24
60 ~ 70 48
70 ~ 80 105
80 ~ 90 60
90 ~ 100 27
110 ~ 120 21
100 ~ 110 12
120 ~ 130 3
合计 300





按上式,确定中位数的位次为 ? f
2

? 300 ? 150 。它说明中位数应使这个
2

数列中各有 150 个商店的年销售额在其上下。在组距数列中,各组距数值是 按大小顺序排列的。这样,计算各组累计商店数,到第二组止为 24+48=72 个,到第三组止为 72+105=177 个,可见到第三组的累计次数已超过 150 个,中位数就在第三组内,即中位数应在年销售额 70—80 万元的组内。
再计算中位数值是分布均匀的。这样,可从中位数在该组内的位次来比
例推算它的近似值。中位数在该组内的位次为 150—72=78。它与全组商店 数的比例为 78/105=0.743,按该组组距数值 80—70=10 万元加以推算,则
为 0.743×10=7.43(万元)。于是,从中位数所在组的下限加上这个数字:
70+7.43=77.43 万元,即为中位数。 中位数的最大特点是:它是序列中间一项或两项的平均数,不受极端值
的影响,所以当一个变量数列中含有特大值与特小值的情况采用中位数较为
适宜。正由于中位数的这一特点,在统计研究中当遇到掌握统计资料不多而 且各标志值之间差异程度较大或频数分布有偏态时,为避免计算标志值所得 的算术平均数偏大或偏小,就可利用中位数来表示现象的一般水平。

(五)众数
  众数也是一种位置的平均数。众数是指总体单位中,标志值出现次数最 多的那个数值。单项数列中,频数最多组的标志值就是众数。但在组距数列 的条件下,先要确定众数所在组,然后计算以求得近似的众数值。下面仍用
图表 n ? X 资料,来说明其计算过程。
  由表 10—4 可知,年销售额在 70—80 万元这一组的商店数最多,即为众 数组。为了确定众数的具体数值,可用下限公式或上限公式加以计算。下限 公式为:
  

M0 ? L ? d

d 1 ? i
1 ? d 2

式中:M0 代表众数;
L 代表众数组的下限;
d1 代表众数组次数与上一组次数之差;

d2 代表众数组次数与下一组次数之差;
i 代表众数组的组距。 众数的上限公式为:


M0 ? U ? d

d 2 ? i
1 ? d 2

式中:U 代表众数组的上限,其他符号含义同前。 众数的计算只适用于单位数较多,且有明显的集中趋势。否则,计算众
数是没有意义的。
           二、离散趋势的测度 离散趋势的测度,在统计学中也称为标志变异指标,是用来描述数列中
标志值的离散趋势与离散程度的。 常用的标志变异指标有极差,平均差,方差和标准差等。

(一)极差
  极差是指一个数列中两个极端值即最大值和最小值之差。计算极差是测 定标志变异程度最简单的方法,根据极差的大小能说明标志值变动范围的大 小,其公式为:
极差=最大标志值—最小标志值
  极差是测定标志变动程度的一种粗略方法。它计算简便,易于理解。但 它只受极端值的影响,测定的结果往往不能反映数据的实际离散程度。

(二)平均差
  平均差是各单位标志值对平均数的离差绝对值的平均数。由于各个标志 值对算术平均数的离差有正有负,其和为零,因此须采用离差的绝对值来计 算平均数。平均差公式反映总体各单位标志值对其平均数的平均离差量。平 均差越大,表明标志变异程度越大;反之,则表明标志变异程度越小。
平均差通常用字母 A. D.表示,在资料未分组时,计算公式为:
? X ? X
A.D.?
N


(三)方差和标准差
  差对离差采用绝对值,避免了正负离差求和时互相抵消的问题,但绝对 值不便于代数运算,而方差和标准差可弥补这一不足。
方差的公式为:




式中:?2 为方差; X 为变量值;
X 为算术平均数;
n 为总体单位数。


? 2 ?

? (X ? X) 2
n

将方差开平方,得到的即为标准差,这是为了使变异量单位同数据单位

一致。标准差也称为均方差,其公式为:
? (X ? X) 2
? ?
                      n
式中的?代表标准差。
  例:测得 10 株小麦株高数据如表 10—5 的第二栏所示。试计算这 10 株 小麦株高的方差和标准差。

表 10—5 10 株小麦株高方差和标准差标准计算表

2 2






















根据表 10—5 资料计算得:
1,130
X ? ? 113(厘米)
10
? (Xi ? X)


方差为?2 ?

? (X ? X) 2
n


132
? ? 13.2
10


标准差为? ?

因为

? ( Xi ? X)
?
n


13.2 ? 3.63(厘米)






? X2

? (X ? X) 2
?
n

2 X? X

?[X 2 ? 2XX ? (X) 2 ]
n

? ? ? (X) 2
n n
? X2
? ? 2( X) 2 ? ( X) 2
n
? X2
? ? (X) 2
n

所以方差和标准差的计算也常常运用以下两个公式:

? X2

? ? X ?

? 2 ? ? ? ?
n n


? X 2

? ? X ?

? ? ? ? ?
n n

当资料是分组数据时,方差和标准差的计算可采用加权形式,公式为: 式中:


? 2 ?

? ( Xi

? X) 2 f

? f

? (X i
? ?


? X)2 f

? f
式中:Xi 代表各组组中值;
f 代表各组次数;
X 为加权算术平均数。

(四)离散系数
  上述的各种标志变异度指标,都是对总体中各单位标志值变异测定的绝 对量指标。在统计研究中,为了对不同的总体的标志变异度进行对比分析, 往往还需要有测定总体中各单位标志值变异的相对量指标,即离散系数,以 消除不同总体之间在计量单位、平均水平方面的不可比因素。
常用的离散系数主要有平均差系数(VA.D.)和标准差系数(V?)两种。
其公式分别为:
A. D.

VA .D.

? ? 100%
X
?

V? ? ? 100%
X

第四节 随机变量与概率分布
一、随机变量 人们遇到的随机试验是多种多样的。试验结果可能是计数值,也可能是
计量值,还有一些是定性表示的。为了便于建立试验结果与概率的直接对应 关系,可用一个变量X表示试验结果(还可用 Y,Z,??表示),由于试验 结果的出现是不肯定的,所以称 X 为随机变量。
  例:从一批产品中随机抽取一件,有两种可能结果:正品或次品。结果 用一个变量 X 来表示。
?1出现正品时
即为: X ? ? ?0出现次品时
  “X=1”表示试验结果出现正品事件,而“X=0”则表示试验结果出现 次品事件。由于 X 的取值是不定的,所以 X 是一个
随机变量。 有些随机试验,其试验结果可定量表示,不需要再数量化。
例:商店的一柜台前,每分钟来的顾客数可能是 0,1,2??,若用 Y
代表每分钟到达柜台前的顾客数,则“Y=K”表示每分钟到达柜台前的顾客 数为 K 这一事件。由于 Y 取的值是不确定的,所以 Y 为随机变量。
例:某产品的标准重量是 500 克,而实际重量一般是在 500 左右波动。
如果用 Z 代表该产品的重量,则 499≤Z≤501 即可表示产品的重量在 499~
501 克这一事件发生了,Z 称为随机变量。 按取值情况,随机变量通常分为两种:离散型随机变量和连续型随机变
量。

二、离散型随机变量的概率分布

(一)概率分布和概率分布图
  要掌握随机变量 X 的统计分布规律,仅仅知道 X 所有可能取得的值是不 够的,更重要的是要了解 X 取值的概率。用图形或公式来描述离散型随机变 量的所有可能值及其相应的概率,称作离散型随机变量的概率分布。若离散 型随机变量 X 的可能取值为了 x1,x2,?xk?,概率分别为 p1,p2,?pk?,
则可用概率分布表表示如下:
X x1x2 ? ? xk ? ?
P p1p2 ? ? pk ? ?
其中每个概率在 0 与 1 之间,所有概率之和为 1,用数学形式表示就是: O≤P(X=xi)≤1
ΣP(X=x2)=1 i=1,2,?k
记: F( x) ? P( X ? x) ? ? p( x ? xi )
x i ? x
则称 F(x)为随便机变量 X 的累积概率分布。
例:某公司聘用 50 名营业员,每人每天接待的新顾客数 xi 是一个随机

变量,资料和计算结果如表

表 10—6 概率分布图
xi xi 发生的频数 P(X=xi) 0 1 1/50 1 2 2/50 2
3 4
3 4/50
3/50 4 6 6/50 5 8 8/50 6 10 10/50 7 7 7/50 8 5 5/50 9 3 3/50 10 1 1/50 合计 50 1



上表是概率分布表,表中的概率计算是把 xi,发生的频数与合计数 50

相除而得到的。图 10—4 和图 10—5 的概率分布图和累计概率分布图则是根 据概率分布表画出的。根据随机变量的概率分布情况,可以看出其变化的规 律和现象的整体性质,并可用概率来描述,如在 50 名营业员中进行随机抽 样,抽到一个接待 8 位新顾客的营业员的概率是多少?由要概率分布表中查 得答案是 5/50=0.1。


(二)数学期望和方差 数学期望和方差是描述随机变量概率分布的两个最重要的数字特征。 数学期望又称期望值或均值,代表随机变量分布的集中趋势用 E(X)或
μ表示。离散型随机变量 X 的期望值就是随机变



图 10—4 概率分布图



            图 10—5 累计概率分布图 量的取值用其出现概率进行加权的平均数,以公式表示为:
                   E(X) ? ? xi P( X ? xi ) ? ?
数学期望有以下几个重要性质:
(1)设 C 是常数,则有 E(C)=0
(2)设X是一个随机变量,C 是常数,则有 E(CX)=CE(X)。
(3)设 X,Y 是任意两个随机变量,则有 E(X+Y)=E(X)+E(Y)。 这一性质可以推广到任意有限个随机变量之和的情况。

(4)设 X,Y 是两个相互独立的随机变量,则有 E(XY)=E(X)E(Y)。 这一性质也可以推广到任意有限个相互独立的随机变量之积的情况。 随机变量的方差用未描述分布的高中趋势,常记作 D(X)或?2,定义式
为:
D( X) ? E{[ X ? E(X)]2 } ? ? 2
方差的平方根称为标准差或均方差,记作б,即:
? ? D(X)
由方差的定义式,对于离散型随机变量有:
D( X) ? E[(X ? ?) 2 ]

? ? ( x i ? ?)


P( X ? x i )

在计算随机变量调的方差时,经常用到以下公式:
D( X) ? E(X 2 ) ? [E( X)]2
上式可利用数学期望的性质推得:
D( X) ? E{[X ? E(X)]2 }
? E{X 2 ? 2 XE( X) ? [ E(X)]2 }
? E(X 2 ) ? [E( X)]2
方差主要有以下几个重要性质:
(1)设 C 是常数,则 D(C)=0。
(2)设 X 是一个随机变量,C 是常数,则有 D(CX)=C2D(X)。
(3)设 X,Y 是两个相互独立的随机变量,则有 D(X±Y)=D(X)±D
(Y)
上例中的资料,其数学期望和方差的计算如下:
10 1 2 4
? ? ? x i P(x ? x i ) ? 0 ? 50 ? 1 ? 50 ? 2 ? 50
3 6 8 10
? 3 ? ? 4 ? ? 5 ? ? 8 ?

50 50
7 5

50 50
3 1

? 7 ? ? 8 ? ? 9 ? ? 10 ? ? 5.38
50 50 50 50

? 2 ? (x i ? ?) P 2 (X ? x ) ? (0 ? 5.38)2 ? 1
50

2
? (1 ? 5.38)2 ?
50


? (2 ? 5.38) 2 ?

4 ? (3 ? 5.38) 2 ? 3
50 50
8 10

? (4 ? 5.38)2 ? 6
50
7

? (5 ? 5.38)2 ? ? (6 ? 5.38) 2 ? ? (7 ? 5.38)2 ?
50 50 50
5 3 1
? (8 ? 5.38) 2 ? ? (9 ? 5.38) 2 ? ? (10 ? 5.38) 2 ?
50 50 50
? 5.1956
下面介绍几种常见的离散型随机变量的概率分布。

(三)二点分布
可能取值只有两个的随机变量所服从的分布称为两点分布,也叫(0~1)

分布。
  例:袋里有 a 只白球,b 只黑球,现随机抽取一只,问是白球的概率为 多少?
  若作 X=1 表示抽到的是白球,X=0 表示抽到的是黑球,那么随便机变 量 X 服从二点分布,它的概率分布是:
  

P{X ? 1} ?

a
a ? b


, P{X ? 0} ?

b
a ? b



通常二点分布的形式是:
P{X ? 1} ? p(0 ? p ? 1(p是参数)
P{X ? 0} ? 1 ? p
二点分布的数学期望为 P,方差为 p(1-P)。

(四)二项分布
  二项分布是从著名的伯努里试验过程中推导出来的。取名为伯努里试验 是为了纪念在概率论方面作出显著贡献的瑞士数学家雅各布·伯努里。伯努 里试验是一系列试验,若干伯努里试验排列成伯努里过程。
每次试验只有两种可能结果,一是成功的结果,另一是失败的结果,两
种结果互相对立。若把成功的概率记为 P,失败的概率则记为 q=1-P。如射 击手打靶,每次打靶可能命中,也可能未命中,命中概率 P 为 0.7 则未命中 的概率为 1-P=1-0.7=0.3。在历次试验中其概率值保持不变。
任何一次特定的试验,其结果不受其他各次试验结果的影响,即互相独
立。
n 次伯努里试验中,成功的次数是一个随机变量,它可能是 0,1,2,??,
n 次。该随机变量服从的分布就是二项分布。记作 X~B(n,p)。 例:投掷一枚不匀称的分币,其出现正面的概率为 P(P≠1/2),独立
地重复三次,求其中恰有二次出现正面的概率。
根据题意,记 Ai=“第 i 次出现正面”(i=1,2,3),独立重
复试验 3 次,全部可能结果有 8 种,其中恰有 2 次出现正面有:
A A A 、A A A 、A A A 三种互不相容的。概率都是 P2(1-p),故:
P{恰有2次出现正面}

? P(A 1A 2 A 3 ) ? P (A 1 A 2 A 3 ) ? P (A 1A 2 A 3 )
? p2 (1 ? p) ? p2 (1 ? p) ? p 2 (1? p)
? 3p 2 (1 ? p) ? C 2 p2 (1 ? p)
如重复投掷四次,恰有 2 次出现正面的概率为,一般地,二项分布 B(n,p) 的概率分布为:
k k n? k

P(X ? k) ? C n p q

( k ? 0,1,2,? , n)

由于 P(x=k),k=0,1,2?n,是二项式(q+py)n的展开式中 yk 前的系数,二项分布由此而得名。二项分布的数学期望为np方差为 npq。 为了使用方便,人们编制了二项分布表,表中对不同的n及p给出了相应的 概率。

(五)泊松分布
如随机变量x的概率分布如下:
?k

P{x ? k} ?

e? ?
k !

(k ? 0,1,2,? ? , ? ? 0)

则称x服从泊松分布。泊松分布的特点是数学期望和方差都是λ。 希腊字母λ称为泊松分布的参数,它等于一个随机事件在某时间或空间
范围内平均发生的次数。k表示随机事件在某个区间内发生的次数。记号e
是常数 2.71828。 经济生活中服从泊松分布的随机变量很多。如:工厂里的事故发生次数;
到标本商店买货物的顾客人数;细纱断头数;布匹疵点数;稀有事件,如洪 水爆发,飞机失事等。

(六)超几何分布
  超几何分布应用是非常广泛的。由于在伯努里试验中,具有指定特征的 事件发生的概率 P 始终保持不变,也就是说,二项分布描述的是回置抽取。 但是在实际情况中,较多的是采用不回置抽取。故抽取过程中 P 就要发生变 化,此时就要用到超几何分布。
一般来说,如果有同类产品共 N 个,其中有 M 个次品。现从中随机取出
n 个(假定 n≤N—M),则这 n 个产品中所含的次品数 X 是一个离散型随机变 量,其概率分布为超几何分布。超几何分布的公式为:
C k ·C n? k

P(X ? k) ?

m N ? M
n
N

( k ? 0,1,2,? min(M, n))

其中,N-M 是总体产品中的合格品,n-k 是从产品中抽取的合格品。

三、连续型随机变量的概率分布

(一)连续型随机变量
  一个随机变量如能够在一个数值区间内取任何值,则此变量就是连续型 随机变量。由于连续型随机变量的取值不能一一列出,因此不能象离散型随 机变量那样把随机变量的取值及其概率用列表的形式描述,而要用连续函数 的形式描述。满足下列两个条件的函数 f(x)作连续型随机变量 X 的概率密 度函数:
f(x)≥0 ①
?

方差为:

(x)dx ? 1 ②
??

对f (x) 的积分F( x)称作概率分布函数:

x

F(x) ?
? ?

f (x)dx ③

  实用上,常把连续型随机变量 X 的概率密度函数 f(x)和概率分布函数 F(x),统称为随机变量 X 的概率分布。
  连续型随机变量 X 在某个值域区间(a,b)或[a,b]内取值的概率, 等于概率密度函数 f(x)的曲线与 x 轴以及由 x 轴上 a 和 b 两点引出的两条 垂线所围成的面积,就是求如下的积分:
  
b
P(a ? x ? b) ? f (x)dx ? F(b) ? F(a) ④
a
  如上式指出的,f(x)在 X 的整个值域上的积分为 1,也就是说,整个 概率密度函数 f(x)曲线下的面积等于 1。



设 X 为连续型随机变量,其概率密度函数为 f(x),则 X 的数学期望为:
?
E(x) ? ?f (x)dx ⑤
x


方差为:
D( X) ? E{[ X ? E( X)]2 }
?
? [x ? E(X)]2 f (x)dx ⑥
? ?
  下面介绍几种常见的连续型随机变量的概率分布:均匀分布、指数分布 和正态分布。其中正态分布是统计学最重要的分布。

(二)均匀分布
如果随机变量 X 的概率密度函数为:
? 1 a ? x ? b?
? b ? a ?
? ?
f (x) ? ?0 ?
? ? ?
?1 0 其他 ?
? ?
则称 X 服从[a,b]上的均匀分布,记作 X~R[a,b],它的均值为
2

a ? b ,方差为 (b ? a)

,分布函数为:

2
?0
? x ? a
F( x) ? ?
? b ? a
??

12
x ? a

a ? x ? b ⑦

  均匀分布的意义是:X 取值于[a,b]中任一小区间[c,d]的概率与 该小区间的长度(d—c)成正比,而与小区间的具体位置无关。

(三)指数分布
如果随机变量 X 的概率密度函数为:

??e? ?x
?
f (x) ? ?
?
?0

当x ? 0


当x ? 0



(? ? 0)

则称x服从参数为λ的指数分布。简化作x~E(λ)它的均值为λ-1,方差 为λ-2。1/λ常称为平均寿命,e-?x 常称为可靠度。指数分布的分布函数为:

?0
F( x) ? ?
?1 ? e? ?x

当x ? 0时
当x ? 0 时



(四)正态分布
如果随机变量x的概率密度函数为:
2
1 ? ( x ?? )

f (x) ?

e 2? 2
2??

(?? ? X ? ??)

则称 X 服从正态分布,记作 X~N(μ,?2),其中μ是分布的数学期望,
?2 是分布的方差。
正态分布的概率密度函数 f(x)具有下列性质:
  1.在直角坐标系内f(x)的图形呈钟形,以x=μ为对称轴,呈左右 对称。
  
2.在x=μ处,f(x)取最大值,如 f (?) ?

1

1
2??

;x 越远离μ,f

(x)的极大值f(μ)= f (?) ?


2??

可知,?越小时,曲绕越陡峭;? 越

大时,曲线越平缓(见图 10—7)。反之,如果б为固定,改变μ的值,则 f
(x)的图形沿着 x 轴平行移动,而曲线的形状不改变(见图 10—8)。
图表 10—7 图表 10—8
正态分布的分布函数为:
2


F( x) ?

1 x ? ( x? ? )
? e 2?2 dx ⑧

2 ?? ??
  正态分布是由德·莫阿弗尔(A.de Moiver,1667~1752)于 1933 年首 先发表的,是概率论中最重要的一种分布,也是最常见的一种分布。例如, 测量误差的分布;炮弹弹头落点的分布;人的生理尺寸、特征、身长、体重 等的分布都为正态分布。
一般说来,若影响某一数量值的随机因素很多,而各因素所起的作用不
太大,则这个指标就服从正态分布。许多分布可用正态分布上来近似,另一 些分布可以通过正态分布来导出。
正态分布是一个分布族。对应于不同的参数μ和σ,会产生不同的正态
分布。参数μ=0,σ2=1 的正态分布称为标准正态分布。当随机变量x服 从标准正态分布时,就记作x~n(0,1),其密度函数为:


f (x) ?

1 x2
e ? ⑨
2? 2

分布函数是:

F( X) ? ?(X) ?



1 x
2? ?



x2
? dx
e 2

? ?

⑩式积分的数值为图 10—9 所示的阴影部分面积。
  图 10—9ф(X)是 X 的函数,已制成的ф(X)的函数值表。要求标准 正态分布的分布函数值时只需要查表即可。由于标准正态分布是以 X=0 为中 心轴的对称分布,并注意到分布曲线同横轴所包围的面积是常数 1,可知φ
(X)有以下性质:
φ(-X)=1-φ(X)

四、统计量及其分布

(一)统计量
  抽样就是从所研究的对象中随机取出其中一部分来观察,由此而获取有 关总体的信息。所谓总体就是研究某现象的客体,它包含了各个个体。例如, 研究某批灯泡的质量,每只灯泡是个体,所有灯泡组成的全体就是一个总体。 在抽样中,被抽取的部分个体,称为总体的一个样本,样本中个体的数量称
为样本容量。样本中的数值(x1,x2,?,xn)称为样本观察值。
  抽样的目的是通过取得的样本,对总体分布中某些未知因素作出推断。 样本能否很好地反映总体的信息,与抽样方法有关。这里介绍一种称为“简 单随机抽样”的方法,其要求为:(1)总体总每个个体被抽中的概率均等;
(2)样本中每个个体取值并不影响其他个体取值。
  由简单随机抽样所得的样本称为简单随机样本。当总体容量较小时,只 有回置抽样才能得到简单随机样本。当总体容量很大或所抽的样本容量在总 体中所占比例较小时,不回置抽样也可得到较理想的简单随机样本。后面我 们所说的样本都是简单随机样本。
在抽样中,可以用样本的平均数、比率、标准差等综合指标来描述样本
的特征,这些指标称为统计量。由于样本是随机抽取的,对于每一个特定的 样本,统计量都有一个相应的数值。可见统计量是一个随机变量,其取值随 机本的不同而不同。统计量既然是个随机变量,就有其取值的概率分布。统 计量的概率分布通常又称为抽样分布。

(二)样本平均数的分布
如果从正态分布总体 N(μ,?2)中随机抽取样本,则样本平均数的分 布有如下结论:(1)样本平均数 x 的分布仍然是正态分布;(2)样本平均
  
数 x 的分布的期望值?
x
?2

等于总体的平均数μ;(3)样本平均数 x 分布的方差
?2

? x 等于总体的方差除以样本容量即? x

。这些结论对正态分布总体进行推断

时经常要用到。 若从非正态分布总体中抽样,那么样本平均数的抽样分布性质又如何
呢?可运用上曾讨论过的中心极限定理来分析。
没有一总体,其均值μ、方差?2 为有限数值,如从该总体中抽取容量为
n 的样本,则当样本容量很大时,根据中心极限定量白样本算出的平均数 x
的抽样分布将近似服从平均值为μ方差为?2/n 的正态分布。 这就是说,只要取大样本(容量不小于 30),即使从非正态分布总体中
抽样,利用中心极限定理能得到和从正态分布总体抽样时近似相同的结果。



(三)两个样本平均数之差的分布
2
如果有两个正态分布总体,其平均数分别为μ1 和μ2,方差分别为? 1 和
2
? 2 ,那么从这两个正态分布总体中抽取的容量分别为 n1 和 n2 的两个独立样
本的平均数之差 x1 ? x 2 也一定服从正态分布,其数学期望为μ1,-μ2,方

2
差为 1
n1

? 2
? 2 。上面所讲的两 个样本独立,是指一个样本中各单位的抽取对
n1

另一个样本中各单位的抽取没有影响。

(四)样本比率的分布
  当总体服从二项分布时,它的所有单位可以分戍两类,每一类具有一个 特定的属性或特征。例如合格品或不合格品,男学生或女学生等习惯上,往 往是只指定其中一个属性或特征,具备这一同性或特征的单位称“成功”的 单位,不具备这一属性或特征的单位就称为“失败”的单位。
  在二项分布总体中,成功单位数与总体全部单位数之比称为总体比率, 记作 p。从二项分布总体中抽样,样本中成功单位数与样本容量之比称为样 本比率,记作 p。样本比率是个随机变量,当样本容量很大时近似服从正态
分布,其分布的数学期望等于总体比率为 p,方差等于 p(1 ? p) 。须注意,样
n
本比率 p 的抽样分布要近似为止态分布,样本容量 n 必须很大,并且要满足
np 和 n(1-p)大于 5。
此外,还有一些常用的抽样分布,如:t 分布、F 分布、x2 分布等。

第五节 回归分析和相关分析

一、一元线性回归

(一)一元回归分析和相关分析
  我们已经知道变量间一般具有两种关系,即函数关系和相关关系。回归 分析则是处理具有相关关系的变量之间的统计方法。一般当两个变量有统计 相关关系时,对应自变量 X 的每一个值 X,应变量 Y 有许多可能取的值。为 找出 X 和 Y 之间的定量关系,一个自然的想法是,取 X=x。时所有 Y 值的平
均值(记作 Y0)作为对应 X=x0 时 Y 的代表值,亦即取
Y ? E(Y X ? x0 )
其中((Y X ? x0 ) )表示在 X=x0 条件下,Y 的条件期望。同样的,对应
于 X=x1,有 Y1= E(Y X ? x1 ) 作为 X=x1 时 Y 的代表值。一般说来,对于任 何一个 X 的可能取值 x,我们都可以相应取Y ? E(Y X ? x) ,当 x 变化时,上 式右边是 x 的函数,
可以记为:
Y=f(x)=E(Y|X=x) ①
公式(1)就叫做应变量 Y 关于自变量调的回归方程。或者得称做 Y 关于 X 的回归函数。Y 对调的回归方程反映了在 X 取值变动时,Y 平均状态的变化情 况。
怎样从几何图形上确定 f(x)的曲线类型来反映变量之间的关系,这个
问题比较复杂。在实际应用中往往一是依据专业理论知识和以往的经验,二 是用观察数据作散点图来分析其主要的变化趋势,由此确定函数的类型。

(二)一元线性回归方程
  回归方程最简单的一种情况,就是线性回归方程。在线性回归方程中, 当自变量只有一个时称作一元线性回归方程;自变量不止一个时,称作多无 线性回归方程。
如果一个应变量与一个自变量有相关关系,根据观察数据作散点图时,
它们的关系具有直线趋势,则可用一无线性回归直线去进行拟合。

(三)相关系数及其显著性检验
  建立回归方程时,可以根据观察点配合一个直线方程表示 y 和调之间的 关系。显然,此时所配的直线是毫无意义的,这就需要给出一个数量性的指 标来描述两个变量间线性相关的密切程度,这个指标就是相关系数,常用字
母 r 表示。所求相关系数的公式为:
1


lxy
r ? ?

? x i y i ? (? x i )(? y i )


l xx l yy


l xy

[? x 2

? 1 (? x ) 2 ][? y 2

? 1
n

(? y i


)2 ]

由于 b ? ,故相关系数 r 和回归系数数 b 有下列关系:
l xx

bl
r ? xx ③
l xx l yy


显然 r 和 b 的符号是一致的。
|r|≤1,而且 r 的值反映了 r 和 y 的内在联系。现分析如下:
1.当 r=±1 时,所有点全在一条直线(即驾临直线)上。此时,称 x
与 y 完全线性相关。当 x=1 时称为完全正相关;当 r=-1 时,称为完全负 相关。
2.当 0<|r|<1 时,这种情况很普遍,此时 x 和 y 存在一定的线性相关。
当 r>0 时,称 x 和 y 是正相关;当 r<0 时,称 x 和 y 是负相关。
  3.当 r=0 时,此时 b=0,故回归直线是与 x 轴平行的直线,说明 y 的 变化和 x 无关,此时 x 和 y 无线性相关。
  采用观察值计算出的是样本相关系数,要说明两总体变量是否具有线性 相关,一般还需作假设检验。
设:H0:总体相关系数为 0
H1:总体相关系数不为 0
检验统计量为:

r 2
F ? 1 ? r 2


(n ? 2) ④

  可以证明,当 H0 成立时统计量 F 是服从具有自由度为(1,n-2)的 F 分布,因而给出显著性水平。a(通常 a=0.01 或 0.05)。当 F≥Fa(1,n
-2)时,则拒绝 H0,即说明两变量之间线性相关关系是显著的;反之,若 F
<Fa(1,n-2),则接受 H0,说明两变量线性相关关系不显著。

(四)一元线性回归的方差分析
  用最小二乘方求得一个回归方程后,其效果如何,方程所揭示的变量变 动规律强不强,能否利用它根据自变量 x 的取值来预报(或控制)应变量 y 的取值,以及预报的精度如何等等。为此需要进行方差分析。
把观蔡值 yi 与平均数 y 之间的离差平方和称为总偏差平方和,记作 Ss
总。即:


SS 总

n
? ? ( y i ? y)

i?1
1 n
其中y ? ? ? y i
i ?1
把观察值 yi 与拟合值 y 的离差平方和称为误差平方和,记作 SSe,即:
n
SSe =? (y i -y)
2

i?1
yi(i=1,2,??n 为按回归方程计算出的 yi 的拟合值(理论值)。 把拟合值 y 与 y 的离差平方和称为回归平方和,记作 SSR,即:

n
SS R =? (yi -y)

i?1
可以证明SS 总


? SS

n


R ? SSe ,
n

即有:

? (yi ? y?)

? ? ? (y) i

? y) 2


因为:

i?1
SS R


? l yy

i?1
? ? (y? ? y?) 2

? ? (a ? bxi ? a ? bx)
? b ? (xi ? x)
? b2 l ? bl
所以知道 b 和 lxy 即可得到 SSR,则 SSe=SS 总-SSR。
  要求回归方程解释 y 和 x 变动规律的能力强,就等价于要求回照排误差 要小,即要求误差平方和 SSe。由于观察数据给定后,总偏差平方和 Ss 总是 一个常量,因此,一个回归方程的效果好坏(即解释能力的强弱)取决于 SSR
SS R

和 SSe,或者说取决于 SSR 在总偏差平方和 SS 总中的比例 SS
大,误差越小,回归效果就越好。

。这个比例越


比值 SS R
SS

= bl xy = xy
l l l


=r 2 ,从而SS


=r 2SS


=r 2 l ,

总 yy

xx yy
2 2

SSe SSe =SS总 -SSR =l yy -rl yy=l gg

(1-r

)。 通过这些关系式,可以

进一步理解相关系数的意义,并且很容易看出|r|≤1。实际上,回归平方
和 SSR 是总平方和 SS 总=1yy 中的一部分,而误差平方和又不能为负数,因此


SSR≤SS 总=lyy 故由 r

2 = SS R
SS 总


≤1,即|r|≤1。

每一个平方和都有一个自由度同它相联系,总偏差平方和的自由度为 n

-1,因为在计算? (yi -y )

的偏差平方和时消失了一个自由度。

误差平方和自由度为 n -2,因为在? (y1-y )=? (y -a-bx)2 公 式中,其中参数 a 和 b 是由观察资料计算的,因而消失两个自由度。
回归平方和? (y?)i -y )2 的自由度为 1,因为对具有一个自变量的回
归方程来说。回归平方和自由度为 1。 由此可知自由度也可分解,即总偏差平方和自由度=误差平方和自由度
十回归平方和自由度。 这种将平方和及自由度分解后进行分析的方法称方差分析法。 一元回归的方差分析是将回归平方和与误差平方和各自除以自己的自由
度后加以比较,然后对这个方差比作显著性检验。如果检验结果是显著的, 说明调和 y 存在着线性关系,回归效果显著。反之,则说明调和 y 不存在线 性关系,回归效果不显著。为此,可用检验统计量为:
SS R / 1

F ? SS


/ n ? 2

这个统计量


F ? SS R / 1

rl2 (n ? 2)
? 2 ?


r 2
2 (n ? 2)

SS e / n ? 2

(1 ? r

)l yy

2 ? r

  即为相关系数 r 的显著性检验时用的统计量④式。给定显著性水平 a 后, 查表 Fa(1,n-2),当 F≥Fa(1,n-2),表明回归效果显著;反之,则不 显著,即 x 和 y 不存在线性关系。另外,从上述介绍可知,对于一无线性回 归问题,方差分析法和相关系数显著性检验法是一致的,因此只须采用其中 之一即可。

(五)一元线性回归的预测
若已求得回归方程 y?=a+b ,则当 x=x0 时,对应的预报对象 y 的点预

测值为 y?0 =a+bx

。但是,由于各种因素的影响,在 x=x0

时,实际上观察

到的数值 y0 一般不会恰好是 y?0 ,它们之间总是存在着一定的们差,即预测误
差。为了掌握预报的精度,要对误差的变动范围作出测定。 通常用估计标准误差来说明 y?i 与 yi 的差异程度,在大样本时,其公式
为:



S yx ?

? (yi ? y?i )
n ? 2



(5)

此式计算比较繁琐,通常采用下式:



Syx ?

? yi

? a? yi ? b? xi ? yi
n ? 2



(6)

  一般若 y 为正态分布,当 n 较大,并且 x0 不远离 x 时,可以证明当 n 较小,通常 n<30 时,则若给定置信概率(即可靠度)1-a,可以证明 y0 的 预测区间为:
  

1 (x


? x) 2 a

y? ? t

(n ? 2)S

1 ? ? 0

? y ? y?

? t 2 ( n ? 2)S

0 a yx
2

n (xi

? x) 2 0 0 xy


1
1 ? ?
n


(x0 ? x0 )2
? ( xi ? x)2


其中t a 可通过查t分布表得到。
2

实际上大样本预测区问的公式和小样本预测区问的公式是一致的,因为
当 n 增大时,小样本公式中的概式趋近于 1,t 分布趋近于正态分布,在正态 分布下,概率度为 1 的置信概率是 0.6287,概率度为 2 的置信概率是 0.9545, 概率度为 3 的置信概率是 0.9973。

二、多元线性回归

(一)多元线性回归的计算方法
  当所要研究的经济变量的变化是几个重要因素共同作用的结果时,要选 取几个自变量来建立回归方程,这就是多元回归问题。多无线性回归同一无 线性回归的方法相似,但计算要繁琐得多。
如果两个自变量(用 x1 和 x2 表示)分别同一个应变量(用 y 表示)呈
线性相关时,可用二无线性回归方程描述:

y?i =b 0 +b1 x1i +b2 x2i
其中回归参数(系数)b0、b1、b2,由以下方程组解出:
∑yi =nb0 +b1 ∑xi x1i +b2 ∑x2i
∑x y =b ∑x +b ∑x2 +b ∑x x
∑x y =b ∑x +b ∑x x +b ∑x2
三元线性回归方程为(以下关于数据序号的下标 i 省写):
y?=b0 +b1 x1 +b2 x 2 +b3 x3
其中参数 b0、b1、b2b3,由以下方程组解出:
∑y=nb0 +b1 ∑x1 +b2 ∑x 2 +b3 ∑x3
2
哈佛商学院MBA教程(下)的下一页
成为本站VIP会员VIP会员登录, 若未注册,请点击免费注册VIP 成为本站会员.
版权声明:本站所有电子书均来自互联网。如果您发现有任何侵犯您权益的情况,请立即和我们联系,我们会及时作相关处理。


其它广告
联系我们     广告合作     网站声明     关于我们     推荐PDF     全部分类     最近更新     宝宝博客
蓝田玉PDF文档网致力于建设中国最大的PDF格式电子书的收集和下载服务!