您好,欢迎来到华佗小知识。
搜索
您的当前位置:首页抽样网上

抽样网上

来源:华佗小知识
简单随机抽样(三):样本n确定 1.相对误差r,求样本n

1. 某居民区共有10000户,现用抽样调查的方法估计该区居民的用水量。采用简单随机抽样抽选了100户,得y=12.5,s2=12.52。估计该居民区的总用水量95%的置信区间。若要求估计的相对误差不超过20%,试问应抽多少户做样本?

(1) 在脚本语言中输入下列语句: CI<-function(est,sd,alpha){ u<-qnorm(1-alpha/2) CIl<-est-u*sd CIu<-est+u*sd CI<-c(CIl,CIu) }

#main pro vary<-12.52 alpha<-0.05

u<-qnorm(1-alpha/2) est<-12.5 N<-10000 n<-100 f<-n/N

sd<-sqrt(vary*(1-f)/n) Ci<-CI(est,sd,alpha)

得到置信区间为[11.80997 , 13.19003]

(2) n0<-(u*sqrt(vary))/(0.2*est) n1<-n0*n0

n<-n1/(1+n1/N)

得到n样本数为8,用户数需要大于8户。

(1)alpha<-0.05 u<-qnorm(1-alpha/2) CV1<-0.38 CV2<-0.39 CV3<-0.44 r<-0.04

n1<-(u*CV1/r)^2 。。n1<-(u*CV1)^2 *(1-cv1)/cv1 n2<-(u*CV2/r)^2 n3<-(u*CV3/r)^2 得到n1=347,n2=366,n3=465,所以n=1177户农户。 (2)

2.变异系数P,求样本n

2. 某县采用简单随机抽样估计粮食、棉花、大豆的播种面积,抽样单元为农户。根据以往资料其变量的变异系数为 名称 粮食 棉花 大豆 变异系数 0.38 0.39 0.44

若要求以上各个项目的置信度为95%,相对误差不超过4%,需要抽取多少户?若用这一样本估计粮食的播种面积,其精度是多少?

分层抽样

调查某个地区的养牛头数,以村作为抽样单元。根据村的海拔高度和人口密度划分成四层,每层取10个村作为样本单元,经过调查获得下列数据

层 1 2 3 4 要求: 村总数 1411 4705 2558 14997 样本村养牛头数 1 2 3 4 5 6 7 8 9 10 43 84 98 0 10 44 0 124 13 0 50 147 62 87 84 158 170 104 56 160 228 262 110 232 139 178 334 0 63 220 17 34 25 34 36 0 25 7 15 31 (1) 估计该地区养牛总头数Y及其估计量的相对标准误差s(Y)(2) 讨论分层抽样与不分层抽样比较效率有否提高。 (3) 若样本量不变采用Neyman分配可以减少方差多少?

~ˆYˆ

(1) 估计该地区养牛总头数Y及其估计量的相对标准误差s(Y)~ˆYˆ

y1<-c(43,84,98,0,10,44,0,124,13,0)

y2<-c(50,147,62,87,84,158,170,104,56,160) y3<-c(228,262,110,232,139,178,334,0,63,220) y4<-c(17,34,25,34,36,0,25,7,15,31) N1<-1411 N2<-4705 N3<-2558 N4<-14997

N<-N1+N2+N3+N4 w1<-N1/N w2<-N2/N w3<-N3/N w4<-N4/N n<-10

y1bar<-mean(y1) y2bar<-mean(y2) y3bar<-mean(y3) y4bar<-mean(y4)

ybar<-w1*y1bar+w2*y2bar+w3*y3bar+w4*y4bar Y<-N*ybar

vary<-(1/n)*(N1*(N1-n)*var(y1)+N2*(N2-n)*var(y2)+N3*(N3-n)*var(y3)+N4*(N4-n)*var(y4))

ˆˆ~得到养牛总头数Y为1353572只;相对标准差误差s(Y)Y为sqrt(vary)/Y= 0.09098019

1

(2) 讨论分层抽样与不分层抽样比较效率有否提高。

分层抽样:ybar=57.18272,vary= 27.06595 y1<-c(43,84,98,0,10,44,0,124,13,0)

y2<-c(50,147,62,87,84,158,170,104,56,160) y3<-c(228,262,110,232,139,178,334,0,63,220) y4<-c(17,34,25,34,36,0,25,7,15,31) N1<-1411 N2<-4705 N3<-2558 N4<-14997

N<-N1+N2+N3+N4 w1<-N1/N w2<-N2/N w3<-N3/N w4<-N4/N n<-10

y1bar<-mean(y1) y2bar<-mean(y2) y3bar<-mean(y3) y4bar<-mean(y4)

ybar<-w1*y1bar+w2*y2bar+w3*y3bar+w4*y4bar Y<-N*ybar

vary<-(1/n)*(N1*(N1-n)*var(y1)+N2*(N2-n)*var(y2)+N3*(N3-n)*var(y3)+N4*(N4-n)*var(y4))

简单随机抽样:ybar= 87.1,vary= 176.9387

y<-c(43,84,98,0,10,44,0,124,13,0,50,147,62,87,84,158,170, 104,56,160,228,262,110,232,139,178,334,0,63,220,17,34,25, 34,36,0,25,7,15,31) N1<-1411 N2<-4705 N3<-2558 N4<-14997

N<-N1+N2+N3+N4 w1<-N1/N w2<-N2/N w3<-N3/N w4<-N4/N n<-40 f<-n/N

ybar<-mean(y) Y<-N*ybar

vary<-(1-f)*var(y)/n

2

分层抽样的方差小于不分层抽样的方差,所以分层抽样的效率有提高。

(3) 若样本量不变采用Neyman分配可以减少方差多少?

y1<-c(43,84,98,0,10,44,0,124,13,0)

y2<-c(50,147,62,87,84,158,170,104,56,160) y3<-c(228,262,110,232,139,178,334,0,63,220) y4<-c(17,34,25,34,36,0,25,7,15,31) N1<-1411 N2<-4705 N3<-2558 N4<-14997

N<-N1+N2+N3+N4 n<-40

n1<-n*N1*sd(y1)/(N1*sd(y1)+N2*sd(y2)+N3*sd(y3)+N4*sd(y4))

n2<-n*N2*sd(y2)/(N1*sd(y1)+N2*sd(y2)+N3*sd(y3)+N4*sd(y4))

n3<-n*N3*sd(y3)/(N1*sd(y1)+N2*sd(y2)+N3*sd(y3)+N4*sd(y4))

n4<-n*N4*sd(y4)/(N1*sd(y1)+N2*sd(y2)+N3*sd(y3)+N4*sd(y4))

w1<-N1/N w2<-N2/N w3<-N3/N w4<-N4/N

y1bar<-mean(y1) y2bar<-mean(y2) y3bar<-mean(y3) y4bar<-mean(y4)

ybar<-w1*y1bar+w2*y2bar+w3*y3bar+w4*y4bar Y<-N*ybar

vary<-(w1^2*var(y1)/4+w2^2*var(y2)/12+w3^2*var(y3)/14+w4^2*var(y4)/10)-(1/N)*(w1*var(y1)+w2*var(y2)+w3*var(y3)+w4*var(y4))

可达到方差最小值vary为23.40882,方差可减小27.06595- 23.40882 =3.65713

3

抽样方法

比估计法(简单随机抽样)

1.某乡欲估计今年的小麦总产量,全县共有123个村,按简单随机抽样抽取13个村作为样本,取得资料如下:

样本村 1 2 3 4 5 6 7 8 9 10 11 12 13 去年的小麦产量(百斤) 550 720 1500 1020 620 980 928 1200 1350 1750 670 729 1530 今年的小麦产量(百斤) 610 780 1600 1030 600 1050 977 1440 1570 2210 980 865 1710 (1) 若已知去年的小麦总产量为128200(百斤),采用比估计法估计今年的小麦总产量和置信度为95%的置信区间。

CI<-function(Yr,sd,alpha){ u<-qnorm(1-alpha/2) CIl<-Yr-u*sd CIu<-Yr+u*sd CI<-c(CIl,CIu) }

#main pro N<-123 n<-13 f<-n/N

X<-128200

x<-c(550,720,1500,1020,620,980,928,1200,1350,1750,670,729,1530)

y<-c(610,780,1600,1030,600,1050,977,1440,1570,2210,980,865,1710)

xbar<-mean(x) ybar<-mean(y)

4

varx<-var(x) vary<-var(y) sxy<-cov(x,y) R<-ybar/xbar Yr<-R*X

vYr<-N^2*(1-f)*(vary+R^2*varx-2*R*sxy)/n sd<-sqrt(vYr) alpha<-0.05

u<-qnorm(1-alpha/2) Ci<-CI(Yr,sd,alpha)

得到今年今年小麦总产量的估计量为145943.8百斤,置信区间为[138737.3 , 153150.2]

回归估计法

(2) 采用回归估计法估计今年的小麦总产量和置信度为95%的置信区间。

CI<-function(yr,sd,alpha){ u<-qnorm(1-alpha/2) CIl<-yr-u*sd CIu<-yr+u*sd CI<-c(CIl,CIu) }

#main pro N<-123 n<-13 f<-n/N

X<-128200

x<-c(550,720,1500,1020,620,980,928,1200,1350,1750,670,729,1530)

y<-c(610,780,1600,1030,600,1050,977,1440,1570,2210,980,865,1710)

xbar<-mean(x) ybar<-mean(y) Xbar<-X/N varx<-var(x) vary<-var(y) sxy<-cov(x,y) b<-sxy/varx

ylr<-ybar+b*(Xbar-xbar) Ylr<-N*ylr

se<-sqrt((n-1)*(vary-b*sxy)/(n-2)) vYlr<-N^2*(1-f)*se^2/n

5

sd<-sqrt(vYlr) alpha<-0.05

u<-qnorm(1-alpha/2) Ci<-CI(Ylr,sd,alpha)

得到今年今年小麦总产量的估计量为145945.1百斤,置信区间为[138551.1 , 153336.5]

比估计法和回归估计法比较

(3) 比较两种估计方法的精确度。

分别比估计:Ybar= 1186.535,sd= 3676.834 联合比估计:Ybar= 1186.546,sd= 3771.863

分别比估计的标准差小于联合比估计的标准差,所以分别比估计更准确。

2.某县欲调查某种农作物的产量,由于平原和山区的产量有差别,故拟划分平原和山区两层采用分层抽样。同时当年产量与去年产量之间有相关关系,故还计划采用比估计方法。已知平原共有120个村,去年总产量为24500(百斤),山区共有180个村,去年总产为21200(百斤)。现从平原用简单随机抽样抽取6个村,从山区抽取9个村,两年的产量资料如下:

平原 山区

样本 去年产量 当年产量 样本 去年产量 (百斤) (百斤) (百斤) 1 204 210 1 137 2 143 160 2 1 3 82 75 3 119 4 256 280 4 63 5 275 300 5 103 6 198 190 6 107 7 159 8 63 9 87

当年产量 (百斤) 150 200 125 60 110 100 180 75 90 试用分别比估计与联合比估计分别估计当年的总产量,给出估计量的标准误,并对上述两种结果进行比较和分析。

6

分别比估计(分层抽样)

N1<-120 X1<-24500 n1<-6

f1<-n1/N1 N2<-180 X2<-21200 n2<-9

f2<-n2/N2

x1<-c(204,143,82,256,275,198)

x2<-c(137,1,119,63,103,107,159,63,87) y1<-c(210,160,75,280,300,190)

y2<-c(150,200,125,60,110,100,180,75,90) xbar1<-mean(x1) xbar2<-mean(x2) ybar1<-mean(y1) ybar2<-mean(y2) R1<-ybar1/xbar1 R2<-ybar2/xbar2 varx1<-var(x1) varx2<-var(x2) vary1<-var(y1) vary2<-var(y2) sxy1<-cov(x1,y1) sxy2<-cov(x2,y2)

yrs<-sum(ybar1*X1/xbar1,ybar2*X2/xbar2)

a1<-N1^2*(1-f1)*(vary1+R1^2*varx1-2*R1*sxy1)/n1 a2<-N2^2*(1-f2)*(vary2+R2^2*varx2-2*R2*sxy2)/n2 vyrs<-sum(a1,a2) sd1<-sqrt(vyrs)

得到当年总产量的估计量Yrs为48206.45,估计量的标准差为751.4072

联合比估计

N1<-120 X1<-24500 n1<-6

f1<-n1/N1 N2<-180 X2<-21200 n2<-9

f2<-n2/N2

7

X<-sum(X1,X2)

x1<-c(204,143,82,256,275,198)

x2<-c(137,1,119,63,103,107,159,63,87) y1<-c(210,160,75,280,300,190)

y2<-c(150,200,125,60,110,100,180,75,90) xbar1<-mean(x1) xbar2<-mean(x2) ybar1<-mean(y1) ybar2<-mean(y2) varx1<-var(x1) varx2<-var(x2) vary1<-var(y1) vary2<-var(y2) sxy1<-cov(x1,y1) sxy2<-cov(x2,y2)

Yst<-sum(N1*ybar1,N2*ybar2) Xst<-sum(N1*xbar1,N2*xbar2) Rc<-Yst/Xst Yrc<-Rc*X

b1<-N1^2*(1-f1)*(vary1+Rc^2*varx1-2*Rc*sxy1)/n1 b2<-N2^2*(1-f2)*(vary2+Rc^2*varx2-2*Rc*sxy2)/n2 vYrc<-sum(b1,b2) sd2<-sqrt(vYrc)

得到当年总产量的估计量为48209.84,估计量的标准差为746.388 分别比估计的标准差大于联合比估计的标准差,所以联合比估计效果好。

8

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- huatuo0.cn 版权所有 湘ICP备2023017654号-2

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务