免費論壇 繁體 | 簡體
Sclub交友聊天~加入聊天室當版主
分享
返回列表 发帖

论2019、2020年高考统计类题目的坑爹性

又到玩(pen)高考统计题的时候啦

又是一年高考,又是一年统计坑!
这个玩意本人已经写了有好多年了,从劳资读硕写到读博,再写到现在博都毕业了,坑还是那么坑,这些年高考统一出卷的多了,题少了,但从这两年来看,统计题不但没有啥改善,还特么有变本加厉的趋势!

好了,言归正传,看一个个题挨喷:

1、2019年全国卷III,理/文17
p0078.png
2020-7-9 19:58


直方图!又是直方图!出题的智障们啥时候能脑袋开窍弄点有新意的东西来啊?次次直方图,次次被怼!

第一问就算了,没啥好说的,第二问!我再次不厌其烦的说一遍:直方图是给你看个大概趋势的,不是用来做数据处理和分析的!!!!

首先我要问问出题的智障,直方图是怎么来的?难道是天上掉下来的么?还是你收数据之间得来的?
直方图当然是你收完数据以后根据数据画出来的啊!那既然有原始数据,为什么你们不用原始数据之间进行分析,而要用这个该死的不清晰的直方图?!

你想要估计个啥东西,比如说这里的“离子残留百分比”平均值,请你用原始数据来做,难道不比你用什么“同一组中的数据用该组区间的中点值为代表”要精确可靠的多么?!

2、2019年江苏卷,5

p0079.png
2020-7-9 19:59


题目本身也许没问题,但我看了下许多资料给出的所谓答案,叫做方差为$\frac{5}{3}$。

然而当我随便打开一些软件,计算这玩意的方差,你们会惊讶的发现,结果是不一样的。
p0080.png
2020-7-9 20:00
p0081.png
2020-7-9 20:00

左边是Excel的结果,右边是Mathematica的结果

为啥不一样?因为一般统计学专业上所谓的一组数据的“方差”,是指样!本!方!差!如果你只说求某一组数据的“方差”,一定是指求这组数据的无偏样本方差,或者叫做修正样本方差(包括上面这些软件中也是这样定义的)。

而无偏样本方差的定义为:
\[S^2=\frac{1}{n-1}\sum_{k=1}^n(X_k-\bar{X})^2\]
带进这里,那就是
\[S^2=\frac{1}{6-1}[(6-8)^2+(7-8)^2+(8-8)^2+(8-8)^2+(9-8)^2+(10-8)^2]=\frac{1}{5}[4+1+1+4]=2\]
如果你想求无修正样本方差,那请你明确的说清楚是在求“无修正”样本方差,只要没这样说,那对不起,专业上就是指求修正样本方差,因此你这个答案就是错的,因为你根本就求错东西了!

最后再不厌其烦的科普一下什么叫“无偏”。

首先我们的样本方差是个啥,是从样本中算出来的一个值,在统计学上,凡是利用样本数据计算出的值,都叫做统计量,而由于样本本身具有随机性,统计量既然来源于样本,它也自然具有随机性,是个随机变量。
而既然统计量是个随机变量,它就会有自己的分布,有自己的均值、方差那一系列乱七八糟东西。

但要注意,虽然说不管你对着样本做怎样一通胡乱操作算出的任何东西都叫做统计量,却不是每个统计量都有实际意义的,在实际应用中我们会关心某一些特定的值,这些值往往是总体分布中的参数,比如说总体均值、总体方差这些,在频率流派理论下,这些值是常数,是定值,不会变的,根本不是变量(在别的流派里可就不一定了哦,比如贝叶斯流派),但却是未知数值,我们往往需要利用样本算出的某个统计量来估计这些值,这样特定的统计量,称为这些未知数值的估计量(Estimate)。
比如说我们会用样本均值作为总体均值的估计量,用样本方差作为总体方差的估计量,这些都不难理解吧?

那什么叫无偏估计量呢?前面说过,统计量是有自己的分布的,有均值、方差那些东西,估计量既然是一个统计量,它也自然是随机变量,也有自己的分布,有均值、方差那些。
而所谓“无偏”,就是指这个估计量的均值,就等于被估计的那个定值。

比如说样本均值$\bar{X}$,那就有其均值
\[E(\bar{X})=E(\frac{1}{n}\sum_{k=1}^nX_k)=\frac{1}{n}\sum_{k=1}^nE(X_k)=\frac{1}{n}\sum_{k=1}^nE(X)=E(X)\]
也就是说$\bar{X}$就是$E(X)$的无偏估计量。

但对于方差,只有修正样本方差才是总体方差的无偏估计量,有
\[E(S^2)=E\left(\frac{1}{n-1}\sum_{k=1}^n(X-\bar{X})^2\right)=Var(X)\]
至于这个为什么,有兴趣的人自己去推导吧。

这样意味着高中教材中教的所谓方差$\frac{1}{n}\sum_{k=1}^n(X-\bar{X})^2$不是$Var(X)$的无偏估计量,这个东西称为无修正样本方差,其性质是远不如修正样本方差的,这也是为什么统计学上只要不额外说明,“样本方差”四个字就是指求修正样本方差。

TOP

3、2020年全国卷I,理科/文科5

p0082.png
2020-7-9 20:01


我特么...

第一眼看上去你们不觉得就很有问题么?

做实验的小智障们你们敢不敢把温度再调高些?到$60$℃?你信不信种子死给你们看?

所以这个问题你很容易预期其曲线大致是个倒U型,或者更精确的说应该是近似于钟形,你要用选项里面四个破烂去拟合?作死呢?

其次,注意一下你们要拟合的是个什么数据,$y$是个什么东西,是“发芽率”,是个概率!概率能小于$0$么?能大于$1$么?不能吧?那请问你们用来拟合的函数中,有考虑这些限制的东西么?

比如答案中这个$D$项吧,$y=a+b\ln(x)$,那当$b>0$时,是不是只要我$x>e^{\frac{1-a}{b}}$,就会有$\hat{y}=a+b\ln(x)>1$?这不胡闹么?
到底是做实验的傻,还是你们出题的混账傻?

你可以说这里硬性规定温度$10$℃$\le x\le 40$℃,问题是何苦呢?统计学上自有处理概率类问题的办法。

处理概率类变量,一般最常用的办法就是用logit变换,带来的是直接的逻辑回归,模型如下:
\[\hat{y}=\frac{e^{a+bx}}{1+e^{a+bx}}\]
这个函数里面你就可以很清楚的看到,$0<\hat{y}<1$,保证不会给你弄出完全不合理的估计值。
而这个也是比较简单的线性情况,前面说过这玩意很可能是个钟形,大不了我再加一项,变成
\[\hat{y}=\frac{e^{a+b_1x+b_2x^2}}{1+e^{a+b_1x+b_2x^2}}\]
这就完事了,最后靠数据去估计$a,b_1,b_2$的值,确认模型显著性,完事!

另外一种也相对常见的拟合办法是用probit模型,本质上是利用正态分布的累积分布函数(CDF)来构建一个位于$(0,1)$内的变量的估计值。

对标准正态分布,其概率密度函数
\[\phi(x)=\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}\]
其累积分布函数
\[\Phi(x)=\int_{-\infty}^x\phi(t)dt=\int_{-\infty}^x\frac{1}{\sqrt{2\pi}}e^{-\frac{t^2}{2}}dt\]
这个没有初等表达式,只能就这么放着,具体求值丢给电脑或者查表解决,而注意到按照定义,会有$\Phi(x)=P(X<x)$,也就是$\Phi(x)$的值就是给定数值$x$,然后一个服从标准正态分布的随机变量$X<x$的概率。

既然是概率,当然是位于$(0,1)$之间的,因此Probit模型就利用这个性质,模型如下:
\[\hat{y}=\Phi(a+bx)\]
这个是最简单的线性情况,也可以像我上面那样,加一项,解决钟形问题:
\[\hat{y}=\Phi(a+b_1x+b_2x^2)\]
最后也是利用数据去估计$a,b_1,b_2$的值,确认显著性。
1

评分人数

TOP

4、2020年全国卷I,文科17

p0085.png
2020-7-9 20:04


这个第一问没啥好说的,第二问我却看到了出题的智障们似乎又打算让学生们干一种极其不负责任的混账事——只简单比较均值的大小就下结论...

这个问题特么想起来就来气!以往的高考统计题中我已经喷过好几次了,都是些啥玩意,谁告诉你们可以简单比较一下两个样本的均值大小就下结论说哪个样本所在的总体均值更大或更小的?
事情要都这么简单,我们学统计的早特么下岗了,还用混么?
说过无数次了,比较两个均值的大小,需要进行假!设!检!验!这是个有可能很复杂的过程,不是特么简单拿两个样本均值一减就完事的,不能这样下结论!

为什么不能?很简单的一个例子,比如说我要比较男性和女性的平均智商,收了随机抽取的男女各100人的数据,然后分别算个均值,假设是男性$101$,女性$100$,好,现在你直接拿两个样本均值相减,得到男性比女性智商高的结论。
结果你的结论发表后有人不爽,又重复了一次这个过程,又收一遍随机抽取的男女各100人的数据,这回变成女性$101$,男性$100$,于是乎这人得到的结论正好跟你相反。

那问题就来了,谁对啊?一个事实怎么可能有两种截然相反的结论呢?
看到问题所在了吧?你们的数据都是抽样得来的,抽样意味着随机性,你两个样本均值都是随机变量,当然有可能今天这个比那个大,明天那个比这个大,你要想得到一个可靠的结论,就必须想办法尽可能排除掉这种随机性带来的影响,着就是假设检验的过程。

当然由于随机性不可能完全被排除,因此也就有了假设检验中显著性系数(第一类错误率)$\alpha$的设定,只要这个$\alpha$控制在一个预定的可以接受的范围内,我们就承认结果的可靠性。

那这个问题应该怎么做呢?
我可以告诉你,这个问题看起来简单,其实挺复杂的,因为实际上我们是在做两个多项分布的均值比较,而这样的问题并没有一个统一的简单做法,我不得不采用比较通用的办法,比如似然比检验(Likelihood Ratio Test)。

首先我们要简化这个问题,按照题意,甲分厂做出一件$A,B,C,D$产品,分别收入$65,25,-5,-75$,而乙分厂分别收入$70,30,0,-70$,假设甲厂造出四种产品概率分别为$p_1,p_2,p_3,p_4$,乙为$q_1,q_2,q_3,q_4$,这里面$p_1+p_2+p_3+p_4=1=q_1+q_2+q_3+q_4$。

然后确定零假设:$H_0$:两分厂均值相等,也就是$65p_1+25p_2-5p_3-75p_4=70q_1+30q_2-70q_4=\frac{40\cdot 65+20\cdot 25-20\cdot 5-75\cdot 20+28\cdot 65+17\cdot 30-21\cdot 70}{200}=12.5$。
而另一边当然是$H_a$:两分厂均值不等。

接下来我们要分别在$H_0$和$H_a$成立的情况下,对$p_1$到$p_4$和$q_1$到$q_4$进行估计,这里用最大似然估计(MLE)好了。

首先在$H_0$的情况下,对甲分厂有
\[l(X)=\ln(n!)+x_1\ln(p_1)+x_2\ln(p_2)+x_3\ln(p_3)+x_4\ln(p_4)-\ln(x_1!x_2!x_3!x_4!)\]
带入数据变成
\[l(X)=\ln(100!)+40\ln(p_1)+20\ln(p_2)+20\ln(p_3)+20\ln(p_4)-\ln(40!20!20!20!)\]
这里要在$65p_1+25p_2-5p_3-75p_4=12.5, p_1+p_2+p_3+p_4=1$的限制条件下求这玩意的最大值,这个过程比较复杂,毕竟涉及拉格朗日乘数,而且解出来还是三次的,很不好看,我就略过求最大值的过程了,直接告诉你们结果,是:
\[\hat{p_1}=0.3821,\hat{p_2}=0.1978,\hat{p_3}=0.2032,\hat{p_4}=0.2169\]
\[l(X)=\ln(100!)+40\ln(0.3821)+20\ln(0.1978)+20\ln(0.2032)+20\ln(0.2169)-\ln(40!20!20!20!)=-6.91868\]

同理,对乙分厂,有
\[l(Y)=\ln(100!)+28\ln(q_1)+17\ln(q_2)+34\ln(q_3)+21\ln(q_4)-\ln(28!17!34!21!)\]
要在$70q_1+30q_2-70q_4=12.5$,$q_1+q_2+q_3+q_4=1$的条件下求上面的最大值,会得到
\[\hat{q_1}=0.2978,\hat{q_2}=0.1732,\hat{q_3}=0.3356,\hat{q_4}=0.1934\]
以及
\[l(Y)=\ln(100!)+28\ln(0.2978)+17\ln(0.1732)+34\ln(0.3356)+21\ln(0.1934)-\ln(28!17!34!21!)=-6.96527\]
由于两个分厂事件是独立的,会有总对数似然值
\[l(H_0)=l(X)+l(Y)=-13.8839\]

而在$H_a$下的似然值就很容易算了,此时
\[\hat{p_1}=0.4,\hat{p_2}=\hat{p_3}=\hat{p_4}=0.2\]
\[\hat{q_1}=0.28,\hat{q_2}=0.17,\hat{q_3}=0.34,\hat{q_4}=0.21\]
则有
\[l(X)=\ln(100!)+40\ln(0.4)+20\ln(0.2)+20\ln(0.2)+20\ln(0.2)-\ln(40!20!20!20!)=-6.80602\]
\[l(Y)=\ln(100!)+28\ln(0.28)+17\ln(0.17)+34\ln(0.34)+21\ln(0.21)-\ln(28!17!34!21!)=-6.83584\]
然后
\[l(H_a)=l(X)+l(Y)=-13.6419\]
最后计算卡方检验统计量:
\[\lambda=-2[l(H_0)-l(H_a)]=-2(-13.8839+13.6419)=0.484168\]
问题是,在$H_0$情况下,$\lambda\sim \chi^2(2)$,如果令$\alpha=0.05$,其临界值为$\chi^2_{0.95}(2)=5.99>>\lambda$!

因此,最后结论:不!显!著!
两个分厂没有统计意义上的显著区别!

为什么会出现这样的结果?其实从数据中是可以预期的,因为虽然甲均值为$15$,乙均值为$10$,看起来差距挺大的,但实际上由于$A,B,C,D$各组之间的收益差距非常大,导致这些均值估计量的方差奇大无比,会很大的受到样本随机性的影响。

举个例子,我就稍微调整一个数据,比如乙分厂,假设再做一次同样的试加工,我让它$A$变成$30$,而$D$变成$19$,其余不变,那马上你的均值估计就变成
\[\frac{30\cdot 90+17\cdot 30-19\cdot 70}{100}=12.8\]
而你们想想看,这两组样本数据的差异其实并不是很大,在一次试验中这个多一点,那个少一点,都是很有可能出现的事,但对均值的估计影响如此之大,如此之不稳定,你们还相信可以就这么简单比较均值大小然后得出的结论么?

TOP

5、2020年全国卷II,理科/文科18

p0083.png
2020-7-9 20:06


这个问题第一眼看上去就挺奇怪的。

首先这里确定了将整个地区分成面积相近的200个地块,这说明每块地面积可以假设为一样,是个定值,那么植物覆盖面积这种东西,似乎用植物覆盖率更为妥善,然后又会面临跟上面一样的概率问题,到头来还是逃不了logit模型。

不过在这个问题里这个问题不算大,可以不予追究,第一、第二问都没啥问题。

看到第三问,我特么......

这啥烂题啊?你们还想咋抽样啊?搞分层抽样么?我反正不干!

作为统计学专业的人,很有必要告诉大家,尤其是出题的智障,这个是不需要分层抽样的,甚至操作的不好有可能比现在的随机抽样效果更差!

为什么不需要分层抽样?因为植物覆盖面积这种东西,是个连续变量,请问你怎么分层?在什么位置砍一刀?不管怎么弄都会有争议的。

那么在统计学专业上如何处理这类问题?如何进行抽样?

一般只有两种,一个就是这里面这样,随机抽样,你要不喜欢,那就只有另一种了,叫做网格抽样——将土地等距划分网格,订立坐标,每隔一个固定长度选取一个格点,作为抽样区的中心点,然后抽取一个固定边长的长方形(注意都不一定是正方形,坐标轴两个方向上的标量是可以不等的)作为抽样区,后续操作都一样了。

网格抽样本质上基于这样一个假设——相邻地块具有高度相关性,在这里面对植物覆盖面积这种问题,显然是成立的,如此只要网格够密集,那就不管面对什么样的植物覆盖情况,都能给你提供样本。


顺便说一句,在统计学专业上,这种问题的重点从来都不在抽样上,在样本量足够大的情况下,上述两种抽样基本上是等效的,而在样本量小的情况下,对不起,要按你这么简单算个平均值,那怎么抽样效果都不会好的,想要效果好,只能在后续处理使用的模型上下功夫。

这种问题中,由于相邻地块之间高度相关,而距离越远的两个地方,相关程度越低,如果你想对植物覆盖率的分布情况进行建模,可以考虑高斯随机场(Gaussian Random Field)。

啥叫高斯随机场?专业定义我就不说了,太难理解,我这里尝试通俗的解释一下,如果我们考虑一个均匀(Uniform)的同位(Isotopic)高斯随机场,这里均匀是指每个点的均值都相等,同位是指各个方向的性质相同,或者更简单的说就是每个点都差不多。

在这样一个随机场中,对于任意一个点,这个点的数值(比如说这个问题里的植物覆盖面积),服从一个固定的正态分布$N(\mu,\sigma^2)$(这也是为啥它叫做“高斯”随机场的原因,正态分布也称为高斯分布),而任意两点间的数值,其相关性(或者说协方差)的大小,只和这两点的距离有关。

所以这样的模型就对拟合植物覆盖率这类问题比较切实,同类模型在处理海洋、农业、林业数据中都有广泛应用。
当然如果是为了避免负值,也可以考虑卡方随机场,只是把上面的正态分布换成卡方分布而已。

而如果想要拟合动物数量咋办?
考虑到一种动物在一个大范围内出现的数量是随机的,出现的位置也是随机的,这样的问题很容易使用点过程(Point Process)模型来解决,同类模型在解决犯罪、地震、龙卷、森林树木等问题上都有广泛应用。

TOP

6、2020年全国卷III,理科4

p0084.png
2020-7-9 20:08


这个题问题不算很大,但概念上有一些小错误,还是点出来为好。

Logistic模型是处理概率类变量非常管用的一种模型,因此也往往用来延伸处理分类变量(尤其是二元变量)等问题,但你们看这里,有任何概率,或是分类变量么?没有吧?

只有当它变个形,变成定义$p(t)=\frac{I(t)}{K}$,也就是已经确诊的人数与总感染人数的比例,或者说是对所有病人的确诊率,才是个概率,在这种变换下
\[p(t)=\frac{I(t)}{K}=\frac{1}{e^{-0.25(t-53)}}\]
这才是个Logistic模型。

如果单纯按它原有的这种定义方法,这叫不叫Logistic模型呢?不叫,这顶多就是个广义线性模型(Generalized Linear Model)。

TOP

7、2020年新高考I卷(山东卷),19

p0086.png
2020-7-9 20:09

p0087.png
2020-7-9 20:09


这个第一、第二问没啥好说的,但到了第三问,咋特么还是跟以前一样坑呢?

首先一个说过无数次的问题,叫做符号,你现在要求人家做的,实际上就是皮尔逊卡方检验,既然是卡方检验,它就有国际通用的符号,叫做希腊字母$\chi$,我就问你出题的,你是脑笨还是手笨?一个如此简单的希腊字母写不出来?非要弄个什么$K$,让人莫名其妙!

其次,如果说简化列联表有可能有某些特殊作用,我因此而容忍第二问的存在,那么第三问这种用简化后的列联表来进行独立性检验就是绝对不可容忍的了!

我就问你,你既然前面有一个$3\times 3$的列联表,为毛不直接用这个$3\times 3$列联表来进行皮尔逊卡方检验?
为毛非要弄成$2\times 2$的列联表后再做?你这不是平白无故损失信息么?难道不是在给自己找不自在么?

如果你非要说更高阶的皮尔逊卡方检验没学过,那对不起,你干脆就不应该考这样的题,否则就是在教育学生往错误的方向走,到头来净给大学的老师们添麻烦!

正确的做法是什么?当然是直接用$3\times 3$的列联表做皮尔逊卡方检验。

在$H_0$:两者独立的情况下,会有第$i$行$j$列位置的理论值为
\[E_{i,j}=\frac{N_i N_j}{N}\]
其中$N_i$,$N_j$分别表示第$i$行和第$j$列的总和,$N$则表示全部总和,这样算下来有
\[E=\begin{pmatrix}22.14 & 17.82 & 14.04\\10.66 & 8.58 & 6.76\\8.2 & 6.6 & 5.2\end{pmatrix}\]
然后卡方统计量
\[\chi^2=\sum_{i,j}\frac{(O_{i,j}-E_{i,j})^2}{E_{i,j}}\]
这里$O_{i,j}$就是第$i$行$j$列位置的观察值,带入数据会有
\[\chi^2=\frac{(32-22.14)^2}{22.14}+\frac{(18-17.82)^2}{17.82}+...+\frac{(10-5.2)^2}{5.2}=25.4632\]
而在$H_0$下,会有$\chi^2\sim\chi^2(4)$,对于$\chi^2=25.4632$,如果令$\alpha=0.001$,会有临界值$\chi^2_{0.999}(4)=18.4668<25.4632=\chi^2$。

因此是非常显著的,不独立,而你看看显著性,你用$2\times 2$列联表你能弄出$\alpha=0.001$级别的显著性么?你敢这样下结论么?对不起,我就敢!这就是为啥说你非要用简并列联表是要损失信息的。

TOP

一说才注意,哪个温度真高。虽然不懂,但看得带劲。

TOP

我读你的文章有点费劲,主要是我的知识欠缺!但你的文章我一定认真拜读!!!

TOP

看不懂 不过看着挺高大上的 希望苏淳出山 概率把关 放心。最次也得弄个陈希孺出来

TOP

本帖最后由 战巡 于 2020-7-13 18:05 编辑

回复 10# facebooker

概率题其实不容易出问题,容易出问题的是统计

这个谁出山都没啥用,主要是高中教材中的统计内容很少而且错漏百出,根本不能应付实际数据分析问题,强行出题的话只能是这个结果,必须要在教材上进行整改

现在的高中统计存在五大乱象:
1、滥用直方图
2、公式错误(比如上面提到的样本方差公式)
3、独立性检验不规范
4、回归一团乱
5、不经假设检验,只单纯比较统计量大小就下结论

这其中1、3是可以勉强容忍的,2、4、5是绝对不能容忍的严重错误

你要知道,高中教材上就是这样“教”的,换谁来出题、把关有区别么?如果有人未经大学正规统计课的训练,直接用高中学到的这些方法去统计,其得到的结论将是完全不可信的,教材本身就是在教错误的东西!

TOP

2020-08-10_104728.jpg
2020-8-10 10:48

人教版新教材的说明,算是直方图算数字特征的一个解释吧。

TOP

回复 12# 郝酒

问题是人家做直方图的目的纯粹是给你一个直观的数据分布认识而已...

如果你想要做更深入的统计,要么靠它公开的均值、中位数等,要么去找原作者要原始数据,真的不应该在直方图上直接做估计,基本没啥意义
可以讲如果你在网络、报纸、新闻上看到某个数据直方图,单纯是好奇想算一下均值那些,你可以这样做,但为了这样一个目的而反复的把这个内容作为考试的考察方向,就很有问题了,难道说高中统计的直方图、高中数学考试的统计部分就是为了鼓励大家去好奇别人的数据?

TOP

楼主博士毕业了吗?

TOP

回复 13# 战巡
我是觉得有一个发展的问题在,说不定老一辈人真有这样的逆向需求呢,就跟原来网站明文存储密码一样,想想都阔怕。

TOP

返回列表 回复 发帖