免費論壇 繁體 | 簡體
Sclub交友聊天~加入聊天室當版主
分享
返回列表 发帖

论2017/2018年高考统计类题目的坑爹性

论2017、2018年高考统计类题目的坑爹性
——战巡

        这个东西已经连续写到第五年了,真是永恒的高考,永恒的统计坑!只是这两年很多省都不再自己出题,用的同一份卷子,搞得题目少了,所以只能两年的题目写一篇,但坑还是那么坑!

        废话不说了,直接上题

1、        2017北京卷理科17
p1.png
2018-6-13 17:31


这题目一看就特喵的不对,哪有这样做实验的?一看就知道这出题的根本就不专业,连基本的实验怎么做的搞不清楚,你要是医药公司特喵要敢这样做实验,你看我审稿的不给你打回来重写?!你们不知道安慰剂效应?

真正要验证新药疗效要怎样设计实验?分组是没错,但你得分至少三组,一组吃新药,一组吃旧药,还有一组,千万不能不吃药啊!必须吃安慰剂!

好了,然后回过头来看题,卧槽你特喵的逗我?一大堆破点你要我在考场上去数?!你们还能再不人道点么?数点特喵是机器干的事情好吧,你让考生去数?还这么多点,你们这样有意义么?难道不是纯粹折腾人么?这出题的简直混账到顶!

好吧,这些我先不去纠结,第二问也没啥问题,但特喵你来给我解释解释,第三问什么鬼?!判断方差大小?!你特喵搞笑吧?就给个散点图,数据都没有,判断个屁啊?

如果有人说什么直接观察点的散布情况,劳资特喵拍死你!干统计有这么草率的么?光看个图就敢下结论,我们统计学家早特么下岗了好吧,何况别说有图,就是你拿了数据来,算出了两个方差大小,也不能就这么比较了大小就完事!必!须!做!检!验!

做的什么检验呢?一般比较方差大小会比较两个方差估计量的比值,这个比值近似服从F分布,再根据相应的自由度来算出p值,再判断显著与否,如果选α=0.05,一般一个方差得是另一个的至少3到4倍才可!能!显著,也就是说,除非两个方差差到三四倍以上,否则你能得出的结论只能是:两个方差没!有!显!著!差!异!

这里从图上看,三四倍?别想了,两倍有没有都不知道,估计就是不显著的,因此统计学家给出的结论必然是:两个方差没有差异。

TOP

本帖最后由 战巡 于 2018-6-13 17:39 编辑

2、        2017全国卷I文科19
p2.png
2018-6-13 17:33


第一眼看到的公式就特喵不对,都吐槽了多少年了,样本方差公式下面是$n-1$,不是$n$,有无偏估计为毛要用有偏估计,你们吃饱了撑着是吧?
\[s=\sqrt{\frac{1}{16-1}\sum_{i=1}^{16}(x_i-\bar{x})^2}\]
这个地方再特喵搞错你们就等着大学概统挂科吧!

        然后再继续看题目,第一问,求相关系数,我可以姑且勉强当你是对的,毕竟抽样次序不是一个连续变量,只是个数字而已,这里用皮尔逊相关并不好,更推荐的是Kendall $\tau$统计量,但我可以不纠结这个问题。

        然而后面问题特喵就大发了,什么叫“是否可以认为零件尺寸不随生产过程的进行系统的变大或变小”?你是想比较是否无关是吧?
那好,我问你两个问题,第一,相关系数为0是否意味着无关?!我随便举个栗子,数据(-1,1),(0,0),(1,1),你算下来皮尔逊相关就为0,但它却存在这严格的$y=x^2$这样一个关系,你说它是不是无关?

退一万步讲,即便你是要考察相关系数是否为0好了,那第二个问题,请问高中生做得出来么?!你出题的是不是二逼的以为直接比较相关系数和0就算完事了?那我告诉你,最后算出来相关系数如下
p3.png
2018-6-13 17:36

你来告诉我,这样的相关系数算大还是算小?你来告诉我接下来怎么下结论?!

        你说这样的相关系数接近0么?-0.177看起来的确不大,但我告诉你很多算下来显著的相关系数就这么大,你怎么解释?

        那到底要如何下这个结论?还是那句话,统计学家不是特喵看个数比个大小就能下结论拉倒的,必!须!做!检!验!皮尔逊相关有相应的检验方法,那就是用Fisher变换,令样本相关系数为r,变换后的统计量有
\[Z=arctanh(r)=\frac{1}{2}\ln(\frac{1+r}{1-r})\sim N(0, \frac{1}{n-3})\]
这个的证明我不写了,很明显是超出高中范围的东西,这里带进去有
$Z=-0.1793$

        还在方差为$\frac{1}{13}$的情况下,还达不到显著,因此认为相关系数为0。

        但如果我样本量足够大呢?比如样本量200,最后算下来就是显著的,那你就得说这两个东西有关!

        所以综上,你们觉得高中生做得出来么?!你不是逗人玩么?!

TOP

3、        2017全国卷II理科18/文科19
p4.png
2018-6-13 17:41


又见直方图!说了多少次了,直方图只是拿来看个大概趋势的,不是给你用来直接做统计分析的,统计分析用原始数据!

                但这题最大的毛病不是直方图,而是下面的列联表,为毛会划分出“箱产量<50 kg”和“箱产量>=50 kg”这两类?你们不是有原始数据么?要不然怎么做得出直方图?原始数据一个好端端的连续变量,尼玛怎么就硬是拆成了只有两项的离散变量呢?比较两种方法直接两组做个t检验不就出来了?有你们这样折腾的么?!你们不知道这样会平白无故丢失很多信息,降低结果的可靠性?!

                再说了,你这里的$K$是个什么玩意?你给我说清楚!这个分明是皮尔逊卡方检验,国际通用符号$\chi^2$,特喵哪有用$K$的?你们出题的是手残还是脑残?一个希腊字母写不出来?!

TOP

本帖最后由 战巡 于 2018-6-13 18:00 编辑

4、        2018全国卷I理科20
p5.png
2018-6-13 17:43

p6.png
2018-6-13 17:43


这特喵什么鸟题?!

第一问你说有没有问题?没有问题,但特喵你能不能换个专业点的说法?20件有2件不合格的概率,这是什么?这就是似然函数(Likelihood function),而使它达到最大值的$p_0$是什么?就是$p$的最大似然估计(Maximum Likelihood Estimation(MLE))!对于高中生,没有学过MLE,按理说就特喵不应该考,对于大学生,直接说求$p$的MLE,他们就知道要干什么了。

        第二问,特喵什么玩意!(i)也还罢了,(ii)你又想只比较个均值就下结论是不?

        你这里的$p$是从20个样本里估计出来的,不是真实值,真实值你特么不知道,所以你在估计$X=40+25·180\hat{p}$的时候,就必然有随机性,这里你第一问已经搞清楚了,要求的是这个$X$的均值,但特喵第二问你怎么搞?比较某随机变量的均值和一个常数的大小,你必须去做假设检验,你要敢直接拿$E(X)=490$去和$400$比较大小,看劳资不打断你狗腿!

        这里要怎么做?首先,我们可以倒过去算,如果$E(X)=400$,那相对应的$p=0.08$这个不难算,于是现在已知$\hat{p}=0.1$,要比较$p$和$0.08$的大小。
        好,这个怎么比?当然要假设检验,不妨用常用的$\alpha=0.05$,这里用Wald法,$\hat{p}$的方差为$\frac{\hat{p}(1-\hat{p})}{n}$,于是有
\[z=\frac{\hat{p}-0.08}{\sqrt{\frac{\hat{p}(1-\hat{p})}{20}}}=\frac{0.1-0.08}{\sqrt{\frac{0.1(1-0.1)}{20}}}=0.298<1.96=z_{0.975}\]
很显然,特喵的不显著!p和0.08没有显著差异,那尼玛怎么下结论?!出题的混球你特么来告诉我!

TOP

5、        2018全国卷I文科19
p7.png
2018-6-13 17:50

p8.png
2018-6-13 17:50


直方图…直方图你大爷!

一开始抽样就不对,使用和未使用节水龙头50天用水量?请问这50天是哪50天?什么季节的50天?你不觉得用水量和季节等其他因素有很大关系么?你能保证其中的差异是这个什么节水龙头造成的?除非你这50天不是连续的,而是在一年中随机抽的50天,才具有代表性,才特么能比较!

然后,讲过无数次了,直方图只是拿来给你看个大概趋势的,不能直接拿直方图来做统计分析!你有精确的原始数据不用,用直方图干什么我问你!还要什么同组中数据以中点代表,你不觉得你在无故缩小样本方差么?!

到了第三问,前面这个抽样不对的问题就开始凸显了,你这个50天能代表一年么?前面说过,除非50天是随机抽的,否则这个估计的值,你敢用?!

TOP

6、        2018全国卷II理科18/文科18
p9.png
2018-6-13 17:51


先不用看下面的问题,先看题目本身就特喵不对!那个模型2,根据2010年到2016年数据建立?!出题的你特喵逗我?前面的数据给你吃了?你真的当不能用么?

如果你们看出了2009到2010的断层,那么你的模型2直接把断层考虑进去不就完事了?哪有直接丢掉前面数据的?设立一个新变量$z$,当年份≤2009时$z=0$,否则$z=1$,回归方程$y=\beta_0+\beta_1 t+\beta_2 z+\beta_3 zt+\epsilon$,立马解决!

为什么上面这个模型比它那个模型2好?我不想从数学上去解释,太复杂,你们也未必看得懂,我只说一些定性的东西,你们应该有一些基本概念:数据越多,估计量的方差越小,意味着估计越稳定,精度越高,这就是为啥大家都想要更多的数据,出题的你特喵却反其道行之,不是找shi么?所以在我这个模型里,由于残差$\epsilon$是固定存在的,前面的数据在估计残差的分布时具有很大的贡献,意味着我的模型里残差的估计更准确。

好,接下来看第一问,我特么……2018年?!你的数据从2000年到2016年,你让我预测2018年?请问2018年在这个区间内么?讲过无数次了,回归线不!能!外!延!你要估计2000年到2016年间任意一个点都可以,但2000年前和2016年后的你就不能去估计,之前的题目可能数据还好看点,不能外延的教训不够深刻,但这个数据很有意思,这里你们都看到了,2009到2010间有个巨大的断层,好,你要我预测2018年的情况,我就问你一句,你怎么保证2017和2018不会再来一次类似的断层?!

第二问,前面都说过了,模型2就是扯淡,而且不管怎么回归,都不能预测2018年,那这个问题还做个屁啊?!

TOP

7、        2018年全国卷III理科18/文科18
p10.png
2018-6-13 17:55


出题的你是搞笑吧?你不觉得第一问已经包含后面了么?那种方式效率更高,你难道不要做检验?你难道看一眼就敢下结论?结果特喵下面就是检验,你难道不觉得应该合为一问么?如果出题的你敢直接比较一下两边的均值就下结论,劳资会再次打断你的狗腿!

好,先不说这些了,看第二问,我实在是没搞清楚这样做的意义,首先,考场上让人去数数算中位数,本身就很不厚道,这种事特喵就应该是电脑的事,人脑本来就不擅长干这个,实际应用中也没人会去干,其次,你弄个中位数干什么,有多大意思?你想做非参检验么?有这个必要么?想比较两边的差异,直接做个t检验不就完事了?

非参就非参吧,到第三问,你特喵居然用皮尔逊卡方检验?!我不能说你一定是错,但你还能再不专业点么?!检验两总体中位数是否相同,有曼-惠特尼U检验(Mann-Whitney test),你就不能好好用么?其次,皮尔逊卡方的符号是$\chi^2$不是$K$,说过特喵多少次了?!打个希腊字母很难么?!

TOP

8、        2018年天津卷理科16/文科18
p11.png
2018-6-13 17:57


出题的逗逼你是不是觉得不管多大的总体都要抽样?我问你,24、16这些是很大的数字么?三个部门加在一起才56人,这是总!体!啊,人家其他问题光样本就成百上千,总体数以万记,抽样才有意义,你特喵56人的总体还抽毛线样?全部分析了不行?你个破单位还缺那点钱?

        还什么分层抽样,总共才7个,你一个部门抽两三个人,你不知道误差多大?!

        第二问更搞笑,7个人已经很少了,你特喵还要在里面抽样,我看不是那些员工需要检查,而是出题的特么脑袋需要检查!

TOP

回复 5# 战巡


5#学习下,这种高考题实在是太多,只在这高考这种环境之下我才会解(因为有标答)。

TOP

这个必须要顶啊。

TOP

统计大师能否写篇历史长点的文章,好好学习一下!好文太棒了,好好品味。。。。

TOP

感觉楼主做得很有意义,作为一线教师的我,表示本来觉得没什么异常的,照本宣课,好在浙江高中数学统计方面越来越少了.

TOP

浙江教材问题多得是,都乱搞的。

TOP

以前在人教论坛,高考结束后的两大看点:一是楼主逢考必怼的概统,另一个自然是kuing playing 高考;
这几年少了二位大侠的两道硬菜,感觉高考后很乏味呢!
楼主重出江湖喽!

TOP

回复 12# 敬畏数学

往年的在这里都有
http://blog.sina.com.cn/u/2060010007

TOP

大师,是否可以出一些高中生能做的又有实际操作可能的概率统计题呢?这样方便高考出题者参考。

TOP

刚才又细读这篇文章,感触很多!但由于专业知识限制,不能发表过多想法。确实这些东西应该慎思!否则容易误导一片。。。。。

TOP

返回列表 回复 发帖