在2014年版的重难点手册的统计部分中,有一道例题是这样的
(P379)例5-28:在进行独立样本平均数差异的t检验时,由于两组数据都是30,因此把两组数据分别对应求差值,再检验差值的显著性,刚好p为0.05,这个结果是( )
A 增加了II型错误 B 由于方法错用没有任何意义
C 如果用独立样本计算结果应该更显著 D 增加了统计效力
作者在进行了一大堆分析后得出的结论是答案为D。但事实上这题应该选B。两组数据是独立的,不能人为对其进行配对然后对统计参数进行处理并进行相关检验,这样的做法是没有任何意义和理论支持的,方法本身就是错误的。最根本的错误:对于将两组数据进行配对,配对的依据是什么?数据本身的编号?还是样本的大小?样本在收集的时候数据本身的编号本身就有人为性,也就是说完全是偶然的,因此对同一组数据不同人会得出不同的配对结果。而如果按照数据大小顺序进行相应配对,这样做就等于默认两组数据是呈正相关的了,明显跟最初的样本独立假设相违背。在相关样本的检验里之所以可以用差值进行检验那是因为两组数据是一一对应的,而对于独立样本不存在这种对应关系时不能人为的将其进行配对,因为这样做得到的配对后的差值会随着配对方案的不同而完全不同,是很典型的人为操纵数据。
退一步来说,就算这种人为的数据配对是可行的,最后的结果真的会是增加了统计效力吗?所有的结论都是建立在配对求差处理后变异会减小,也就是标准误会减小。但事实真的是这样吗?如果配对的两组样本是呈正相关或者正共变关系的话,结果确实如此,标准误确实减小了,因此统计效力相应的增加了。但对于负相关或负共变关系的两组数据来说,这种处理事实上会增大变异程度,也就是说标准误会增大,最后造成的结果是统计效力反而减小了。当然你会说在进行人为配对的时候进行正相关配对就好了,这又回到前面的问题了,这种配对的人为性是不科学也不可靠的。
举个很简单的例子,两组数据:1,2,3,4,5和1,2,3,4,5,如果我按大小对应配对,得出的差值就是0,0,0,0,0,而如果按第一组小的对应第二组大的方法配对,得到的差值就是-4,-2,0,2,4,虽然两个配对结果的均值是一样的,但很明显变异不同,这时做出的检验结果就完全不一样了.因此题目中所用的统计方法是错误的,更谈不上显著不显著和统计效力的问题了.因此这道题只能选B。其他选项不管在什么前提下都不一定是正确的。
今天看书时看到的,不知道以前有没人发类似的帖子,因为比较少逛论坛,只是想提出来大家一起讨论下。虽然这类题目考试考的可能性不大,而且属于纯粹的统计理论层面的探讨,但这涉及到对于统计最基本理论模型的理解和把握,对统计基本理论模型的理解对于今后的研究有着很重要的作用,所以提出来大家一起探讨探讨。
|
|