10个必知必会的统计学问题
俊红的数据分析之路
共 3050字,需浏览 7分钟
·
2021-11-09 10:27
正文
来源:计量经济学
答:(定义)构成样本统计量的独立的样本观测值的数目或自由变动的样本观测值的数目。用df表示。
自由度的设定是出于这样一个理由:在总体平均数未知时,用样本平均数去计算离差(常用小s)会受到一个限制——要计算标准差(小s)就必须先知道样本平均数,而样本平均数和n都知道的情况下,数据的总和就是一个常数了。
所以,“最后一个”样本数据就不可以变了,因为它要是变,总和就变了,而这是不允许的。
通俗点说,一个班上有50个人,我们知道他们语文成绩平均分为80,现在只需要知道49个人的成绩就能推断出剩下那个人的成绩。你可以随便报出49个人的成绩,但是最后一个人的你不能瞎说,因为平均分已经固定下来,自由度少一个。
答:在正态分布检验中,这里的M(三个统计量)为:N(总数)、平均数和标准差。
因为我们在做正态检验时,要使用到平均数和标准差以确定该正态分布形态,此外,要计算出各个区间的理论次数,我们还需要使用到N。
所以在正态分布检验中,自由度为K-3。
答:t检验适用于两个变量均数间的差异检验,多于两个变量间的均数比较要用方差分析。
无论哪种类型的t检验,都必须在满足特定的前提条件下: 正态性和方差齐性,应用才是合理的。这是因为必须在这样的前提下所计算出的t统计量才服从t分布,而t检验正是以t分布作为其理论依据的检验方法。
t检验是目前医学研究中使用频率最高,医学论文中最常见到的处理定量资料的假设检验方法。
答:结果的统计学意义是结果真实程度(能够代表总体)的一种估计方法。专业上,P值为结果可信程度的一个递减指标,P值越大,我们越不能认为样本中变量的关联是总体中各变量关联的可靠指标。
P值是将观察结果认为有效即具有总体代表性的犯错概率。如P=0.05提示样本中变量关联有5%的可能是由于偶然性造成的。即假设总体中任意变量间均无关联
在许多研究领域,0.05的P值通常被认为是可接受错误的边界水平。
答:在最后结论中判断什么样的显著性水平具有统计学意义,不可避免地带有武断性。换句话说,认为结果无效而被拒绝接受的水平的选择具有武断性。
答:并不完全如此,但大多数检验都直接或间接与之有关,可以从正态分布中推导出来,如t检验、F检验或卡方检验。这些检验一般都要求:所分析变量在总体中呈正态分布,即满足所谓的正态假设。许多观察变量的确是呈正态分布的,这也是正态分布是现实世界的基本特征的原因。
答:在假设检验中,由于随机性我们可能在决策上犯两类错误,一类是假设正确,但我们拒绝了假设,这类错误是“弃真”错误,被称为第一类错误;
1)确定假设;
2)进行抽样,得到一定的数据;
4)依据所构造的检验统计量的抽样分布,和给定的显著性水平,确定拒绝域及其临界值;
5)比较这次抽样中检验统计量的值与临界值的大小,如果检验统计量的值在拒绝域内,则拒绝假设;
答:与其它检验一样,所计算出的统计量越大,在分布中越接近分布的尾端,所对应的概率值越小。如果试验设计合理、数据正确,显著或不显著都是客观反映。没有什么好与不好。
答:卡方分布主要用于多组多类的比较,是检验研究对象总数与某一类别组的观察频数和期望频数之间是否存在显著差异,要求每格中频数不小于5,如果小于5则合并相邻组。
答:从三个方面来回答,
1)设计类型是完全随机设计两组数据比较,不知道数据是否是连续性变量?
2)比较方法:如果数据是连续性数据,且两组数据分别服从正态分布和方差齐性检验,则可以采用t检验,如果不服从以上条件可以采用其他检验。
3)想知道两组数据是否有明显差异?不知道这个明显差异是什么意思?是问差别有无统计学意义(即差别的概率有多大)还是两总体均数差值在哪个范围波动?如果是前者则可以用第2步可以得到P值,如果是后者,则是用均数差值的置信区间来完成的。
评论