Statistics 统计学中常用的数据分析方法大总结,超强干货!

在统计学中,通过数据分析,并且提取到有用的信息是最重要的技能之一。那么在数据如此之多、时间如此之短的情况下,如何理解并分析所获取的数据?有哪些常见的统计数据分析方法?想了解最全面的统计学数据分析方法?走过路过,超强干货总结帖不要错过!

数据分析方法:描述分析

描述统计是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。描述统计分为集中趋势分析、离中趋势分析和相关分析三大部分。

1. 集中趋势分析

集中趋势又称“数据的中心位置”、“集中量数”等。它是一组数据的代表值。集中趋势的概念就是平均数的概念,它能够对总体的某一特征具有代表性,表明所研究的舆论现象在一定时间、空间条件下的共同性质和一般水平。就变量数列而言,由于整个变量数列是以平均数为中心而上下波动的,所以平均数反映了总体分布的集中趋势,它是表明总体分布的一个重要特征值。根据变量数列的平均数,就可以了解所研究总体的集中趋势和一般特征。集中趋势是用来描述舆论现象的重要统计分析指标,常用的有平均数、中位数和众数等,它们在不同类型的分布数列中有不同的测定方法。

取得集中趋势代表值的方法有两种:数值平均数和位置平均数。

数值平均数:从总体各单位变量值中抽象出具有一般水平的量,这个量不是各个单位的具体变量值,但又要反映总体各单位的一般水平,这种平均数称为数值平均数。数值平均数有算术平均数、调和平均数、几何平均数等形式。

位置平均数:位置平均数就是根据总体中处于特殊位置上的个别单位或部分单位的标志值来确定的代表值,它对于整个总体来说,具有非常直观的代表性,因此,常用来反映分布的集中趋势。

2. 离中趋势分析

数据分析方法 描述统计

通过数学模型模拟地理特征的空间分布与时间过程,把地理要素时空分布的实测数据点之间的不足部分内插或者预测出来。

离中趋势分析主要靠全距、四分差、平均差、方差(协方差:用来度量两个随机变量关系的统计量)、标准差等统计指标来研究数据的离中趋势。

3. 相关分析

相关分析是研究两个或两个以上处于同等地位的随机变量间的相关关系的统计分析方法。例如,人的身高和体重之间;空气中的相对湿度与降雨量之间的相关关系都是相关分析研究的问题。相关分析与回归分析之间的区别:回归分析侧重于研究随机变量间的依赖关系,以便用一个变量去预测另一个变量;相关分析侧重于发现随机变量间的种种相关特性。相关分析在工农业、水文、气象、社会经济和生物学等方面都有应用。

为了确定相关变量之间的关系,首先应该收集一些数据,这些数据应该是成对的。例如,每人的身高和体重。然后在直角坐标系上描述这些点,这一组点集称为“散点图”。根据散点图,当自变量取某一值时,因变量对应为一概率分布,如果对于所有的自变量取值的概率分布都相同,则说明因变量和自变量是没有相关关系的。反之,如果,自变量的取值不同,因变量的分布也不同,则说明两者是存在相关关系的。

两个变量之间的相关程度通过相关系数r来表示。相关系数r的值在-1和1之间,但可以是此范围内的任何值。正相关时,r值在0和1之间,散点图是斜向上的,这时一个变量增加,另一个变量也增加;负相关时,r值在-1和0之间,散点图是斜向下的,此时一个变量增加,另一个变量将减少。r的绝对值越接近1,两变量的关联程度越强,r的绝对值越接近0,两变量的关联程度越弱。

4. 推论统计

推论统计(inferential statistics)是借助抽样调查,从局部推断总体,以对不肯定的事物做出决策的一种统计。有总体参数估计与假设检验两种。前者以一次性抽样实验为依据,对整个总体的某个数字特征做出估计。后者则是对某种假设进行检验,根据计算结果推断所做的假设是否可以接受。如平均数、标准差、相关系数、回归系数等特征的总体估计及差异显著性检验。推断统计的理论基础是概率论,它更多地需要借助抽样理论与方法。

参数估计就是根据抽样结果,科学地估计总体参数值的大小和范围。参数估计有两种方法:①点估计。利用样本统计单值直接估计未知总体参数的方法。如从某市抽取100名少年犯人作为样本,计算出他们的年龄均值为16.5岁,然后将该值作为全市少年犯人的平均年龄。这种以点代面的估计方法即为点估计法。点估计法一般只用来对总体参数进行粗略的估算,由于它不能说明估计的准确程度和可靠度,因此很少使用。②区间估计。在一定的把握程度上对总体参数可能落入的一个数值范围做出估计的方法。如计算出某市少年犯人的平均年龄可能在16-17岁之间的范围内,这种估计总体参数在一定区间的推断方法就是区间估计法。

假设检验是根据抽样调查统计结果在一定可靠性基础上对原来的假设作出接受或拒绝的判断。如认为“某市犯罪人员的婚姻状况以未婚为主”就是一个命题,该假设是否正确,要用从总体抽出的样本进行检验,得出承认或推翻假设的结论。因此,假设检验也只通过研究样本对事先作出的有关总体特征的假设进行检验的基本过程。

假设检验主要解决两类问题:①对总体的某些特征提出适当的假设后,利用抽样方法进行检验。检验结果有两种情况:一是检验结果与假设之间存在一定的偏差;二是检验结果与假设完全相符。若是第一种情况,一定要了解偏差是真的表明假设错误,还是由于抽样误差造成的;若是第二种情况,也不能贸然说假设是正确的,也可能是由于抽样误差造成的。②对从两组或两组以上样本计算出的统计值之间的差异进行显著性考验。统计值之间的差异有可能是它们所代表的不同总体的总体参数的差异,也有可能是同一总体但由于抽样误差造成的,因而要进行显著性考验。在显著性考验中,如果检验结果差异显著,就可推断这种差异代表总体参数之间的差异,否则样品可能来自同一总体,或者认为总体参数间无真实差异,或者也可认为样本统计值的差异只是由于抽样误差造成的。在此应当注意的是,任何时候都不能凭样本统计值之间的差异,轻率得出它们代表的总体的参数间存在差异的结论。

数据分析方法:信服分析

信度(Reliability)即可靠性,它是指采用同样的方法对同一对象重复测量时所得结果的一致性程度。信度指标多以相关系数表示,大致可分为三类:稳定系数(跨时间的一致性),等值系数(跨形式的一致性)和内在一致性系数(跨项目的一致性)。信度分析的方法主要有以下四种:重测信度法、复本信度法、折半信度法、α信度系数法。

1. 重测信度法

重测信度(test-retest reliability),又称再测信度、稳定性系数(coefficient of stability),反映测验跨越时间的稳定性和一致性,即应用同一测验方法,对同一组被试者先后两次进行测查,然后计算两次测查所得分数的关系系数。该信度能表示两次测试结果有无变动,反映了测验分数的稳定程度。相关程度高,表示前后测量一致性高,稳定性好。

重测的过程考虑了不同的条件(环境的、人的)带来的测量结果的误差,这种误差与两次施测的情境相关联。 其优势是能提供有关测验结果是否随时间而改变的资料,可作为预测受测者将来行为表现的依据。 其不足在于易受练习和记忆的影响,第一次测试所发现的错误也可能导致第二次反应的变化而增加误差变异。再测信度只适用于测量那些不会随时间的变化而改变的特质。

2. 复本信度法

复本法(alternate-form method)是信度(reliability)的一种计算方法。用一个与主本相似的复本施测同一组被试,计算受测者在这两份测验中所得分数之间的相关,即可确定测验的复本信度。常见的复本法的例子就是考试的A卷和B卷。

复本法的优点:
一个测验有两个或几个复本,这意味着对于测量同一种属性具有两个或几个行为样本。由于测题数目的增加,对于与所欲测量的属性相联系的行为总体的代表性增强。因此,一个测验的两个复本在两三天至一周对同一组被试施测时,获得的复本信度系数是相当准确的。

测验的两个复本,如果在不同的时间使用,其信度既可以反映在不同时间的稳定性,又可以反映对于不同测题的一致性。它反映了两个层面的信度。

两个复本在同时连续使用时,可以避免再测信度的一些缺点,如首测对再测在记忆、练习效果的影响,间隔期间获得新知识的影响,两次施测的环境不同和被试主观状态不同的影响,以及为了应付测验所作训练的影响等。

复本法的缺点:
编制两个完全相等的测验是很困难的。如果两个复本过分相似,则变成再测的形式;而过分不相似,又使等值的条件不存在,两个复本测验有可能在某种程度卜测量了不同的性质,这就会低估测验的信度。

被试连续接受性质相似的两个测验,可能减少完成测验的积极性。

虽然两个复本测验的题目材料不同,但被试一旦掌握了解题的某一模式,就能触类旁通,有可能失去复本的意义。

3. 折半信度法

折半信度法是将调查项目分为两半,计算两半得分的相关系数,进而估计整个量表的信度。折半信度属于内在一致性系数,测量的是两半题项得分间的一致性。这种方法一般不适用于事实式问卷(如年龄与性别无法相比),常用于态度、意见式问卷的信度分析。在问卷调查中,态度测量最常见的形式是5级李克特(Likert)量表。

进行折半信度分析时,如果量表中含有反意题项,应先将反意题项的得分作逆向处理,以保证各题项得分方向的一致性,然后将全部题项按奇偶或前后分为尽可能相等的两半,计算二者的相关系数(rhh,即半个量表的信度系数),最后用斯皮尔曼-布朗(Spearman-Brown)公式求出整个量表的信度系数(ru)。

4.α信度系数法

Cronbach α信度系数是最常用的信度系数,其公式为:α=(k/(k-1))*(1-(∑Si^2)/ST^2)

其中,K为量表中题项的总数, Si^2为第i题得分的题内方差, ST^2为全部题项总得分的方差。

从公式中可以看出,α系数评价的是量表中各题项得分间的一致性,属于内在一致性系数。这种方法适用于态度、意见式问卷(量表)的信度分析。 总量表的信度系数最好在0.8以上,0.7-0.8之间可以接受;分量表的信度系数最好在0.7以上,0.6-0.7还可以接受。Cronbach ‘s alpha系数如果在0.6以下就要考虑重新编问卷。

数据分析方法:列联表分析

列联表(contingency table)是观测数据按两个或更多属性(定性变量)分类时所列出的频数表。它是由两个以上的变量进行交叉分类的频数分布表。

一般,若总体中的个体可按两个属性A与B分类,A有r个等级A1,A2,…,Ar,B有c个等级B1,B2,…,Bc,从总体中抽取大小为n的样本,设其中有nij个个体的属性属于等级Ai和Bj,nij称为 频数,将r×c个nij排列为一个r行c列的二维列联表,简称r×c表。若所考虑的属性多于两个,也可按类似的方式作出列联表,称为多维列联表。

列联表又称交互分类表,所谓交互分类,是指同时依据两个变量的值,将所研究的个案分类。交互分类的目的是将两变量分组,然后比较各组的分布状况,以寻找变量间的关系。

列联表分析的基本问题是,判明所考察的各属性之间有无关联,即是否独立。如在前例中,问题是:一个人是否色盲与其性别是否有关?在r×с表中,若以pi、pj和pij分别表示总体中的个体属于等级Ai,属于等级Bj和同时属于Ai、Bj的概率(pi,pj称边缘概率,pij称格概率),“A、B两属性无关联”的假设可以表述为H0:pij=pi•pj,(i=1,2,…,r;j=1,2,…,с),未知参数pij、pi、pj的最大似然估计(见点估计)分别为行和及列和(统称边缘和) 为样本大小。

根据K.皮尔森(1904)的拟合优度检验或似然比检验(见假设检验),当h0成立,且一切pi>0和pj>0时,统计量的渐近分布是自由度为(r-1)(с-1) 的Ⅹ分布,式中Eij=(ni•nj)/n称为期望频数。当n足够大,且表中各格的Eij都不太小时,可以据此对h0作检验:若Ⅹ值足够大,就拒绝假设h0,即认为A与B有关联。在前面的色觉问题中,曾按此检验,判定出性别与色觉之间存在某种关联。

需要注意的是,若样本大小n不很大,则上述基于渐近分布的方法就不适用。对此,在四格表情形,R.A.费希尔(1935)提出了一种适用于所有n的精确检验法。其思想是在固定各边缘和的条件下,根据超几何分布(见概率分布),可以计算观测频数出现任意一种特定排列的条件概率。把实际出现的观测频数排列,以及比它呈现更多关联迹象的所有可能排列的条件概率都算出来并相加,若所得结果小于给定的显著性水平,则判定所考虑的两个属性存在关联,从而拒绝h0。

在判定变量之间存在关联性后,可用多种定量指标来刻画其关联程度。例如,对一般的r×с表,可用列联系数表示之。

数据分析方法:相关分析

相关分析是研究两个或两个以上处于同等地位的随机变量间的相关关系的统计分析方法。例如,人的身高和体重之间;空气中的相对湿度与降雨量之间的相关关系都是相关分析研究的问题。相关分析与回归分析之间的区别:回归分析侧重于研究随机变量间的依赖关系,以便用一个变量去预测另一个变量;相关分析侧重于发现随机变量间的种种相关特性。相关分析在工农业、水文、气象、社会经济和生物学等方面都有应用。

相关分析与回归分析在实际应用中有密切关系。然而在回归分析中,所关心的是一个随机变量Y对另一个(或一组)随机变量X的依赖关系的函数形式。而在相关分析中 ,所讨论的变量的地位一样,分析侧重于随机变量之间的种种相关特征。例如,以X、Y分别记小学生的数学与语文成绩,感兴趣的是二者的关系如何,而不在于由X去预测Y。 确定相关关系的存在,相关关系呈现的形态和方向,相关关系的密切程度。其主要方法是绘制相关图表和计算相关系数。

1)相关表 编制相关表前首先要通过实际调查取得一系列成对的标志值资料作为相关分析的原始数据。 相关表的分类:简单相关表和分组相关表。单变量分组相关表:自变量分组并计算次数,而对应的因变量不分组,只计算其平均值;该表特点:使冗长的资料简化,能够更清晰地反映出两变量之间相关关系。双变量分组相关表:自变量和因变量都进行分组而制成的相关表,这种表形似棋盘,故又称棋盘式相关表。

2)相关图利用直角坐标系第一象限,把自变量置于横轴上,因变量置于纵轴上,而将两变量相对应的变量值用坐标点形式描绘出来,用以表明相关点分布状况的图形。相关图被形象地称为相关散点图。因素标志分了组,结果标志表现为组平均数,所绘制的相关图就是一条折线,这种折线又叫相关曲线。

3)相关系数:

相关系数是按积差方法计算,同样以两变量与各自平均值的离差为基础,通过两个离差相乘来反映两变量之间相关程度;着重研究线性的单相关系数。

确定相关关系的数学表达式。

确定因变量估计值误差的程度。

另外,研究现象之间是否存在某种依存关系,对具体有依存关系的现象探讨相关方向及相关程度。

单相关:两个因素之间的相关关系叫单相关,即研究时只涉及一个自变量和一个因变量;

复相关 :三个或三个以上因素的相关关系叫复相关,即研究时涉及两个或两个以上的自变量和因变量相关;

偏相关:在某一现象与多种现象相关的场合,当假定其他变量不变时,其中两个变量之间的相关关系称为偏相关。

数据分析方法:方差分析

数据分析方法 ANOVA

方差分析(Analysis of Variance,简称ANOVA),又称“变异数分析”,是R.A.Fisher发明的,用于两个及两个以上样本均数差别的显著性检验。 由于各种因素的影响,研究所得的数据呈现波动状。造成波动的原因可分成两类,一是不可控的随机因素,另一是研究中施加的对结果形成影响的可控因素。

方差分析的基本原理是认为不同处理组的均数间的差别基本来源有两个:

1)实验条件,即不同的处理造成的差异,称为组间差异。用变量在各组的均值与总均值之偏差平方和的总和表示,记作SSb,组间自由度dfb。

2) 随机误差,如测量误差造成的差异或个体间的差异,称为组内差异,用变量在各组的均值与该组内变量值之偏差平方和的总和表示, 记作SSw,组内自由度dfw。

总偏差平方和 SSt = SSb + SSw。 组内SSw、组间SSb除以各自的自由度(组内dfw =n-m,组间dfb=m-1,其中n为样本总数,m为组数),得到其均方MSw和MSb,一种情况是处理没有作用,即各组样本均来自同一总体,MSb/MSw≈1。

另一种情况是处理确实有作用,组间均方是由于误差与不同处理共同导致的结果,即各样本来自不同总体。那么,MSb>>MSw(远远大于)。 MSb/MSw比值构成F分布。用F值与其临界值比较,推断各样本是否来自相同的总体。

方差分析的基本思想是:通过分析研究不同来源的变异对总变异的贡献大小,从而确定可控因素对研究结果影响力的大小。

根据资料设计类型的不同,有以下两种方差分析的方法:

对成组设计的多个样本均值比较,应采用完全随机设计的方差分析,即单因素方差分析。

对随机区组设计的多个样本均值比较,应采用配伍组设计的方差分析,即两因素方差分析。

数据分析方法:回归分析

在统计学中,回归分析(regression analysis)指的是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。回归分析按照涉及的变量的多少,分为一元回归和多元回归分析;按照因变量的多少,可分为简单回归分析和多重回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。

有各种各样的回归技术用于预测。这些技术主要有三个度量(自变量的个数,因变量的类型以及回归线的形状):

1. Linear Regression线性回归

这是最为人熟知的建模技术之一。线性回归通常是人们在学习预测模型时首选的技术之一。

在这种技术中,因变量是连续的,自变量可以是连续的也可以是离散的,回归线的性质是线性的。

线性回归使用最佳的拟合直线(也就是回归线)在因变量(Y)和一个或多个自变量(X)之间建立一种关系。 多元线性回归可表示为Y=a+b1*X +b2*X2+ e,其中a表示截距,b表示直线的斜率,e是误差项。多元线性回归可以根据给定的预测变量(s)来预测目标变量的值。

2.Logistic Regression逻辑回归

逻辑回归是用来计算“事件=Success”和“事件=Failure”的概率。当因变量的类型属于二元(1 / 0,真/假,是/否)变量时,应该使用逻辑回归。

这里,Y的值为0或1,它可以用下方程表示。

odds= p/ (1-p) = probability of event occurrence / probability of not event occurrence ln(odds) = ln(p/(1-p)) logit(p) = ln(p/(1-p)) =b0+b1X1+b2X2+b3X3….+bkXk

上述式子中,p表述具有某个特征的概率。你应该会问这样一个问题:“为什么要在公式中使用对数log呢?”。 因为在这里使用的是的二项分布(因变量),需要选择一个对于这个分布最佳的连结函数。它就是Logit函数。

在上述方程中,通过观测样本的极大似然估计值来选择参数,而不是最小化平方和误差(如在普通回归使用的)。

数据分析方法 Regression

3. Polynomial Regression多项式回归

对于一个回归方程,如果自变量的指数大于1,那么它就是多项式回归方程。

如下方程所示: y=a+b*x^2

在这种回归技术中,最佳拟合线不是直线。而是一个用于拟合数据点的曲线。

4. Stepwise Regression逐步回归

在处理多个自变量时,可以使用这种形式的回归。在这种技术中,自变量的选择是在一个自动的过程中完成的,其中包括非人为操作。

这一壮举是通过观察统计的值,如R-square,t-stats和AIC指标,来识别重要的变量。逐步回归通过同时添加/删除基于指定标准的协变量来拟合模型。

下面列出了一些最常用的逐步回归方法: 标准逐步回归法做两件事情。即增加和删除每个步骤所需的预测。 向前选择法从模型中最显著的预测开始,然后为每一步添加变量。

向后剔除法与模型的所有预测同时开始,然后在每一步消除最小显著性的变量。 这种建模技术的目的是使用最少的预测变量数来最大化预测能力。这也是处理高维数据集的方法之一。

5. Ridge Regression岭回归

当数据之间存在多重共线性(自变量高度相关)时,就需要使用岭回归分析。在存在多重共线性时,尽管最小二乘法(OLS)测得的估计值不存在偏差,它们的方差也会很大,从而使得观测值与真实值相差甚远。

岭回归通过给回归估计值添加一个偏差值,来降低标准误差。

在线性等式中,预测误差可以划分为 2 个分量,一个是偏差造成的,一个是方差造成的。预测误差可能会由这两者或两者中的任何一个造成。在这里,将讨论由方差所造成的误差。

6. Lasso Regression套索回归

它类似于岭回归,Lasso (Least Absolute Shrinkage and Selection Operator)也会就回归系数向量给出惩罚值项。此外,它能够减少变化程度并提高线性回归模型的精度。

看看下面的公式: L1=agrmin||y-xβ|| +λ||β||

Lasso 回归与Ridge回归有一点不同,它使用的惩罚函数是L1范数,而不是L2范数。这导致惩罚(或等于约束估计的绝对值之和)值使一些参数估计结果等于零。使用惩罚值越大,进一步估计会使得缩小值越趋近于零。这将导致要从给定的n个变量中选择变量。

如果预测的一组变量是高度相关的,Lasso 会选出其中一个变量并且将其它的收缩为零。

7.ElasticNet回归

ElasticNet是Lasso和Ridge回归技术的混合体。它使用L1来训练并且L2优先作为正则化矩阵。当有多个相关的特征时,ElasticNet是很有用的。Lasso 会随机挑选他们其中的一个,而ElasticNet则会选择两个。

Lasso和Ridge之间的实际的优点是,它允许ElasticNet继承循环状态下Ridge的一些稳定性。 数据探索是构建预测模型的必然组成部分。在选择合适的模型时,比如识别变量的关系和影响时,它应该是首选的一步。比较适合于不同模型的优点,可以分析不同的指标参数,如统计意义的参数,R-square,Adjusted R-square,AIC,BIC以及误差项,另一个是Mallows’ Cp准则。

这个主要是通过将模型与所有可能的子模型进行对比(或谨慎选择他们),检查在你的模型中可能出现的偏差。

对统计Statistics课程有疑问,想寻求进一步学术帮助?欢迎联系StudyGate,各类理工商科写作答疑解惑,为你的留学之路倾情助力!我们的服务包含微积分作业数学作业数学作业物理作业化学作业生物作业Lab ReportProject作业辅导

studygate作业代写

Step 1:提交作业要求

三分钟即可完成下单,下单时可以选择作业需要的时间和具体要求。

Step 2:选择专业导师

作业提交成功之后,导师审核要求,确认之后会联系报价,可自由选择专业学科相关导师,并且确认作业最终价格。

Step 3:完成订单, 准时交付

导师开始处理订单。在此期间有任何问题,都可以登录账号和导师随时沟通。作业完成后,系统自动发送至你的邮箱,所有信息安全保密。你也可以登录账号直接下载。

Step 4:收到答案14天之内确认,100%满意保证

收到作业之后14天之内,如果对作业有任何问题,都可以联系导师进行修改。100%满意保证,只有你选择满意答案之后,我们才会扣款,安全有保障。

Step 5:对导师提出评价

我们拥有严格的导师考核评价机制,服务好不好,全由你说了算!你的认同是我们前进的动力。

StudyGate专业理工科作业辅导,最靠谱的统计作业辅导

有任何问题,欢迎随时咨询网页客服!