【知识分享】常用数据分析方法

描述性统计

面对一个数据集,首先要做的是使用统计学方法,总结和描述数据集的主要特征,比如数据的中心趋势、数据的分散程度、数据的分布形状以及变量之间的相关性等等。

数据的中心趋势

数据的中心趋势是描述性统计中的一个重要方面,用于衡量数据集中心的位置或趋势。主要的统计量包括均值、中位数和众数。

  1. 均值(Mean):均值是数据集中所有数值的总和除以数据点的数量。
  2. 中位数(Median):中位数是将数据集中的所有数值按大小排列后,位于中间位置的值.
  3. 众数(Mode):众数是数据集中出现次数最频繁的数值(可能有一个、多个)。

数据的分散程度

数据的分散程度描述了数据点在中心趋势周围的离散程度或扩散程度。常用的分散程度度量包括:

  1. 标准差(Standard Deviation):标准差是数据集中各数据点与均值之间的偏差的平方的平均值的平方根。标准差越大,数据点相对于均值的分散程度越大,反之亦然。标准差是最常用的分散程度度量之一。
  2. 方差(Variance):方差是数据集中各数据点与均值之间偏差的平方的平均值。方差是标准差的平方,因此也可以用来度量数据的分散程度。
  3. 范围(Range):范围是数据集中最大值和最小值之间的差值。范围描述了数据的极端值情况,但它无法提供关于整体分布的详细信息。
  4. 四分位距(Interquartile Range,IQR):四分位距是数据集的上四分位数与下四分位数之间的差值。它用于衡量数据在中间50%范围内的分散程度,对于受到极端值影响较小的数据集更为合适。
  5. 变异系数(Coefficient of Variation,CV):变异系数是标准差与均值的比值,通常用百分比表示。它用于比较不同均值和不同单位的数据的相对分散程度。

数据的分布形状

  1. 对称分布:在对称分布中,数据的分布相对均匀,左右两侧的数据密度大致相等,形成一个关于中心点对称的形状。
  2. 偏态分布:偏态分布是指数据分布在均值周围不对称的情况。当数据集中于中线左侧时时,我们称之为右偏或正偏态分布;当数据倾向于另一侧时,我们称之为左偏或负偏态分布。(左右偏指的是尾巴)
  3. 峰态分布:峰态分布描述了数据集中数据点聚集在中心位置附近的程度。如果数据点集中在中心且相对均匀,峰态较低,形成一个平缓的分布,我们称之为低峰态分布;如果数据点在中心位置附近集中度较高,形成一个尖峭的分布,我们称之为高峰态分布。

分布形状分析可以通过直方图、密度图和箱线图等可视化方法来展示。这些分析有助于我们更全面地理解数据的特征,选择合适的统计方法和模型进行进一步分析和建模。

此外,很多统计方法都要求数值服从或近似服从正态分布,所以我们可以对数据进行正态性检验。常用方法:非参数检验的K-量检验、P-P图、Q-Q图、W检验、动差法等。

相关性分析

相关分析探讨数据之间是否具有统计学上的关联性,注意,这一性质只代表两个变量的变化方向的一致程度,并不能表示出两者的因果关系。

常见的方法用于衡量相关性包括:

  1. Pearson相关系数:用于衡量两个连续变量之间的线性相关性。它的取值范围在 -1 到 1 之间,其中 1 表示完全正相关,-1 表示完全负相关,0 表示没有线性相关性。
  2. Spearman相关系数:与Pearson相关系数类似,但是它基于两个变量的秩而不是原始数据值。因此,它对于非线性关系也比较敏感,适用于不满足正态分布假设的情况。
  3. Kendall相关系数:也是一种非参数的方法,用于衡量两个变量之间的相关性。它基于变量之间的等级顺序关系。
  4. 判定系数(Coefficient of Determination):用于衡量因变量的变异中可以由自变量解释的部分比例。在线性回归模型中,判定系数是R平方,它表示因变量的变异中可以由自变量解释的比例。

假设检验

Z检验:当样本含量n较大时,样本值符合正态分布

T检验:当样本含量n较小时,样本值符合正态分布

卡方检验:抽样中某一结果出现的次数是否满足假设条件的频数

F检验…

信度分析

信度分析是心理学和教育学领域常用的一种方法,用于评估测量工具(例如问卷调查、测试)的稳定性和一致性。在实践中,我们希望一个测量工具在不同时间、不同场合或由不同评价者进行评估时能够产生一致的结果。(我对这一部分不太了解,就跳过了)

列联表分析

列联表分析是一种统计分析方法,用于研究两个或多个分类变量之间的关系。它通常通过构建列联表(也称为交叉表或列联矩阵)来展示不同分类变量之间的频数分布情况,并计算各个分类变量之间的关联性。(好久不用了,也跳过吧)

方差分析

方差分析(Analysis of Variance,ANOVA)是一种统计方法,用于比较三个或三个以上组之间的平均数是否存在显著差异。方差分析通常用于比较不同组的均值,例如在实验设计中比较不同处理组的效果是否有显著差异。

方差分析的基本思想是将总体的方差分解为不同来源的方差,其中一部分是由于组间变异引起的(组间方差),另一部分是由于组内个体差异引起的(组内方差)。如果组间方差相对于组内方差较大,那么组间的均值差异可能是由于实际效应而非随机变异引起的。

方差分析包括以下几个步骤:

  1. 建立假设:假设不同组之间的平均值没有显著差异,即组间方差与组内方差相等。
  2. 计算方差:计算组间方差和组内方差。
  3. 计算F统计量:通过将组间方差除以组内方差得到F统计量。
  4. 判断显著性:根据F统计量与临界值的比较,判断组间均值是否有显著差异。

方差分析可以用于比较两个以上的组,有几个组就可以进行一元方差分析;如果有两个以上的自变量,则可以使用多元方差分析。

回归分析

基本概念

一元线性回归分析:只有一个自变量X与因变量Y有关,X与Y都必须是连续型变量

多元线性回归分析:分析多个自变量与因变量Y的关系,X与Y都必须是连续型变量,因变量y或其残差必须服从正态分布 。

线性回归的假设条件

  1. 线性假设:自变量和因变量之间存在线性关系。这意味着因变量的期望值在自变量的每个水平上以固定的速率变化。
  2. 正态性假设:残差满足正态分布。即残差在各个自变量水平上以相同的方式分布,没有明显的偏斜。
  3. 独立性假设:误差项之间相互独立。这意味着一个观察值的误差与另一个观察值的误差之间没有相关性。
  4. 同方差性假设:误差项的方差在自变量的每个水平上都相同。这意味着对于不同的自变量水平,误差项的方差是恒定的,不随自变量的变化而变化。
  5. 无多重共线性假设:自变量之间不存在完全线性相关性。如果自变量之间存在高度相关性,会导致估计的系数不稳定,难以解释。

其他

模型优化:套索(Lasso)、岭(Ridge)回归回归,也就是对模型参数进行L1、L2正则化,优化模型表现。

其他回归模型:Logistic回归分析、非线性回归、有序回归、Probit回归、加权回归、负二项回归等

聚类分析

聚类分析是一种无监督学习方法,用于将数据集中的对象划分为若干个类别或群组,使得同一类别内的对象彼此相似,而不同类别之间的对象差异较大。聚类分析的目标是发现数据中的潜在结构,即在不需要事先标记类别的情况下,将数据集中的对象划分为有意义的组。

聚类类型

Q型聚类分析:对样本进行分类处理,又称样本聚类分祈使用距离系数作为统计量衡量相似度,如欧式距离、极端距离、绝对距离等

R型聚类分析:对指标进行分类处理,又称指标聚类分析使用相似系数作为统计量衡量相似度,相关系数、列联系数等

常用算法

  1. K均值聚类(K-means Clustering):K均值聚类是最常见和最简单的聚类算法之一,它将数据点分为K个簇,每个簇由距离最近的中心点代表,算法迭代地将数据点分配到最近的中心点,并更新中心点的位置,直到收敛为止。
  2. 层次聚类(Hierarchical Clustering):层次聚类是一种自底向上或自顶向下的聚类方法,它构建一个层次化的聚类树。自底向上方法从每个数据点作为一个簇开始,然后逐步合并簇直到达到指定的聚类数目。自顶向下方法从所有数据点作为一个簇开始,然后逐步细分簇直到达到指定的聚类数目。
  3. 密度聚类(Density-based Clustering):密度聚类算法根据数据点的密度将数据划分为不同的簇。DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是密度聚类的一种常见方法,它基于每个数据点周围的密度来确定簇的边界,并且可以识别噪声点。
  4. 谱聚类(Spectral Clustering):谱聚类是一种基于图论的聚类方法,将数据点看作图中的节点,通过图的拉普拉斯矩阵来判断节点之间的相似度。谱聚类通过对拉普拉斯矩阵进行特征分解或者通过K均值对数据进行降维来得到聚类结果。
  5. 高斯混合模型(Gaussian Mixture Model,GMM):高斯混合模型假设数据点是由多个高斯分布组成的混合体。GMM通过最大化似然函数来估计每个高斯分布的参数,并使用EM算法(期望最大化算法)来进行优化。

其他的一些

主成分分析

主成分分析(Principal Component Analysis,PCA)是一种用于数据降维和特征提取的技术。它通过线性变换将原始数据转换为一组新的变量,称为主成分,这些主成分是原始数据中方差最大的线性组合。主成分分析的目标是保留尽可能多的数据变异性,同时减少数据的维度。

主成分分析的应用包括:

  1. 数据可视化:将高维数据映射到低维空间,实现数据的可视化展示。
  2. 特征提取:提取数据中最重要的特征,用于后续的模型训练和分析。
  3. 数据压缩:减少数据的维度,提高计算效率和存储效率。
  4. 去除数据中的噪声:通过保留数据中最显著的变化,可以去除数据中的噪声和冗余信息。

因子分析

因子分析是一种用于数据降维和探索变量之间关系的统计方法。它试图找到隐藏在观察数据背后的潜在因子,这些因子解释了变量之间的共同变异性。因子分析通常用于探索大量变量之间的结构,以便更好地理解数据和发现潜在的模式。

时间序列分析

学习ing

机器学习模型构建

决策树、随机森林、XGBoost、神经网络等