发布日期:2024-12-18 17:39 点击次数:66
在数据分析和科学筹商中,假定历练是一个格外进击的统计器具。本文将详确先容两种常用的非参数历练关键:Mann-Whitney U历练(也称为Wilcoxon秩和历练)和卡方历练(Chi-square test),并使用Python来收尾这些历练关键。
目次
基础宗旨
Mann-Whitney U历练
卡方历练
本色期骗案例
基础宗旨
什么是假定历练?
假定历练是一种统计预见关键,用于判断样本数据是否维持某个统计假定。在进行假定历练时,咱们凡俗会建立:
原假定(H0):咱们念念要历练的默许假定
备择假定(H1):与原假定相对的另一种可能性
显赫性水平(α):凡俗设为0.05,示意咱们容忍的犯第一类失误的概率
为什么需要非参数历练?
当数据不知足正态散布或样本量较小时,传统的参数历练(如t历练)可能不适用。这时,咱们需要使用非参数历练关键,如U历练和卡方历练。
历练关键的选择
在选择适当的历练关键时,需要辩论以下要素:
数据类型
定量数据(开放型)
定性数据(分类型)
等第数据(法令型)
样本特征
样本量大小
是否零丁
是否配对
组别数目
数据散布
是否知足正态散布
方差是否皆性
是否存在极度值
历练筹谋
均值比拟
比例比拟
计划性分析
拟合优度历练
底下是一个通俗的历练关键选择方案树:
数据类型是什么?├── 定量数据│ ├── 正态散布│ │ ├── 两组:t历练│ │ └── 多组:方差分析│ └── 非正态散布│ ├── 两组:Mann-Whitney U历练│ └── 多组:Kruskal-Wallis历练└── 定性数据 ├── 盼愿频数≥5:卡方历练 └── 盼愿频数
Mann-Whitney U历练
表面基础
Mann-Whitney U历练是一种非参数历练关键,用于比拟两个零丁样本的散布是否有显赫各异。它不要求数据呈正态散布,玩AG百家乐有没有什么技巧适用于序数数据。
Python收尾
import numpy as npfrom scipy import statsimport matplotlib.pyplot as plt# 生成示例数据np.random.seed(42)group1 = np.random.normal(loc=5, scale=2, size=30)group2 = np.random.normal(loc=6, scale=2, size=30)# 践诺U历练statistic, pvalue = stats.mannwhitneyu(group1, group2, alternative='two-sided')# 可视化plt.figure(figsize=(10, 6))plt.boxplot([group1, group2], labels=['组1', '组2'])plt.title('两组数据的箱线图比拟')plt.ylabel('值')plt.showprint(f'U统计量:{statistic}')print(f'p值:{pvalue}')
U统计量:293.0 p值:0.020680749139978086
贬抑讲明注解
要是p值
要是p值 ≥ α,则不成拒绝原假定,合计莫得豪阔把柄标明两组数据有显赫各异
卡方历练
表面基础
卡方历练用于分析分类变量之间是否存在显赫关联。它通过比拟不雅察频数与盼愿频数的各异来判断变量间的零丁性。
Python收尾
import numpy as npfrom scipy.stats import chi2_contingencyimport pandas as pdimport seaborn as sns# 创建示例数据:看望不同庚岁段东说念主群的开放习尚data = np.array([ [30, 20, 10], # 年青东说念主(相通开放,偶尔开放,很少开放) [15, 25, 20], # 中年东说念主 [10, 15, 25] # 老年东说念主])# 进行卡方历练chi2, p_value, dof, expected = chi2_contingency(data)# 创建热力争可视化plt.figure(figsize=(10, 8))sns.heatmap(data, annot=True, fmt='d', cmap='YlOrRd', xticklabels=['相通开放', '偶尔开放', '很少开放'], yticklabels=['年青东说念主', '中年东说念主', '老年东说念主'])plt.title('不同庚岁段东说念主群开放习尚散布')plt.showprint(f'卡方统计量:{chi2:.2f}')print(f'p值:{p_value:.4f}')print(f'解放度:{dof}')
卡方统计量:19.68 p值:0.0006 解放度:4
贬抑讲明注解
卡方值越大,示意不雅察值与盼愿值的各异越大
p值的讲明注解与上述沟通,p
本色期骗案例
案例1:医学筹商中的U历练
比拟两种调整关键的后果各异:
# 两组患者的收复时辰(天)treatment_A = [10, 12, 8, 15, 9, 11, 13, 7, 9, 12]treatment_B = [14, 16, 12, 18, 13, 15, 17, 11, 13, 16]# 践诺U历练statistic, pvalue = stats.mannwhitneyu(treatment_A, treatment_B)print(f'p值:{pvalue:.4f}')if pvalue
p值:0.0044 两种调整关键的后果有显赫各异
案例2:市集调研中的卡方历练
分析不同性别对居品偏好的关系:
# 创建列联表preferences = pd.DataFrame({ '居品A': [150, 100], '居品B': [120, 130], '居品C': [80, 120]}, index=['男性', '女性'])# 践诺卡方历练chi2, p_value, dof, expected = chi2_contingency(preferences)print(f'p值:{p_value:.4f}')if p_value
p值:0.0001 性别与居品偏好存在显赫关联
留意事项和提倡
样本量要求
U历练:每组至少应有8个不雅测值
卡方历练:每个单位格的盼愿频数最佳大于5
数据类型选择
U历练适用于开放数据或等第数据
卡方历练适用于分类数据
现实提倡
在进行历练前,先画图数据的形色性图表
聚积子际布景讲明注解统计贬抑
留意历练的假定条目是否知足
回来
本教程详确先容了U历练和卡方历练的Python收尾关键。这些统计器具在本色筹商中格外有效,不错匡助咱们作念出更科学的方案。记取,统计历练仅仅扶助方案的器具,还需要聚积具体情况和专科常识来讲明注解贬抑。
参考贵府AG真人百家乐下载