admin 管理员组文章数量: 887032
【K
【K-S检验】检验两个数据集的分布是否一致
前言:在训练机器学习模型时,遇到了模型在数据集分割出来的test set上预测准确率高,但是在另一个test set数据集上预测准确率很低的情况。第一直觉是判断两个数据集的分布是否一致。
K-S检验方法
KS-test(Kolmogorov–Smirnov test)一般用来检验两个数据分布是否一致,KS检验不用假设数据的分布情况,算是一种非参数检验方法。
下图是两个数据的累积分布函数(CDF):
代码
from scipy.stats import ks_2sampdataset_a = ['123','456']
dataset_b= ['789','12321']
result = ks_2samp(dataset_a,dataset_b).pvalueprint("pvalue between 2 datasets: {}".format(result))
我们先生成两个数据集的list,使用ks_2samp检验两个list是否来自同一个样本,首先提出假设:dataset_a和dataset_b服从相同的分布。
最终返回的结果,p-value=6.060226485128174e-18,比指定的显著水平(假设为5%)小,则我们完全可以拒绝假设:dataset_a和dataset_b不服从同一分布
p_value越大,说明两者属于同一分布的可能性越大。
p_value越小(越接近0),说明两者属于同一分布的概率越小。一般来说小于5%,就能证明原假设不成立,即dataset_a和dataset_b不服从同一分布。
注:用来比较的两个数据集的长度(size)可以不相同。
参考文献
[1] 双样本KS检验与p-value推导(Kolmogorov–Smirnov test)
[2] 使用K-S检验一个数列是否服从正态分布、两个数列是否服从相同的分布
[3] 5种数据同分布的检测方法
[4] 训练集/测试集分布一致性检查
本文标签: K
版权声明:本文标题:【K 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://www.freenas.com.cn/jishu/1686695165h25961.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论