admin 管理员组

文章数量: 887032

【K

【K-S检验】检验两个数据集的分布是否一致

前言：在训练机器学习模型时，遇到了模型在数据集分割出来的test set上预测准确率高，但是在另一个test set数据集上预测准确率很低的情况。第一直觉是判断两个数据集的分布是否一致。

K-S检验方法

KS-test（Kolmogorov–Smirnov test）一般用来检验两个数据分布是否一致，KS检验不用假设数据的分布情况，算是一种非参数检验方法。
下图是两个数据的累积分布函数（CDF）：

代码

from scipy.stats import ks_2sampdataset_a = ['123','456']
dataset_b= ['789','12321']
result = ks_2samp(dataset_a,dataset_b).pvalueprint("pvalue between 2 datasets: {}".format(result))

我们先生成两个数据集的list，使用ks_2samp检验两个list是否来自同一个样本，首先提出假设：dataset_a和dataset_b服从相同的分布。

最终返回的结果，p-value=6.060226485128174e-18，比指定的显著水平（假设为5%）小，则我们完全可以拒绝假设：dataset_a和dataset_b不服从同一分布

p_value越大，说明两者属于同一分布的可能性越大。
p_value越小（越接近0），说明两者属于同一分布的概率越小。一般来说小于5%，就能证明原假设不成立，即dataset_a和dataset_b不服从同一分布。

注：用来比较的两个数据集的长度(size)可以不相同。

参考文献

[1] 双样本KS检验与p-value推导(Kolmogorov–Smirnov test)
[2] 使用K-S检验一个数列是否服从正态分布、两个数列是否服从相同的分布
[3] 5种数据同分布的检测方法
[4] 训练集/测试集分布一致性检查

本文标签： K

版权声明：本文标题：【K 内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://www.freenas.com.cn/jishu/1686695165h25961.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

技术交流 – FreeNAS中文网

【K

【K

【K-S检验】检验两个数据集的分布是否一致

K-S检验方法

代码

参考文献

更多相关文章

K

【K

k++,++k

揭晓eval(function(p,a,c,k,e,r)js代码解密加密程序

屏幕和摄像头中的视频分辨率P,I,K,MP表示的含义，720p，1080p，2k，5MP

k touch for android,K

oracle rac 内存融合,【K

发表评论

推荐文章

重装系统，电脑只有一个C盘怎么创建分区

深入理解和使用nginx

gt designer2不能初始化字体管理器_MATLAB构建GUI必备利器—布局管理器

真实可用，Xshell7 期待您的安装使用

windows installer无法访问，可能你是在安全模式下运行windows，或者没有正确安装

热门文章

grafana-普罗米修斯-监控linux-windows版

基于uftrace的应用性能侧写

首富王健林：万达管理员工的20条天规！

享受“折磨”——阿里专家铁庵十余年技术之路的思考与感悟

3.4.1 单表查询中的例题 （作业10

硬盘建立分区的原则

使用U盘重装win10系统（微PE）

使用codeblocks(WINDOWS7下)编写WIN32GUI应用程序时一些注意事项

dell服务器vhd系统还原,win7系统盘里有VHD文件 有办法还原吗？我没备份

Win7操作系统:请求的操作需要提升

最新文章

Raid技术

LSI_阵列卡操作手册

破解Centos7_root用户密码

Redhat重置Root用户密码方法

远程批量修改linux服务器密码的脚本

DELL PowerEdge T110 II U盘安装系统

戴尔t310服务器装系统步骤,dell笔记本重装系统教程

惠普ENVY x360 14 2024 锐龙版笔记本重装win7系统教程

通过U盘启动盘安装Windows10操作系统步骤

Win7怎么使用PE重装系统？PE重装系统步骤图

3.4.1 单表查询中的例题（作业10

dell服务器vhd系统还原,win7系统盘里有VHD文件有办法还原吗？我没备份