admin 管理员组

文章数量: 887021


2024年1月18日发(作者:javascript书籍免费下载)

sklearn对训练集、测试集、验证集的划分

sklearn中对数据集的划分通常是使用train_test_split函数实现的,该函数的主要参数包括:

1. test_size:测试集占总数据集的比例,默认值为0.25。

2. train_size:训练集占总数据集的比例,默认值为None,此时默认为1-test_size。

3. random_state:随机数种子,保证每次划分的结果相同,默认为None。

4. shuffle:是否洗牌,默认为True。

5. stratify:按照某个标签进行分层抽样,保证各标签在训练集和测试集中的比例相同,默认为None。

代码示例:

```python。

from _selection import train_test_split。

#X为样本特征,y为样本标签。

# test_size表示测试集所占比例,random_state是随机数种子。

X_train, X_test, y_train, y_test = train_test_split(X, y,

test_size=0.3, random_state=0)。

#如果需要划分验证集,可以如下操作。

X_trainval, X_test, y_trainval, y_test = train_test_split(X,

y, test_size=0.3, random_state=0)。

X_train, X_val, y_train, y_val = train_test_split(X_trainval,

y_trainval, test_size=0.2, random_state=0)。


本文标签: 测试 划分 比例 保证 函数