首页技术总结正文内容

机器学习——当预测结果误差很大时怎么办等多种问题的解决方案

技术总结

更新时间：2024-12-22 22:32:21 28

admin 管理员组

文章数量: 887019

1、当预测结果误差很大时怎么办？

①过拟合解决办法

可以去增加更多的训练数据
可以尝试简化模型
数据增强：人为扩展数据量以增加数据量来解决过拟合
正则化：通过减少每个节点的权重来解决过拟合
正则参数λ：如果有正则项则可以考虑增大正则项参数λ
Dropout（随机失活）：专门用在神经网络的正规化的方法，叫作Dropout。在训练时，每次随机（如50%概率）忽略隐层的某些节点。流程是每个网络只会见过一个训练数据（每次都是随机的新网络），而不同模型之间权值共享。随机地删除网络中的一般隐藏的神经元，这样可以迫使节点分散权重（使权重降低，然后解决过拟合），然后使模型泛化性更强。
early stopping（早停）：在训练中计算模型在验证集上的error，当模型在验证集上的表现开始下降的时候，停止训练，这样就能避免继续训练导致过拟合的问题
batch normalization

②欠拟合解决办法

可以去尝试使用更复杂的模型
可以增加新特征
正则参数λ：如果有正则项则可以考虑减小正则项参数λ

2、如何评估算法？（以logistics regression为例）

先将数据集随机的按3/7分，划分为训练集和测试集
通过训练集训练的出使cost function最小的θ
将得到的θ带入新的cost function，得到 J t e s t ( θ ) = − 1 m t e s t ∑ i = 1 m t e s t y t e s t ( i ) l o g h θ ( x t e s t ( i ) ) + ( 1 − y t e s t ( i ) ) l o g h θ ( x t e s t ( i ) ) J_{test}(\theta)=-\frac{1}{m_{test}}\sum_{i=1}^{m_{test}}y_{test}^{(i)}logh_{\theta}(x_{test}^{(i)})+(1-y_{test}^{(i)})logh_{\theta}(x_{test}^{(i)}) Jtest(θ)=−mtest1∑i=1mtestytest(i)loghθ(xtest(i))+(1−ytest(i))loghθ(xtest(i))
然后计算分类误差率misclassification error，
e r r ( h θ ( x ) , y ) = { 1 h(x)>=0.5,y=0 or h(x)<=0.5,y=1 0 otherwise err(h_{\theta}(x),y)= \begin{cases} 1& \text{h(x)>=0.5,y=0 or h(x)<=0.5,y=1}\\ 0& \text{otherwise} \end{cases} err(hθ(x),y)={10h(x)>=0.5,y=0 or h(x)<=0.5,y=1otherwise

T e s t E r r o r = 1 m t e s t ∑ i = 1 m t e s t e r r ( h θ ( x ) , y ) TestError=\frac{1}{m_{test}}\sum_{i=1}^{m_{test}}err(h_{\theta}(x),y) TestError=mtest1i=1∑mtesterr(hθ(x),y)

3、有时会把数据集划分为训练集，交叉验证集和测试集

训练集用来fit出当前最优的θ（此时有多个 h θ ( x ) h_{\theta}(x) hθ(x)）
交叉验证集用来得到最优的 h θ ( x ) h_{\theta}(x) hθ(x)
测试集用来测试当前模型对 h θ ( x ) h_{\theta}(x) hθ(x)的拟合情况
最重要的是要保证验证集和测试集是来自同一分布

4、判断当前算法是欠拟合（高偏差）或过拟合（高方差）

若训练集的 J t r a i n ( θ ) J_{train}(\theta) Jtrain(θ)很高，而 J c v ( θ ) ≈ J t r a i n ( θ ) J_{cv}(\theta){\approx}J_{train}(\theta) Jcv(θ)≈Jtrain(θ)的话，则是欠拟合
若训练集的 J t r a i n ( θ ) J_{train}(\theta) Jtrain(θ)很低，而 J c v ( θ ) > > J t r a i n ( θ ) J_{cv}(\theta){>>}J_{train}(\theta) Jcv(θ)>>Jtrain(θ)的话，则是过拟合
若训练集的 J t r a i n ( θ ) J_{train}(\theta) Jtrain(θ)很高，而 J c v ( θ ) > > J t r a i n ( θ ) J_{cv}(\theta){>>}J_{train}(\theta) Jcv(θ)>>Jtrain(θ)的话，则是过拟合和欠拟合
若训练集的 J t r a i n ( θ ) J_{train}(\theta) Jtrain(θ)很低，而 J c v ( θ ) ≈ J t r a i n ( θ ) J_{cv}(\theta){\approx}J_{train}(\theta) Jcv(θ)≈Jtrain(θ)的话，则是低偏差和低方差
判断训练集 J t r a i n ( θ ) J_{train}(\theta) Jtrain(θ)和验证集 J c v ( θ ) J_{cv}(\theta) Jcv(θ)高低的前提是基于base error上的，若base error等于10%的话，那 J t r a i n ( θ ) J_{train}(\theta) Jtrain(θ)=8%也算低 J t r a i n ( θ ) J_{train}(\theta) Jtrain(θ)
注意 J t e s t ( θ ) J_{test}(\theta) Jtest(θ)与 J t r a i n ( θ ) J_{train}(\theta) Jtrain(θ)不一定相同（在正则化时就不同）

5、学习曲线

一般使用 J t r a i n ( θ ) J_{train}(\theta) Jtrain(θ)或 J c v ( θ ) J_{cv}(\theta) Jcv(θ)来绘制学习曲线

若当前模型处于欠拟合，那么增加数据量并不会改变它的状态
而对过拟合来说，增加数据量则是有效的

6、如何选择神经网络的结构

可以选择 “小”的神经网络：一层hidden layer，少量的hidden units或者一个hidden unit，它的特点是计算量小，易发生欠拟合
当然也可以用 “大”的神经网络：一层包含多个hidden units的hidden layer，或多层的hidden layers，每层节点数相同，它的特点是计算量大，易发生过拟合，不过过拟合可以通过正则化来解决，当然了hidden layer的层数可以通过把数据划分为训练集、交叉验证集和测试集来解决这个问题

7、如何系统的进行模型的训练

先使用一个可以让你快速运行的简单的模型，而不是一个非常复杂的模型。然后交叉验证数据
绘出学习曲线，来判断是欠拟合或过拟合并分别对症下药
误差分析：它是一种手动的去检查算法所出现的失误的过程。即手动的检查模型预测失败的数据，观察这些数据有什么模式，通过这样它会告诉你如何去改进我们的算法。一般在交叉验证集上进行误差分析
当不确定那些方式是否有用时，可以算出不同方式的误差度量值，然后通过该值来判断哪种方式更好（控制变量法）
1. 查准率-Precision：是指在所有预测为1的样本中预测正确的比率
2. 查全率-Recall：是指在所有真正为1的样本中预测正确的比率
3. 若一个算法的调和平均数高则该算法性能就比较好， F 1 s c o r e = 2 P R P + R F_1 score=\frac{2PR}{P+R} F1score=P+R2PR

本文只用于个人学习与记录

本文标签：误差等多种很大机器解决方案

版权声明：本文标题：机器学习——当预测结果误差很大时怎么办等多种问题的解决方案内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://www.freenas.com.cn/jishu/1727372390h1110155.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

发表评论

全部评论 0

暂无评论

技术交流 – FreeNAS中文网

机器学习——当预测结果误差很大时怎么办等多种问题的解决方案

1、当预测结果误差很大时怎么办？

①过拟合解决办法

②欠拟合解决办法

2、如何评估算法？（以logistics regression为例）

3、有时会把数据集划分为训练集，交叉验证集和测试集

4、判断当前算法是欠拟合（高偏差）或过拟合（高方差）

5、学习曲线

6、如何选择神经网络的结构

7、如何系统的进行模型的训练

更多相关文章

编程常见报错信息及解决方案汇总

WindowsXP sp3 &amp;&amp; Windows7 sp1 系统安装 Windbg 符号文件时失去微软支持或者被墙的解决方案

win10系统屏幕泛白解决方案

IPad读写U盘的解决方案

网络设备常见故障及解决方案

浏览器主页被360锁定 - 解决方案

配置失败还原请勿关闭计算机怎么办,win7系统出现“配置windows update失败 还原更改 请勿关闭计算机”，长时间没反应，无法进入系统的解决方案...

VMware网络连接激活失败解决方案

升级到Windows 11的过程中可能遇到的问题以及解决方案

Linux Gparted创建NTFS分区，安装Windows系统时不识别的解决方案

关于重启电脑teamviewer无法连接的解决方案

Windows系统使用Tcl Expect Telnet 系统Crash解决方案

Win10系统开机蓝屏，提示“自动修复”无法进入系统的解决方案

Win11显示不出WiFi列表？全面解决方案来了

windows连接远程服务器报错‘SSH‘ 不是内部或外部命令，也不是可运行的程序 或批处理文件 解决方案

两种界面，求助，如何去掉经典显示，我只要windows 7方式的，谢谢(附解决方案)

Windows一键重装系统失败：从问题分析到解决方案

蓝屏修复全攻略：Windows 10系统故障的系统级解决方案

windows11忘记密码完美解决方案，100%成功，适用所有情况

服务器基本系统设备叹号,Windows 7系统中设备管理中Lenovo vhid device为叹号的解决方案...

发表评论

推荐文章

【FPGA】Vivado 保姆级安装教程 | 从官网下载安装包开始到安装完毕 | 每步都有详细截图说明 | 支持无脑跟装

Thinkpad X1 Carbon Gen1012,Yoga Gen7(21CB,21CC,21CD,21CE)(21KD,21KF,21KC,21KE),原装出厂Windows11系统镜像下载

selenium控制已经打开的chrome浏览器

手机电源键关不了屏幕_手机死机关不了机怎么办

mongodb的windows安装与Navicat连接

热门文章

Zabbix监控通过SNMP监控Windows Server系统

EasyMesh 说明书

Mybatis(Ibatis)基础

第4关，overthewire上bandit一个练习Linux指令的网站

如何通过PhpMyadmin优化SQL语句？

Windows7下配置JMeter安装环境

Windows Powershell 报错 [启动“powershell.exe”时出现错误 0x8007010b]解决方案

统信UOS桌面操作系统上使用ventoy制作U盘启动盘_统信u盘制作工具

w ndows7有线网络连接不上,七仔教你学Windows 7：如何连接网络

WinHex 19.8 官方版数据恢复软件：数据安全的终极守护者

最新文章

Raid技术

LSI_阵列卡操作手册

破解Centos7_root用户密码

Redhat重置Root用户密码方法

远程批量修改linux服务器密码的脚本

最新Windows 11教育版下载：专为教育设计的系统！

Win7系统下搭建NFS服务器

零基础使用UltraISO制作并安装纯净Win10系统指南

苹果电脑windows系统换苹果系统

Win11系统崩溃错误修复指南：三种实用方法详解

WindowsXP sp3 && Windows7 sp1 系统安装 Windbg 符号文件时失去微软支持或者被墙的解决方案

配置失败还原请勿关闭计算机怎么办,win7系统出现“配置windows update失败还原更改请勿关闭计算机”，长时间没反应，无法进入系统的解决方案...

windows连接远程服务器报错‘SSH‘ 不是内部或外部命令，也不是可运行的程序或批处理文件解决方案