leyu·乐鱼(中国)体育官方网站

机器学习过拟合（算法过拟合）

1、总结下来有三点，第一就是决策树容易发生过拟合，但是随机森林可以很大程度上减少过拟合。第二就是决策树容易忽略数据集中属性的相互关联。

2、决策树优点：决策树易于理解和解释，可以可视化分析，容易提取出规则；可以同时处理标称型和数值型数据；测试数据集时，运行速度比较快；决策树可以很好的扩展到大型数据库中，同时它的大小独立于数据库大小。

3、决策树：优点：计算量简单，可解释性强，比较适合处理有缺失属性值的样本，能够处理不相关的特征。缺点：容易过拟合（后续出现了随机森林，减小了过拟合现象）。逻辑回归：优点：实现简单，分类时计算量非常小，速度很快，存储资源低。

1、综上我们知道决策树实际是一种不够稳定的算法，它的表现极度依赖调参和数据，不过虽然决策树本身不是一种高效的机器学习算法，但是它们基于集成学习的组合——随机森林（RF）却是一个很鲁棒的机器学习算法，这将在下篇开始介绍。

2、决策树可能不稳定，数据中微小的变化可能导致生成完全不同的树，这个问题需要通过集成算法来解决。决策树的学习是基于贪婪算法，它靠优化局部最优（每个节点的最优）来试图达到整体的最优，但这种做法不能保证返回全局最优决策树。

3、决策树是一种树形结构模型，用于分类和回归分析。其结构从根节点开始，通过测试特征，形成分支直至叶节点，每个叶节点代表一个分类结果。决策树既可用于分类也可用于回归。分类中，叶节点表示一个类别；回归中，根据特征向量预测输出值。回归树将特征空间划分为单元，每个单元对应特定输出值。

4、决策树：优点：计算量简单，可解释性强，比较适合处理有缺失属性值的样本，能够处理不相关的特征。缺点：容易过拟合（后续出现了随机森林，减小了过拟合现象）。逻辑回归：优点：实现简单，分类时计算量非常小，速度很快，存储资源低。

5、决策树在分类和回归问题中表现出色，凭借其易解释性和对缺失值的容忍度，广泛应用于搜索广告和风险评估等领域。例如，在搜索广告中，决策树可用于组合特征选择，如通过GBDT和LR来揭示特征间交互，而在风险控制中，决策树能帮助判断是否应向特定个人提供贷款。接下来，我们来深入了解决策树的一些关键概念。

6、决策树（Decision Tree）是一种基本的分类与回归方法，其模型呈树状结构，在分类问题中，表示基于特征对实例进行分类的过程。本质上，决策树模型就是一个定义在特征空间与类空间上的条件概率分布。决策树学习通常包括三个步骤：特征选择、决策树的生成和决策树的修剪。

机器学习过拟合（算法过拟合）

L1正则化项也称为Lasso，L2正则化参数也称为Ridge。 L1范数：权值向量w中各个元素的绝对值之和，L1正则化可以产生稀疏权值矩阵，即产生一个稀疏模型，可以用于特征选择。 L2范数：权值向量w中各个元素的平方和然后再求平方根，L2正则化可以防止模型过拟合；一定程度上，L1也可以防止过拟合。

在正则化方面，它有助于防止过拟合。L1正则化，因其促使参数稀疏，常用于特征选择，其损失函数为[公式]，可产生较多参数为零的解。L2正则化主要通过惩罚大权重值，防止过拟合，其损失函数为[公式]，主要作用是鼓励参数保持较小值。最后，L1正则化为何产生稀疏解，关键在于其梯度计算和损失函数图形。

正则化的威力与应用正则化是防止过拟合的有力工具，它通过控制模型复杂性，确保模型在泛化能力上的提升。正则化的作用过拟合的症结在于模型过度关注训练数据，正则化通过限制参数的大小，避免这种现象发生。

Sklearn中SVM分为LinearSVC、NuSVC和SVC三种。

正则化：通过L1或L2等手段约束模型复杂度，避免过度拟合。特征选择：保留核心特征，降低模型复杂度。交叉验证：评估模型泛化能力，调整最佳参数。早停策略：监控验证集表现，适时停止训练。欠拟合：简单模型的挑战相比之下，欠拟合如同过于谦逊的画家，模型在数据上难以捕捉关键特征。