机器学习调参速查表机器学习关键超参数整理
速查表:机器学习关键超参数(Hyperparameters)整理,掌握这些参数有助于你更高效地调优模型,提升性能,避免过拟合或欠拟合问题。
1. 线性回归(Linear Regression):
- L1/L2正则项:用于控制模型复杂度,防止过拟合
- Solver:求解器,如`liblinear`、`sag`等
- 是否拟合截距(Fit Intercept)
2. 逻辑回归(Logistic Regression):
- L1/L2正则项
- Solver
- 类别权重(Class Weight):应对类别不平衡问题
3. 朴素贝叶斯(Naive Bayes):
- Alpha:拉普拉斯平滑系数,防止概率为零
- 是否拟合先验概率(Fit Prior)
- 特征二值化(Binarize):将连续特征转换为0/1
4. 决策树(Decision Tree):
- 分裂标准(Criterion):如gini或entropy
- 最大树深(Max Depth)
- 最小分裂样本数(Min Sample Split)
5. 随机森林(Random Forest):
- 分裂标准(Criterion)
- 最大树深(Max Depth)
- 基学习器数量(N Estimators)
- 最大特征数(Max Features)
6. 梯度提升树(Gradient Boosted Trees):
- 分裂标准(Criterion)
- 最大树深(Max Depth)
- 基学习器数量(N Estimators)
- 最小分裂样本数(Min Sample Split)
- 学习率(Learning Rate)
7. 主成分分析(PCA - Principal Component Analysis):
- 主成分数量(N Components)
- SVD求解器(SVD Solver)
- 迭代方式(Iterated Power):用于特征提取时的SVD迭代策略
8. K近邻算法(K-Nearest Neighbors):
- 邻居数量(N Neighbors)
- 权重模式(Weights):可选择均等或距离加权
- 算法类型(Algorithm):如`kd_tree`或`brute`
9. K均值聚类(K-Means):
- 聚类数(N Clusters)
- 初始化方式(Init):如`k-means++`
- 最大迭代次数(Max Iter)
10. 全连接神经网络(Dense Neural Networks):
- 隐藏层结构(Hidden Layer Sizes)
- 激活函数(Activation):如ReLU、tanh等
- Dropout比例:用于防止过拟合
- 求解器(Solver):如`adam`、`sgd`
- 正则化系数(Alpha)
- 学习率(Learning Rate)
提示:每种算法的超参数对模型性能的影响都不相同,调参时建议结合交叉验证(Cross Validation)和网格搜索(Grid Search)等方法,系统地找到最佳组合。
