Scikit-learn,Python 机器学习领域的重要开源库,继续随着6月5日发布的1.7版本而演进。此更新强化了易用性、与其他工具的兼容性以及机器学习工作流程的效率。

改进与新功能

增强的HTML估计器可视化

Jupyter中的HTML表示现在显示完整的参数列表,并突出显示与默认值不同的参数。一个按钮简化了完全限定名称的复制,加速了嵌套流水线的配置和超参数的搜索。

基于直方图的梯度提升自定义验证

HistGradientBoosting模型现在可以通过.fit()方法接收显式验证集(X_val, y_val, sample_weight_val),以更好地调整提前停止。这项能力完善了过拟合的管理,但依赖于尚未广泛使用的元数据路由系统(enable_metadata_routing=True)

从交叉验证结果生成的原生ROC可视化

新的from_cv_results()方法用于RocCurveDisplay,可以从交叉验证结果(cross_validate)自动生成多条ROC曲线。此功能简化了模型的比较分析,并将视觉诊断直接整合到机器学习工作流程中,无需第三方工具。

扩展的Array API兼容性

多种指标(例如,fbeta_score, explained_variance_score)现在接受兼容Array API的数据结构(尤其是来自PyTorch或CuPy的)。模块array-api-compat被本地集成。

多层感知机的更新

多层感知机现在集成了泊松损失,除了默认的平方误差损失外。它还支持样本权重,提高了其在各种应用中的灵活性。

迁移到稀疏数组

所有接受经典稀疏矩阵输入的估计器(scipy.sparse),现在接受新的稀疏数组(sparray),为SciPy的过渡做好准备。
安装
新版本可以通过pip安装:pip install --upgrade scikit-learn
或使用conda:conda install -c conda-forge scikit-learn