Scikit-learn、Pythonにおける機械学習のためのオープンソースライブラリが、6月5日に公開されたバージョン1.7で進化を続けています。このアップデートは、ユーザーエクスペリエンス、他のツールとの互換性、機械学習ワークフローの効率性を強化します。

改善点と新機能

エスティメーターのHTMLビジュアライゼーションの改善

JupyterでのHTML表示は、パラメーターの完全リストを示し、デフォルト値と異なるものをハイライトします。ボタンにより、完全修飾名のコピーが容易になり、ネストされたパイプラインの設定やハイパーパラメーターの検索が迅速化されます。

ヒストグラムベースのGradient Boostingのためのカスタムバリデーション

HistGradientBoostingモデルは、明示的なバリデーションセット(X_val, y_val, sample_weight_val)を.fit()メソッドを通じて受け取れるようになり、早期停止の調整をよりよく行えます。この機能は過学習の管理を改善しますが、まだ広く使用されていないメタデータルーティングシステムenable_metadata_routing=Trueに依存しています。

クロスバリデーション結果からのネイティブROCビジュアライゼーション

新しいメソッドfrom_cv_results()を使用すると、RocCurveDisplayでクロスバリデーション(cross_validate)の結果から複数のROC曲線を自動生成できます。この機能により、モデルの比較分析が簡素化され、機械学習のワークフローに直接ビジュアル診断を統合することができ、サードパーティツールを必要としません。

Array APIとの互換性の拡張

複数のメトリックス(例:fbeta_score, explained_variance_score)は、Array APIと互換性のあるデータ構造(特にPyTorchやCuPyからのもの)を受け入れるようになりました。モジュールarray-api-compatがネイティブに統合されています。

多層パーセプトロンの更新

多層パーセプトロンは、デフォルトの二乗誤差損失に加えて、ポアソン損失をサポートするようになりました。また、サンプルウェイトをサポートし、さまざまなアプリケーションに対する柔軟性を向上させています。

スパースアレイへの移行

従来のスパース行列(scipy.sparse)を入力として受け入れるすべてのエスティメーターは、新しいスパースアレイ(sparray)も受け入れるようになり、SciPyの進行中の移行を準備しています。
インストール
新しいバージョンはpipを使用してインストール可能です: pip install --upgrade scikit-learn
またはcondaを使用: conda install -c conda-forge scikit-learn