Veröffentlichung von Scikit-learn 1.7: Auf dem Weg zu einer reibungsloseren und effizienteren Erfahrung

Veröffentlichung von Scikit-learn 1.7: Auf dem Weg zu einer reibungsloseren und effizienteren Erfahrung

TLDR : Scikit-learn 1.7 bringt Verbesserungen in der Benutzerfreundlichkeit, Kompatibilität und Effizienz von ML-Workflows. Neue Funktionen umfassen verbesserte HTML-Visualisierung, benutzerdefinierte Validierung für Gradient Boosting, native ROC-Visualisierung, erweiterte Array-API-Kompatibilität und Updates für das mehrschichtige Perzeptron.

Scikit-learn, die unverzichtbare Open-Source-Bibliothek für ML in Python, entwickelt sich mit der Version 1.7 weiter, die am 5. Juni veröffentlicht wurde. Dieses Update verbessert die Benutzerfreundlichkeit, die Kompatibilität mit anderen Tools und die Effizienz von Machine-Learning-Workflows.

Verbesserungen und neue Funktionen

Verbesserte HTML-Visualisierung von Schätzern

Die HTML-Darstellung in Jupyter zeigt jetzt die vollständige Liste der Parameter an, wobei diejenigen hervorgehoben werden, die von den Standardwerten abweichen. Eine Schaltfläche erleichtert das Kopieren der vollqualifizierten Namen und beschleunigt die Konfiguration von verschachtelten Pipelines und die Hyperparameter-Suche.

Benutzerdefinierte Validierung für histogrammbasiertes Gradient Boosting

Die HistGradientBoosting-Modelle können jetzt einen expliziten Validierungssatz (X_val, y_val, sample_weight_val) über die Methode .fit() erhalten, um die vorzeitige Beendigung besser abzustimmen. Diese Fähigkeit verfeinert das Overfitting-Management, stützt sich jedoch auf das noch wenig genutzte Metadaten-Routingsystem (enable_metadata_routing=True).

Native ROC-Visualisierung aus Kreuzvalidierungsergebnissen

Die neue Methode from_cv_results() für RocCurveDisplay ermöglicht die automatische Erstellung mehrerer ROC-Kurven aus den Ergebnissen der Kreuzvalidierung (cross_validate). Diese Funktion vereinfacht den Modellvergleich und integriert die visuelle Diagnose direkt in Machine-Learning-Workflows, ohne dass Drittanbietertools erforderlich sind.

Erweiterte Kompatibilität mit der Array-API

Mehrere Metriken (z.B. fbeta_score, explained_variance_score) akzeptieren nun Datenstrukturen, die mit der Array-API kompatibel sind (insbesondere aus PyTorch oder CuPy). Das Modul array-api-compat ist nativ integriert.

Updates für das mehrschichtige Perzeptron

Das mehrschichtige Perzeptron integriert jetzt den Poisson-Verlust zusätzlich zum Standard squared_error-Verlust. Es unterstützt auch Stichprobengewichte und verbessert so seine Flexibilität für verschiedene Anwendungen.

Umstellung auf spärliche Arrays

Alle Schätzer, die klassische spärliche Matrizen (scipy.sparse) als Eingabe akzeptieren, akzeptieren nun die neuen spärlichen Arrays (sparray), was die laufende Umstellung von SciPy vorbereitet.
Installation
Die neue Version kann über pip installiert werden: pip install --upgrade scikit-learn
oder mit conda: conda install -c conda-forge scikit-learn