Kısa : Les chercheurs de Google ont développé MLE-STAR, un agent d'apprentissage automatique qui améliore le processus de création de modèles d'IA en combinant recherche web ciblée, raffinement du code et assemblage adaptatif. MLE-STAR a démontré son efficacité en remportant 63% des compétitions dans le benchmark MLE-Bench-Lite basé sur Kaggle, surpassant largement les approches précédentes.
İçindekiler
MLE ajanları (Machine Learning Engineering agent), büyük dil modellerine (LLM'ler) dayalı olarak, makine öğrenimi modellerinin geliştirilmesinde yeni ufuklar açarak sürecin tamamını veya bir kısmını otomatikleştirmiştir. Ancak, mevcut çözümler çoğunlukla keşif sınırlarına ya da metodolojik çeşitlilik eksikliğine takılmaktadır. Google araştırmacıları, hedeflenmiş web araması, kod bloklarının ayrıntılı rafine edilmesi ve adaptif montaj stratejisini bir araya getirerek bu zorluklara yanıt vermektedir.
Spesifik olarak, bir MLE ajanı, bir görev tanımından (örneğin, "tablolar halindeki verilerden satış tahmini") ve sağlanmış veri setlerinden yola çıkarak:
- Sorunu analiz eder ve uygun bir yaklaşım seçer;
- Kod üretir (genellikle Python'da, yaygın veya özel ML kütüphaneleriyle);
- Çözümü test eder, değerlendirir ve rafine eder, bazen birkaç iterasyon halinde.
Bu ajanlar, LLM'lerin iki temel yeteneğine dayanır:
- Algoritmik akıl yürütme (belirli bir sorun için uygun yöntemleri belirleme);
- Çalıştırılabilir kod üretimi (veri hazırlama, eğitim ve değerlendirme için tam betikler).
Amacı, özellik mühendisliği, hiperparametre ayarlaması veya model seçimi gibi zahmetli adımları otomatikleştirerek insan iş yükünü azaltmaktır.
MLE-STAR: Hedeflenmiş ve İteratif Optimizasyon
Google Research'e göre, mevcut MLE'ler iki büyük engelle karşılaşmaktadır. İlk olarak, LLM'lerin iç bilgilerine olan güçlü bağımlılıkları, onları, tablolar halindeki veriler için scikit-learn kütüphanesi gibi genel ve köklü yöntemleri tercih etmeye itiyor, daha özelleşmiş ve potansiyel olarak daha etkili yaklaşımlar aleyhine.
İkincisi, keşif stratejileri genellikle her iterasyonda kodun tamamen yeniden yazılmasına dayanır. Bu işleyiş, onları, örneğin, özellik mühendisliğinin farklı seçeneklerini sistematik olarak test etmek gibi, boru hattının belirli bileşenlerine odaklanmaktan alıkoyar.
İkincisi, keşif stratejileri genellikle her iterasyonda kodun tamamen yeniden yazılmasına dayanır. Bu işleyiş, onları, örneğin, özellik mühendisliğinin farklı seçeneklerini sistematik olarak test etmek gibi, boru hattının belirli bileşenlerine odaklanmaktan alıkoyar.
Bu sınırları aşmak için, Google araştırmacıları MLE-STAR'ı tasarladı, üç kaldıracı bir araya getiren bir ajan:
- Göreve özgü modelleri belirlemek ve sağlam bir başlangıç çözümü oluşturmak için web araştırması;
- Kod bloklarının ayrıntılı rafine edilmesi, performans üzerinde en fazla etkiye sahip olan parçaları belirlemek için ablasyon çalışmaları kullanarak ve daha sonra bunları iteratif olarak optimize ederek;
- Çeşitli çözüm adaylarını daha iyi bir versiyonda birleştirebilen ve denemelerle rafine edilen adaptif montaj stratejisi.
Bu iteratif süreç, araştırma, kritik bloğun tanımlanması, optimizasyon ve ardından yeni bir iterasyon, MLE-STAR'ın çabalarını ölçülebilir kazançlar ürettikleri yerlere odaklamasına olanak tanır.

Kredi: Google Research.
Önizleme. a) MLE-STAR, bir göreve özgü modelleri bulmak ve bir başlangıç çözümüne dahil etmek için web araştırmasını kullanarak başlar. (b) Her rafine etme aşaması için, performans üzerinde en anlamlı etkiye sahip kod bloğunu belirlemek için bir ablasyon çalışması gerçekleştirir. (c) Tanımlanan kod bloğu, önceki deneyimlerden alınan geri bildirimleri kullanarak çeşitli stratejileri keşfeden LLM tarafından önerilen planlara dayanarak iteratif bir rafine etme sürecine girer. Bu hedeflenen kod bloklarının seçimi ve rafine edilmesi süreci, (c)'deki geliştirilmiş çözümün bir sonraki rafine etme aşaması için başlangıç noktası haline geldiği yerde tekrarlanır (b).
Çözümleri Güvenilir Hale Getirmek İçin Kontrol Modülleri
İteratif yaklaşımının ötesinde, MLE-STAR, üretilen çözümlerin sağlamlığını artırmak için üç modül entegre eder:
- Hata ayıklama ajanı, çalıştırma hatalarını analiz etmek (örneğin, bir traceback Python) ve otomatik düzeltmeler önermek için;
- Veri sızıntısı denetleyicisi, eğitim sırasında yanlışlıkla test verilerinden elde edilen bilgilerin kullanıldığı durumları tespit etmek için, ölçülen performansı çarpıtan bir önyargı;
- Veri kullanımı denetleyicisi, tüm sağlanan veri kaynaklarının, CSV gibi standart formatlarda sunulmadığında bile, kullanıldığını sağlamak için.
Bu modüller, LLM'ler tarafından üretilen kodda gözlemlenen yaygın sorunlara yanıt vermektedir.
Kaggle Üzerinde Anlamlı Sonuçlar
MLE-STAR'ın etkinliğini değerlendirmek için, araştırmacılar onu Kaggle yarışmalarına dayalı MLE-Bench-Lite benchmark'ında test ettiler. Protokol, bir ajanın basit bir görev tanımından, eksiksiz ve rekabetçi bir çözüm üretme yeteneğini ölçüyordu.
Sonuçlar, MLE-STAR'ın yarışmaların %63'ünde madalya kazandığını, bunların %36'sının altın olduğunu, önceki en iyi yaklaşımlar için %25,8 ile %36,6 arasında değiştiğini göstermektedir. Bu kazanım, EfficientNet veya ViT gibi yeni modellerin hızlı benimsenmesi, insan müdahalesi ile web araştırması tarafından tanımlanmayan modellerin entegrasyonu ve veri sızıntısı ve kullanım denetleyicileri tarafından yapılan otomatik düzeltmelerin birleşimine atfedilmektedir.
Bilimsel makaleyi arXiv'de bulabilirsiniz: "MLE-STAR: Machine Learning Engineering Agent via Search and Targeted Refinement" (https://www.arxiv.org/abs/2506.15692 ).
Açık kaynak kodu GitHub'da mevcuttur