Machine listening, makinelerin ses sinyallerini—özellikle de yapılandırılmamış ses verilerini—analiz etmesini, yorumlamasını ve anlamasını sağlayan teknik ve yöntemlerin tümünü ifade eder. Bu disiplin, anlamlı bilgiyi ses kayıtlarından çıkarmak için yapay zeka, sinyal işleme ve makine öğrenimi tekniklerine dayanır. Sadece konuşma tanımadan farklı olarak, machine listening tüm ses spektrumunu kapsar: konuşma, gürültü, müzik, akustik ortamlar vb. Bu, makineleri insana yakın işitsel yeteneklerle donatmayı amaçlayan bütüncül bir otomatik dinleme yaklaşımıdır.
Kullanım alanları ve örnekler
Machine listening; çevresel ses tespiti ve sınıflandırması (uyarılar, olaylar, makine sesleri), müzik analizi (enstrüman tanıma, kaynak ayırma), akustik gözetim (güvenlik, kestirimci bakım), ulaşım veya sağlıkta olay tanıma (düşme algılama, solunum takibi) ve etkileşimli asistanlar (geniş ses bağlamıyla zenginleştirilmiş sesli komutlar) gibi çok çeşitli uygulamalarda kullanılır.
Örneğin bir fabrikada, machine listening karakteristik makine seslerinden çalışma anomalilerini tespit edebilir. Şehirlerde, ses ortamını analiz ederek gürültü yönetimi veya kent güvenliğine katkıda bulunur.
Başlıca yazılım araçları, kütüphaneler ve çerçeveler
En çok kullanılan çözümler arasında ses özellikleri çıkarımı için PyAudioAnalysis ve librosa, vokal ve duygusal sinyal analizi için OpenSMILE, ses sınıflandırması için YAMNet (TensorFlow) yer alır. PyTorch ve TensorFlow gibi genel amaçlı derin öğrenme çerçeveleri de, çoğunlukla evrişimli veya tekrarlayan sinir ağı mimarileriyle, machine listening için özel modellerin eğitilmesinde yaygın olarak kullanılır.
Sektöre yönelik AudioSet (veri seti) ve Sonic Visualiser (ses görselleştirme ve anotasyon) gibi araçlar da tercih edilmektedir.
Son gelişmeler, evrimler ve eğilimler
Alan, özellikle sese uygulanan transformer mimarileri sayesinde, derin öğrenme modellerinin yükselişiyle hızla gelişmektedir. Multimodal (ses, görüntü, metin) modellerin entegrasyonu, veri analizi için yeni olanaklar sunmaktadır.
Güncel eğilimler arasında IoT için düşük güç tüketimli gömülü machine listening sistemleri, gürültülü ortamlarda artan dayanıklılık ve denetimli ve kendi kendine denetimli öğrenme için zenginleştirilmiş etiketli veri setlerinin oluşturulması yer almaktadır.