Machine listening omvat alle technieken en methoden waarmee machines geluidssignalen, vooral ongestructureerde audio, kunnen analyseren, interpreteren en begrijpen. Dit vakgebied maakt gebruik van kunstmatige intelligentie, signaalverwerking en machine learning om relevante informatie uit geluidsopnamen te halen. In tegenstelling tot spraakherkenning richt machine listening zich op het volledige geluidspectrum: spraak, ruis, muziek, akoestische omgevingen, enzovoort. Het betreft dus een holistische benadering van geautomatiseerd luisteren, met als doel machines gehoorcapaciteiten te geven die vergelijkbaar zijn met die van mensen.
Toepassingen en voorbeelden
Machine listening wordt gebruikt voor omgevingsgeluiden detecteren en classificeren (alarmen, incidenten, machinegeluiden), muziekanalyse (instrumentherkenning, bronseparatie), akoestische monitoring (beveiliging, voorspellend onderhoud), herkenning van geluidsevents in transport of zorg (valdetectie, ademhalingsmonitoring) en interactieve assistenten (spraakopdrachten verrijkt met de totale geluidscontext).
In fabrieken kan machine listening bijvoorbeeld storingen in machines detecteren op basis van karakteristieke geluiden. In steden helpt het bij de analyse van het geluidslandschap ten behoeve van geluidsbeheer of stedelijke veiligheid.
Belangrijkste softwaretools, libraries en frameworks
Populaire tools zijn onder andere PyAudioAnalysis en librosa voor audiofeature-extractie, OpenSMILE voor vocale en emotionele signaalanalyse, en YAMNet (TensorFlow) voor het classificeren van geluiden. Algemeen gebruikte deep learning frameworks zoals PyTorch en TensorFlow worden ingezet voor het trainen van maatwerkmodellen voor machine listening, vaak met convolutionele of recurrente neurale netwerken.
Specifiek voor de industrie zijn er oplossingen als AudioSet (dataset) en Sonic Visualiser (audio-visualisatie en annotatie).
Recente ontwikkelingen en trends
Het vakgebied ontwikkelt zich snel mede dankzij de opkomst van deep learning-modellen, met name transformer-architecturen voor audio, die zorgen voor een beter contextueel begrip van geluid. De combinatie van multimodale modellen (audio, beeld, tekst) opent nieuwe mogelijkheden voor gecombineerde data-analyse.
Actuele trends zijn de ontwikkeling van energiezuinige embedded machine listening-systemen voor IoT, meer robuustheid in lawaaierige omgevingen, en steeds rijkere gelabelde datasets voor zowel begeleid als zelfbegeleid leren.