Ruisonderdrukkende hoofdtelefoons zijn erg goed, maar het selecteren van geluiden uit de omgeving van een drager vormt nog steeds een uitdaging. Zo past de nieuwste Apple’s AirPods Pro bijvoorbeeld automatisch het geluidsniveau aan voor de dragers (waarbij hij bijvoorbeeld detecteert wanneer ze in gesprek zijn), maar de gebruiker heeft weinig controle over naar wie hij moet luisteren en wanneer dit gebeurt.
Een team van de Universiteit van Washington heeft een systeem voor kunstmatige intelligentie ontwikkeld waarmee een gebruiker met een koptelefoon drie tot vijf seconden naar een persoon kan kijken om deze te ‘registreren’. Het systeem, genaamd ‘Target Speech Hearing’, annuleert vervolgens alle andere geluiden in de omgeving en speelt alleen de stem van de geregistreerde spreker in realtime af, zelfs als de luisteraar zich op luidruchtige plaatsen verplaatst en niet langer naar de spreker kijkt.
Het team presenteerde zijn bevindingen op 14 mei in Honolulu op de ACM CHI-conferentie over menselijke factoren in computersystemen. De code voor het proof-of-concept-apparaat is beschikbaar voor anderen om op voort te bouwen. Het systeem is niet in de handel verkrijgbaar.
“We hebben de neiging om AI nu te beschouwen als webgebaseerde chatbots die vragen beantwoorden”, zegt senior auteur Shyam Gollakota , een UW-professor aan de Paul G. Allen School of Computer Science & Engineering. “Maar in dit project ontwikkelen we AI om de auditieve perceptie van iedereen die een koptelefoon draagt, te veranderen, gegeven zijn of haar voorkeuren. Met onze apparaten kun je nu één luidspreker duidelijk horen, zelfs als je in een luidruchtige omgeving bent waar veel andere mensen praten.”
Om het systeem te gebruiken, tikt een persoon die een kant-en-klare hoofdtelefoon met microfoon draagt op een knop terwijl hij zijn hoofd naar iemand richt die aan het praten is. De geluidsgolven van de stem van die spreker moeten dan tegelijkertijd de microfoons aan beide kanten van de hoofdtelefoon bereiken; er is een foutmarge van 16 graden. De hoofdtelefoon stuurt dat signaal naar een ingebouwde computer , waar de machine learning-software van het team de stempatronen van de gewenste spreker leert. Het systeem luistert naar de stem van die spreker en blijft deze afspelen voor de luisteraar, zelfs als het paar rondbeweegt. Het vermogen van het systeem om zich te concentreren op de geregistreerde stem verbetert naarmate de spreker blijft praten, waardoor het systeem meer trainingsgegevens krijgt.
Het team testte zijn systeem op 21 proefpersonen, die de helderheid van de stem van de ingeschreven spreker gemiddeld bijna twee keer zo hoog beoordeelden als de ongefilterde audio.
Dit werk bouwt voort op het eerdere onderzoek naar ‘semantisch horen’ van het team , waarmee gebruikers specifieke geluidsklassen konden selecteren (zoals vogels of stemmen) die ze wilden horen en andere geluiden in de omgeving konden annuleren.
Momenteel kan het TSH-systeem slechts één spreker tegelijk registreren, en het kan alleen een spreker registreren als er geen andere luide stem uit dezelfde richting komt als de stem van de doelspreker. Als een gebruiker niet tevreden is met de geluidskwaliteit, kan hij of zij de luidspreker opnieuw inschrijven om de helderheid te verbeteren.
Het team werkt eraan om het systeem in de toekomst uit te breiden naar oordopjes en hoortoestellen.