Teams: Microsoft verbessert Audio- und Videofunktionen per Machine Learning

Microsoft Teams (Bild: Microsoft)

Nutzer erhalten unter anderem eine Echounterdrückung. Sie unterscheidet zwischen einer gesprochenen Stimme und einer über einen Lautsprecher wiedergegebenen Stimme.

Microsoft hat neue Funktionen für Teams angekündigt, die die Audio- und Videofunktionen verbessern sollen. Darunter ist die von vielen Nutzern gewünschte Echounterdrückung, die das Unternehmen mithilfe von maschinellem Lernen umsetzt.

Die Echounterdrückung ist ein Teil von Microsofts Bemühungen, unerwünschte Hintergrundgeräusche zu filtern, um die Audioqualität zu verbessern. Die Echounterdrückung richtet sich vor allem an Nutzer, die Teams in Räumen mit schlechten akustischen Eigenschaften einsetzen. Sie ermöglicht es Nutzern aber auch, gleichzeitig und ohne Unterbrechungen zu sprechen und zu hören.

Machine Learning soll nach Angaben des Unternehmen die Unterschiede zwischen der Stimmer eines Nutzers und der Wiedergabe über einen Lautsprecher erkennen. Das hilft vor allem in Situationen, in denen der Abstand zwischen Mikrofon und Lautsprechern zu gering ist und sich eine Schleife zwischen Audioeingabe und -ausgabe ergibt. Laut Microsoft soll die Echounterdrückung die Möglichkeit, dass mehrere Personen gleichzeitig sprechen, nicht einschränken.

Keine Nutzerdaten zum Anlernen der ML-Modelle

Die Teams wird auch ein Modell des maschinellen Lernens verwenden, um aufgenommene Audiosignale in Ton umzuwandeln. Das soll den Nachhall verringern und verhindern, dass Menschen so klingen, als würden sie in einer Höhle sprechen. Außerdem wird Teams ein Modell verwenden, das mit 30.000 Stunden Sprachproben trainiert wurde, um die “Unterbrechbarkeit” in natürlichen Gesprächen zu verbessern.

Microsoft betonte, dass zum Anlernen der neuen Modelle keine Kundendaten verwendet wurden. „Stattdessen haben wir entweder öffentlich verfügbare Daten oder Crowdsourcing genutzt, um bestimmte Szenarien zu sammeln. Wir haben auch darauf geachtet, dass wir ein ausgewogenes Verhältnis von weiblichen und männlichen Sprechern sowie 74 verschiedene Sprachen hatten”, schreibt Microsoft in einem Blogeintrag.

Echounterdrückung, verbesserte Unterbrechbarkeit und die Hallreduzierung werden anfänglich für Teams-Nutzer auf Windows- und Mac-Geräten eingeführt. Für mobile Plattformen soll die neuen Audiofunktionen künftig ebenfalls verfügbar sein.