Videokommunikation aus der Tiefsee

Videokommunikation kann anstrengend sein, wenn schlechte Übertragungsqualität, Aussetzer und Verbindungsabbrüche das digitale Meeting stören. Forscher*innen des Karlsruher Instituts für Technologie (KIT) und der Carnegie Mellon University (CMU) haben jetzt eine Methode entwickelt, mit der Videokonferenzen über sehr geringe Bandbreiten übertragen werden können. Getestet haben die Forscher*innen die Methode während eines Tauchgangs zum Wrack der Titanic in 4000 Metern Tiefe im Nordatlantik.

Vom Tauchboot an die Meeresoberfläche

„Daten aus vier Kilometern Tiefe durch Salzwasser hindurch verlustfrei zu übertragen, ist extrem schwierig“, beschreibt Professor Alex Waibel die Herausforderung. Denn die natürlichen Gegebenheiten ließen eine Übertragung vom Tauchboot an die Meeresoberfläche zum Mutterschiff nur mit Sonar zu, da Radio-Kommunikation im Salzwasser nicht funktioniert. Die Forschenden haben synthetische Methoden entwickelt, mit denen Videos aus Text rekonstruiert werden können. Die Tonaufnahme wird zunächst im U-Boot in Text umgewandelt, dann per Sonar-Schallimpuls nach oben übermittelt und dort aus dem Text als Video rekonstruiert. „Im Video ist dann eine synthetische Stimme zu hören, die auf die Stimme des Sprechenden übertragen wird, so dass sie wie die Stimme des Sprechenden klingt. Zudem wird die Video-Synthese so gesteuert, dass die Lippen des Sprechenden sich dabei synchron mit dem Ton bewegen“, erklärt Waibel.

Synthetische Stimme und Video-Synthese

Im U-Boot setzten die Forschenden einen leistungsstarken Laptop ein, der zunächst die Sprache unterschiedlicher Sprechenden im Dialog in Text verwandelt. Selektierte Textfragmente können dann via Sonar an die Oberfläche entsandt werden. Dort wird der Text dann wieder in ein Video verwandelt. Neu ist dabei die Umwandlung einer synthetischen neutralen Stimme in die individuellen Stimmen der jeweiligen Sprechenden und die Video-Synthese, die lippensynchron das Video der jeweiligen Sprechenden im Dialog synthetisiert. Die Methode erlaubt es, Videokonferenzen über eine geringe Bandbreite zu übertragen: „Das wird in Zukunft die Kommunikation in gesprochener Sprache erleichtern“, sagt Waibel. Sie eignet sich aber auch für die Synthese von Videos in einer anderen Sprache oder für die lippensynchrone Vertonung von Videos.

Roger Homrich

Recent Posts

Bausteine für den verantwortungsvollen Einsatz von KI

Drei Bausteine bilden die Grundlage für eine KI-Governance: Dokumentation von KI-Projekten, Model Evaluation und Monitoring…

16 Stunden ago

Sicheres Identity Proofing im Remote-Betrieb

Eine Harmonisierung der Vorschriften für RIDP-Prozesse wird dazu beitragen, Angriffe künftig besser abwehren zu können,…

16 Stunden ago

Proalpha kauft holländischen ERP-Spezialisten

Die Übernahme der Metaal Kennis Groep soll den Zugang zur Metallindustrie verbessern. Im Fokus stehen…

21 Stunden ago

Jobsorgen durch KI: Deutsche eher gelassen

EY hat Mitarbeitende in neun europäischen Ländern dazu befragt, wie stark KI ihren Arbeitsalltag verändert.

2 Tagen ago

DePIN: Ein neues Paradigma für Europas Cloud-Infrastruktur

Kann die Privatwirtschaft mit DePINs – dezentralen, physischen Infrastrukturnetzwerken – erreichen, was Gaia-X bislang vergeblich…

2 Tagen ago

Implementierung und Nutzung entscheidend für MFA-Sicherheit

Analyse zur Anfälligkeit von MFA auf Basis von 15.000 Push-basierten Angriffen. Größte Schwachstelle ist die…

2 Tagen ago