Spracherkennung: Dragon Professional Individual im Test

WorkspaceZubehör

Version 15 der Spracherkennungssoftware von Nuance ist für jeden interessant, der häufig Texte diktiert oder den PC mit Sprache steuern will. Eine neue Deep-Learning-Technik soll die Erkennungsrate deutlich anheben. Die silicon-Redaktion hat die Software einem Praxistest unterzogen.

Die Spracherkennung von Nuance gilt seit vielen Jahren als Marktführer im Bereich Spracherkennung. Dragon Naturally Speaking ist mittlerweile bei Version 13 angelangt und überzeugt mit sehr guten Erkennungsraten und durchdachter Bedienung.

Ehemalige Mitbewerber wie Philips, IBM oder Lernout & Hauspie haben sich schon lange von der Spracherkennung auf dem Desktop verabschiedet. Einzig der deutsche Anbieter Linguatec hält mit Voice Pro noch dagegen. Voice Pro war ursprünglich das Ergebnis einer Kooperation zwischen IBM und Linguatec. Nachdem IBM sich vor acht Jahren aus dem Markt zurückgezogen hatte, arbeitete Linguatec eine Zeit lang mit Microsoft zusammen, doch auch diese Zusammenarbeit hatte keinen Bestand.

Dragon Professional Individual V.15 kostet 399 Euro. Die Version mit Wireless-Headset beläuft sich auf 499 Euro. (Bild: Nuance)

Jetzt kooperiert das Unternehmen mit deutschen Universitäten wie der RWTH Aachen. Ziel ist es, die Erkennungsraten der Software von Nuance zu erreichen. Man darf also gespannt sein, ob die nächste Version von Voice Pro ein ebenbürtiger Konkurrent für den Marktführer von Nuance ist.

Einstweilen steht jedoch die neue Nuance-Version Dragon Professional Individual, Version 15 im Fokus. Die silicon-Redaktion hat in einem Praxistest erste Eindrücke gesammelt.

Highlights und neue Funktionen

Highlight der neuen Version ist die Deep-Learning-Technologie. Sie soll die Genauigkeit um 15 bis 30 Prozent erhöhen. Die aktuelle Version 15 ist in erster Linie für geschäftliche Anwendungen und Profis konzipiert. Sie soll beispielsweise Dokumentationsprozesse in Unternehmen erleichtern. Von der Bedienoberfläche her unterscheidet sie sich aber nicht von Naturally Speaking, der Produktlinie für Endverbraucher.

 Die Installation von Dragon Professional Individual ist schnell abgeschlossen. (Screenshot: Mehmet Toprak)
Die Installation von Dragon Professional Individual ist schnell abgeschlossen. (Screenshot: Mehmet Toprak)

Neben der Version Professionell Individual gibt es auch eine Version Legal Individual, die, wie der Name schon sagt für Juristen gedacht ist. Beide Versionen können mit der App “Nuance Dragon Anywhere” synchronisiert werden. So lässt sich die Spracherkennung auch unterwegs auf Endgeräten mit iOS oder Android einsetzen.

Nach der Installation kann der Anwender das Benutzerprofil der Vorgängerversion aktualisieren lassen. (Screenshot: Mehmet Toprak)
Nach der Installation kann der Anwender das Benutzerprofil der Vorgängerversion aktualisieren lassen. (Screenshot: Mehmet Toprak)

Wie auch bei den Vorversionen taugt Professionell Individual V15 nicht nur zum Diktieren in der Textverarbeitung. Der Nutzer kann die Texte korrigieren und formatieren, er kann Programme starten und schließen, zwischen verschiedenen Programmfenstern hin und her wechseln, durch Menüs navigieren und im Internet surfen – alles per Sprachbefehl.

Die Menüleiste lässt sich beliebig positionieren (Screenshot: Mehmet Toprak)
Die Menüleiste lässt sich beliebig positionieren, beispielsweise am oberen Bildrand verankern. Der Erkennungsmodus in diesem Screenshot ist auf “Diktat” eingestellt, das Programm nimmt also keine Formatierungs- oder Navigationsbefehle an. (Screenshot: Mehmet Toprak)

Daneben versteht sich das Programm auch mit Diktiergeräten. So kann man seine Texte beispielsweise unterwegs ins Diktiergerät oder Smartphone sprechen, als Audiodatei auf den PC übertragen und dann von der Spracherkennung in Text umwandeln lassen. Das gibt dem Nutzer maximale Freiheit bei der Arbeit mit dem Programm. Die Erkennungsrate ist dabei auch nicht schlechter als beim Direkt-Diktat mit Headset.

Im normalen Betrieb macht sich die Menüleiste ganz klein. (Screenshot: Mehmet Toprak)
Im normalen Betrieb macht sich die Menüleiste ganz klein. (Screenshot: Mehmet Toprak)

Wie bei allen Programmen muss auch Dragon Professional Individual nach der Installation aktiviert werden, eine Registrierung bietet Nuance ebenfalls an, diese ist aber nicht obligatorisch.

Was bringt Deep Learning?

Das technische Highlight der neuen Version heißt “Deep Learning”. Dabei geht es darum, wie die Software Wortschatz und typische Sprechweise des Benutzers lernt. Denn Lernen, also, die Anpassung an Vokabular, Sprechweise und Akzent des Nutzers, sind bei der Spracherkennung das A und O. Für gute Ergebnisse genügt es nicht, nach der Installation ein Anfangstraining durchzuführen und gelegentlich Wörter zu ergänzen. Wer regelmäßig mit Spracherkennung arbeitet, sollte immer wieder Wortschatz und Aussprache trainieren. Zumindest so lange, bis Spracherkennung den Wortschatz des Nutzers weitgehend beherrscht.

Die aktuelle Nuance-Software geht noch einen Schritt weiter. Sie soll nun sogar im laufenden Betrieb dazulernen, sogar während der Nutzer diktiert. Auch hier gibt der Sprecher dem Programm wichtige Informationen, etwa über die Art, wie er bestimmte Vokabeln ausspricht.

Das Mikrofon wird kalibriert, wenn man einen kurzen Text vorliest. (Screenshot: Mehmet Toprak)
Das Mikrofon wird kalibriert, wenn man einen kurzen Text vorliest. (Screenshot: Mehmet Toprak)

Nuance erklärt die Technik so: Bei Deep Learning handele es sich um eine “Methode der Mustererkennung”. Dabei werde die “Art und Weise, wie das menschliche Gehirn lernt und Muster erkennt imitiert”.

Doch anders als bei konventionellen Deep-Learning-Verfahren benötigt die Nuance-Software keine umfangreichen Daten oder leistungsfähige Rechenzentren, um die Algorithmen zu trainieren. Das Ganze funktioniert direkt auf dem PC des Nutzers, während des Diktierens. Das soll dazu beitragen, dass die Erkennungsrate sich um 15 bis 30 Prozent gegenüber der Vorgängerversion verbessert.

Auch in Umgebungen mit hohem Lärmpegel im Hintergrund soll die Version 15 bessere Ergebnisse erzielen. Allerdings unterdrücken gute Headsets den Umgebungslärm ohnehin. Das Mikrofon nimmt dabei nur die Stimme des Nutzers auf und unterdrückt weiter entfernte Geräusche, sodass die Erkennungsalgorithmen keine Probleme haben, die Stimme zu erkennen.

Verbessert wurde auch die Bedienoberfläche. So wurden die Bearbeitungs- und Formatierungs-Funktionen überarbeitet. Eine kontextabhängige Hilfe lässt bei Bedarf ein kleines Fenster mit einen passenden Tipp aufscheinen. Fortgeschrittene Anwender freuen sich über die Möglichkeit, Textbausteine mit Sprachbefehlen einsetzen zu können. Die neue Version ist zudem auch auf Touchscreen-PCs einsetzbar.

Praxistest: Vertrautes Bedienkonzept

Im Praxistest macht die Version 15 einen sehr guten Eindruck. Die Installation gelingt schnell und reibungslos. Wer schon eine Vorversion mit trainiertem Benutzerprofil auf dem PC hat, kann dieses Profil übernehmen lassen. Im Test funktionierte dies allerdings erst beim dritten Anlauf.

Nach einigen Diktat-Sitzungen ist es empfehlenswert, die Optimierung des akustischen und des Sprachmodells zu starten. Dabei nutzt das Programm Aussprache und typischen Wortschatz des Nutzers, um die Erkennungsgenauigkeit zu verbessern. (Screenshot: Mehmet Toprak)
Nach einigen Diktat-Sitzungen ist es empfehlenswert, die Optimierung des akustischen und des Sprachmodells zu starten. Dabei nutzt das Programm Aussprache und typischen Wortschatz des Nutzers, um die Erkennungsgenauigkeit zu verbessern. (Screenshot: Mehmet Toprak)

Die Entwickler sind auch bei der Version 15 ihrer bewährten Politik treu geblieben, Änderungen an der Bedienoberfläche nur sehr behutsam vorzunehmen und das Produkt nicht bei jedem Upgrade mit neuen Features aufzublasen. Dementsprechend kann der Anwender mit der neuen Version sofort loslegen. Wer noch nie mit Dragon gearbeitet hat, absolviert ein übersichtliches und gut aufgebautes Lernprogramm. Wer die Software schon kennt, findet sich sofort in vertrauter Umgebung zurecht.

Die Bedienleiste gibt es entweder im klassischen oder im modernen Design. Die moderne Variante ist insofern zu empfehlen, als sie sich ganz klein macht und erst, wenn sich die Maus nähert, nach links und rechts ausfährt und alle Menüpunkte anzeigt.

Schneller Start

Bei der Arbeit fällt auf, dass die neue Version etwas schneller startet und generell etwas flüssiger läuft als die Vorversion Naturally Speaking 13. Während es bei der Vorversion durchaus mal vorkommen konnte, dass die Software zwischendurch “hängt”, scheint dies jetzt behoben. Im Praxistest jedenfalls läuft das komplexe Programm durchgehend tadellos und flüssig. Es startet nicht nur schneller als der Vorgänger, es fährt auch schneller wieder runter.

Erkennung spürbar besser

Doch das Wichtigste ist natürlich die Erkennung. Der erste Eindruck nach einigen Stunden Praxistest: Die Erkennungsrate ist spürbar gestiegen. Auch das Deep-Learning-Konzept trägt Früchte. Hat man beispielsweise ein Wort korrigiert, erkennt die Software es bei der nächsten Eingabe richtig und zwar auch ohne, dass das Programm runterfährt und die neuen Benutzerdaten speichert.

Kontextabhängige Tipps helfen vor allen Neulingen beim Umgang mit der Software. (Screenshot: Mehmet Toprak)
Kontextabhängige Tipps helfen vor allen Neulingen beim Umgang mit der Software. (Screenshot: Mehmet Toprak)

Wunder kann Deep Learning sicher nicht vollbringen. Wer immer wieder Texte zu unterschiedlichen Themen mit jeweils eigenen Fachwortschatz schreiben muss, wie das etwa bei Journalisten üblich ist, wird den ein oder anderen Fehler zu korrigieren haben. Grundlegende Schwierigkeiten der Erkennungstechnologie, etwa bei kurzen Wörtern mit nur einer Silbe, kann die neue Version nicht abstellen.

Auch wenn Wörter sich nur durch einen einzigen Buchstaben unterscheiden, beispielsweise “werden” und “werten” entstehen Fehler. Doch hier liegen einfach die Grenzen der derzeitigen Technik, das ist deshalb nicht als Makel des Programms zu werten. Insgesamt ist die Erkennung bei der neuen Version spürbar gestiegen.

Lohnt sich das Upgrade?

Wer mit der Vorversion Dragon Naturally Speaking 13 arbeitet, hat keinen zwingenden Grund auf die neue Version upzugraden. Auch Naturally Speaking 13 bietet Erkennungsraten, die im Durchschnitt zwischen 95 und 98 Prozent liegen. Bedienkomfort und Funktionsreichtum sind vergleichbar. Das Programm ist für 169 (Headset mit Kabel) bzw. 249 Euro (Drahtlos-Headset) erhältlich. Einen Test zu Naturally Speaking finden Sie hier. Aber wer täglich diktiert und darauf angewiesen ist, möglichst wenig korrigieren zu müssen, für den dürfte sich das Upgrade durchaus lohnen, zumal das Upgrade mit 199 Euro nicht sehr teuer ist.

In der Vollversion kostet die Professional Individual Version 15 399 Euro, ein Headset mit Kabel liegt bei. Die Variante mit Bluetooth-Headset kostet 499 Euro. Wer schon ein Headset hat, kann das Programm auch als Download erwerben. Speziell für Juristen gibt es die Version Dragon Legal Individual 15 für 1079 Euro.

Empfehlenswert: Drahtloses Headset

Das in der Basisversion für 399 Euro beiliegende Headset mit Kabel ist fürs tägliche Diktieren eigentlich nur eine Notlösung. Es fesselt den Anwender an den PC und schränkt damit den Komfort beim Arbeiten ein. Zudem kann versehentliches Berühren des Kabels zu Störgeräuschen und damit zur Beeinträchtigung der Erkennungsrate führen.

Beim Kauf sollte man entweder gleich die Wireless-Version nehmen oder zusätzlich ein drahtloses Headset kaufen. Kompatible Modelle werden auf der Support-Seite von Nuance aufgelistet. Erst mit einem drahtlosen Headset und zusätzlich einem Diktiergerät kann man den ganzen Komfort ausschöpfen, den Spracherkennung heute bietet.

Komfortzubehör für Digitale Nomaden

Bild 1 von 18

Komfortzubehör für Digitale Nomaden - Kopfhörer
Das britische Unternehmen RHA hat sich auf hochwertige Kopfhörer für den Mobilbereich spezialisiert. Der T20i besitzt Mikrofon und Fernbedienung für Apples iPhone und verspricht höchste Klangqualität. Preis: circa 220 Euro. (Bild: RHA)