24. November 2001 11:25

Artikel aus de.internet.com: VoiceXML: Mit Computern sprechen wie mit Hal aus Odyssee 2001

Laut Studien internationaler Marktforschungsgesellschaften sollen schon im Jahr 2005 mehr als zwei Milliarden Menschen weltweit per Sprache Informationsdienste nutzen und Transaktionen durchführen werden. Die Marktforschungsgesellschaft US-Kelsey Group schätzt, dass bis dahin mehr als zehn Milliarden Dollar über Voice Portals umgesetzt werden. Sind Sprachcomputer praxistauglich oder nach wie vor Zukunfstmusik? de.internet.com sprach mit Christoph Pfeiffer, Gründer und Vorstandsvorsitzender der Clarity AG.

 

de.internet.com: Sie wagen die Prognose, dass VoiceXML noch vor Jahresende vom World Wide Web Consortium (W3C) offiziell als Sprachstandard im Internet eingeführt wird. Womit begründen Sie dies?

 

Christoph Pfeiffer, Clarity: VoiceXML führt zur Standardisierung von sprachgesteuertem Surfen: Das Voice XML Forum (voicexml.org) definiert damit einen Standard für den Zugriff auf Daten und Services via Sprache . Bestehende Spezifikationen wurden bis März 2000 gesammelt und dann von den 75 Mitgliedern des Zusammenschlusses abgesegnet.

 

Die Version 1.0 von VoiceXML soll die Programmierung und den Abruf webbasierter, personalisierter, interaktiver sprachgesteuerter Dienste ermöglichen. Außerdem wollen die Entwickler den Zugriff via Telefon und Sprachsteuerung auf Internet- und Intranet-Sites verwirklichen. Die Grundlagen von VoiceXML 1.0 wurden übrigens in den Labors von AT&T, IBM, Lucent Technologies und Motorola geschaffen.

 

de.internet.com: Bislang galten Sprachcomputer als wenig praxistauglich und sind auch nach wie vor wenig gebräuchlich, worin unterschiedet sich Ihre Software?

 

Christoph Pfeiffer: Während bisherige Applikationen weitgehend auf Tastentöne und Einzelworte bei der Spracherkennung begrenzt sind, basieren die modernen Clarity-Lösungen auf natürlich-sprachlichen Dialogen, so dass in einem Satz mehrere Informationen verarbeitet werden können. Man sagt einfach "Wie wird das Wetter morgen in Südportugal?" oder "Ich will vom 4. bis 8. Oktober ein Zimmer in einem Hotel möglichst nahe an der Münchner Messe buchen" oder "Was kostet die neue Digitalkamera von Sony bei Ihnen?" und erhält prompt eine umfassende Auskunft oder gleich die Hotelbuchung.

 

Damit entfallen die Menüstrukturen der klassischen IVR-Verfahren (Interactive Voice Response), deren unübersichtliche Hierarchien und rudimentäre Bedienung ("Ja-Nein", "Drücken-Sie-1-2-oder-3") bisher Auslöser für hohe Abbruchraten waren.

 

Sprachdialogsysteme sind rund um die Uhr freundlich

 

Mit einem natürlichsprachlichen Dialogsystem redet man tatsächlich (fast) wie mit einem Menschen, kann ihm ins Wort fallen, sich korrigieren, Zusatzfragen stellen ("und die neue Kamera von Canon?") und vernünftige Antworten erwarten. Außerdem verkürzt sich mit Hilfe von Clarity-Technologie der typische Dialog um durchschnittlich mehr als 50 Prozent, was durch die flexible Anpassung der freigeschalteten Telefonkanäle zu einer deutlichen Entlastung auf der Kostenseite führt.

 

Wichtigster Pluspunkt für die Computersprache aus Sicht der Anrufer ist die einheitliche Gesprächsführung: Man ist nicht von der individuellen Versiertheit oder aber der Unerfahrenheit eines einzelnen Call Center-Mitarbeiters abhängig. Zudem halten die meisten Verbraucher die Computer-Antworten für verlässlicher: Wenn der Computer per Stimme zum Beispiel eine Hotel- oder Flugbuchung bestätigt, halten das die Mehrzahl der Anrufer für zuverlässiger als eine menschliche Buchungszusage. Weitere Argumente für die Sprachdialogsysteme aus Sicht der Verbraucher: Sie sind rund um die Uhr freundlich und immer erreichbar - auch nachts, wenn die meisten Call Center gar nicht oder nur sehr dünn besetzt sind. Natürlich sind die Computerdialoge lebloser als das Gespräch mit einem Live-Operator.

 

Aber wer ein Call Center anruft, will ohnehin keine philosophischen Betrachtungen austauschen, sondern so schnell wie möglich eine Information erhalten, ein Problem lösen oder eine Transaktion durchführen. Dafür werden Sprachdialogsysteme von den Kunden offenbar hervorragend angenommen, wie die Umfrageergebnisse zeigen. Über 125.000 Menschen sind allein in deutschen Call Centern damit beschäftigt, Auskunft zu geben, Kundenanfragen zu beantworten und einfache Transaktionen von der Flugbuchung bis zur Freischaltung einer Telefonkarte vorzunehmen. Die Mehrheit dieser relativ einfachen Aufträge, die in den Telefonzentralen auflaufen, werden künftig von "intelligenten" Sprachdialogsystemen abgewickelt werden.

 

de.internet.com: Welche Software verbirgt sich hinter dem Portal und wie funktioniert sie?

 

Christoph Pfeiffer: Die als offenes Baukastensystem angelegte Plattform zur individuellen Erstellung von intelligenten Sprachdialoglösungen ist das Herzstück des Clarity-Angebots. Die Plattform ist hardware-unabhängig, setzt auf etablierten Softwarestandards auf und erlaubt den Zugang zu bestehenden (Online-) Datenquellen und Applikationen über verschiedene Medien. Basis dazu bilden die Verknüpfung des Sprachdialogsystems mit externen Datenquellen auf Grundlage eines CORBA-Frameworks über XML-Schnittstellen und die Dialoggestaltung basierend auf VoiceXML und anderen Funktionen.

 

Um die Plattform offen und in einer standardisierten Grundversion modular erweiterbar einsetzen zu können, wurde die Standard-3-Ebenen-Architektur um zwei weitere Layer ergänzt, deren Aufgabe es ist, die Dienstleistungen der verschiedenen Ebenen untereinander zu abstrahieren. Dadurch wird die Integration verschiedener Module möglich, ohne dass in den angrenzenden Ebenen Änderungen im Programmcode vorgenommen werden müssen. Der Communication Layer z.B. stellt die Schnittstelle zum Anwender dar. Den Schwerpunkt in diesem Layer bilden natürlichsprachliche Dialogsysteme, die durch verschiedene Medien wie Sprache, E-Mail, SMS oder Fax aktiviert werden und auf Inhalte zugreifen, die in unterschiedlicher Form wie HTML, WML, XML, Voice-XML beschrieben sind.

 

Die Clarity-Software kann weiterhin über definierte Schnittstellen an ERP-, CRM- und ContactCenter-Systeme, zum Beispiel von SAP und Siebel, angebunden werden. Der Einsatz von XML und insbesondere Voice-XML vereinfacht die Integration von Fremdanwendungen. Die Plattform steuert außerdem sämtliche TK-und CTI-Komponenten und schafft den Zugang zu den Daten, die für die entsprechenden Abfragen und Transaktionen benötigt werden - unabhängig davon, ob es sich um eine relationale Datenbank mit traditionellem SQL- oder ODBC-Interface, eine objektorientierte Datenbank mit Multimedia-Content (XML-Schnittstelle), ein existierendes CMS oder eine Internet-Search-Engine handelt.

de.internet.com: Herr Pfeiffer, wir bedanken uns für das Gespräch. (Susanne Schädlich)

 

 


Bookmark and Share