Manifest
Gestalten Sie mit uns die Zukunft: Unser Manifest.
Icon
Unsere Vision
Unsere Vision ist es, die weltweit fortschrittlichsten Sprachagenten für den menschlichen Gebrauch zu entwickeln, die nicht nur einfache, sondern auch komplexe Aufgaben der zweiten und dritten Ebene im Kundenservice übernehmen können. Unser Ziel ist es, eine Echtzeit-Audiokommunikation zu schaffen, die von einem Menschen nicht zu unterscheiden ist. Dabei wollen wir über einfache „Sprachbots” hinausgehen und Agenten entwickeln, die komplexe Prozesse bewältigen, Tools effektiv einsetzen und menschliche Nuancen ohne die „roboterhafte” Latenz der Vergangenheit navigieren können.

Was muss sich ändern, damit Unternehmen den vollen Nutzen aus Voice-KI ziehen können? Für eine breite Akzeptanz von Voice-KI muss die Branche unserer Meinung nach drei entscheidende Herausforderungen lösen:
Icon
Die Latenzbarriere: Kommunikation muss sofort erfolgen. Wir müssen die Verzögerung beim Sprechen beseitigen, um nahtlose Konversationen und Echtzeit-Feedbackschleifen zu ermöglichen.
Icon
Kontextuelle Intelligenz: Sprachassistenten sollten nicht nur so realistisch wie möglich sprechen, sondern auch komplexe Anweisungen verstehen und Tool-Aufrufe mit derselben Präzision wie Menschen ausführen können. Außerdem sollten sie in der Lage sein, um fehlende Daten in Systemen herumzunavigieren.
Icon
Infrastrukturelle Unabhängigkeit: Für eine breite Einführung in regulierten Branchen (Gesundheitswesen, Versicherungen, Finanzwesen) muss die Technologie self-hostable sein. KI in regulierten Branchen kann sich nicht ausschließlich auf US-amerikanische Anbieter verlassen, sondern muss innerhalb der eigenen sicheren Umgebung des Kunden von Unternehmen eingesetzt werden können, die nicht an diese gebunden sind.
Icon
Warum glauben wir, dass Speech-to-Speech die maximale Leistungsfähigkeit von Echtzeit-Sprach-KI-Anwendungen freisetzen wird?
Herkömmliche „Pipeline“-Modelle (Sprache-zu-Text → LLM → Text-zu-Sprache) sind für Echtzeitanwendungen grundsätzlich ungeeignet. Wir glauben, dass natives Sprache-zu-Sprache aus den folgenden Gründen der einzige Weg in die Zukunft ist:
Icon
Beste Reaktionszeit: Da wir gesprochene Sprache nicht in Text umwandeln müssen, um sie zu verstehen, können wir die Reaktionszeit drastisch reduzieren.
Icon
Erhaltung von Nuancen: Text ist ein schlechtes Medium für Tonfall und Emotionen. Ein einfaches „Okay“ kann je nach Tonfall fünf verschiedene Bedeutungen haben. Die Verarbeitung natürlicher Sprache erfasst diese latenten akustischen Merkmale, die textbasierte Zwischenlösungen vernachlässigen. Wenn Sie möchten, dass Ihre Kundendienstmitarbeiter einfühlsam sind und hitzige Situationen deeskalieren, sollte Ihre KI-Anwendung dies ebenfalls tun. Dazu benötigen Sie ein Verständnis für Emotionen und emotionale Reaktionen.
Icon
Minimale Wortfehlerquote:STT-/TTS-Pipelines leiden unter hohen Wortfehlerquoten, die eine Kaskade von Folgefehlern verursachen. Jede Zahl, jede E-Mail, jede Adresse, die falsch verstanden wird, beeinträchtigt die Effektivität Ihrer Sprach-KI-Anwendung. Mit der Speech-to-Speech-Technologie erzielen wir die höchste Leistungsfähigkeit beim Verstehen und können diese auf 27 Sprachen skalieren.
Icon
Beibehaltung von Intelligenz: Durch die Projektion von Audio auf das Modell erschließen wir das gesamte vortrainierte Weltwissen, die Schlussfolgerungsfähigkeiten und die Werkzeugaufruf-Fähigkeiten des Modells, ohne die bei rein audiobasierten Modellen typischerweise auftretenden Qualitätseinbußen.
Icon
Was wir uns für Veränderungen in der Branche vorgenommen haben
Moving beyond the surface: Entwicklung der Kerninfrastruktur für die nächste Generation der Sprachintelligenz in Unternehmen.
Icon
Lösung der „ungelösten“ Grundlagen: Wir haben uns zum Ziel gesetzt, die „einfachen“ Probleme zu lösen, die von den Branchenriesen ignoriert wurden – wie beispielsweise die korrekte Aussprache komplexer Zahlen und technischer Fachbegriffe –, und zwar durch Innovation und intelligente Ansätze statt durch reine Rechenleistung.
Icon
Von linearen Abläufen zu dynamischen Agenten:Wir entfernen uns von starren Entscheidungsbäumen. Wir verpflichten uns, unsere Modelle so zu entwickeln, dass eine intelligente, nahtlose Klassifizierung von Absichten und der Einsatz von Tools möglich sind, ohne den natürlichen Gesprächsfluss zu unterbrechen.
Icon
Der Integrationswandel (Stack vs. Plattform): Wir sind davon überzeugt, dass die Ära der „All-in-One”-Sprachplattformen für Unternehmen zu Ende geht. Wir haben uns dazu verpflichtet, einen Stack bereitzustellen, mit dem Unternehmen Sprachfunktionen tief in ihre eigene Technologie integrieren können.. Anstelle einer oberflächlichen Hülle wird unsere Technologie zu einer zentralen Infrastrukturkomponente, die Unternehmen die vollständige Kontrolle über ihre Daten, ihre Logik und ihr Kundenerlebnis ermöglicht. Für den L2- und L3-Support ist eine tiefere Integration von grundlegender Bedeutung.