Der Grundaufbau wäre ja
1.Spracherkennung (Voice Recognition) zu Text
2.Text zu Text Übersetzung
3.Sprachausgabe (TTS=TextToSpeech)
zu 1.: persönlich habe ~1996 auf der Cebit das erste mal eine Live Demo zur Spracherkennung (ich glaube von Dragon Systems) gesehen. Allerdings habe ich das Gefühl, den großen Sprung hat die Sparte in den 14 Jahren noch immer nicht geschafft.
Zwar ist schon ab Windows Vista sowas im Windows Betriebssystem kostenlos eingebaut, aber IMHO noch immer weit davon entfernt, das man einen Computer kauft, anschaltet und ohne massive Übungsstunden sofort den Computer per Stimme bedienen, geschweige mit einigermaßen erträglicher Erkennungsrate einen Brief diktieren könnte.
1996 konnten die Vertreter sich noch wenigstens rausreden und sagen, dass mit der nächsten Rechnergeneration genügend Rechenleistung vorhanden ist um flüssiger und fehlerfreier zu laufen....heute ist die Rechenleistung da, aber es läuft IMHO noch immer nicht überzeugend.
2. Da gibt es ja zahlreiche (kostenlose) Tools (siehe Google Sprachtools) die Internetseiten, also Texte übersetzen können. Aber wirklich brauchbar ist das selten, es hilft höchstens Ansatzweise um den Inhalt zu verstehen. Mag sein das es kommerzielle Tools gibt die weit besser übersetzen können. Problem ist, dass es oft eine simple Wort zu Wort Übersetzung, ggf. mit geringfügiger Umstellung des Satzbaus ist. Der Kontext wird nicht erkannt und berücksichtigt. Und wenn ein Wort eine Vielzahl von Bedeutungen (also auf das Wort bezogen korrekten Übersetzungen) hat, ist mit großer Wahrscheinlichkeit immer eine im Kontext unpassende Übersetzung ausgewählt.
3.Das ist der einzige Teil, der IMHO sich sehen lässt. Da gibt es schon das ein oder andere System das eine sehr passable Aussprache hat. Nur an der ehr monotonen Satzmelodie und den oft schlecht verbunden Wörtern erkennt man sofort das es eine Computerstimme ist.
Die Hauptprobleme sind also 1 & 2. Ohne Einarbeitung ist die Spracherkennung oft miserabel. Die schlechte Text zu Text Übersetzung gibt dem Satz dann den Rest. Da hilft die beste Sprachausgabe nix.
Von einem Handy mit Übersetzungsfunktion, bzw einen Übersetzungs App für Smartphones sind wir IHMO also noch weit entfernt.
Außerdem würde ich ehr vermuten, dass man sowas sinnvollerweise nicht im Telefon verbaut, was viel Rechenleistung und damit viel Strom benötigen(Problem bei Handys) würde.
Als ersten Schritt würde ich sowas ehr als Dienst (also so wie eine Telefonkonferenz) beim Telefonanbieter/externen Dienstleister sehen, wo das ganze dann auf einem zentralen Server laufen kann und keinerlei Anforderungen an die vorhandenen Geräte stellt.
Und von der Utopie a la Startrek kann man sich gleich verabschieden. Selbst das beste Übersetzungstool heutiger zeit- ein Simultanübersetzer in Fleisch und Blut- kann nicht exakt Zeitgleich übersetzen, da er ja beim ersten Wort des Satzes noch garnicht weiß worauf es hinausläuft. Sinnvoll/fehlerfrei übersetzte werden kann ein Satz ja erst wenn er abgeschlossen ist. Und dann auch nur im Kontext des bisher gesprochenen.
Die aus dem Fernsehen bekannten Simultanübersetzungen, z.B. bei politischen Reden, Preisverleihungen etc. sind nicht repräsentativ, denn da wird AFAIK oft das Manuskript vorher eingereicht, so dass der Simultanübersetzer voraus lesen kann, und nur bei spontanen Abweichungen bzw Publikumsreaktionen aufpassen muss.
P.S. habe vor kurzem gesehen, das Google/youtube an einen System arbeitet, das allen (englischen) Videos mit guter Aussprache automatisch englische Untertitel verpasst. Über die bekannte Google Sprachübersetzung kann man diese Untertitel dann in seiner Sprache anzeigen lassen.... Die englischen Untertitel waren gar nicht so schlecht. Die deutsche Übersetzung dann....zum vergessen.
Aber so glaube ich würde so ein Dienst auch mehr Sinn machen, als der erdachte Telefondienst. Also ehr ein Videokonferenzsystem, in dem Untertitel live erzeugt werden. Diese Untertitel könnten dann noch übersetzt werden. Hätte den Vorteil, das es ein Schriftprotokoll von der Unterhaltung gibt. Das beide Seiten in beiden Sprachen lesen könnten. So kann ein Spracherkennungsfehler in der eigenen Sprache vom Sprecher sofort gesehen und korrigiert/darauf reagiert werden. Außerdem könnten beide Seiten die jeweilige Übersetzung einsehen. U.u. ist es ja so, dass eine/beide Seiten ein wenig die andere Sprache beherrschen, aber eben nicht sicher genug um eine Verhandlung zu führen.
Ein Übersetzungssystem, in dem du den Partner gar nicht mehr hörst, sondern jeder nur noch mit einer Computerstimme kommuniziert hat ja gravierende Nachteile:
-keine Verifizierung das Partners (deswegen gibts bei Startrek ja immer Bildübertragung...)
-u.U. übersetzt das System kompletten Schmarrn und verärgert/beleidigt den Partner.. und der Anrufer ist vollkommen Ahnungslos, da er ja keine Chance hat die Übersetzung zu verifizieren.
-keine Emotionen werden übertragen, die oben genannten Punkt u.U. noch rechtzeitig abfangen ließen.