Ein Parser für die chaotische Realität des Japanischen.
akusento ist kein einfaches Wörterbuch mit hübscher Oberfläche. Es ist ein kontextbewusster Parser für japanischen Tonhöhenakzent, der darauf ausgelegt ist, Japanisch so zu verarbeiten, wie es in echten Sätzen vorkommt: konjugiert, zusammengesetzt, an Partikel gebunden, von Satzzeichen unterbrochen und voller Ausnahmen.
Von rohem japanischem Text zu lesbarem Tonhöhenakzent.
Das System kombiniert bewährte morphologische Analyse mit lexikalischer Pitch-Token-Kombination und einer eigenen Regel-Engine. Das Ziel klingt einfach: schwierige und abstrakte Informationen zum Tonhöhenakzent in etwas verwandeln, das Lernende direkt lesen können, ohne die angewandten Regeln und grammatischen Entscheidungen zu verbergen, die das Analyseergebnis erzeugt haben.
Satz in Tokens zerlegen
Der Eingabetext wird mit MeCab und UniDic in Wortobjekte zerlegt. Jeder Token enthält die Informationen, die für spätere Entscheidungen nötig sind: Oberflächenform, Lemma, Lesung, Wortart, Konjugationsdetails, Kandidaten für Tonhöhenabfälle und grammatische Metadaten.
Pitch-Tokens kombinieren
Benachbarte morphologische Tokens werden zu größeren Tonhöheneinheiten zusammengeführt, wenn ein Wörterbuch- oder Kombinierenr-Lookup zeigt, dass sie sich wie eine Akzentphrase verhalten.
Kontextregeln anwenden
Nach der lexikalischen Pitch-Token-Kombination verarbeitet die Regel-Engine auf Satzebene Suffixakzentuierung, Partikel, Hilfsverben, Konjugationen, Komposita, grammatische Grenzen und bekannte Ausnahmen, bevor sie entscheidet, wie sich der Akzent im Kontext verhält.
Ergebnis rendern
Die analysierten Daten werden als strukturierte Ausgabe an das Frontend zurückgegeben und als lesbares Japanisch gerendert: Furigana, Markierungen für Tonhöhenabfälle, Entstimmungsmarkierungen, farbcodierte Musterklassen und anklickbare Erklärungen zu angewandten Regeln.
Gemessen an echter Prosa, nicht an Spielzeugbeispielen.
Parsen von Tonhöhenakzent wird schwierig, sobald der Eingabe kein sauberer Wörterbucheintrag mehr ist. Deshalb wird akusento ständig an längeren Romantexten einem Stresstest unterzogen, in denen Komposita, Namen, Kana-Schreibungen, Partikel, Suffixe und mehrdeutige Lesungen natürlich vorkommen.
Wie der Benchmark erhoben wurde
Der aktuelle Produktionsbenchmark wird aktiv gegen echte, ungefilterte Prosa aus 村上春樹『ねじまき鳥クロニクル』第3部 geprüft. Die Evaluation folgt einem bewusst strengen Maßstab: Die Ausgabe von akusento wird auf Morenebene mit einer professionellen Hörbuchlesung verglichen. Jede sichtbare Abweichung bei Tonhöhe, Lesung, Chunking oder Kontext wird angehalten, analysiert und recherchiert. Nur Abweichungen, die systematische Parserprobleme widerspiegeln, werden als Engine-Fehler protokolliert.
Jeder protokollierte Fehler wird in spezifische, granulare Fehlertypen aufgeteilt, etwa Kompositumsregeln, Wortarten, Grenz-Chunking oder kontextabhängige Homophone. Diese strukturelle Transparenz bildet eine konkrete algorithmische Debugging-Schleife, die Grenzen des Lexikon-Lookups von tatsächlichen kontextuellen Laufzeitfehlern trennt.
- 57 Kompositumsprobleme
- 47 Tonhöhenprobleme
- 31 Chunking-Probleme
- 21 kontextabhängige Homophone
- 16 Lesungsprobleme
- 7 Wortartprobleme
Damit der Genauigkeitswert nicht künstlich aufgebläht wird, rechnet die Schätzung die rohen Zeichenabstände zwischen Fehlern mithilfe einer dynamisch berechneten Kennzahl von 2,37 Zeichen pro Token zurück in Wörter. Dieser Wert wird direkt aus dem geprüften Text abgeleitet, indem einfache grammatische Partikel (は, が, に usw.) und Satzzeichen streng herausgefiltert werden. Dadurch misst der Benchmark ausschließlich die Leistung der Engine bei zentralen Inhaltswörtern wie komplexen Komposita, konjugierenden Verben und Eigennamen.
Diese strenge Evaluation entspricht im Durchschnitt einer fehlerfreien Serie von ~658 Zeichen (ungefähr 19 aufeinanderfolgenden literarischen Sätzen), bevor der Parser einen einzigen Fehler macht. Nichtstandardisierte orthografische Varianten des Autors werden als sicher markiert und systematisch von diesen zentralen Evaluationsmetriken getrennt.
Der Satzkontext wurde aus urheberrechtlichen Gründen aus den öffentlichen Berichten entfernt.
Was diese Zahlen tatsächlich bedeuten: Der Benchmark ist ein interner, manuell geprüfter Testlauf mit echtem literarischen Text und keine allgemeine Behauptung, dass jede mögliche Eingabe zu 99,64 % korrekt sein wird. Er wird veröffentlicht, weil Transparenz wichtig ist: Die Fehler werden gezählt, kategorisiert und zur Verbesserung des Parsers genutzt.
Lesbare Ausgabe, ohne die Komplexität zu verstecken.
Kontext statt Lookup
Wörterbücher sind nützlich, aber Japanisch wird nicht in isolierten Einträgen gesprochen. „Akusento“ basiert auf dem Satzkontext: Was kommt davor, was kommt danach und wie verändert die Grammatik die Betonung?
Erklärbare Regeln
Wenn der Parser eine Regel auf Satzebene anwendet, macht das Frontend diese Entscheidung sichtbar. Dadurch ist das Tool nicht nur als deterministische Antwortmaschine nützlich, sondern auch als Lernoberfläche.
Ausnahmefälle aus der Praxis
Das Regelsystem wird von tatsächlichen Fehlfällen geprägt: mehrdeutige Lesungen, Zählausdrücke, lexikalische Pitch-Token-Kombination, Suffixverhalten, Deakzentuierungsketten, Verb-Nomen-Mehrdeutigkeit und Satzzeichen an grammatischen Grenzen.
Standard-Tokyo-Japanisch
akusento konzentriert sich auf den standardmäßigen Tokyo-Tonhöhenakzent. Eigennamen, Dialektformen, seltene literarische Ausdrücke und kreative Schreibweisen können weiterhin schwierig sein, aber jeder protokollierte Fehler wird zu einem konkreten Weg der Verbesserung.
Forschungsvorschau
akusento ist derzeit eine Forschungsvorschau in aktiver Entwicklung. Die öffentliche Website enthält Dokumentation, zwischengespeicherte Parser-Beispiele und eine statische Vorschau der Oberfläche, während das Live-Parser-Backend während der Tests privat bleibt.
Die Entwicklung konzentriert sich darauf, die Abdeckung der Akzentregeln, die Parser-Genauigkeit, die Evaluationsmethoden und die erklärbare Ausgabe zu verbessern. Öffentlicher Zugang zum Backend ist geplant, sobald der Parser für eine breitere Nutzung bereit ist.
Wenn du Japanisch lernst, Tonhöhenakzent unterrichtest, mit japanischsprachigen Tools arbeitest oder dich für die technische Seite des Parsers interessierst, ist Feedback während dieser geschlossenen Vorschau besonders willkommen.
Möchtest du akusento testen oder Feedback geben? Kontakt hello@akusento.com.