Pipeline

Von rohem japanischem Text zu lesbarem Tonhöhenakzent.

Das System kombiniert bewährte morphologische Analyse mit lexikalischer Pitch-Token-Kombination und einer eigenen Regel-Engine. Das Ziel klingt einfach: schwierige und abstrakte Informationen zum Tonhöhenakzent in etwas verwandeln, das Lernende direkt lesen können, ohne die angewandten Regeln und grammatischen Entscheidungen zu verbergen, die das Analyseergebnis erzeugt haben.

01

Satz in Tokens zerlegen

Der Eingabetext wird mit MeCab und UniDic in Wortobjekte zerlegt. Jeder Token enthält die Informationen, die für spätere Entscheidungen nötig sind: Oberflächenform, Lemma, Lesung, Wortart, Konjugationsdetails, Kandidaten für Tonhöhenabfälle und grammatische Metadaten.

02

Pitch-Tokens kombinieren

Benachbarte morphologische Tokens werden zu größeren Tonhöheneinheiten zusammengeführt, wenn ein Wörterbuch- oder Kombinierenr-Lookup zeigt, dass sie sich wie eine Akzentphrase verhalten.

03

Kontextregeln anwenden

Nach der lexikalischen Pitch-Token-Kombination verarbeitet die Regel-Engine auf Satzebene Suffixakzentuierung, Partikel, Hilfsverben, Konjugationen, Komposita, grammatische Grenzen und bekannte Ausnahmen, bevor sie entscheidet, wie sich der Akzent im Kontext verhält.

04

Ergebnis rendern

Die analysierten Daten werden als strukturierte Ausgabe an das Frontend zurückgegeben und als lesbares Japanisch gerendert: Furigana, Markierungen für Tonhöhenabfälle, Entstimmungsmarkierungen, farbcodierte Musterklassen und anklickbare Erklärungen zu angewandten Regeln.

Eingabe 残念ながら、この街は戦闘行為禁止だから。

In Token zerlegen 残念ながらこの街は戦闘行為禁止だから

Kombinieren Lexikalischer Pitch-Token-Lookup Morph-Tokens 残念ながら Oberflächen-Treffer Lookup total_combiners["残念ながら"] Akzent = 5 Ergebnis 残念ながら kombiniertes Pitch-Token

Regeln Tonhöhenregeln auf Satzebene Suffixregel 戦闘 + 行為戦闘行為, Akzent = 5 Nicht-Kombinationsregel 禁止 bildet kein Kompositum Heiban, Akzent = 0 vorheriges Wort 禁止 KontextAkzent = 0 Bedingung vorheriges Wort ist Heiban wahr Ergebnis だ + から → だ＼からだ erhält Akzent = 1

JSON { html, json_data, pitch_accents, applied_rules }

Ausgabe 残念ざんねんながら、この街まちは戦闘せんとう行為こうい禁止きんしだから。

Genauigkeit

Gemessen an echter Prosa, nicht an Spielzeugbeispielen.

Parsen von Tonhöhenakzent wird schwierig, sobald der Eingabe kein sauberer Wörterbucheintrag mehr ist. Deshalb wird akusento ständig an längeren Romantexten einem Stresstest unterzogen, in denen Komposita, Namen, Kana-Schreibungen, Partikel, Suffixe und mehrdeutige Lesungen natürlich vorkommen.

99.64% geschätzte Genauigkeit bei Inhaltstokens

179 protokollierte Korrekturen

118,861 geprüfte Zeichen

~19 fehlerfreie Sätze pro Serie

Wie der Benchmark erhoben wurde

Der aktuelle Produktionsbenchmark wird aktiv gegen echte, ungefilterte Prosa aus 村上春樹『ねじまき鳥クロニクル』第３部 geprüft. Die Evaluation folgt einem bewusst strengen Maßstab: Die Ausgabe von akusento wird auf Morenebene mit einer professionellen Hörbuchlesung verglichen. Jede sichtbare Abweichung bei Tonhöhe, Lesung, Chunking oder Kontext wird angehalten, analysiert und recherchiert. Nur Abweichungen, die systematische Parserprobleme widerspiegeln, werden als Engine-Fehler protokolliert.

Jeder protokollierte Fehler wird in spezifische, granulare Fehlertypen aufgeteilt, etwa Kompositumsregeln, Wortarten, Grenz-Chunking oder kontextabhängige Homophone. Diese strukturelle Transparenz bildet eine konkrete algorithmische Debugging-Schleife, die Grenzen des Lexikon-Lookups von tatsächlichen kontextuellen Laufzeitfehlern trennt.

57 Kompositumsprobleme
47 Tonhöhenprobleme
31 Chunking-Probleme
21 kontextabhängige Homophone
16 Lesungsprobleme
7 Wortartprobleme

Damit der Genauigkeitswert nicht künstlich aufgebläht wird, rechnet die Schätzung die rohen Zeichenabstände zwischen Fehlern mithilfe einer dynamisch berechneten Kennzahl von 2,37 Zeichen pro Token zurück in Wörter. Dieser Wert wird direkt aus dem geprüften Text abgeleitet, indem einfache grammatische Partikel (は, が, に usw.) und Satzzeichen streng herausgefiltert werden. Dadurch misst der Benchmark ausschließlich die Leistung der Engine bei zentralen Inhaltswörtern wie komplexen Komposita, konjugierenden Verben und Eigennamen.

Diese strenge Evaluation entspricht im Durchschnitt einer fehlerfreien Serie von ~658 Zeichen (ungefähr 19 aufeinanderfolgenden literarischen Sätzen), bevor der Parser einen einzigen Fehler macht. Nichtstandardisierte orthografische Varianten des Autors werden als sicher markiert und systematisch von diesen zentralen Evaluationsmetriken getrennt.

Neuesten Benchmark herunterladen (Juni 2026)

Archivierte Datensätze Mai 2026 Baseline zu 『遠まわりする雛』 99.52% 87 Fehler 44.998 Zeichen

Der Satzkontext wurde aus urheberrechtlichen Gründen aus den öffentlichen Berichten entfernt.

Was diese Zahlen tatsächlich bedeuten: Der Benchmark ist ein interner, manuell geprüfter Testlauf mit echtem literarischen Text und keine allgemeine Behauptung, dass jede mögliche Eingabe zu 99,64 % korrekt sein wird. Er wird veröffentlicht, weil Transparenz wichtig ist: Die Fehler werden gezählt, kategorisiert und zur Verbesserung des Parsers genutzt.

Designprinzipien

Lesbare Ausgabe, ohne die Komplexität zu verstecken.

Kontext statt Lookup

Wörterbücher sind nützlich, aber Japanisch wird nicht in isolierten Einträgen gesprochen. „Akusento“ basiert auf dem Satzkontext: Was kommt davor, was kommt danach und wie verändert die Grammatik die Betonung?

Erklärbare Regeln

Wenn der Parser eine Regel auf Satzebene anwendet, macht das Frontend diese Entscheidung sichtbar. Dadurch ist das Tool nicht nur als deterministische Antwortmaschine nützlich, sondern auch als Lernoberfläche.

Ausnahmefälle aus der Praxis

Das Regelsystem wird von tatsächlichen Fehlfällen geprägt: mehrdeutige Lesungen, Zählausdrücke, lexikalische Pitch-Token-Kombination, Suffixverhalten, Deakzentuierungsketten, Verb-Nomen-Mehrdeutigkeit und Satzzeichen an grammatischen Grenzen.

Standard-Tokyo-Japanisch

akusento konzentriert sich auf den standardmäßigen Tokyo-Tonhöhenakzent. Eigennamen, Dialektformen, seltene literarische Ausdrücke und kreative Schreibweisen können weiterhin schwierig sein, aber jeder protokollierte Fehler wird zu einem konkreten Weg der Verbesserung.

Aktueller Stand

Forschungsvorschau

akusento ist derzeit eine Forschungsvorschau in aktiver Entwicklung. Die öffentliche Website enthält Dokumentation, zwischengespeicherte Parser-Beispiele und eine statische Vorschau der Oberfläche, während das Live-Parser-Backend während der Tests privat bleibt.

Die Entwicklung konzentriert sich darauf, die Abdeckung der Akzentregeln, die Parser-Genauigkeit, die Evaluationsmethoden und die erklärbare Ausgabe zu verbessern. Öffentlicher Zugang zum Backend ist geplant, sobald der Parser für eine breitere Nutzung bereit ist.

Wenn du Japanisch lernst, Tonhöhenakzent unterrichtest, mit japanischsprachigen Tools arbeitest oder dich für die technische Seite des Parsers interessierst, ist Feedback während dieser geschlossenen Vorschau besonders willkommen.

Möchtest du akusento testen oder Feedback geben? Kontakt hello@akusento.com.

Ein Parser für die chaotische Realität des Japanischen.