Parser yang dibangun untuk kenyataan bahasa Jepang yang berantakan.

akusento bukan sekadar pencarian kamus yang dibungkus antarmuka cantik. Ini adalah parser aksen nada bahasa Jepang berbasis konteks yang dirancang untuk menangani bahasa Jepang sebagaimana benar-benar muncul dalam kalimat: dikonjugasikan, digabungkan, dilekati partikel, disela tanda baca, dan penuh kasus tepi.

Alur kerja

Dari teks Jepang mentah menjadi aksen nada yang mudah dibaca.

Sistem ini menggabungkan analisis morfologis yang mapan dengan penggabungan token nada leksikal dan mesin aturan khusus. Tujuannya terdengar sederhana: mengubah informasi aksen nada yang sulit dan abstrak menjadi sesuatu yang dapat langsung dibaca pembelajar, tanpa menyembunyikan aturan dan keputusan tata bahasa yang menghasilkan hasil parsing.

Tokenisasi kalimat

Teks masukan dipecah menjadi objek kata dengan MeCab dan UniDic. Setiap token membawa informasi yang diperlukan untuk keputusan berikutnya: bentuk permukaan, lemma, bacaan, kelas kata, detail konjugasi, kandidat penurunan nada, dan metadata tata bahasa.

Gabungkan token nada

Token morfologis yang berdekatan digabungkan menjadi unit nada yang lebih besar ketika pencarian kamus atau combiner menunjukkan bahwa token tersebut berperilaku sebagai satu frasa aksen.

Terapkan aturan konteks

Setelah penggabungan token nada leksikal, mesin aturan tingkat kalimat menangani pengaksenan sufiks, partikel, verba bantu, konjugasi, kata majemuk, batas tata bahasa, dan pengecualian yang diketahui sebelum memutuskan bagaimana aksen berperilaku dalam konteks.

Render hasilnya

Data yang telah diparse dikembalikan ke frontend sebagai output terstruktur dan dirender sebagai bahasa Jepang yang mudah dibaca: furigana, tanda penurunan nada, tanda devoicing, kelas pola berkode warna, dan penjelasan aturan yang dapat diklik.

Masukan 残念ながら、この街は戦闘行為禁止だから。

Tokenisasi 残念ながらこの街は戦闘行為禁止だから

Gabung Pencarian token nada leksikal token morfologis 残念ながら kecocokan permukaan pencarian total_combiners["残念ながら"] drop = 5 hasil 残念ながら token nada gabungan

Aturan Aturan nada tingkat kalimat aturan sufiks 戦闘 + 行為戦闘行為, drop = 5 aturan tidak menggabungkan 禁止 tidak menjadi majemuk Heiban, drop = 0 kata sebelumnya 禁止 penurunan konteks = 0 kondisi kata sebelumnya adalah Heiban benar hasil だ + から → だ＼からだ mendapat drop = 1

JSON { html, json_data, pitch_accents, applied_rules }

Output 残念ざんねんながら、この街まちは戦闘せんとう行為こうい禁止きんしだから。

Akurasi

Diukur pada prosa nyata, bukan contoh mainan.

Parsing aksen nada menjadi sulit ketika masukan tidak lagi berupa entri kamus yang bersih. Karena itu, akusento terus diuji tekan terhadap teks novel panjang, tempat kata majemuk, nama, ejaan kana, partikel, sufiks, dan bacaan ambigu muncul secara alami.

99.64% estimasi akurasi token konten

179 koreksi yang dicatat

118,861 karakter yang ditinjau

~19 kalimat bebas kesalahan per rangkaian

Bagaimana tolok ukur dikumpulkan

Tolok ukur produksi saat ini diaudit secara aktif terhadap prosa nyata tanpa penyaringan dari 村上春樹『ねじまき鳥クロニクル』第３部. Evaluasi mengikuti standar yang sengaja ketat: output akusento diperiksa terhadap narasi audiobook profesional pada tingkat mora. Setiap penyimpangan nada, bacaan, chunking, atau konteks yang tampak dihentikan, dianalisis, dan diteliti. Hanya penyimpangan yang mencerminkan masalah parser sistematis yang dicatat sebagai kesalahan mesin.

Setiap kesalahan yang dicatat dipecah ke dalam klasifikasi kegagalan yang spesifik dan sangat granular, seperti aturan pemajemukan, kelas kata, chunking batas, atau homofon kontekstual. Transparansi struktural ini membentuk siklus debugging algoritmik yang konkret, memisahkan keterbatasan pencarian leksikon dari kegagalan runtime kontekstual yang sebenarnya.

57 masalah pemajemukan
47 masalah nada
31 masalah chunking
21 homofon kontekstual
16 masalah bacaan
7 masalah kelas kata

Untuk mencegah skor akurasi meningkat secara artifisial, estimasi memetakan jarak karakter mentah di antara kesalahan kembali ke kata menggunakan metrik 2,37 karakter per token yang dihitung secara dinamis. Nilai ini diturunkan langsung dari teks yang diaudit dengan menyaring secara ketat partikel gramatikal hiragana tunggal (は, が, に, dll.) dan tanda baca. Hasilnya, tolok ukur ini secara eksklusif mengukur kinerja mesin pada kata konten inti, seperti kata majemuk kompleks, verba yang berkonjugasi, dan nama diri.

Evaluasi ketat ini setara dengan rangkaian rata-rata tanpa kesalahan sepanjang ~658 karakter (sekitar 19 kalimat sastra berurutan) sebelum parser membuat satu kesalahan. Variasi ortografis penulis yang tidak standar ditandai dengan aman dan dipisahkan secara sistematis dari metrik evaluasi inti ini.

Unduh Tolok Ukur Terbaru (Juni 2026)

Dataset Arsip Mei 2026 Baseline 遠まわりする雛 99.52% 87 kesalahan 44.998 karakter

Konteks kalimat telah dihapus dari laporan publik karena alasan hak cipta.

Arti sebenarnya dari angka-angka ini: tolok ukur ini adalah proses pengembangan internal yang diaudit manual pada teks sastra nyata, bukan klaim universal bahwa setiap masukan yang mungkin akan 99,64% benar. Tolok ukur ini dipublikasikan karena transparansi penting: kesalahan dihitung, dikategorikan, dan digunakan untuk memperbaiki parser.

Prinsip desain

Output yang mudah dibaca tanpa menyembunyikan kompleksitas.

Konteks di atas pencarian

Kamus berguna, tetapi bahasa Jepang tidak diucapkan sebagai entri terpisah. akusento dibangun di sekitar konteks kalimat: apa yang datang sebelumnya, apa yang datang setelahnya, dan bagaimana tata bahasa mengubah bentuk aksen.

Aturan yang dapat dijelaskan

Ketika parser menerapkan aturan tingkat kalimat, frontend akan menampilkan keputusan itu. Ini membuat alat ini berguna bukan hanya sebagai mesin jawaban deterministik, tetapi juga sebagai permukaan belajar.

Kasus tepi dunia nyata

Sistem aturan dibentuk oleh kegagalan nyata: bacaan ambigu, ekspresi penghitung, penggabungan token nada leksikal, perilaku sufiks, rantai penghilangan aksen, ambiguitas verba-nomina, dan tanda baca di sekitar batas tata bahasa.

Bahasa Jepang Standar Tokyo

akusento berfokus pada aksen nada gaya Tokyo standar. Nama diri, bentuk dialek, ekspresi sastra langka, dan ejaan kreatif masih bisa sulit, tetapi setiap kesalahan yang dicatat menjadi jalur konkret untuk perbaikan.

Status saat ini

Pratinjau Riset

akusento saat ini adalah pratinjau riset dalam pengembangan aktif. Situs publik mencakup dokumentasi, contoh parser yang dicache, dan pratinjau statis antarmuka, sementara backend parser langsung tetap privat selama pengujian.

Pengembangan difokuskan pada peningkatan cakupan aturan aksen, akurasi parser, metode evaluasi, dan output yang dapat dijelaskan. Akses publik ke backend direncanakan ketika parser siap digunakan lebih luas.

Jika kamu belajar bahasa Jepang, mengajar aksen nada, bekerja dengan alat bahasa Jepang, atau tertarik pada sisi teknis parser, masukan selama pratinjau tertutup ini sangat disambut.

Tertarik menguji akusento atau berbagi masukan? Kontak hello@akusento.com.