Pipeline

Del texto japonés sin procesar a un acento tonal legible.

El sistema combina análisis morfológico consolidado con combinación léxica de tokens tonales y un motor de reglas propio. El objetivo parece sencillo: convertir información de acento tonal difícil y abstracta en algo que los estudiantes puedan leer directamente, sin ocultar las reglas aplicadas ni las decisiones gramaticales que produjeron el resultado del análisis.

01

Tokenizar la oración

El texto de entrada se divide en objetos de palabra con MeCab y UniDic. Cada token contiene la información necesaria para decisiones posteriores: forma superficial, lema, lectura, categoría gramatical, detalles de conjugación, candidatos de caída tonal y metadatos gramaticales.

02

Combinar tokens tonales

Los tokens morfológicos adyacentes se fusionan en unidades tonales mayores cuando una consulta al diccionario o al combinador muestra que se comportan como una sola frase acentual.

03

Aplicar reglas de contexto

Después de la combinación léxica de tokens tonales, el motor de reglas a nivel de oración maneja la acentuación de sufijos, partículas, auxiliares, conjugaciones, compuestos, límites gramaticales y excepciones conocidas antes de decidir cómo se comporta el acento en contexto.

04

Renderizar el resultado

Los datos analizados se devuelven al frontend como salida estructurada y se renderizan como japonés legible: furigana, marcas de caída tonal, marcas de ensordecimiento vocálico, clases de patrón codificadas por color y explicaciones clicables de las reglas aplicadas.

Entrada 残念ながら、この街は戦闘行為禁止だから。

Tokenizar 残念ながらこの街は戦闘行為禁止だから

Combinar Consulta léxica de token tonal tokens morfológicos 残念ながら coincidencia superficial consulta total_combiners["残念ながら"] caída = 5 resultado 残念ながら token tonal combinado

Reglas Reglas tonales a nivel de oración regla de sufijo 戦闘 + 行為戦闘行為, drop = 5 regla de no combinación 禁止 no forma compuesto Heiban, caída = 0 palabra anterior 禁止 caída contextual = 0 condición la palabra anterior es Heiban verdadero resultado だ + から → だ＼からだ recibe caída = 1

JSON { html, json_data, pitch_accents, applied_rules }

Salida 残念ざんねんながら、この街まちは戦闘せんとう行為こうい禁止きんしだから。

Precisión

Medida con prosa real, no con ejemplos de juguete.

Analizar el acento tonal se vuelve difícil cuando la entrada deja de ser una entrada de diccionario limpia. Por eso akusento se somete constantemente a pruebas de estrés con textos largos de novela, donde los compuestos, nombres, grafías en kana, partículas, sufijos y lecturas ambiguas aparecen de manera natural.

99.64% precisión estimada en tokens de contenido

179 correcciones registradas

118,861 caracteres revisados

~19 oraciones sin errores por racha

Cómo se recopiló el benchmark

El benchmark de producción actual se audita activamente contra prosa real y sin filtrar de 村上春樹『ねじまき鳥クロニクル』第３部. La evaluación sigue un estándar deliberadamente estricto: la salida de akusento se comprueba frente a una narración profesional de audiolibro a nivel de mora. Cada aparente desviación de tono, lectura, segmentación o contexto se detiene, analiza e investiga. Solo las desviaciones que reflejan problemas sistemáticos del parser se registran como errores del motor.

Cada error registrado se divide en clasificaciones de fallo específicas y muy granulares, como reglas de composición, categorías gramaticales, segmentación de límites u homófonos contextuales. Esta transparencia estructural crea un ciclo concreto de depuración algorítmica, aislando las limitaciones de consulta léxica de los fallos contextuales reales en tiempo de ejecución.

57 problemas de composición
47 problemas tonales
31 problemas de segmentación
21 homófonos contextuales
16 problemas de lectura
7 problemas de categoría gramatical

To prevent the accuracy score from being artificially inflated, the estimate maps the raw character gaps between errors back to words using a dynamically calculated 2.37 characters-per-token metric. This value is derived directly from the audited text by strictly filtering out single-hiragana grammatical particles (は, が, に, etc.) and punctuation. As a result, the benchmark exclusively measures the engine's performance on core content words, such as complex compounds, conjugating verbs, and proper nouns.

Esta evaluación estricta equivale a una racha media sin errores de ~658 caracteres (aproximadamente 19 oraciones literarias consecutivas) antes de que el parser cometa un solo error. Las variaciones ortográficas no estándar del autor se marcan de forma segura y se separan sistemáticamente de estas métricas centrales de evaluación.

Descargar el benchmark más reciente (junio de 2026)

Conjuntos de datos archivados Mayo de 2026 Baseline de 『遠まわりする雛』 99.52% 87 errores 44.998 caracteres

El contexto de las oraciones se ha eliminado de los informes públicos por motivos de derechos de autor.

Qué significan realmente estos números: el benchmark es una ejecución interna de desarrollo, auditada manualmente sobre texto literario real, no una afirmación universal de que toda entrada posible será correcta al 99,64 %. Se publica porque la transparencia importa: los errores se cuentan, se categorizan y se usan para mejorar el parser.

Principios de diseño

Salida legible sin ocultar la complejidad.

Contexto antes que consulta

Los diccionarios son útiles, pero el japonés no se habla como entradas aisladas. akusento se construye alrededor del contexto oracional: qué viene antes, qué viene después y cómo la gramática cambia la forma del acento.

Reglas explicables

Cuando el parser aplica una regla a nivel de oración, el frontend expone esa decisión. Esto hace que la herramienta sea útil no solo como una máquina determinista de respuestas, sino también como superficie de aprendizaje.

Casos límite del mundo real

El sistema de reglas se forma a partir de fallos reales: lecturas ambiguas, expresiones con contadores, combinación léxica de tokens tonales, comportamiento de sufijos, cadenas de desacentuación, ambigüedad verbo-sustantivo y puntuación alrededor de límites gramaticales.

Japonés estándar de Tokio

akusento se centra en el acento tonal estándar de estilo Tokio. Los nombres propios, las formas dialectales, las expresiones literarias raras y las grafías creativas aún pueden ser difíciles, pero cada error registrado se convierte en una vía concreta de mejora.

Estado actual

Vista previa de investigación

akusento es actualmente una vista previa de investigación en desarrollo activo. El sitio público incluye documentación, ejemplos del parser en caché y una vista previa estática de la interfaz, mientras que el backend del parser en vivo permanece privado durante las pruebas.

El desarrollo se centra en mejorar la cobertura de reglas de acento, la precisión del parser, los métodos de evaluación y la salida explicable. El acceso público al backend está previsto cuando el parser esté listo para un uso más amplio.

Si estás aprendiendo japonés, enseñando acento tonal, trabajando con herramientas de japonés o interesado en la parte técnica del parser, tus comentarios durante esta vista previa cerrada son especialmente bienvenidos.

¿Te interesa probar akusento o compartir comentarios? Contacto hello@akusento.com.

Un parser creado para la realidad compleja del japonés.