Un parser creado para la realidad compleja del japonés.

akusento no es una búsqueda de diccionario envuelta en una interfaz bonita. Es un parser de acento tonal japonés consciente del contexto, diseñado para manejar cómo aparece realmente el japonés en las oraciones: conjugado, compuesto, unido a partículas, interrumpido por puntuación y lleno de casos límite.

Del texto japonés sin procesar a un acento tonal legible.

El sistema combina análisis morfológico consolidado con combinación léxica de tokens tonales y un motor de reglas propio. El objetivo parece sencillo: convertir información de acento tonal difícil y abstracta en algo que los estudiantes puedan leer directamente, sin ocultar las reglas aplicadas ni las decisiones gramaticales que produjeron el resultado del análisis.

01

Tokenizar la oración

El texto de entrada se divide en objetos de palabra con MeCab y UniDic. Cada token contiene la información necesaria para decisiones posteriores: forma superficial, lema, lectura, categoría gramatical, detalles de conjugación, candidatos de caída tonal y metadatos gramaticales.

02

Combinar tokens tonales

Los tokens morfológicos adyacentes se fusionan en unidades tonales mayores cuando una consulta al diccionario o al combinador muestra que se comportan como una sola frase acentual.

03

Aplicar reglas de contexto

Después de la combinación léxica de tokens tonales, el motor de reglas a nivel de oración maneja la acentuación de sufijos, partículas, auxiliares, conjugaciones, compuestos, límites gramaticales y excepciones conocidas antes de decidir cómo se comporta el acento en contexto.

04

Renderizar el resultado

Los datos analizados se devuelven al frontend como salida estructurada y se renderizan como japonés legible: furigana, marcas de caída tonal, marcas de ensordecimiento vocálico, clases de patrón codificadas por color y explicaciones clicables de las reglas aplicadas.

Entrada
Tokenizar
Combinar Consulta léxica de token tonal tokens morfológicos coincidencia superficial consulta caída = 5 resultado token tonal combinado
Reglas Reglas tonales a nivel de oración regla de sufijo regla de no combinación Heiban, caída = 0 palabra anterior caída contextual = 0 condición la palabra anterior es Heiban verdadero resultado
JSON { html, json_data, pitch_accents, applied_rules }
Salida

Medida con prosa real, no con ejemplos de juguete.

Analizar el acento tonal se vuelve difícil cuando la entrada deja de ser una entrada de diccionario limpia. Por eso akusento se somete constantemente a pruebas de estrés con textos largos de novela, donde los compuestos, nombres, grafías en kana, partículas, sufijos y lecturas ambiguas aparecen de manera natural.

99.64% precisión estimada en tokens de contenido
179 correcciones registradas
118,861 caracteres revisados
~19 oraciones sin errores por racha

Cómo se recopiló el benchmark

El benchmark de producción actual se audita activamente contra prosa real y sin filtrar de . La evaluación sigue un estándar deliberadamente estricto: la salida de akusento se comprueba frente a una narración profesional de audiolibro a nivel de mora. Cada aparente desviación de tono, lectura, segmentación o contexto se detiene, analiza e investiga. Solo las desviaciones que reflejan problemas sistemáticos del parser se registran como errores del motor.

Cada error registrado se divide en clasificaciones de fallo específicas y muy granulares, como reglas de composición, categorías gramaticales, segmentación de límites u homófonos contextuales. Esta transparencia estructural crea un ciclo concreto de depuración algorítmica, aislando las limitaciones de consulta léxica de los fallos contextuales reales en tiempo de ejecución.

  • 57 problemas de composición
  • 47 problemas tonales
  • 31 problemas de segmentación
  • 21 homófonos contextuales
  • 16 problemas de lectura
  • 7 problemas de categoría gramatical

To prevent the accuracy score from being artificially inflated, the estimate maps the raw character gaps between errors back to words using a dynamically calculated 2.37 characters-per-token metric. This value is derived directly from the audited text by strictly filtering out single-hiragana grammatical particles ( etc.) and punctuation. As a result, the benchmark exclusively measures the engine's performance on core content words, such as complex compounds, conjugating verbs, and proper nouns.

Esta evaluación estricta equivale a una racha media sin errores de ~658 caracteres (aproximadamente 19 oraciones literarias consecutivas) antes de que el parser cometa un solo error. Las variaciones ortográficas no estándar del autor se marcan de forma segura y se separan sistemáticamente de estas métricas centrales de evaluación.

El contexto de las oraciones se ha eliminado de los informes públicos por motivos de derechos de autor.

Qué significan realmente estos números: el benchmark es una ejecución interna de desarrollo, auditada manualmente sobre texto literario real, no una afirmación universal de que toda entrada posible será correcta al 99,64 %. Se publica porque la transparencia importa: los errores se cuentan, se categorizan y se usan para mejorar el parser.

Salida legible sin ocultar la complejidad.

Contexto antes que consulta

Los diccionarios son útiles, pero el japonés no se habla como entradas aisladas. akusento se construye alrededor del contexto oracional: qué viene antes, qué viene después y cómo la gramática cambia la forma del acento.

Reglas explicables

Cuando el parser aplica una regla a nivel de oración, el frontend expone esa decisión. Esto hace que la herramienta sea útil no solo como una máquina determinista de respuestas, sino también como superficie de aprendizaje.

Casos límite del mundo real

El sistema de reglas se forma a partir de fallos reales: lecturas ambiguas, expresiones con contadores, combinación léxica de tokens tonales, comportamiento de sufijos, cadenas de desacentuación, ambigüedad verbo-sustantivo y puntuación alrededor de límites gramaticales.

Japonés estándar de Tokio

akusento se centra en el acento tonal estándar de estilo Tokio. Los nombres propios, las formas dialectales, las expresiones literarias raras y las grafías creativas aún pueden ser difíciles, pero cada error registrado se convierte en una vía concreta de mejora.

Vista previa de investigación

akusento es actualmente una vista previa de investigación en desarrollo activo. El sitio público incluye documentación, ejemplos del parser en caché y una vista previa estática de la interfaz, mientras que el backend del parser en vivo permanece privado durante las pruebas.

El desarrollo se centra en mejorar la cobertura de reglas de acento, la precisión del parser, los métodos de evaluación y la salida explicable. El acceso público al backend está previsto cuando el parser esté listo para un uso más amplio.

Si estás aprendiendo japonés, enseñando acento tonal, trabajando con herramientas de japonés o interesado en la parte técnica del parser, tus comentarios durante esta vista previa cerrada son especialmente bienvenidos.

¿Te interesa probar akusento o compartir comentarios? Contacto hello@akusento.com.

Leer la guía Probar la vista previa del parser Entrenar tu acento tonal