为日语的复杂现实而构建的解析器。
akusento 不是给词典查询套上漂亮界面。它是一款语境感知的日语音高重音解析器,目标是处理日语在真实句子中的样子:会活用、会复合、会接助词、会被标点打断,也充满边缘情况。
从日语原文到可读的音高重音。
系统结合成熟的形态素分析、词汇音高标记组合和自定义规则引擎。目标听起来很直接:把困难而抽象的音高重音信息变成学习者可以直接阅读的内容,同时不隐藏生成解析结果时应用的规则和语法判断。
切分句子
输入文本通过 MeCab 和 UniDic 拆分为词对象。每个标记都携带后续判断所需的信息:表层形、词元、读音、词性、活用细节、音高下降候选和语法元数据。
合并音高标记
当词典或组合器查询显示相邻形态素标记会作为一个重音短语行动时,它们会被合并成更大的音高单位。
应用语境规则
词汇音高标记组合后,句子级规则引擎会处理后缀重音、助词、助动词、活用、复合词、语法边界和已知例外,然后决定重音在语境中的行为。
渲染结果
解析数据以结构化输出返回前端,并渲染成可读的日语:假名注音、音高下降标记、清音化标记、按颜色区分的模式类别,以及可点击查看的已应用规则说明。
用真实散文衡量,而不是玩具示例。
当输入不再是干净的词典条目时,音高重音解析会变得困难。因此 akusento 持续使用长篇小说文本进行压力测试,因为复合词、姓名、假名写法、助词、后缀和含糊读音都会自然出现。
基准是如何收集的
当前生产基准正在针对 村上春樹『ねじまき鳥クロニクル』第3部 中真实、未过滤的散文进行主动审核。评估采用刻意严格的标准:akusento 的输出会按拍与专业有声书朗读对照。每一个明显的音高、读音、分块或语境偏差都会暂停、分析和查证。只有反映系统性解析器问题的偏差才会记录为引擎错误。
每个已记录错误都会拆分为具体且高度细化的失败分类,例如复合规则、词性、边界分块或语境同音词。这种结构透明性形成了具体的算法调试循环,可以把词库查询限制和真正的语境运行时失败区分开。
- 57 复合问题
- 47 音高问题
- 31 分块问题
- 21 语境同音词
- 16 读音问题
- 7 词性问题
为了避免准确率被人为抬高,估算会使用动态计算出的每标记 2.37 个字符指标,把错误之间的原始字符间隔映射回词。这个值直接来自已审核文本,并严格过滤掉单个平假名语法助词(は、が、に 等)和标点。因此,基准只衡量引擎在核心内容词上的表现,例如复杂复合词、活用动词和专有名词。
在这种严格评估下,解析器平均会连续约 658 个字符,也就是约 19 个文学句子,才出现一个错误。非标准的作者表记差异会被安全标记,并系统性地从这些核心评估指标中分离出来。
出于版权原因,公开报告已移除句子语境。
这些数字真正意味着什么: 该基准是在真实文学文本上进行的内部手工审核开发运行,并不是声称所有可能输入都能达到 99.64% 正确。公开它是因为透明度很重要:错误被计数、分类,并用于改进解析器。
不隐藏复杂性,同时提供可读输出。
语境优先于查询
词典很有用,但日语并不是作为孤立词条被说出来的。akusento 围绕句子语境构建:前面是什么、后面接什么,以及语法如何改变重音形状。
可解释规则
当解析器应用句子级规则时,前端会展示这个决策。这让工具不仅是给出确定答案的机器,也成为学习界面。
真实世界边缘情况
规则系统由真实失败塑造:含糊读音、助数词表达、词汇音高标记组合、后缀行为、去重音链、动词/名词歧义,以及语法边界周围的标点。
标准东京式日语
akusento 专注于标准东京式音高重音。专有名词、方言形式、罕见文学表达和创造性拼写仍可能很困难,但每个记录的错误都会成为具体的改进路径。
研究预览
akusento 目前是一个正在积极开发的研究预览。公开网站包含文档、缓存解析示例和界面的静态预览;实时解析器后端在测试期间仍保持私有。
开发重点是改进重音规则覆盖、解析器准确率、评估方法和可解释输出。当解析器准备好面向更广泛使用时,计划开放后端访问。
如果你正在学习日语、教授音高重音、开发日语工具,或对解析器技术侧感兴趣,我们尤其欢迎你在封闭预览期间提供反馈。
想测试 akusento 或分享反馈? 联系 hello@akusento.com.