日本語の複雑な現実に向き合うパーサー。
akusentoは、辞書検索に見た目のよいUIを被せただけのものではありません。活用され、複合され、助詞が付き、句読点で区切られ、例外に満ちた、実際の文中の日本語を扱うための文脈対応ピッチアクセントパーサーです。
日本語の原文から読めるピッチアクセントへ。
このシステムは、確立された形態素解析、語彙ピッチトークンの結合、独自ルールエンジンを組み合わせています。目標は単純に聞こえます。難しく抽象的なピッチアクセント情報を、解析結果を生み出した適用ルールや文法判断を隠さずに、学習者が直接読める形へ変換することです。
文をトークン化
入力文はMeCabとUniDicによって単語オブジェクトへ分割されます。各トークンは、表層形、見出し語、読み、品詞、活用情報、下がり目候補、文法メタデータなど、後続の判断に必要な情報を持ちます。
ピッチトークンを結合
隣接する形態素トークンが一つのアクセント句として振る舞うことを辞書または結合器の検索が示す場合、それらはより大きなピッチ単位へ結合されます。
文脈ルールを適用
語彙ピッチトークンを結合した後、文単位のルールエンジンが接尾辞アクセント、助詞、助動詞、活用、複合語、文法境界、既知の例外を処理し、文脈内でアクセントがどう振る舞うかを決定します。
結果を表示
解析済みデータは構造化出力としてフロントエンドへ返され、ふりがな、下がり目マーク、無声化マーク、色分けされたパターン分類、適用ルールのクリック可能な説明を含む読みやすい日本語として表示されます。
人工的な例ではなく、実際の文章で測定。
入力がきれいな辞書見出し語ではなくなると、ピッチアクセント解析は難しくなります。そのためakusentoは、複合語、人名、かな表記、助詞、接尾辞、曖昧な読みが自然に現れる長編小説本文で継続的にストレステストされています。
ベンチマークの収集方法
現在の本番ベンチマークは、村上春樹『ねじまき鳥クロニクル』第3部の実際の未加工本文に対して継続的に監査されています。評価基準は意図的に厳格です。akusentoの出力をプロ朗読オーディオブックとモーラ単位で照合し、ピッチ、読み、区切り、文脈上のずれが見つかるたびに停止して分析・調査します。体系的なパーサー問題を反映するずれだけをエンジンエラーとして記録します。
記録された各エラーは、複合ルール、品詞、境界チャンキング、文脈依存の同音異義語など、非常に細かな失敗分類へ分解されます。この構造的な透明性によって、語彙検索の限界と実際の文脈実行時の失敗を切り分ける、具体的なアルゴリズム改善ループが作られます。
- 57 複合の問題
- 47 ピッチの問題
- 31 区切りの問題
- 21 文脈依存の同音異義語
- 16 読みの問題
- 7 品詞の問題
精度スコアが人工的に高くならないように、推定ではエラー間の生の文字間隔を、動的に算出した1トークンあたり2.37文字という指標で単語へ戻しています。この値は監査対象テキストから直接導出され、は・が・に等の一文字ひらがな助詞と句読点を厳密に除外しています。その結果、ベンチマークは複雑な複合語、活用動詞、固有名詞など、核となる内容語に対するエンジン性能だけを測定します。
この厳格な評価では、パーサーが一つの誤りを出すまでの平均無誤り区間は約658文字、およそ文学文19文連続に相当します。標準的でない作者固有の表記差は安全にフラグ付けされ、これらの中核評価指標から体系的に分離されます。
著作権上の理由により、公開レポートから文脈本文は除去されています。
これらの数値が実際に意味すること: このベンチマークは、実際の文学テキストに対する内部の手動監査開発ランであり、あらゆる入力が99.64%正しいという普遍的な主張ではありません。透明性が重要だから公開しています。エラーは数えられ、分類され、パーサー改善に使われます。
複雑さを隠さず、読める出力へ。
検索より文脈
辞書は有用ですが、日本語は孤立した見出し語として話されるわけではありません。akusentoは、前に何が来るか、後に何が続くか、文法がアクセント形をどう変えるかという文脈を中心に作られています。
説明可能なルール
パーサーが文単位ルールを適用したとき、フロントエンドはその判断を表示します。これにより、このツールは決定的な答えを返す機械であるだけでなく、学習のための画面にもなります。
実世界の例外
ルールシステムは実際の失敗によって形作られています。曖昧な読み、助数詞表現、語彙ピッチトークン結合、接尾辞の挙動、無核化の連鎖、動詞・名詞の曖昧性、文法境界まわりの句読点などです。
標準東京式日本語
akusentoは標準東京式ピッチアクセントに特化しています。固有名詞、方言形、まれな文学表現、創作的な表記は今でも難しい場合がありますが、記録された各エラーは具体的な改善の道筋になります。
研究プレビュー
akusentoは現在、活発に開発中の研究プレビューです。公開サイトにはドキュメント、キャッシュ済み解析例、インターフェースの静的プレビューを掲載していますが、ライブパーサーのバックエンドはテスト期間中は非公開です。
開発では、アクセントルールの網羅性、パーサー精度、評価方法、説明可能な出力の改善に注力しています。より広い利用に耐えられる段階になったら、バックエンドの公開アクセスを予定しています。
日本語を学んでいる方、ピッチアクセントを教えている方、日本語ツールに関わっている方、あるいはパーサーの技術面に関心がある方からの、このクローズドプレビュー期間中のフィードバックは特に歓迎します。
akusentoのテストやフィードバックに興味がありますか? 連絡先 hello@akusento.com.