일본어의 복잡한 현실을 위해 만든 파서.
akusento는 단순한 사전 검색에 보기 좋은 인터페이스를 씌운 것이 아닙니다. 활용되고, 복합되고, 조사에 붙고, 문장부호로 끊기며, 온갖 예외가 섞인 실제 문장 속 일본어를 처리하도록 설계된 문맥 인식 일본어 피치 악센트 파서입니다.
일본어 원문에서 읽기 쉬운 피치 악센트로.
이 시스템은 검증된 형태소 분석, 어휘 피치 토큰 결합, 맞춤 규칙 엔진을 결합합니다. 목표는 단순해 보입니다. 파싱 결과를 만들어 낸 적용 규칙과 문법 판단을 숨기지 않으면서, 어렵고 추상적인 피치 악센트 정보를 학습자가 직접 읽을 수 있는 형태로 바꾸는 것입니다.
문장 토큰화
입력 텍스트는 MeCab과 UniDic을 통해 단어 객체로 나뉩니다. 각 토큰은 이후 판단에 필요한 정보인 표층형, 표제어, 읽기, 품사, 활용 정보, 피치 하강 후보, 문법 메타데이터를 담고 있습니다.
피치 토큰 결합
사전 또는 결합기 조회 결과 인접한 형태소 토큰들이 하나의 악센트구처럼 작동한다고 판단되면, 더 큰 피치 단위로 병합됩니다.
문맥 규칙 적용
어휘 피치 토큰 결합 후, 문장 단위 규칙 엔진은 접미사 악센트, 조사, 조동사, 활용, 복합어, 문법 경계, 알려진 예외를 처리한 뒤 문맥 속 악센트가 어떻게 작동할지 결정합니다.
결과 렌더링
파싱된 데이터는 구조화된 출력으로 프런트엔드에 전달되고, 후리가나, 피치 하강 표시, 무성화 표시, 색상으로 구분된 패턴 분류, 적용된 규칙에 대한 클릭 가능한 설명을 포함한 읽기 쉬운 일본어로 렌더링됩니다.
장난감 예제가 아니라 실제 산문에서 측정했습니다.
입력이 깔끔한 사전 표제어가 아니게 되면 피치 악센트 파싱은 어려워집니다. 그래서 akusento는 복합어, 이름, 가나 표기, 조사, 접미사, 모호한 읽기가 자연스럽게 등장하는 장편 소설 텍스트를 대상으로 꾸준히 스트레스 테스트됩니다.
벤치마크 수집 방법
현재 프로덕션 벤치마크는 村上春樹『ねじまき鳥クロニクル』第3部의 실제 미가공 산문을 대상으로 계속 검수됩니다. 평가는 의도적으로 엄격한 기준을 따릅니다. akusento의 출력을 전문 오디오북 낭독과 모라 단위로 대조하고, 피치, 읽기, 청킹, 문맥상의 차이가 보일 때마다 멈춰 분석하고 조사합니다. 체계적인 파서 문제를 반영하는 차이만 엔진 오류로 기록합니다.
기록된 각 오류는 복합 규칙, 품사, 경계 청킹, 문맥 의존 동음이의어 같은 매우 세분화된 실패 유형으로 나뉩니다. 이러한 구조적 투명성은 어휘 조회의 한계와 실제 문맥 실행 시의 실패를 구분하는 구체적인 알고리즘 디버깅 루프를 만듭니다.
- 57 복합 문제
- 47 피치 문제
- 31 청킹 문제
- 21 문맥 의존 동음이의어
- 16 읽기 문제
- 7 품사 문제
정확도 점수가 인위적으로 부풀려지지 않도록, 이 추정치는 오류 사이의 원시 문자 간격을 동적으로 계산된 토큰당 2.37자 지표를 사용해 다시 단어로 환산합니다. 이 값은 검수 대상 텍스트에서 は, が, に 등 한 글자 히라가나 문법 조사와 문장부호를 엄격히 제외해 직접 산출했습니다. 그 결과 벤치마크는 복잡한 복합어, 활용 동사, 고유명사 같은 핵심 내용어에 대한 엔진 성능만 측정합니다.
이 엄격한 평가는 파서가 한 번의 실수를 하기 전까지 평균 약 658자(대략 문학 문장 19개 연속)에 해당하는 무오류 구간으로 환산됩니다. 비표준적인 작가 고유 표기 차이는 안전하게 표시되어 이러한 핵심 평가 지표에서 체계적으로 분리됩니다.
저작권상의 이유로 공개 보고서에서는 문장 문맥을 제거했습니다.
이 숫자가 실제로 의미하는 것: 이 벤치마크는 실제 문학 텍스트에 대해 내부적으로 수동 검수한 개발 실행 결과이며, 가능한 모든 입력이 99.64% 정확하다는 보편적 주장이 아닙니다. 투명성이 중요하기 때문에 공개하는 것입니다. 오류는 집계되고, 분류되며, 파서를 개선하는 데 사용됩니다.
복잡성을 숨기지 않는 읽기 쉬운 출력.
조회보다 문맥
사전은 유용하지만 일본어는 고립된 표제어로 말해지지 않습니다. akusento는 무엇이 앞에 오고, 무엇이 뒤에 오며, 문법이 악센트 형태를 어떻게 바꾸는지라는 문장 문맥을 중심으로 만들어졌습니다.
설명 가능한 규칙
파서가 문장 단위 규칙을 적용하면 프런트엔드는 그 결정을 보여 줍니다. 덕분에 이 도구는 결정론적인 답변 기계일 뿐 아니라 학습을 위한 표면으로도 유용합니다.
현실의 예외 사례
규칙 시스템은 실제 실패 사례를 통해 형성됩니다. 모호한 읽기, 조수사 표현, 어휘 피치 토큰 결합, 접미사 동작, 무핵화 연쇄, 동사-명사 모호성, 문법 경계 주변의 문장부호 등이 여기에 포함됩니다.
표준 도쿄식 일본어
akusento는 표준 도쿄식 피치 악센트에 초점을 맞춥니다. 고유명사, 방언형, 드문 문학 표현, 창의적인 표기는 여전히 어려울 수 있지만, 기록된 각 오류는 구체적인 개선 경로가 됩니다.
연구 미리보기
akusento는 현재 활발히 개발 중인 연구 미리보기입니다. 공개 사이트에는 문서, 캐시된 파서 예시, 인터페이스의 정적 미리보기가 포함되어 있으며, 실시간 파서 백엔드는 테스트 기간 동안 비공개로 유지됩니다.
개발은 악센트 규칙 범위, 파서 정확도, 평가 방법, 설명 가능한 출력 개선에 집중하고 있습니다. 파서가 더 넓은 사용을 감당할 준비가 되면 백엔드 공개 접근을 계획하고 있습니다.
일본어를 배우고 있거나, 피치 악센트를 가르치거나, 일본어 도구를 다루거나, 파서의 기술적 측면에 관심이 있다면, 이 비공개 미리보기 기간의 피드백을 특히 환영합니다.
akusento 테스트나 피드백 공유에 관심이 있나요? 문의 hello@akusento.com.