[참여 과제]
NIA 인공지능 학습용 데이터 구축 사업 - 분야13
- 언어교육용 서양어, 아시아어 사용자의 한국어 음성 데이터 -
과제 수행 기간
2022. 4. 1. ~ 2022. 11. 30. (8개월) +연장 (~2023. 1. 31. )
연차별 계획
- 1년차 : 데이터 설계 및 수집·정제, 가공·검증, 검수·품질관리
- 영어·유럽어·중일어·아시아어 사용자의 한국어 음성 데이터 대상
- 2년차 : AI 모델 및 응용 서비스 개발 및 최종 산출물 작성
참여 범위
- 수집 데이터 중 말하기 평가용 데이터의 AI 학습 활용 가능성 및 적절성을 검증하기 위한 AI 프로그램 연구개발 및 적용, AI 검증 진행
- 영어·유럽어·중일어·아시아어 언어권별 말하기 문항별 AI 모델링
연구 내용
- Transformer 기반 말하기 숙달도(Proficiency) 평가 모델 개발
- 한국어 말하기 시험에서의 외국인 자유 발화 답변 음성을 발화자의 모국어 언어권별 및 문항 유형별로 자동 평가하는 Transformer 기반 평가 시스템
- 언어권 분류 : 영어권 / 유럽어권 / 중일어권 / 아시아어권(중·일어권 언어 제외)
- 문항 유형
- 질문에 답하기
- 의견 말하기
- 도표 설명
- 화행 과제 수행
- 개인적 주제 말하기
- 숙달도 평가 등급 체계 : 5등급 (1~5)
- 한국어 말하기 시험에서의 외국인 자유 발화 답변 음성을 발화자의 모국어 언어권별 및 문항 유형별로 자동 평가하는 Transformer 기반 평가 시스템
- 최종 모델 분류 성능 목표
- Weighted Classification Error (WCE) 30% 이하
- [참고] WCE(%) = 100 x 0.2 x |Ref - Output|
- Ref : 실제 숙달도
- Output : 모델 예측 숙달도
- [참고] WCE(%) = 100 x 0.2 x |Ref - Output|
- Weighted Classification Error (WCE) 30% 이하
외국어 모국어 화자의 한국어 말하기 문항 숙달도 평가 모델 구조도
'Projects > Current' 카테고리의 다른 글
대화 기반 설명가능성을 멀티모달로 제공하는 인공지능 기술 개발 (0) | 2023.01.30 |
---|---|
인공지능 기반 어린이 독서활동 지원 로봇 및 서비스 콘텐츠 개발 (0) | 2023.01.06 |
무분별적 유해성 미디어 배포 문제 해결을 위한 지능적 분석분류 기반 콘텐츠 등급분류 기술 (0) | 2023.01.06 |