본문 바로가기

Projects/Current

NIA 인공지능 학습용 데이터 구축 사업 - 언어교육용 서양어, 아시아어 사용자의 한국어 음성 데이터

[참여 과제]

NIA 인공지능 학습용 데이터 구축 사업 - 분야13

- 언어교육용 서양어, 아시아어 사용자의 한국어 음성 데이터 -

 

과제 수행 기간

  2022. 4. 1. ~ 2022. 11. 30. (8개월)      +연장 (~2023. 1. 31. )

연차별 계획

  • 1년차 : 데이터 설계 및 수집·정제, 가공·검증, 검수·품질관리
    • 영어·유럽어·중일어·아시아어 사용자의 한국어 음성 데이터 대상
  • 2년차 : AI 모델 및 응용 서비스 개발 및 최종 산출물 작성

참여 범위

  • 수집 데이터 중 말하기 평가용 데이터의 AI 학습 활용 가능성 및 적절성을 검증하기 위한 AI 프로그램 연구개발 및 적용, AI 검증 진행
    • 영어·유럽어·중일어·아시아어 언어권별 말하기 문항별 AI 모델링

연구 내용

  • Transformer 기반 말하기 숙달도(Proficiency) 평가 모델 개발
    • 한국어 말하기 시험에서의 외국인 자유 발화 답변 음성을 발화자의 모국어 언어권별 및 문항 유형별로 자동 평가하는 Transformer 기반 평가 시스템
      • 언어권 분류 : 영어권 / 유럽어권 / 중일어권 / 아시아어권(중·일어권 언어 제외)
      • 문항 유형
        • 질문에 답하기
        • 의견 말하기
        • 도표 설명
        • 화행 과제 수행
        • 개인적 주제 말하기
      • 숙달도 평가 등급 체계 : 5등급 (1~5)

 

  • 최종 모델 분류 성능 목표
    • Weighted Classification Error (WCE) 30% 이하
      • [참고] WCE(%) = 100 x 0.2 x |Ref - Output|
        • Ref : 실제 숙달도
        • Output : 모델 예측 숙달도

 

외국어 모국어 화자의 한국어 말하기 문항 숙달도 평가 모델 구조도