본문 바로가기

Projects/Current

NIA 인공지능 학습용 데이터 구축 사업 - 언어교육용 서양어, 아시아어 사용자의 한국어 음성 데이터

isds랩짱 2023. 1. 6. 18:15

[참여 과제]

NIA 인공지능 학습용 데이터 구축 사업 - 분야13

- 언어교육용 서양어, 아시아어 사용자의 한국어 음성 데이터 -

과제 수행 기간

2022. 4. 1. ~ 2022. 11. 30. (8개월) +연장 (~2023. 1. 31. )

연차별 계획

1년차 : 데이터 설계 및 수집·정제, 가공·검증, 검수·품질관리
- 영어·유럽어·중일어·아시아어 사용자의 한국어 음성 데이터 대상
2년차 : AI 모델 및 응용 서비스 개발 및 최종 산출물 작성

참여 범위

수집 데이터 중 말하기 평가용 데이터의 AI 학습 활용 가능성 및 적절성을 검증하기 위한 AI 프로그램 연구개발 및 적용, AI 검증 진행
- 영어·유럽어·중일어·아시아어 언어권별 말하기 문항별 AI 모델링

연구 내용

Transformer 기반 말하기 숙달도(Proficiency) 평가 모델 개발
- 한국어 말하기 시험에서의 외국인 자유 발화 답변 음성을 발화자의 모국어 언어권별 및 문항 유형별로 자동 평가하는 Transformer 기반 평가 시스템
  - 언어권 분류 : 영어권 / 유럽어권 / 중일어권 / 아시아어권(중·일어권 언어 제외)
  - 문항 유형
    - 질문에 답하기
    - 의견 말하기
    - 도표 설명
    - 화행 과제 수행
    - 개인적 주제 말하기
  - 숙달도 평가 등급 체계 : 5등급 (1~5)

최종 모델 분류 성능 목표
- Weighted Classification Error (WCE) 30% 이하
  - [참고] WCE(%) = 100 x 0.2 x |Ref - Output|
    - Ref : 실제 숙달도
    - Output : 모델 예측 숙달도

외국어 모국어 화자의 한국어 말하기 문항 숙달도 평가 모델 구조도

'Projects > Current' 카테고리의 다른 글

"사회적, 윤리적 학습을 위한 데이터 특성 및 생성 AI 모델의 윤리성 향상 연구" 국책과제 (1)	2026.01.13
멀티 에이전트에 기반한 농작물 멀티모달 질의응답 시스템 개발 (0)	2026.01.13
대화 기반 설명가능성을 멀티모달로 제공하는 인공지능 기술 개발 (0)	2023.01.30
인공지능 기반 어린이 독서활동 지원 로봇 및 서비스 콘텐츠 개발 (0)	2023.01.06
무분별적 유해성 미디어 배포 문제 해결을 위한 지능적 분석분류 기반 콘텐츠 등급분류 기술 (0)	2023.01.06

티스토리툴바