본문 바로가기

Board/News

음성 AI 분야 세계적 권위 학회 INTERSPEECH에 채택

지능형음성대화시스템연구실(ISDS) 연구팀 석사과정생 논문 2

음성 AI 분야 세계적 권위 학회 INTERSPEECH에 채택

 

▲ (위 왼쪽부터컴퓨터공학과 구명완 교수인공지능학과 최예린 석사과정생

(아래 왼쪽부터인공지능학과 연희연김민주 석사과정생

 

본교 인공지능학과 석사과정생들이 연구한 음성 합성(Text-to-Speech, TTS) 기술과 음성 언어 이해(Spoken Language Understanding, SLU) 기술이 세계적 권위의 음성 언어 처리 학회에 발표된다.

 

컴퓨터공학과 구명완 교수가 지도하는 지능형음성대화시스템연구실(ISDS) 연구팀 소속 석사과정생들이 투고한 논문 2편이 오는 8월 20~24(현지시간아일랜드 더블린에서 열리는 INTERSPEECH 2023에 채택되었다.

 

대학원 인공지능학과 최예린 석사과정생(석사 3학기)과 구명완 교수(교신저자)의 음성 합성 연구 ‘DC CoMix TTS: An End-to-End Expressive TTS with Discrete Code Collaborated with Mixer’는 합성 음성의 감정 표현을 더 풍부하게 할 수 있는 기술을 선보였다연구팀은 음성 합성 시 운율과 같은 음향 정보를 풍부하게 담을 수 있도록 오디오 코덱 모델(Neural Audio Codec model)에서 추출한 양자화 벡터를 모델 입력값으로 사용하는 방법을 제안했다이 방법으로 정성적인 평가뿐만 아니라 정량 평가에 대해 화자 독립적인 운율 표현에 대해 성능이 향상됨을 입증했다.

 

 

▲ 인공지능학과 최예린 석사과정생이 제안한 DcCoMix TTS 구조 개요도

 

동일한 학과 연희연(석사 3학기김민주(석사 2학기석사과정생(공동 1저자)과 구명완 교수(교신저저자)의 논문 I Learned Error, I Can Fix It! : A Detector-Corrector Structure for ASR Error Calibration’은 발화 음성에 대한 음성인식 오류를 자동 교정하는 모델을 제안했다음성인식 오류는 음성 대화 파이프라인의 언어 이해 성능을 저해하는 대표적인 문제로 꼽힌다연구팀이 제안한 모델은 음성인식 오류를 다양하게 시뮬레이션하며 학습한 탐지기(Detector)와 오류로 탐지된 구간을 올바른 구절로 예측하도록 학습한 교정기(Corrector) 구조로 구성됐다연구팀은 제안 모델로 음성 언어 이해 관련 하위 과제 성능이 향상됨을 실험적으로 입증했다.

 

▲ 인공지능학과 연희연·김민주 석사과정생이 제안한 Detector-Corrector 구조 개요도

 

두 연구는 공학 연구 이력이 비교적 짧은 석사과정생들로만 구성된 연구팀이 국제 학술대회에서 일궈낸 성과이다해당 논문들을 저술한 학생들은 지난해 개설된 인공지능학과 1·2기생들이다모두 학부에서 경제학(최예린국문학(김민주아트&테크놀로지(연희연등 인문·사회계열 학문 또는 융합 학문을 전공했다.

 

구 교수는 “INTERSPEECH는 음성 분야 전 세계 최우수 연구자들이 연구를 공유하는 자리로서 본교 석사과정생들이 이들과 어깨를 나란히 하는 연구를 하고 있다는 것을 의미한다라며, “앞으로도 지도 학생들이 음성 및 언어 처리 연구에서 창의적인 문제 해결 방식을 찾을 수 있도록 지도하겠다라고 전했다.

 

 

 

출처: 서강피플 (https://sogang.ac.kr/gopage/goboard2.jsp?bbsConfigFK=58&pkid=537350)