지능형음성대화시스템연구실(ISDS) 연구팀 석사과정생 논문 2편,
음성 AI 분야 세계적 권위 학회 INTERSPEECH에 채택
▲ (위 왼쪽부터) 컴퓨터공학과 구명완 교수, 인공지능학과 최예린 석사과정생
(아래 왼쪽부터) 인공지능학과 연희연, 김민주 석사과정생
본교 인공지능학과 석사과정생들이 연구한 음성 합성(Text-to-Speech, TTS) 기술과 음성 언어 이해(Spoken Language Understanding, SLU) 기술이 세계적 권위의 음성 언어 처리 학회에 발표된다.
컴퓨터공학과 구명완 교수가 지도하는 지능형음성대화시스템연구실(ISDS) 연구팀 소속 석사과정생들이 투고한 논문 2편이 오는 8월 20~24일(현지시간) 아일랜드 더블린에서 열리는 INTERSPEECH 2023에 채택되었다.
대학원 인공지능학과 최예린 석사과정생(석사 3학기)과 구명완 교수(교신저자)의 음성 합성 연구 ‘DC CoMix TTS: An End-to-End Expressive TTS with Discrete Code Collaborated with Mixer’는 합성 음성의 감정 표현을 더 풍부하게 할 수 있는 기술을 선보였다. 연구팀은 음성 합성 시 운율과 같은 음향 정보를 풍부하게 담을 수 있도록 오디오 코덱 모델(Neural Audio Codec model)에서 추출한 양자화 벡터를 모델 입력값으로 사용하는 방법을 제안했다. 이 방법으로 정성적인 평가뿐만 아니라 정량 평가에 대해 화자 독립적인 운율 표현에 대해 성능이 향상됨을 입증했다.
▲ 인공지능학과 최예린 석사과정생이 제안한 DcCoMix TTS 구조 개요도
동일한 학과 연희연(석사 3학기)·김민주(석사 2학기) 석사과정생(공동 1저자)과 구명완 교수(교신저저자)의 논문 ‘I Learned Error, I Can Fix It! : A Detector-Corrector Structure for ASR Error Calibration’은 발화 음성에 대한 음성인식 오류를 자동 교정하는 모델을 제안했다. 음성인식 오류는 음성 대화 파이프라인의 언어 이해 성능을 저해하는 대표적인 문제로 꼽힌다. 연구팀이 제안한 모델은 음성인식 오류를 다양하게 시뮬레이션하며 학습한 탐지기(Detector)와 오류로 탐지된 구간을 올바른 구절로 예측하도록 학습한 교정기(Corrector) 구조로 구성됐다. 연구팀은 제안 모델로 음성 언어 이해 관련 하위 과제 성능이 향상됨을 실험적으로 입증했다.
▲ 인공지능학과 연희연·김민주 석사과정생이 제안한 Detector-Corrector 구조 개요도
두 연구는 공학 연구 이력이 비교적 짧은 석사과정생들로만 구성된 연구팀이 국제 학술대회에서 일궈낸 성과이다. 해당 논문들을 저술한 학생들은 지난해 개설된 인공지능학과 1·2기생들이다. 모두 학부에서 경제학(최예린)·국문학(김민주)·아트&테크놀로지(연희연) 등 인문·사회계열 학문 또는 융합 학문을 전공했다.
구 교수는 “INTERSPEECH는 음성 분야 전 세계 최우수 연구자들이 연구를 공유하는 자리로서 본교 석사과정생들이 이들과 어깨를 나란히 하는 연구를 하고 있다는 것을 의미한다”라며, “앞으로도 지도 학생들이 음성 및 언어 처리 연구에서 창의적인 문제 해결 방식을 찾을 수 있도록 지도하겠다”라고 전했다.
출처: 서강피플 (https://sogang.ac.kr/gopage/goboard2.jsp?bbsConfigFK=58&pkid=537350)
'Board > News' 카테고리의 다른 글
구명완 교수 연구팀, 음성 분야 국제 학술대회 ‘ICASSP 2024’에 논문 채택 (1) | 2024.01.08 |
---|---|
KCC 2023 우수논문 및 우수발표논문상 총 4건 수상 (0) | 2023.08.31 |
자연어처리분야 인공지능 Top Tier 학회 ACL 논문 채택 (0) | 2023.05.23 |
AI 학습 데이터 활용 해커톤 대회 2건에서 각각 1등상 수상 쾌거 (0) | 2022.11.29 |
2022년도 한국연구재단 인문·사회 융복합연구 지원사업 선정 (0) | 2022.08.19 |