구명완 컴퓨터공학과 교수가 지도하는 지능형음성대화인터페이스 연구팀(ISDS)이 ‘2024 국제 음향 음성 신호처리 학술대회’ (IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2024)에 발표한 논문이 최종 채택됐다.
▲ (왼쪽부터) 컴퓨터공학과 구명완 교수, 인공지능학과 이지현 석사과정생, 최예린 석사과정생
대학원 인공지능학과 이지현·최예린 석사과정생(석사 4학기, 공동 1저자)과 송태진 이화여대 의과대학 교수, 구명완 교수(교신저자)는 뇌졸중 후 마비말 장애 환자의 발화 음성에서 부적절한 쉼을 탐지하는 딥러닝 기반 음성인식 기술을 ICASSP 2024에 발표한다고 밝혔다. (논문 제목: ‘Inappropriate Pause Detection in Dysarthric Speech Using Large-Scale Speech Recognition’)
마비말 장애는 뇌졸중과 같은 신경계의 병변으로 인해 발생하는 운동성 언어장애를 통칭하는 표현이다. 뇌졸중 환자의 약 50%가 마비말 장애를 겪는다고 알려져 있다.
연구팀은 마비말 장애 환자의 대표 증상인 ‘부적절한 쉼’이 환자 발화의 어느 지점에서 나타나는지 판별하는 음성인식 기반 부적절한 쉼 탐지 모델을 개발했다. 부적절한 쉼은 문장을 따라 읽는 등 긴 문장을 발화할 때 보통 정상인들이 호흡하는 곳과 다른 곳에서 호흡하는 증상이다. 발화 음성에서 부적절한 쉼이 나타나는 정도를 토대로 마비말 장애 여부 및 정도를 판별할 수 있다.
연구팀은 부적절한 쉼 탐지 모델을 훈련하기 위한 데이터 레이블링 방법론도 제안했다. 환자가 소리 내어 읽어야 하는 문장 텍스트에 적절한 쉼이 나타난 부분과 부적절한 쉼이 나타난 부분을 별도 정의한 토큰(인공지능 모델이 단어를 인식하는 단위)으로 표기하는 방식이다. 연구팀은 이렇게 ‘쉼 토큰’을 추가한 텍스트를 정답 값으로 하여 전체 모델을 훈련하는 방법도 보였다. 대규모 음성인식 모델이 환자의 음성 내에서 끊어 읽은 부분을 ‘쉼 토큰’으로 예측하도록 한 뒤, 예측된 ‘쉼 토큰’이 부적절한 지를 판별하도록 모델을 훈련했다.
▲ 연구팀이 논문에서 제안한 부적절 쉼 탐지 모델 구조
이번 연구에 참여한 석사과정생들은 모두 인공지능학과 1기이자 스마일게이트가 후원하는 DHE(Digital Human Entertainment) 장학생이다. 이들은 “석사 마지막 학기에 뜻 깊은 성과를 이루어서 행복하다”라며 “지식을 쌓고 새로운 연구를 통해 사회에 기여하는데 노력하고 싶다”라고 소감을 밝혔다.
구 교수는 “앞으로도 지속적인 연구 활동으로 음성 및 언어 처리 분야에서 효과적인 방법론을 개발하도록 지도하겠다”라고 말했다.
한편 ICASSP는 100여개국 2만여 명의 회원이 가입되어 있는 음성신호처리 분야 세계 최대 규모 학회이다. 주관인 미국 전기전자협회(IEEE) 소속 학회 중에서도 규모가 크고 오래된 학회로 알려져 있다. 오는 2024년에 열리는 ICASSP 2024는 4월 14~19일 서울 강남구 코엑스에서 개최된다.
'Board > News' 카테고리의 다른 글
KCC 2023 우수논문 및 우수발표논문상 총 4건 수상 (0) | 2023.08.31 |
---|---|
음성 AI 분야 세계적 권위 학회 INTERSPEECH에 채택 (0) | 2023.05.23 |
자연어처리분야 인공지능 Top Tier 학회 ACL 논문 채택 (0) | 2023.05.23 |
AI 학습 데이터 활용 해커톤 대회 2건에서 각각 1등상 수상 쾌거 (0) | 2022.11.29 |
2022년도 한국연구재단 인문·사회 융복합연구 지원사업 선정 (0) | 2022.08.19 |