본문 바로가기

Projects/Current

[생성AI 선도인재양성사업] 멀티모달 AI 에이전트 시대에 적합한 실무형 AI인재 육성 프로그램

과제 수행 기간

2025.07.01-2028.12.31 (3년 6개월)

과제 목표

NC AI 주관으로 서강대, KAIST, UNIST 컨소시엄 구성.

서강대의 경우 Video-to-Audio 생성 AI 개발 프로젝트를 담당

기존의 Video-to-audio 생성 모델은 단일 트랙으로 구성된 오디오 트랙을 생성하므로,
사운드 디자이너가 생성 결과를 편집하는데에 제한이 있었음.
본 과제에서는 다양한 유형의 추론 및 생성 기술들을 조합하여 비디오에 어울리는 오디오를 멀티트랙으로 생성하는 것을 목표로 함.
또한, 생성 AI 모델링 및 멀티 모달리티에 대한 다룸이 능숙한 생성AI 선도인재들을 양성하고자 함.

 

연차별 계획

1차년도 

  • Task1 : Video-to-Audio 통합 신경망구조 설계
  • Task2: 이벤트감지와 SFX Onset 예측 기반 기술 조사 및 설계
  • Task3 : 생성 모델 Baseline 구축 및 데이터셋 통합
  • Task4: 비디오 설명 생성 기반 기술 조사 및 프로토타입 개발
  • Task5: SFX Annotation 및 멀티모달 검색 베이스라인 구축
  • Task6: Large Audio-Language Model을 통한 Audio 이해와 추론 및 평가

2차년도 

  • Task1: Video-to-Audio 베이스라인 및 데이터 전처리 기술 확보
  • Task2 : 핵심 모듈 개발 및 성능 평가
  • Task3 : 생성 음질 고도화 및 하이브리드 시스템 개발
  • Task4: 설명 생성 고도화 및 구조화 표현 변환 기술 개발
  • Task5: 멀티모달 임베딩 및 검색 초도 기술 개발
  • Task6: Large Audio-Language Model을 통한 Audio 이해와 추론 및 평가

3차년도

  • Task1: Video-to-Audio 통합 구조 실험 및 데이터 증강 기술 연구
  • Task2: 복합 이벤트 대응 및 시스템 통합
  • Task3 : 하이브리드 시스템 고도화 및 모델 경량화
  • Task4: 고난이도 영상 대응 및 파이프라인 통합
  • Task5: 멀티모달 검색 기술 확대 개발
  • Task6: Large Audio-Language Model을 통한 Audio 이해와 추론 및 평가

참여범위

ISDS 연구실은 Task1 및 Task5를 담당

연구 내용

- Task1 : 멀티모달 혼합 학습을 위한 통합 구조 및 데이터 증강 연구

  • 멀티모달 훈련 및 추론을 위한 신경망 통합 구조 연구 및 비교 실험
  • 통합 품질 평가 지표 확보
  • 멀티모달 혼합 학습을 위한 데이터 전처리 기술 연구
  • 멀티모달 혼합 학습을 위한 데이터 증강 기술 연구
  • 데이터 품질 평가 지표 확보

- Task5 : SFX Annotation 및 멀티모달 검색 기술 개발

  • Sound Annotation 및 멀티모달 Embedding 기반 연구
  • Text / Audio 기반 Embedding 시스템 개발
  • Text / Audio 기반 멀티모달 검색 기술 개발
  • LALM(Task6) 기반 SFX Annotation Expansion 기술 개발
  • Mixed Modality 기반 Embedding 시스템 확대 개발
  • 자연어/Sound/Image 멀티모달 검색 기술 개발
  • Self-Validation에 기반한 검색 품질 향상 연구