과제 수행 기간
2025.07.01-2028.12.31 (3년 6개월)
과제 목표
NC AI 주관으로 서강대, KAIST, UNIST 컨소시엄 구성.
서강대의 경우 Video-to-Audio 생성 AI 개발 프로젝트를 담당
기존의 Video-to-audio 생성 모델은 단일 트랙으로 구성된 오디오 트랙을 생성하므로,
사운드 디자이너가 생성 결과를 편집하는데에 제한이 있었음.
본 과제에서는 다양한 유형의 추론 및 생성 기술들을 조합하여 비디오에 어울리는 오디오를 멀티트랙으로 생성하는 것을 목표로 함.
또한, 생성 AI 모델링 및 멀티 모달리티에 대한 다룸이 능숙한 생성AI 선도인재들을 양성하고자 함.
연차별 계획
1차년도
- Task1 : Video-to-Audio 통합 신경망구조 설계
- Task2: 이벤트감지와 SFX Onset 예측 기반 기술 조사 및 설계
- Task3 : 생성 모델 Baseline 구축 및 데이터셋 통합
- Task4: 비디오 설명 생성 기반 기술 조사 및 프로토타입 개발
- Task5: SFX Annotation 및 멀티모달 검색 베이스라인 구축
- Task6: Large Audio-Language Model을 통한 Audio 이해와 추론 및 평가
2차년도
- Task1: Video-to-Audio 베이스라인 및 데이터 전처리 기술 확보
- Task2 : 핵심 모듈 개발 및 성능 평가
- Task3 : 생성 음질 고도화 및 하이브리드 시스템 개발
- Task4: 설명 생성 고도화 및 구조화 표현 변환 기술 개발
- Task5: 멀티모달 임베딩 및 검색 초도 기술 개발
- Task6: Large Audio-Language Model을 통한 Audio 이해와 추론 및 평가
3차년도
- Task1: Video-to-Audio 통합 구조 실험 및 데이터 증강 기술 연구
- Task2: 복합 이벤트 대응 및 시스템 통합
- Task3 : 하이브리드 시스템 고도화 및 모델 경량화
- Task4: 고난이도 영상 대응 및 파이프라인 통합
- Task5: 멀티모달 검색 기술 확대 개발
- Task6: Large Audio-Language Model을 통한 Audio 이해와 추론 및 평가
참여범위
ISDS 연구실은 Task1 및 Task5를 담당
연구 내용
- Task1 : 멀티모달 혼합 학습을 위한 통합 구조 및 데이터 증강 연구
- 멀티모달 훈련 및 추론을 위한 신경망 통합 구조 연구 및 비교 실험
- 통합 품질 평가 지표 확보
- 멀티모달 혼합 학습을 위한 데이터 전처리 기술 연구
- 멀티모달 혼합 학습을 위한 데이터 증강 기술 연구
- 데이터 품질 평가 지표 확보
- Task5 : SFX Annotation 및 멀티모달 검색 기술 개발
- Sound Annotation 및 멀티모달 Embedding 기반 연구
- Text / Audio 기반 Embedding 시스템 개발
- Text / Audio 기반 멀티모달 검색 기술 개발
- LALM(Task6) 기반 SFX Annotation Expansion 기술 개발
- Mixed Modality 기반 Embedding 시스템 확대 개발
- 자연어/Sound/Image 멀티모달 검색 기술 개발
- Self-Validation에 기반한 검색 품질 향상 연구


'Projects > Current' 카테고리의 다른 글
| [국가대표 K-AI] 글로벌 프런티어 파운데이션 모델 개발 및 국내 AI 혁신 생태계 조성 프로젝트 (0) | 2026.01.13 |
|---|---|
| "사회적, 윤리적 학습을 위한 데이터 특성 및 생성 AI 모델의 윤리성 향상 연구" 국책과제 (0) | 2026.01.13 |
| 멀티 에이전트에 기반한 농작물 멀티모달 질의응답 시스템 개발 (0) | 2026.01.13 |
| 대화 기반 설명가능성을 멀티모달로 제공하는 인공지능 기술 개발 (0) | 2023.01.30 |
| 인공지능 기반 어린이 독서활동 지원 로봇 및 서비스 콘텐츠 개발 (0) | 2023.01.06 |