과제 수행 기간
2025.08.01-2027.12.31 (2년 5개월)
과제 목표
본 컨소시엄은 실용성과 경쟁력 을 겸비한 글로벌 프런티어 파운데이션 모델 개발을 목표로 함.
모델 개발의 전 과정을 독자기술 기반으로 (1) 새로 학습 (From scratch) (2) Sparse (Mixture-of-Experts)로 개발하고,
본 과정의 산출물을 오픈소스화 하여 AI 우수 인재가 지속적으로 유입될 수 있는 생태계 조성에 기여하고자 함.
단계별 계획
1단계 : 글로벌 프런티어 성능의 100B급 파운데이션 언어모델을 MoE로 개발
- 한·영·일 3개국어 중심의 100B급 파운데이션 언어모델 개발, 성능 목표는 글로벌 프런티어 모델의 4대 핵심 성능 달성.
- 고품질 학습/평가 데이터셋을 주요 도메인 및 실사용 성능을 표현할 수 있게 구축.
- VLM 개발에 필요한 학습데이터 확보 시작
- Backend.AI 기반 대규모 GPU 클러스터의 안정적, 효율적 학습 환경 구성
- 서빙 최적화 연구 진행
- RAG 기술 고도화 연구 진행 및 프로토타입 구축
2단계 : 초장문 컨택스트 처리 (1M+), 멀티모달 능력 확보, 아세안 언어로 확장
- 200B 규모의 LLM에 대한 한·영·일 언어 성능 향상 및 1M+ 초장문 컨텍스트 처리 능력 확보.
- 아세안 언어를 포함한 범용 다국어 모델로 확장함과 동시에 VLM 모델 개발 시작
- 멀티모달 및 저자원 언어 데이터와 함께 의료·금융·법률 등 핵심 분야의 QA·지식 그래프·설명형 데이터셋 구축
- VLM 특화 벤치마크 최적화 지원, GPU 메모리 오버커밋 기술 개발 및 AI 모델 서빙 failover 시스템 구축
- NPU 버전에 따른 Graph Optimization 및 Weight/Activation 양자화 연구 진행
3단계 : 300B급 초거대 파운데이션 LLM/VLM 및 경량 모델 라인업 확보
- 300B 규모의 초거대 LLM을 Sparse(MoE) 구조로 설계 및 1B~32B 범위의 다양한 Dense 서브모델과
VLM 라인업을 구성하여 경량 디바이스 대응과 운영 유연성 확보 - 모델 평가 과정을 통해 전문 도메인 QA & CoT 데이터, 사용자 선호 & 안정성 데이터, 아세안 언어 코퍼스 등의
다양한 데이터 품질 향상 및 고도화 - Freezing을 접목한 분산학습 기법 구축 및 Freezing Ratio 최적화를 통해 학습 효율성 극대화
- Backend.AI Continuum 모델 라우터 기반 사용자 단위 서빙 제어기술 고도화 및 모델 학습·평가·배포 파이프라인을
패키지·오픈소스화하여 AI 오픈 생태계 확장
참여범위
업스테이지 주관으로 서강대, KAIST 컨소시엄 구성.
ISDS는 한국문화를 반영하는 멀티모달 데이터 증강 기술 및 평가 벤치마크 개발을 담당.
연구 내용
- 한국문화를 반영하는 멀티모달 데이터 증강 기술 및 평가 벤치마크 개발
- 멀티모달 영역에서의 한국문화 반영을 위한 학습 데이터 증강 기술 개발
- 평가 벤치마크 개발
- (평가지표) 1K 규모의 한국문화 반영 멀티모달 AI 평가데이터 구축
- (주요 산출물) 한국어 문화 영역 Taxonomy 구축
- (주요 산출물) 멀티모달 한국 문화 반영 평가 벤치 마크 구축
- (오픈 소스 공개) 한국어 문화 영역 Taxonomy 공개
- 멀티모달 영역에서의 한국 및 다국 문화 반영을 위한 학습 데이터 증강
- 멀티모달 영역에서의 한국문화 반영을 위한 학습 데이터 증강으로 학습 데이터 확보
- 멀티모달 영역에서의 다국의 문화 반영을 위한 학습 데이터 확대
- (평가지표) 20K 규모의 한국 / 다국 문화 반영 멀티모달 AI 학습용 데이터 구축
- (평가지표) 컨퍼런스 논문 실적 1편
- (주요 산출물) 멀티모달 영역의 한국 / 다국 문화 학습을 위한 학습 데이터
- (오픈 소스 공개) 멀티모달 한국 문화 반영 평가 벤치마크 공개로 한국형 AI 모델 기반 생태계 활성화 , 다국어 문화를 반영하는 멀티모 달 학습 데이터 증강 기술 공개로 한국형 AI모델의 다국어 문화 반영 확대 기 여
- 아세안 언어에서의 각국의 문화 반영을 위한 멀티모달 평가 / 학습 데이터 구축 확대
- 멀티모달 영역에서의 한국문화 반영을 위한 학습 데이터 증강으로 학습 데이터 확보
- (평가지표) 학회 논문 실적 1편
- (평가지표) 25K 규모 다국어 문화 반영 멀티모달 AI 학습 / 평가 데이터 구축
- (주요 산출물) 다국어 문화를 반영하는 멀티모달 AI모델의 평가 / 학습 데이터 증강 기술 공개
- (주요 산출물) 다국어 문화 반영하는 멀티모달 평가 / 학습 데이터 공개
- (오픈 소스 공개) 다국어 문화 반영하는 멀티모달 평가 / 학습 데이터 공개

'Projects > Current' 카테고리의 다른 글
| [생성AI 선도인재양성사업] 멀티모달 AI 에이전트 시대에 적합한 실무형 AI인재 육성 프로그램 (0) | 2026.01.13 |
|---|---|
| "사회적, 윤리적 학습을 위한 데이터 특성 및 생성 AI 모델의 윤리성 향상 연구" 국책과제 (0) | 2026.01.13 |
| 멀티 에이전트에 기반한 농작물 멀티모달 질의응답 시스템 개발 (0) | 2026.01.13 |
| 대화 기반 설명가능성을 멀티모달로 제공하는 인공지능 기술 개발 (0) | 2023.01.30 |
| 인공지능 기반 어린이 독서활동 지원 로봇 및 서비스 콘텐츠 개발 (0) | 2023.01.06 |