본문 바로가기

Projects/Current

[국가대표 K-AI] 글로벌 프런티어 파운데이션 모델 개발 및 국내 AI 혁신 생태계 조성 프로젝트

과제 수행 기간

2025.08.01-2027.12.31 (2년 5개월)

과제 목표

본 컨소시엄은 실용성과 경쟁력 을 겸비한 글로벌 프런티어 파운데이션 모델 개발을 목표로 함.

모델 개발의 전 과정을 독자기술 기반으로 (1) 새로 학습 (From scratch) (2) Sparse (Mixture-of-Experts)로 개발하고,
본 과정의 산출물을 오픈소스화 하여 AI 우수 인재가 지속적으로 유입될 수 있는 생태계 조성에 기여하고자 함.

단계별 계획

1단계 : 글로벌 프런티어 성능의 100B급 파운데이션 언어모델을 MoE로 개발

  • 한·영·일 3개국어 중심의 100B급 파운데이션 언어모델 개발, 성능 목표는 글로벌 프런티어 모델의 4대 핵심 성능 달성.
  • 고품질 학습/평가 데이터셋을 주요 도메인 및 실사용 성능을 표현할 수 있게 구축.
  • VLM 개발에 필요한 학습데이터 확보 시작
  • Backend.AI 기반 대규모 GPU 클러스터의 안정적, 효율적 학습 환경 구성
  • 서빙 최적화 연구 진행
  • RAG 기술 고도화 연구 진행 및 프로토타입 구축

2단계 : 초장문 컨택스트 처리 (1M+), 멀티모달 능력 확보, 아세안 언어로 확장

  • 200B 규모의 LLM에 대한 한·영·일 언어 성능 향상 및 1M+ 초장문 컨텍스트 처리 능력 확보.
  • 아세안 언어를 포함한 범용 다국어 모델로 확장함과 동시에 VLM 모델 개발 시작
  • 멀티모달 및 저자원 언어 데이터와 함께 의료·금융·법률 등 핵심 분야의 QA·지식 그래프·설명형 데이터셋 구축
  • VLM 특화 벤치마크 최적화 지원, GPU 메모리 오버커밋 기술 개발 및 AI 모델 서빙 failover 시스템 구축
  • NPU 버전에 따른 Graph Optimization 및 Weight/Activation 양자화 연구 진행

3단계 : 300B급 초거대 파운데이션 LLM/VLM 및 경량 모델 라인업 확보

  • 300B 규모의 초거대 LLM을 Sparse(MoE) 구조로 설계 및 1B~32B 범위의 다양한 Dense 서브모델과
    VLM 라인업을 구성하여 경량 디바이스 대응과 운영 유연성 확보
  • 모델 평가 과정을 통해 전문 도메인 QA & CoT 데이터, 사용자 선호 & 안정성 데이터, 아세안 언어 코퍼스 등의
    다양한 데이터 품질 향상 및 고도화
  • Freezing을 접목한 분산학습 기법 구축 및 Freezing Ratio 최적화를 통해 학습 효율성 극대화
  • Backend.AI Continuum 모델 라우터 기반 사용자 단위 서빙 제어기술 고도화 및 모델 학습·평가·배포 파이프라인을
    패키지·오픈소스화하여 AI 오픈 생태계 확장

참여범위

업스테이지 주관으로 서강대, KAIST 컨소시엄 구성.
ISDS는 한국문화를 반영하는 멀티모달 데이터 증강 기술 및 평가 벤치마크 개발을 담당.

연구 내용

- 한국문화를 반영하는 멀티모달 데이터 증강 기술 및 평가 벤치마크 개발

  • 멀티모달 영역에서의 한국문화 반영을 위한 학습 데이터 증강 기술 개발
  • 평가 벤치마크 개발
  • (평가지표) 1K 규모의 한국문화 반영 멀티모달 AI 평가데이터 구축
  • (주요 산출물) 한국어 문화 영역 Taxonomy 구축
  • (주요 산출물) 멀티모달 한국 문화 반영 평가 벤치 마크 구축
  • (오픈 소스 공개) 한국어 문화 영역 Taxonomy 공개

- 멀티모달 영역에서의 한국 및 다국 문화 반영을 위한 학습 데이터 증강

  • 멀티모달 영역에서의 한국문화 반영을 위한 학습 데이터 증강으로 학습 데이터 확보
  • 멀티모달 영역에서의 다국의 문화 반영을 위한 학습 데이터 확대
  • (평가지표) 20K 규모의 한국 / 다국 문화 반영 멀티모달 AI 학습용 데이터 구축
  • (평가지표) 컨퍼런스 논문 실적 1편
  • (주요 산출물) 멀티모달 영역의 한국 / 다국 문화 학습을 위한 학습 데이터
  • (오픈 소스 공개) 멀티모달 한국 문화 반영 평가 벤치마크 공개로 한국형 AI 모델 기반 생태계 활성화 , 다국어 문화를 반영하는 멀티모 달 학습 데이터 증강 기술 공개로 한국형 AI모델의 다국어 문화 반영 확대 기 여

- 아세안 언어에서의 각국의 문화 반영을 위한 멀티모달 평가 / 학습 데이터 구축 확대

  • 멀티모달 영역에서의 한국문화 반영을 위한 학습 데이터 증강으로 학습 데이터 확보
  • (평가지표) 학회 논문 실적 1편
  • (평가지표) 25K 규모 다국어 문화 반영 멀티모달 AI 학습 / 평가 데이터 구축
  • (주요 산출물) 다국어 문화를 반영하는 멀티모달 AI모델의 평가 / 학습 데이터 증강 기술 공개
  • (주요 산출물) 다국어 문화 반영하는 멀티모달 평가 / 학습 데이터 공개
  • (오픈 소스 공개) 다국어 문화 반영하는 멀티모달 평가 / 학습 데이터 공개