과제 수행 기간
2024.04.01-2026.12.31 (2년 9개월)
과제 목표
실세계의 다양한 보편적 특성, 도메인 특징에 부합하는 생성AI의 사회/윤리성에 대한 다 학제적 특성과 가이드라인을 수립하고 사회/윤리성 향상을 위한 지속 가능하고 확장성 있는 사회/윤리 종합 대응 서비스 플랫폼의 핵심 기술 개발, 공개 및 실증을 통한 확산
연차별 계획
1차년도 : 보편적인 사회/윤리적 편향 해소를 위한 특성 및 기초 연구 개발
- 사회/윤리성 표준 가이드라인 개발
- LLM-Guided 사회/윤리성 특화 Self-Instruct 학습데이터 생성 기술 개발
- 편향성 판단을 위한 텍스트 분류 기술 개발
- 사회/윤리성 판단 및 근거 제시 가능한 모델 / 전문가 편향 판단 모델 개발
- 생성AI의 사회/윤리성 연구를 위한 7B 수준의 LLM 확보
- 범용 사회/윤리성 판단 벤치마크 설계 및 구축, 학습 시드 데이터 구축
- 실증을 위한 시나리오 개발 및 구축
2차년도 : 확장가능한 사회/윤리적 편향 식별 기술 및 Ethics-GenAIOps 플랫폼 개발
- 도메인 별 사회/윤리성 평가 가리드라인 N개 개발
- 학습데이터 내 편향성 제거 기술 개발
- 사회/윤리성에 특화된 MoEE 학습 기술 개발
- 편향적 생성 방지를 위한 안전 디코딩 기술 개발
- 다학제적 진단을 위한 협동 네트워크 기반의 편향성 진단 기술 개발
- 멀티턴 대화 내 벤치마크 데이터셋 설계 및 구축, K-Culture 학습 시드 데이터 구축
- Ethics-GenAIOps 플랫폼 개발
3차년도 : Ethics-GenAIOps 플랫폼 유효성/실효성 입증 및 기술 고도화
- 사회/윤리성 평가 기준의 유연화 및 고도화
- 고품질 학습데이터 구축을 위한 학습데이터 구축기술 고도화
- 편향적 생성 억제를 위한 사회/윤리성 기준 안전 지침 프롬프트 생성 기술 개발
- 사용자 개인의 사회/윤리성 관점 고려하는 MoEE 학습 기술 개발
- 도메인 특화 모델의 사회/윤리성 거대모델로의 전이 기술 개발
- 리더보드 운영을 통한 벤치마크 데이터셋, Ethics-GenAIOps 플랫폼을 통한 기술 입증
참여범위
공동연구자로 사회/윤리성 향상을 위한 미세공격 평가 Instruct Set 구축 담당
연구 내용
- 미세공격 감지 Instruction Set을 통한 편향성 측정 방안 연구
- 사회학, 종교학, 철학, 국제한국학 등 다학제 간 연구를 통해 내재적 의미 기반 의 편향성 측정 방안을 연구하였으며,
실제 편향/차별 사례를 다양한 대상 집단 및 인식 주체에 기반하여 분석함. - 발화자 의도 유무와 상관없이, 대상에 대한 적대적·경멸적·부정적 편견이 포함되거나 사소한 일상의 언어·행동·환경적 모욕을
‘미세공격’으로 정의함. - 칭찬처럼 보일 수 있거나 암묵적인 편견이 드러나는 발화를 구체적인 상황 속에 서 감지하는 방식으로 편향성을 측정함.
- 미세공격 감지 평가 Instruction Set 개발
- 사회성/윤리성 평가를 위한 미세공격성이 드러나는 사지선다 형태의 Seed Instruction Set을 구축함.
- Instruction Set은 구체적인 상황에서 발화자와 행동, 미세공격 발화, 이후 상황 (결론)을 포함한 지문으로 구성됨.
- 구체적인 상황과 맥락이 제공되는 문단 형태의 발화 및 행동 지문이 미세공격성이 드러나는 문제 발화 100개와 같이 제공되며, 상황에 대한 종합적인 이해도 측정 및 미세공격 감지 평가를 사지선다 형태의 질문으로 구성한 시드 데이터셋 100문항을 개발함.
- 각 문항은 미세공격 대상, 미세공격성이 드러나는 상세한 주제와 함께 구성되 며, 도메인에 특화된 서브 셋으로 따로 구성됨.
- 다양한 도메인에 대한 미세공격성이 드러난 데이터 10문항을 선별하여 도메인과 관계없이 전반적인 미세공격에 대한 감지를 진행할 수 있는지 평가하는 서브 데이터셋을 구성함.
- 개발된 시드 데이터셋을 활용하여 사람에게 설문 조사를 진행하였으며, 해당 결과를 정성적으로 분석하여 편향성을 측정함.
- 같은 방식으로 대형언어모델의 결과를 분석하여 미세공격을 감지하는 정도를 파악하고 모델의 편향성을 측정함. 평가에 활용한 대형언어모델은 GPT-4o, Claude-3.5-sonnet, LLaMA 3.1 8B, EXAONE 3.0 8B임.
- 어휘론, 의미론을 활용한 Instruction Set 증강 파이프라인 설계
- 시드 데이터셋의 각 상황 및 대화문, 선택지를 어휘론, 문장 단위의 의미론을 활용하여 구체적인 상황 및 맥락을 중심으로 증강하는 파이프라인을 설계함.
- 파이프라인은 크게 딥러닝 기반 개체명 인식 모델 및 대형언어모델을 순차적으 로 활용한 어휘론적 지문 증강, 미세공격성이 드러나는 발화를 추출하여 증강하 며 맥락을 추가하는 의미론적 지문 증강, 주어진 지문에 의거하여 미세공격이 담긴 발화임을 인지하였는지 평가하는 선지를 증강하는 과정이 포함됨.

'Projects > Current' 카테고리의 다른 글
| [국가대표 K-AI] 글로벌 프런티어 파운데이션 모델 개발 및 국내 AI 혁신 생태계 조성 프로젝트 (0) | 2026.01.13 |
|---|---|
| [생성AI 선도인재양성사업] 멀티모달 AI 에이전트 시대에 적합한 실무형 AI인재 육성 프로그램 (0) | 2026.01.13 |
| 멀티 에이전트에 기반한 농작물 멀티모달 질의응답 시스템 개발 (0) | 2026.01.13 |
| 대화 기반 설명가능성을 멀티모달로 제공하는 인공지능 기술 개발 (0) | 2023.01.30 |
| 인공지능 기반 어린이 독서활동 지원 로봇 및 서비스 콘텐츠 개발 (0) | 2023.01.06 |