"사회적, 윤리적 학습을 위한 데이터 특성 및 생성 AI 모델의 윤리성 향상 연구" 국책과제

2024.04.01-2026.12.31 (2년 9개월)

실세계의 다양한 보편적 특성, 도메인 특징에 부합하는 생성AI의 사회/윤리성에 대한 다 학제적 특성과 가이드라인을 수립하고 사회/윤리성 향상을 위한 지속 가능하고 확장성 있는 사회/윤리 종합 대응 서비스 플랫폼의 핵심 기술 개발, 공개 및 실증을 통한 확산

1차년도 : 보편적인 사회/윤리적 편향 해소를 위한 특성 및 기초 연구 개발

2차년도 : 확장가능한 사회/윤리적 편향 식별 기술 및 Ethics-GenAIOps 플랫폼 개발

3차년도 : Ethics-GenAIOps 플랫폼 유효성/실효성 입증 및 기술 고도화

공동연구자로 사회/윤리성 향상을 위한 미세공격 평가 Instruct Set 구축 담당

- 미세공격 감지 Instruction Set을 통한 편향성 측정 방안 연구

사회학, 종교학, 철학, 국제한국학 등 다학제 간 연구를 통해 내재적 의미 기반 의 편향성 측정 방안을 연구하였으며,
실제 편향/차별 사례를 다양한 대상 집단 및 인식 주체에 기반하여 분석함.
발화자 의도 유무와 상관없이, 대상에 대한 적대적·경멸적·부정적 편견이 포함되거나 사소한 일상의 언어·행동·환경적 모욕을
‘미세공격’으로 정의함.
칭찬처럼 보일 수 있거나 암묵적인 편견이 드러나는 발화를 구체적인 상황 속에 서 감지하는 방식으로 편향성을 측정함.

- 미세공격 감지 평가 Instruction Set 개발

사회성/윤리성 평가를 위한 미세공격성이 드러나는 사지선다 형태의 Seed Instruction Set을 구축함.
Instruction Set은 구체적인 상황에서 발화자와 행동, 미세공격 발화, 이후 상황 (결론)을 포함한 지문으로 구성됨.
구체적인 상황과 맥락이 제공되는 문단 형태의 발화 및 행동 지문이 미세공격성이 드러나는 문제 발화 100개와 같이 제공되며, 상황에 대한 종합적인 이해도 측정 및 미세공격 감지 평가를 사지선다 형태의 질문으로 구성한 시드 데이터셋 100문항을 개발함.
각 문항은 미세공격 대상, 미세공격성이 드러나는 상세한 주제와 함께 구성되 며, 도메인에 특화된 서브 셋으로 따로 구성됨.
다양한 도메인에 대한 미세공격성이 드러난 데이터 10문항을 선별하여 도메인과 관계없이 전반적인 미세공격에 대한 감지를 진행할 수 있는지 평가하는 서브 데이터셋을 구성함.
개발된 시드 데이터셋을 활용하여 사람에게 설문 조사를 진행하였으며, 해당 결과를 정성적으로 분석하여 편향성을 측정함.
같은 방식으로 대형언어모델의 결과를 분석하여 미세공격을 감지하는 정도를 파악하고 모델의 편향성을 측정함. 평가에 활용한 대형언어모델은 GPT-4o, Claude-3.5-sonnet, LLaMA 3.1 8B, EXAONE 3.0 8B임.

- 어휘론, 의미론을 활용한 Instruction Set 증강 파이프라인 설계

시드 데이터셋의 각 상황 및 대화문, 선택지를 어휘론, 문장 단위의 의미론을 활용하여 구체적인 상황 및 맥락을 중심으로 증강하는 파이프라인을 설계함.
파이프라인은 크게 딥러닝 기반 개체명 인식 모델 및 대형언어모델을 순차적으 로 활용한 어휘론적 지문 증강, 미세공격성이 드러나는 발화를 추출하여 증강하 며 맥락을 추가하는 의미론적 지문 증강, 주어진 지문에 의거하여 미세공격이 담긴 발화임을 인지하였는지 평가하는 선지를 증강하는 과정이 포함됨.

[국가대표 K-AI] 글로벌 프런티어 파운데이션 모델 개발 및 국내 AI 혁신 생태계 조성 프로젝트 (0)	2026.01.13
[생성AI 선도인재양성사업] 멀티모달 AI 에이전트 시대에 적합한 실무형 AI인재 육성 프로그램 (0)	2026.01.13
멀티 에이전트에 기반한 농작물 멀티모달 질의응답 시스템 개발 (0)	2026.01.13
대화 기반 설명가능성을 멀티모달로 제공하는 인공지능 기술 개발 (0)	2023.01.30
인공지능 기반 어린이 독서활동 지원 로봇 및 서비스 콘텐츠 개발 (0)	2023.01.06

ISDS 홈페이지