본문 바로가기

Projects/Current

"사회적, 윤리적 학습을 위한 데이터 특성 및 생성 AI 모델의 윤리성 향상 연구" 국책과제

과제 수행 기간

2024.04.01-2026.12.31 (2년 9개월)

과제 목표

실세계의 다양한 보편적 특성, 도메인 특징에 부합하는 생성AI의 사회/윤리성에 대한 다 학제적 특성과 가이드라인을 수립하고 사회/윤리성 향상을 위한 지속 가능하고 확장성 있는 사회/윤리 종합 대응 서비스 플랫폼의 핵심 기술 개발, 공개 및 실증을 통한 확산

연차별 계획

1차년도 : 보편적인 사회/윤리적 편향 해소를 위한 특성 및 기초 연구 개발

  • 사회/윤리성 표준 가이드라인 개발
  • LLM-Guided 사회/윤리성 특화 Self-Instruct 학습데이터 생성 기술 개발
  • 편향성 판단을 위한 텍스트 분류 기술 개발
  • 사회/윤리성 판단 및 근거 제시 가능한 모델 / 전문가 편향 판단 모델 개발
  • 생성AI의 사회/윤리성 연구를 위한 7B 수준의 LLM 확보
  • 범용 사회/윤리성 판단 벤치마크 설계 및 구축, 학습 시드 데이터 구축
  • 실증을 위한 시나리오 개발 및 구축

2차년도 : 확장가능한 사회/윤리적 편향 식별 기술 및 Ethics-GenAIOps 플랫폼 개발

  • 도메인 별 사회/윤리성 평가 가리드라인 N개 개발
  • 학습데이터 내 편향성 제거 기술 개발
  • 사회/윤리성에 특화된 MoEE 학습 기술 개발
  • 편향적 생성 방지를 위한 안전 디코딩 기술 개발
  • 다학제적 진단을 위한 협동 네트워크 기반의 편향성 진단 기술 개발
  • 멀티턴 대화 내 벤치마크 데이터셋 설계 및 구축, K-Culture 학습 시드 데이터 구축
  • Ethics-GenAIOps 플랫폼 개발

3차년도 : Ethics-GenAIOps 플랫폼 유효성/실효성 입증 및 기술 고도화

  • 사회/윤리성 평가 기준의 유연화 및 고도화
  • 고품질 학습데이터 구축을 위한 학습데이터 구축기술 고도화
  • 편향적 생성 억제를 위한 사회/윤리성 기준 안전 지침 프롬프트 생성 기술 개발
  • 사용자 개인의 사회/윤리성 관점 고려하는 MoEE 학습 기술 개발
  • 도메인 특화 모델의 사회/윤리성 거대모델로의 전이 기술 개발
  • 리더보드 운영을 통한 벤치마크 데이터셋, Ethics-GenAIOps 플랫폼을 통한 기술 입증

참여범위

공동연구자로 사회/윤리성 향상을 위한 미세공격 평가 Instruct Set 구축 담당

연구 내용

- 미세공격 감지 Instruction Set을 통한 편향성 측정 방안 연구

  • 사회학, 종교학, 철학, 국제한국학 등 다학제 간 연구를 통해 내재적 의미 기반 의 편향성 측정 방안을 연구하였으며,
    실제 편향/차별 사례를 다양한 대상 집단 및 인식 주체에 기반하여 분석함.
  • 발화자 의도 유무와 상관없이, 대상에 대한 적대적·경멸적·부정적 편견이 포함되거나 사소한 일상의 언어·행동·환경적 모욕을
    ‘미세공격’으로 정의함.
  • 칭찬처럼 보일 수 있거나 암묵적인 편견이 드러나는 발화를 구체적인 상황 속에 서 감지하는 방식으로 편향성을 측정함.

- 미세공격 감지 평가 Instruction Set 개발

  • 사회성/윤리성 평가를 위한 미세공격성이 드러나는 사지선다 형태의 Seed Instruction Set을 구축함.
  • Instruction Set은 구체적인 상황에서 발화자와 행동, 미세공격 발화, 이후 상황 (결론)을 포함한 지문으로 구성됨.
  • 구체적인 상황과 맥락이 제공되는 문단 형태의 발화 및 행동 지문이 미세공격성이 드러나는 문제 발화 100개와 같이 제공되며, 상황에 대한 종합적인 이해도 측정 및 미세공격 감지 평가를 사지선다 형태의 질문으로 구성한 시드 데이터셋 100문항을 개발함.
  • 각 문항은 미세공격 대상, 미세공격성이 드러나는 상세한 주제와 함께 구성되 며, 도메인에 특화된 서브 셋으로 따로 구성됨.
  • 다양한 도메인에 대한 미세공격성이 드러난 데이터 10문항을 선별하여 도메인과 관계없이 전반적인 미세공격에 대한 감지를 진행할 수 있는지 평가하는 서브 데이터셋을 구성함.
  • 개발된 시드 데이터셋을 활용하여 사람에게 설문 조사를 진행하였으며, 해당 결과를 정성적으로 분석하여 편향성을 측정함.
  • 같은 방식으로 대형언어모델의 결과를 분석하여 미세공격을 감지하는 정도를 파악하고 모델의 편향성을 측정함. 평가에 활용한 대형언어모델은 GPT-4o, Claude-3.5-sonnet, LLaMA 3.1 8B, EXAONE 3.0 8B임.

- 어휘론, 의미론을 활용한 Instruction Set 증강 파이프라인 설계 

  • 시드 데이터셋의 각 상황 및 대화문, 선택지를 어휘론, 문장 단위의 의미론을 활용하여 구체적인 상황 및 맥락을 중심으로 증강하는 파이프라인을 설계함.
  • 파이프라인은 크게 딥러닝 기반 개체명 인식 모델 및 대형언어모델을 순차적으 로 활용한 어휘론적 지문 증강, 미세공격성이 드러나는 발화를 추출하여 증강하 며 맥락을 추가하는 의미론적 지문 증강, 주어진 지문에 의거하여 미세공격이 담긴 발화임을 인지하였는지 평가하는 선지를 증강하는 과정이 포함됨.