LLM 내부 표현 개입을 통한 편향 완화
페이지 정보
작성자 최고관리자 댓글 0건 조회 16회 작성일 26-05-29 17:01본문
담당자: 김유신
주제: 편향완화
개요
대형 언어 모델(LLM)은 학습 데이터에 내재된 사회적 편향을 그대로 반영하는 문제가 있다. 본 기술은 모델의 출력을 직접 수정하는 기존 방식과 달리, Sparse Autoencoder(SAE)를 활용하여 편향과 관련된 내부 표현(latent feature)을 식별하고 이를 개입 및 조정함으로써 보다 근본적인 편향 완화를 실현한다.
핵심 기술
연구 실적
학회: KCC2026
주제: 편향완화
개요
대형 언어 모델(LLM)은 학습 데이터에 내재된 사회적 편향을 그대로 반영하는 문제가 있다. 본 기술은 모델의 출력을 직접 수정하는 기존 방식과 달리, Sparse Autoencoder(SAE)를 활용하여 편향과 관련된 내부 표현(latent feature)을 식별하고 이를 개입 및 조정함으로써 보다 근본적인 편향 완화를 실현한다.
핵심 기술
- Sparse Autoencoder(SAE) 기반 feature 분해: LLM의 잠재 공간에서 편향 관련 feature를 희소하게 분리
- Latent-level Steering: 출력 후처리 없이 내부 표현 수준에서 직접 개입
- 해석 가능성(Interpretability) 기반 접근: 어떤 feature가 편향에 기여하는지 분석 가능
연구 실적
학회: KCC2026
- 단일 의미 수준에서의 편향 특징 식별 및 제어
댓글목록
등록된 댓글이 없습니다.
