LLM 내부 표현 개입을 통한 편향 완화 > Proprietary Know-how

LLM 내부 표현 개입을 통한 편향 완화

페이지 정보

작성자 최고관리자 댓글 0건 조회 16회 작성일 26-05-29 17:01

본문

담당자: 김유신
주제: 편향완화

개요
대형 언어 모델(LLM)은 학습 데이터에 내재된 사회적 편향을 그대로 반영하는 문제가 있다. 본 기술은 모델의 출력을 직접 수정하는 기존 방식과 달리, Sparse Autoencoder(SAE)를 활용하여 편향과 관련된 내부 표현(latent feature)을 식별하고 이를 개입 및 조정함으로써 보다 근본적인 편향 완화를 실현한다.

핵심 기술

Sparse Autoencoder(SAE) 기반 feature 분해: LLM의 잠재 공간에서 편향 관련 feature를 희소하게 분리
Latent-level Steering: 출력 후처리 없이 내부 표현 수준에서 직접 개입
해석 가능성(Interpretability) 기반 접근: 어떤 feature가 편향에 기여하는지 분석 가능

연구 실적
학회: KCC2026

단일 의미 수준에서의 편향 특징 식별 및 제어

이전글동일 주체subject) 다중 관계(relation) 지식 편집 최적화 기술 26.05.29
다음글동적 잠재 추론 기반 LLM 추론 효율화 기술 26.05.29

댓글목록

등록된 댓글이 없습니다.