이 논문은 AI 안전성 연구에서 기존 통념을 뒤집는 흥미로운 발견을 제시한다. 일반적으로 대규모 언어모델 훈련 시 독성 데이터는 필터링해서 제거하는 것이 상식이었는데, 오히려 적절한 양의 독성 데이터를 포함시키면 후훈련에서 더 효과적으로 독성을 제거할 수 있다는 것이다.
대부분의 LLM 개발에서는 사전훈련 단계에서 독성 콘텐츠를 최대한 필터링한다. C4 데이터셋처럼 웹에서 수집한 텍스트를 정제해서 깨끗한 데이터만 사용하는 것이 일반적이다. 이는 직관적으로 타당해 보인다 독성 데이터로 훈련하면 독성 모델이 나올 것 같으니까.
하지만 Longpre et al. (2023)의 연구에 따르면, 독성 필터링이 오히려 모델의 독성 식별 능력과 전반적인 성능을 떨어뜨린다는 것이 밝혀졌다. 현실 세계의 완전한 표현을 위해서는 다양한 종류의 데이터가 필요할 수 있다는 것이다. (독성 데이터 마저도)
특성 얽힘과 슈퍼포지션
슈퍼포지션 현상
신경망에서는 표현해야 할 특성(feature)의 수가 뉴런의 수보다 많을 때 슈퍼포지션이 발생한다. 이는 여러 개의 서로 다른 개념들이 하나의 차원에 겹쳐서 저장되는 현상이다. 예를 들어, 4차원 공간에 12개의 서로 다른 개념을 저장해야 한다면, 각 개념들이 공간을 공유하게 된다. 독성 개념도 마찬가지다. 독성 데이터가 부족하면 독성 개념이 다른 개념들(감정, 유머 등)과 같은 공간에 뒤섞여 저장된다.
특성 얽힘의 정의
저자들은 특성 얽힘을 측정하는 새로운 지표를 제안한다:
E_Pi = max{|v_Pi · v_Pj|}
이는 특정 특성이 다른 특성들과 얼마나 얽혀있는지를 코사인 유사도의 최댓값으로 측정한다. 얽힘이 클수록 해당 특성을 수정할 때 다른 특성들에게 미치는 부작용이 크다.
실험 내용
4층 트랜스포머와 마르코프 체인을 이용한 통제된 실험에서, 특정 특성의 데이터 비율을 증가시킬수록 해당 특성의 얽힘이 급격히 감소함을 확인했다. 이는 독성 데이터에도 동일하게 적용될 수 있다는 가설의 근거가 된다.
실험 설계
- 모델: Olmo-1B (24층, 1024차원)
- 데이터: C4(깨끗한 데이터) + 4chan(독성 데이터)
- 비율: 독성 데이터 0%부터 25%까지 5% 단위로 증가
- 평가: MMLU(일반 능력), ToxiGen(독성 탐지)
실험 결과
실험에 따르면 독성 데이터를 적당량 포함시킨 모델이 MMLU 점수에서 더 좋은 성능을 보였다. 다양한 텍스트에 노출된 모델이 더 넓은 이해력을 갖게 된 것으로 분석된다.
독성 데이터 비율이 증가할수록 모델의 독성 탐지 능력이 지속적으로 향상되었다. 독성을 잘 알아야 독성을 잘 피할 수 있다는 직관이 실제로 맞았음을 확인할 수 있다.
모델 내부 분석 결과, 독성 데이터가 많을수록 독성 처리를 전담하는 어텐션 헤드가 더 많이 형성되었다. 이는 마치 회사에서 특정 업무가 많아지면 전담 부서를 만드는 것과 비슷하다.
이런 전문화는 두 가지 장점을 가져왔다. 독성 처리가 더 정확해지고, 다른 기능들에 대한 간섭이 줄어들었다. 독성이 별도로 처리되니 일반적인 언어 처리는 방해받지 않고 본연의 기능에 집중할 수 있었다.
성능 평가
ITI(Inference-Time Intervention)는 모델이 답변을 생성하는 순간에 개입하는 기법이다. 마치 사람이 말하기 전에 "잠깐, 이건 좀 부적절한 것 같으니 다르게 표현해야겠다"고 생각하는 것처럼, 모델의 어텐션 헤드들을 실시간으로 조정해서 독성을 억제한다.
기본 모델만 봤을 때는 예상대로 독성 데이터가 많을수록 모델도 더 독성적이 되었다. 하지만 ITI를 적용하고 나서는 다른 패턴이 나타났다.
그래프를 그려보니 마치 스마일을 그린 것 같은 곡선이 나타났다. 독성 데이터 비율이 0%에서 10%까지 증가하면서 모델의 독성이 오히려 감소했다가, 10%를 넘어서면서 다시 증가하기 시작했다. ToxiGen 데이터셋에서 측정한 독성 점수를 보면, 깨끗한 데이터만으로 훈련한 모델에 강한 ITI를 적용했을 때 19.82점이었다. 하지만 10% 독성 데이터로 훈련한 모델에 같은 기법을 적용하니 2.63점으로 7배 이상 안전해졌다.
더욱이 SFT(지도학습 파인튜닝), DPO(선호도 최적화), MEDA, INST 등 업계에서 사용되는 다양한 기법들과 비교한 결과, 독성 데이터를 포함한 모델이 모든 면에서 우수했다. 또한, 독성을 제거하면서도 일반 능력은 거의 손상되지 않았다. 기존 방법들은 모델을 안전하게 만들려다 보니 전반적인 성능이 떨어지는 'alignment tax' 문제가 있었는데, 이 방법은 그런 부작용이 거의 없었다.
연구진은 한 발 더 나아가 적대적 공격 실험도 진행했다. GCG(Genetic Contextual Gradient)라는 강력한 해킹 기법으로 모델을 나쁜 답변을 하도록 유도했다. 이는 교묘한 프롬프트를 통해 모델이 원래라면 거부해야 할 위험한 답변을 하도록 유도하는 공격이다. 200개의 악의적 프롬프트로 테스트한 결과, 깨끗한 데이터로만 훈련된 모델은 46%의 공격 성공률을 보였다. 반면 10% 독성 데이터로 훈련된 모델은 38.5%의 성공률을 기록했다. 독성 데이터를 포함한 모델이 해킹 시도에 대해서도 더 강한 저항력을 보인 것이다.
결과 원인 분석
이런 결과가 나타나는 이유는 세 가지 핵심 메커니즘으로 설명할 수 있다.
첫째, 표현 품질이 향상된다. 독성 데이터에 충분히 노출된 모델은 독성 개념을 다른 개념들과 명확히 분리해서 저장한다. 마치 서랍장에서 위험한 물건들을 따로 구획해서 보관하는 것과 같다. 이렇게 되면 나중에 그 구획만 골라서 차단하기가 훨씬 쉬워진다.
둘째, 자기 인식이 강화된다. 독성이 무엇인지 제대로 알지 못하는 모델은 무엇을 조심해야 할지도 모른다. 하지만 독성에 대한 명확한 이해를 가진 모델은 위험한 내용을 생성하려 할 때 스스로 감지하고 제어할 수 있다.
셋째, 전용 회로가 형성된다. 신경망 분석 결과, 독성 데이터로 훈련된 모델에서는 독성 처리만을 담당하는 전문화된 어텐션 헤드들이 더 많이 발달했다. 이는 독성과 일반적인 언어 능력이 서로 다른 신경 회로에서 처리된다는 것을 의미한다.
이 현상을 요리에 비유하면 이해하기 쉽다. 매운 재료를 한 번도 사용해본 적 없는 요리사에게 "덜 맵게 해주세요"라고 요청한다면 어떨까? 그 요리사는 무엇이 매운지, 어떻게 매운맛을 조절해야 하는지 알지 못한다. 결국 짠맛이나 단맛까지 함께 망쳐버릴 가능성이 크다.
반면 매운 재료를 충분히 경험한 요리사라면 어떨까? 정확히 어떤 재료가 얼마나 매운지 알고 있고, 매운맛만 골라서 조절할 수 있다. 다른 맛들은 그대로 유지하면서 말이다.
실용적 함의와 한계점
기존에는 "위험한 데이터는 무조건 제거해야 한다"는 것이 상식이었다면, 해당 논문에서는 "위험한 데이터를 전략적으로 활용할 수 있다"고 주장한다ㅏ.
하지만 주의해야 할 점들도 많다. 우선 적정 비율이 중요하다. 실험에서는 10%가 최적점이었지만, 20%를 넘어가면 오히려 역효과가 나타났다. 또한 데이터셋과 모델에 따라 최적 비율이 달라질 수 있어서, 실제 적용할 때는 반드시 실험을 통해 확인해야 한다.
윤리적 고려사항도 빼놓을 수 없다. 독성 데이터를 의도적으로 수집하고 사용하는 것에 대한 명확한 가이드라인이 필요하다. 연구 목적이라고 해서 무분별하게 유해한 콘텐츠를 활용해서는 안 되기 때문이다.
이 연구는 답보다 더 많은 질문을 던진다. 독성 외에 다른 문제들 - 편향, 거짓 정보, 프라이버시 침해 등에도 같은 원리가 적용될까? 게임 캐릭터나 창작물 생성 같은 특수한 용도에서도 비슷한 효과를 볼 수 있을까?
또한 "나쁜" 데이터의 최적 비율을 미리 계산할 수 있는 공식이 있을까? 모델 크기, 데이터 종류, 목적에 따라 달라지는 최적 비율을 예측할 수 있다면 실무진들에게 큰 도움이 될 것이다.
더 근본적으로는, 독성을 처리하는 신경망의 내부 메커니즘을 더 깊이 이해할 필요가 있다. 어떤 회로가 어떻게 작동해서 이런 놀라운 결과를 만들어내는지 알 수 있다면, 더 정교하고 안전한 AI 시스템을 설계할 수 있을 것이다.
결국 이 논문이 우리에게 던지는 핵심 메시지는 명확하다. "완벽하게 깨끗한 데이터"를 추구하는 것이 항상 최선은 아니라는 것이다. 때로는 문제를 회피하기보다는 직면하고 이해하는 것이 더 나은 해결책이 될 수 있다.