디지털 플랫폼의 건강을 유지하는 데 콘텐츠 모더레이션은 중요한 역할을 합니다. GPT-4를 사용한 콘텐츠 모더레이션 시스템은 정책 변경에 대한 빠른 반복을 가능하게 하여, 걸리는 시간을 몇 달에서 몇 시간으로 줄일 수 있습니다. 또한 GPT-4는 긴 콘텐츠 정책 문서의 규칙과 뉘앙스를 해석하고 정책 업데이트에 즉시 적응하여 일관된 라벨링 결과를 제공할 수 있습니다. 이는 인공지능이 플랫폼별 정책에 따라 온라인 트래픽을 조절하고 많은 인력이 필요한 인간 모더레이터의 정신적 부담을 줄여주는 미래의 디지털 플랫폼에 대한 긍정적인 비전을 제시한다고 생각합니다. OpenAI API 접근 권한을 가진 누구나 이 접근 방식을 구현하여 자체 AI 보조 모더레이션 시스템을 만들 수 있습니다.
콘텐츠 모더레이션의 어려움 콘텐츠 모더레이션은 꼼꼼한 노력, 세심한 상황 판단, 신속한 새로운 사용 사례에 대한 적응력이 필요하기 때문에 시간과 노력이 많이 소요되는 어려운 작업입니다. 기존에는 대량의 콘텐츠를 확인하여 유해하고 해로운 자료를 걸러내는 작업은 주로 인간 모더레이터에게 부과되었으며, 그들은 작은 세부 분야별 기계 학습 모델의 지원을 받았습니다. 이과정은 본질적으로 느리며 인간 모더레이터에게 정신적 스트레스를 야기할 수 있습니다.
대형 언어 모델 사용 희는 이러한 어려움을 해하기 위해 대형 언어 모델(Large Language Models, LLMs)의 사용을 탐구하고 있습니다. GPT-4와 같은 대형 언어 모델은 자연어를 이해하고 생성할 수 있어 콘텐츠 모더레이션에 활용될 수 있습니다. 이러한 모델은 제공된 정책 지침에 따라 모더레이션 판단을 할 수 있습니다.
이 시스템을 사용하면 정책 개발 및 사용자 정의 과정이 몇 달에서 몇 시간으로 줄어듭니다. 정책 전문가는 정책에 따라 몇 가지 예시를 식별하고 해당 예시에 라벨을 지정하여 데이터의 골든 세트를 생성할 수 있습니다. 그런 다음 GPT-4는 정책을 읽고 동일한 데이터 세트에 대해 라벨을 지정합니다. 답변을 보지 않고 GPT-4의 판단과 인간의 판단 간의 차이를 검토함으로써 정책 전문가는 GPT-4가 라벨링에 대한 이유를 제시하도록 요청하고 정책 정의의 모호성을 분석하여 혼동을 해소하고 정책에 추가 설명을 제공할 수 있습니다. 우리는 정책의 품질에 만족할 때까지 2단계와 3단계를 반복할 수 있습니다.
이 반복 과정은 세분화된 콘텐츠 정책을 생성하여 분류기로 변환함으로써 개선된 콘텐츠 정책을 제공하며, 이를 통해 정책과 콘텐츠 모더레이션을 대규모로 배치할 수 있게 됩니다.
대규모 데이터 처리를 위해 GPT-4의 예측 결과를 사용하여 훨씬 작은 모델을 세밀하게 조정하는 것도 가능합니다.
예시 모더레이션할 콘텐츠와 예시 정책 일부
Content policy
Category: - sexual/illegal - sexual/minors - hate/threatening - harassment/threatening - self-harm/intent - self-harm/instruct - violence/graphic F1 score: -
0.00 -
0.20 -
0.40 -
0.60 -
0.80 -
1.00 LLM performance
on Moderation API categories: - pool A - pool B Labeling quality
by GPT-
4 is similar
to human moderators
with light training (Pool B). However, both are still overperformed
by experienced, well-trained human moderators (Pool A). We are actively exploring further enhancement
of GPT-
4’s prediction quality,
for example,
by incorporating chain-
of-thought reasoning
or self-critique. We are also experimenting
with ways
to detect unknown risks
and, inspired
by Constitutional AI, aim
to leverage models
to identify potentially harmful content given high-level descriptions
of what
is considered harmful. These findings would
then inform updates
to existing content policies,
or the development
of policies
on entirely
new risk areas.
우리는 GPT-4의 예측 품질을 계속해서 개선하기 위해 체인 오브 스로트 추론 또는 자기 비판을 통합하는 등의 방법을 탐구하고 있습니다. 또한 Constitutional AI에서 영감을 받아 알려진 위험 외에도 고차원적인 설명으로부터 잠재적으로 유해한 콘텐츠를 식별하기 위해 모델을 활용하는 실험도 진행입니다. 이러한 연구 결과는 기존 콘텐츠 정의 업데이트나 새로운 위험 영역에 대한 정책 개발에 활용될 것입니다.
제약사항 언어 모델의 판단은 훈련 과정에서 발생할 수 있는 원치 않는 편향에 취약합니다. 다른 AI 응용 프로그램과 마찬가지로 결과와 출력은 신중하게 모니터링, 검증 및 개선되어야 합니다. 언어 모델로 처리 가능한 모더레이션 작업에서 인간의 참여를 줄여 인간 리소스를 정책 개선에 가장 필요한 복잡한 사례에 집중할 수 있습니다. 이 방법을 계속해서 개선하고 발전시키는 동안 저희는 투명성을 유지하기 위해 학습과 진전 사항을 계속해서 공유할 것입니다.