인공지능 챗봇 ChatGPT의 등장으로 인해, 이는 사람과 거의 구분할 수 없는 텍스트와 대화를 생성하는 능력 때문에 전 세계가 소동쳤다. 그러나 6월 7일 Cell Reports Physical Science 저널에 게재된 연구에 따르면 많은 식별 기준들이 존재하여 우리는 AI 챗봇과 사람을 구분할 수 있다고 한다. 이러한 식별 기준을 바탕으로, 연구진들은 AI로 생성된 학문적 과학 글쓰기를 99% 이상의 정확도로 식별하는 도구를 개발했다.
“우리는 가이드만 주어져도, 고등학생조차도 AI 탐지기를 다양한 유형의 글쓰기를 위해 만들 수 있는 접근 가능한 방법을 만드는 데 극심한 노력을 기울였다”며 University of Kansas의 교수이자 연구 참여자인 Heather Desaire가 말했다. “AI 글쓰기에 대처하기 위해서는 컴퓨터 과학 학위가 필요하지 않은 분야에서 일반인들도 참여할 필요성이 있다.”
Desaire 교수는 “현재 AI 글쓰기에는 몇 가지 대대적인 문제점이 있다”며 “가장 큰 문제점 중 하나는 많은 출처에서 텍스트를 결합하고 정확성 검사가 없다는 것입니다. Two Truths and a Lie 게임과 비슷합니다.”라고 말했다.
많은 AI 텍스트 탐지기가 온라인에서 사용 가능하지만, 이들은 학문적 글쓰기를 위해 구축되지 않았다는 한계점이 있다. 연구팀은 이 한계점을 해결하기 위해 학문적 글쓰기에 대한 성능이 더 우수한 도구를 만드는 것을 목표로 삼았다. 그들은 과학자들이 쓴 특정 연구 주제 개요를 제공하는 “perspectives”라는 종류의 논문 유형에 초점을 맞추었다. 연구팀은 64개의 perspectives를 선정하고 같은 연구 주제에 대한 128개의 ChatGPT 생성 논문을 작성하여 모델을 교육시켰다. 그들은 기사를 비교할 때 AI 글쓰기의 지표였던 예측 가능성을 발견했다.
AI와 달리, 사람들은 복잡한 단락 구조를 가지고 있으며, 문장 수와 단락당 총 단어 수가 다양하며, 문장 길이도 상승 및 하강한다. 또한 구두점과 어휘의 선호도도 판별 요인 중 하나다. 예를 들어, 과학자들은 “하지만”과 “그러나”와 같은 말을 선호하지만 ChatGPT는 종종 “others”와 “researchers”를 사용한다. 연구팀은 모델이 주의해야할 20가지 특징을 계산했다.
모델은 테스트에서 AI 생성 full perspective 기사를 인식하는 데 100%의 정확도를 보였다. 그리고 기사 내부 개별 단락을 식별하는 경우에는 92%의 정확도를 보였다. 이번 연구팀이 만든 모델은 시장에서 구할 수 있는 다른 AI 텍스트 탐지기보다 비슷한 실험에서 월등한 성능을 보여주었다.
이제 연구팀은 이 모델의 적용 범위를 확인하기 위해 더 광범위한 데이터 세트와 다양한 유형의 학문적 과학 글쓰기에 대해 테스트하고자 한다. AI 챗봇들이 더욱 발전하고 세련되어질수록, 연구자들은 그들의 모델이 여전히 유효한지 알고 싶어한다.
“이 연구에 대해 듣자마자 사람들이 가장 먼저 묻는 것은 ‘학생들이 직접 글을 쓴 것인지 확인할 수 있는가?’ 입니다.”라며 Desaire 교수는 말했다. 이 모델은 고도로 식별 능력을 가지고 있지만, 학생들이 만든 AI 생성 에세이를 감지하는 데 디자인되지 않았다고 한다. 그러나 Desaire 교수는 사람들이 쉽게 이러한 방법을 복제하여 자신의 목적에 맞는 모델을 만들 수 있다고 언급했다.