사라 실버맨의 회고록인 “The Bedwetter”에 대해 OpenAI의 인공지능 챗봇인 ChatGPT가 상세한 개요를 제공할 수 있습니다. 이것은 ChatGPT가 “읽어서” 불법 복제된 사본을 기억했다는 것을 의미하는 건가요? 아니면 베스트셀러나 그로부터 영감을 받은 뮤지컬에 대한 고객 리뷰와 온라인 이야기를 크롤링해서 전문가로 속일 수 있게 되었는 건가요? 사라 실버맨은 이번 주, 저작권 침해 혐의로 OpenAI를 상대로 소송을 제기하여 미국 법원이 이 문제를 해결할 가능성이 있습니다. 그녀는 암시장 인공지능 붐의 기반이 되었다고 주장하는 실리콘밸리를 위한 밑거름을 자신도 모르게 제공하였다고 말합니다.
실버맨의 소송은 2010년에 출간된 그녀의 책 디지털 버전을 OpenAI가 AI 모델 훈련에 사용하기 위해 허락하지 않았으며, 아마도 불법 복제 작품들 중 하나에서 훔쳐들였을 것이라고 주장합니다. 이는 회고록이 “동의없이, 영광 없이, 보상 없이” 복사되었다고 말하고 있습니다. 이는 McKinsey Global Institute가 세계 경제에 2조 600억 달러에서 4조 400억 달러에 해당하는 가치를 더할 것으로 예상한 “창조적 AI” 제품인 텍스트, 이미지 및 음악을 생성하는 기술에 대한 윤리적과 법적 기반에 대한 질문을 던집니다.
실버맨과 다른 작가들을 대표하는 변호사 중 한 명인 Matthew Butterick은 “이것은 전체 기계 학습 산업의 공공의 비밀입니다. 그들은 책 데이터를 좋아하며 이를 위해 불법 사이트로부터 가져옵니다. 우리는 그 전체 관행에 대해 신고하고 있습니다.”라고 말합니다. OpenAI는 이 혐의에 대해 응답하기를 거절했습니다. 실버맨에 의한 다른 소송은 Facebook과 Instagram 부모 회사 Meta가 개발한 AI 모델에 대해 비슷한 주장을 제기하고 있는데, Meta도 응답을 거절했습니다.
작가들이 승소하기 어려울 수도 있습니다. 특히 구글이 온라인 도서 도서관에 대한 법적 도전을 성공적으로 물리친 이후입니다. 2016년 미국의 대법원은 저작권 침해의 “대규모 저작권 침해”로 작가들의 주장을 기각한 하급법원 판결을 인정했습니다. 조지아 공과대학교 법과 윤리 학부 교수인 Deven Desai는 “나는 OpenAI가 책에 대해 한 일이 구글이 구글 북스 프로젝트에서 허용된 것과 아주 가깝다고 생각하므로 합법적일 것”이라고 말합니다.
실버맨, Mona Awad, Paul Tremblay와 같은 베스트셀러 소설가들을 포함하여 소송하는 작가들은 소설 및 예술계에서 기술 산업의 AI 개발 관행에 대한 우려가 확산되고 있습니다. 다른 저명한 작가들인 Nora Roberts, Margaret Atwood, Louise Erdrich, Jodi Picoult 등은 OpenAI, Google, Microsoft, Meta 등 AI 개발자의 CEO에게 보낸 지난 달 말의 공개 서한에 서명하면서 그들이 자신들의 언어, 스타일 및 아이디어를 “모방하고 반복하는” 챗봇을 개발하는 불공정한 관행을 비판했습니다. “저작권이 있는 수백만 권의 책, 기사, 에세이 및 시가 AI 시스템에게 ‘식량’ 역할을 하며, 이들은 청구서가 없는 끝없는 식사입니다.”라고 저작권 협회가 주최한 공개 서한에는 4,000명 이상의 작가들이 서명했습니다. “AI 기술을 개발하기 위해 수십억 달러를 투자하고 있습니다. 우리의 글을 사용하는 데 그 대가를 지불하는 것은 당연합니다. 그렇지 않으면 AI는 평범하고 극도로 제한된 기술일 것입니다.”
ChatGPT, Google의 Bard 및 Microsoft의 Bing 챗봇과 같은 인기있는 제품의 AI 시스템은 많은 양의 텍스트를 분석하고 패턴을 파악하여 학습한 대형 언어 모델로 알려져 있습니다. 이들은 강력한 인간 언어 기술을 자랑하지만 잘못된 정보를 제공하는 경향도 있습니다. 이러한 모델들은 뉴스 기사와 소셜 미디어 피드를 훈련시켰지만, 책은 특히 가치가 있습니다. 이는 실버맨의 소송에서 언급된 OpenAI의 2018년 논문에서도 인정되었습니다. OpenAI의 초기 대형 언어 모델인 GPT-1은 “유명하지 않은 책”이라는 이름으로 알려진 대학 연구원들이 편성한 데이터 세트에 의존했으며, 이 데이터 세트에는 어드벤처, 판타지 및 로맨스 장르의 수천 권의 미출판 도서가 포함되어 있었습니다.
“이 데이터 세트에는 중요한 것으로서 일관된 긴 텍스트 구간을 포함하고 있으며, 이를 통해 생성 모델이 장거리 정보에 대해 조건부 학습하는 것을 가능하게 합니다.”라고 당시 OpenAI 연구자들은 말했습니다. 구글과 아마존과 같은 다른 기술 회사들도 동일한 데이터를 활용했지만, 원본 형태로는 더 이상 사용할 수 없습니다. 그러나 그 이후로 OpenAI와 다른 주요 AI 개발자들은 자료 출처를 더욱 비밀스럽게 유지하고 있으며, 훈련에 사용된 작품의 대량을 소화하고 있습니다. Butterick은 이러한 자료의 사용에 대한 환경적 증거는 실버맨과 기소인들의 작품이 포함된 불법 컨텐츠 “그림자 도서관”을 가리킨다고 말합니다.
그는 “책은 고품질 언어 모델을 만들기 위해 필요하기 때문에 그들 모델에게 중요합니다.”라고 말합니다. OpenAI로부터 공식적인 응답이 제출되기까지 몇 주에서 몇 개월이 걸릴 수 있습니다. 그러나 소송이 진행되면 기술 임원들은 다운로드한 책의 출처에 대해 맹세 아래에서 증언할 수도 있습니다. Saveri 변호사 중 한 명은 “우리가 알기로는 상대방은 이를 부인하지 않았다”라며 말합니다. Saveri는 작가들이 반드시 기업들에게 알고리즘과 훈련 데이터를 처분하고 처음부터 다시 시작하도록 요구하는 것은 아니라고 말합니다. 하지만 작가들에게 보상하는 방법이 필요하다고 말합니다.