오픈AI의 CEO인 Sam Altman은 최근 MIT 행사에서 발언을 하며, GPT-4와 같은 거대한 AI 모델 시대가 끝나고 새로운 아이디어가 필요하다고 주장했습니다.
왜 이 발언이 혁신적인가요? 오픈AI의 LLM(챗봇을 '먹여주는' 모델)이 연도별로 어떻게 지수적으로 성장했는지 살펴보면: ➡️GPT-2 (2019): 15억 개의 파라미터 ➡️GPT-3 (2020): 1750억 개의 파라미터 ➡️GPT-4: (2023): 공개되지 않았지만, 아마도 수조 개의 파라미터
하지만 Altman은 이러한 파라미터의 증가는 더 이상 지속 가능하지 않다고 생각합니다.
왜냐하면: ➡️수익률: 모델 크기를 확장하는 것은 감소하는 수익률을 동반합니다. ➡️물리적 한계: 데이터 센터를 얼마나 많이, 얼마나 빠르게 구축할 수 있는지에는 한계가 있습니다. ➡️비용: 챗봇 ChatGPT를 개발하는 데 1억 달러가 넘게 들었습니다.
하지만 그가 말하지 않는 것은 데이터 접근이 점점 어려워지고 비싸지고 있다는 것입니다. 모델이 더 나아지기 위해 계속해서 더 많은 데이터가 필요하다면 문제가 됩니다.
왜 데이터 접근이 점점 어려워지고 비싸지고 있나요? 🎨저작권 문제: Getty Images, Sarah Andersen, Kelly McKernan 및 Karloa Otiz와 같은 개인 예술가들이 AI 기업들에 대해 저작물의 무단 사용으로 소송을 제기하고 있습니다. Universal Music은 AI 기업들이 교육용으로 사용하는 노래에 대해 Spotify와 Apple Music에 요구하여 중지하도록 요청했습니다. 🔐개인정보 문제 및 규제: 이탈리아는 개인정보 문제로 ChatGPT를 금지했습니다(변경 후 복귀). 독일, 프랑스, 아일랜드, 캐나다 및 스페인은 의심스러운 상태입니다. 삼성은 보안상 이유로 ChatGPT와 같은 AI 도구를 사용하지 말라고 경고했습니다. 💸데이터 수익화: Twitter, Reddit, Stack Overflow 등은 AI 기업들이 자신들의 데이터를 교육하는 데 대한 비용을 청구하고자 합니다. 대부분의 예술가와 달리 Grimes는 50%의 이윤 분배를 위해 누구나 그녀의 목소리를 사용할 수 있도록 허용하고 있습니다. 🕸️Web3의 영향: Web3가 약속한 대로 사용자가 개인 보관고나 암호화폐 지갑에 데이터를 저장할 수 있다면, LLMs가 원하는 데이터에 접근하는 것이 더욱 어려워질 것입니다. 🌎지정학적 영향: 데이터가 국경을 넘는 것이 점점 더 어려워지고 있습니다. 중국과 TikTok을 생각해보면 됩니다. 😷데이터 오염: 생성적 AI 챗봇에 의해 생성된 '새로운' - 때로는 환각적인 - 데이터가 많이 생성되고 있습니다. 그 데이터를 다시 LLMs에게 제공하면 무슨 일이 일어날까요?
그래서 Sam Altman과 같은 사람들은 더 이상 많은 양의 데이터를 사용하지 않고도 모델을 개선하는 방법을 찾고 있습니다. 더 자세한 내용을 원한다면, 저희의 새로운 Radar 팟캐스트 에피소드(댓글에 링크)를 확인해보세요. Steven Van Belleghem, Peter Hinssen, Pascal Coppens 및 Julie Vens - De Vos와 함께 이에 대해 논의하고 Twitter, TikTok, Walmart, Amazon, Schmidt Futures, Mediafin의 Never Normal Tour in New York, 인간의 에너지 위기, Apple의 새로운 고수익 저축 계좌, 중국의 귀환, BYD, AI 투자 전략, 근접성의 힘, Buzzfeed 뉴스의 종말 등에 대해 논의하였습니다. |