GPT-4, 과연 혁신적인 모델인가?
오픈AI가 3월에 발표한 GPT-4 모델은 역사상 가장 기대를 모은 AI 모델이었다. 그러나 오픈AI는 이 모델의 크기, 데이터, 내부 구조, 그리고 어떻게 학습하고 구축했는지에 대해 아무것도 공개하지 않았다. 진정한 블랙박스였다.
결과적으로, 이들이 이 중요한 세부 사항을 숨긴 이유는 모델이 지나치게 혁신적이거나 보호하기 어려운 아키텍처를 가지고 있기 때문이 아닌 것으로 보인다. 최근의 루머가 사실이라면, 정반대의 경우가 맞는 것 같다.
기술적, 과학적 측면에서 보면, GPT-4는 진보적이지 않다. 그것이 반드시 나쁜 것은 아니다. GPT-4는 여전히 세상에서 가장 우수한 언어 모델이다. 다만 약간 실망스러운 정도다. 사람들이 3년 더 기다린 뒤 예상하지 않았던 것이다.
이 뉴스는 GPT-4와 오픈AI에 대한 핵심 통찰력을 제공하며 AI의 진정한 최신 기술 상태와 미래에 대한 질문을 제기한다.
GPT-4: 더 작은 모델의 조합
6월 20일, 콤마아이 창업자 조지 호츠는 GPT-4가 하나의 거대한 밀집 모델(GPT-3 및 GPT-3.5와 유사)이 아니라 8개의 2200억 파라미터 모델의 조합이라는 것을 유출했다. 그 날 이후, 메타의 파이토치 공동 창업자 수미스 친탈라는 이 유출 사실을 재확인했다. 그리고 그 전날 마이크로소프트 빙 AI 리드인 미하일 파라킨 또한 이를 암시했다.
GPT-4는 하나의 1테라 이상의 거대 모델이 아니라 8개의 더 작은 모델이 똑똑하게 결합된 '히드라' 모델이다. 오픈AI가 이 모델을 위해 사용한 것으로 추정되는 '전문가의 조합' 패러다임은 새로운 것이 아니며 오픈AI가 발명한 것도 아니다.
이 기사에서는 이것이 분야에 얼마나 관련이 있는지와 오픈AI가 세 가지 주요 목표를 달성하기 위해 어떻게 기획하고 실행했는지 설명할 것이다.
두 가지 유보 사항이 있다. 첫째, 이는 루머다. 명시적인 출처(호츠와 친탈라)는 강력하지만 오픈AI 직원은 아니다. 파라킨은 마이크로소프트의 경영진이지만, 명시적으로 확인한 적은 없다. 이러한 이유로 이를 약간 의아하게 받아들여야 한다. 그렇지만 이 이야기는 매우 설득력이 있다.
둘째, 공로는 공로대로 인정해야 한다. GPT-4의 인상적인 부분은 사용자들이 말하는 그대로다. 내부 아키텍처의 세부 사항은 그것을 변경할 수 없다. 작동한다면 작동한다. 하나의 모델이든 여덟 개의 모델이 합쳐진 것이든 상관없다. 글쓰기와 코딩 작업에서의 성능과 기능은 진정성이 있다. 이 기사는 GPT-4을 비난하기 위한 것이 아니다. 단지 우리가 가정을 업데이트 해야 할 필요가 있다는 경고다.
GPT-4에 대한 비밀의 싸움
오픈AI가 GPT-4 주변에 존재했던 비합리적으로 높은 기대감을 다루는 데 있어 보여준 마스터리를 박수로 보낸다. 오픈AI는 모델의 사양을 공개하지 않음으로써 실망스러운 측면을 가리면서도 대화의 중심에 머물렀다.
1월, 코니 로이조스가 트위터에서 유행하고 있는 100조 파라미터의 GPT-4 그래프에 대해 언급했을 때, 알트맨은 "사람들이 실망하기를 기다리고 있다"고 말했다. 그는 2022년 여름에 훈련을 마친 GPT-4이 사람들의 기대치를 충족시키지 못할 것이라는 것을 알고 있었다.
하지만 그는 오픈AI의 거의 신비로운 명성을 훼손하고 싶지 않았다. 그래서 그들은 GPT-4을 공개적인 검토로부터 숨겼고, 이로 인해 그 신비로운 모습을 더욱 확산시켰다.
오픈AI는 그들이 지도자의 지위에 오르도록 해준 챗GPT를 이미 성공적으로 정립했다. 대부분의 사람들에게 오픈AI는 이미 AI 연구개발 분야의 선두 주자로 인식되고 있었다(구글의 더 긴 역사와 더 풍부한 AI 연구개발 역량에도 불구하고). 따라서 그들은 GPT-4이 사람들이 원했던 획기적 진보, 즉 GPT-3으로부터의 거대한 도약이 아니라는 것을 명시적으로 인정할 수 없었다.
그래서 그들은 GPT-4이 아주 강력하다는 것을 암시와 함축을 통해 강조했다(예: AGI의 불꽃, 초인계는 가까워지고 있다 등). 또한 GPT-4의 사양을 공개하지 않기로 한 그들의 결정을 구글이나 오픈 소스 이니셔티브 같은 경쟁자들이 복제할 수 없게 하기 위해 존재하는 증가된 경쟁력에 비추어 설명했다고 일 알렉세이 슈츠케버가 더 버지에 말했다.
이를 표면으로 볼 때, 오픈AI의 비밀의 주요 해석은 이러했다. "그들은 사업의 생존과 안전상의 이유로 구글이나 오픈 소스 이니셔티브가 그들을 복제할 수 없게 할 수 없기 때문에 사양을 공개하지 않을 것이다. 또한 GPT-4의 최신 성능은 아키텍처가 과학의 업적이어야 한다는 것을 시사한다.
오픈AI는 그들이 원하는 것을 얻었다. 알트맨은 정직했다. GPT-4는 실망스러웠을 것이다. 그러나 동시에 암시적 신호는 다른 것을 시사했다. GPT-4는 마술적이다. 그리고 사람들은 그것을 믿었다.
그리고 사람들은 그것을 믿었다. 어떤 면에서 GPT-4는 마술적이다. 우리는 모두 그것이 실행되는 것을 보았다. 그것은 사람들이 진보적 업적으로 간주할 것이라고 생각하는 것만은 아니다. 그것은 단지 구식 기법을 새롭게 해석한 것으로 보인다. 여러 전문 모델을 하나의 모델로 결합하는 기법은 처음으로 2021년에 성공적으로 구현되었다. 2년 전에 말이다. 누가 했나? 맞아요, 구글 엔지니어들(그 중 일부는 후에 오픈AI에 고용되었다).
오픈AI는 확실히 그 위에 엔지니어링의 창의력을 추가했을 것이다(그렇지 않으면 구글도 자신만의 GPT-4나 더 좋은 모델을 보유하고 있을 것이다). 그러나 모델의 절대적 지배력을 결정짓는 핵심은 바로 하나의 모델이 아니라 8개의 모델이라는 사실이다.
그렇다. GPT-4는 마법과 같다. 그러나 오픈AI는 그것을 우리가 쇼에서 볼 수 있는 종류의 마술로 만들었다. 능숙한 방향 전환과 부드러운 솜씨의 손놀림의 혼합물. 그리고 그 기법은 단지 리메이크에 불과하다.
오픈AI가 GPT-4을 숨기면서 달성한 3가지 목표
첫째, 그들은 사람들의 상상력을 자유롭게 했다. 비판자들은 이것을 비과학적인 실행으로 보았지만, 그것은 모델의 힘에 대한 추측을 촉발시켰다. 이는 다시 그들이 선호하는 이야기, 즉 AGI와 그에 대한 계획의 필요성을 확립하는 데 도움이 되었다. 정부는 안전 요구 사항(특히 다른 사람들을 위한 것)과 규제(그들의 목표에 부합하는 것)가 가장 중요하다고 확신했다. 그 때문에 환상은 완벽했다. GPT-4는 빛나는 외형을 가지고 있었기 때문에 내부적으로도 빛났어야 했다. 그리고 빛나는 것은 위험할 수 있다.
사실, 비판적인 비유를 하면, GPT-4는 "코트 안의 라쿤"으로 묘사되는 것이 더 적절하다.
둘째, 그들은 구글이나 언소스 이니셔티브와 같은 경쟁사가 그들이 발견하거나 발명한 기법을 복제하는 것을 효과적으로 막았다. 그러나 GPT-4에는 오픈AI에 보호 울타리가 없었다. LLaMA는 GPT-4와 경쟁할 수 없지만, 아마 8개의 LLaMA가 합쳐진다면 할 수 있을 것이다. 사람들은 사과를 오렌지와 비교했지만 그들은 그것을 알지 못했다. 따라서 어쩌면 오픈 소스는 예상보다 뒤처지지 않았을지도 모른다.
보호 울타리는 GPT-4가 실제로 얼마나 인상적인지를 숨기는 것이었다.
마지막으로, 그들은 GPT-4이 실제로 AI 분야의 빠른 진보 속도를 증명하는 것이 아니라는 사실을 외부의 증인, 악의적인 사람들, 사용자들이 깨닫지 못하게 함으로써 그들의 믿음을 상실하지 않게 해주었다. 꼼꼼히 말하면, GPT-4는 충분한 돈과 GPU를 가진 한편으로 8개의 약 GPT-3.5 모델을 합칠 수 있고 다른 한편으로 다른 회사가 발명한 구식 기법을 먼지를 떨어트리지 않고 사용할 수 있는 담대함을 가진 결과물이다.
GPT-4는 비즈니스 마케팅의 걸작이었다.
마지막 생각
아마도 오픈AI, 나아가 업계 전체가 아이디어가 없는 지경에 이르렀을지 모른다. 호츠가 지적했듯이. 아마도 AI는 회사, 미디어, 마케터들과 arXiv이 보여주는 것처럼 이정표에서 이정표로 빠르게 진행되고 있지 않을지 모른다. 아마도 GPT-4는 GPT-3에서 기대했던 것처럼 거대한 도약이 아닐지 모른다.
루머는 여전히 공식 버전이 나올 때까지 루머다(오픈AI에 연락했지만 아직 답변을 듣지 못했다). 그러나 이 이야기의 설득력을 부인하기는 어렵다. 출처의 가치에 더해, 전체적으로 일관성이 있다. 그래서 나는 이 뉴스에 높은 신뢰도를 부여한다.
호츠의 결론을 인용하면: "회사가 비밀스럽게 하는 이유는 별로 대단하지 않은 것을 숨기고 있기 때문이다." 아마도 GPT-4는 그리 대단한 모델이 아닐지도 모른다.
결론적으로, GPT-4는 역사상 가장 기대를 모은 AI 모델이었다. 그러나 오픈AI가 공개한 내용만으로는 그 기대에 부응하는 혁신을 이뤘다고 볼 수 없다. GPT-4가 여러 가지 벤치마크에서 절대 우위를 점하고 있다는 사실은 단순히 8개의 모델이 아니라 하나의 모델이기 때문이다.
오픈AI는 GPT-4이 실제 모습보다 더 인상적이라고 믿게 하기 위해 기만적인 신호를 보내 업계 전체를 속였다. 그리고 그들이 이루고자 하는 세 가지 목표, 즉 상상력을 자극하고, 경쟁자를 막으며, 진보 속도에 대한 기대를 관리하는 데 성공했다.
GPT-4 자체는 여전히 매우 인상적이다. 그러나 우리는 이 모델이 어떻게 구축되었는지, 그리고 진짜 최첨단 기술이 AI 분야에서 얼마나 빨리 진보하고 있는지에 대한 우리의 가정을 수정해야 한다. 미래는 아직 오지 않았다. 우리는 여전히 걸음마 단계에 있다. 그리고 기업은 우리의 주목을 끌기 위해 모든 수단을 동원하고 있다.