작업 부하 66% 줄이고, 정확성도 향상
구글이 개발한 새로운 인공지능 시스템은 의료 진단에 관한 AI 기반 결정을 신뢰할 때와 의사의 의견을 들을 필요가 있는 경우를 판단할 수 있습니다. 이 시스템은 의료 스캔 데이터를 분석하는 효율성을 향상시키고 작업 부하를 66% 줄일 수 있다고 주장되며, 정확도도 유지할 수 있다고 합니다. 하지만 실제 임상 환경에서 테스트되지는 않았습니다.
이 시스템인 CoDoC는 기존의 AI 시스템과 함께 작동하도록 설계되었습니다. 기존 AI 시스템은 주로 흉부 X-선이나 유방 조영술 등 의료 이미지를 해석하는 데 사용됩니다. 예를 들어, 만약 예측 AI 도구가 유방 조영술을 분석하고 있다면, CoDoC는 그 도구의 인식 신뢰도가 진단을 위해 의존할만한 충분한 수준인지 판단하고, 불확실성이 있다면 의사의 참여를 결정할 것입니다.
구글 리서치 및 2014년에 인수한 영국 AI 연구소인 Google DeepMind에서 개발자들이 이 시스템을 테스트하기 위해 이론적인 시험을 진행한 결과, CoDoC는 유방 조영술의 잘못된 양성 해석을 25% 감소시켰습니다.
CoDoC는 의료 이미지에 대한 예측 AI 도구의 분석 결과와 그 도구가 각 이미지를 정확하게 분석한 것에 대한 신뢰도를 포함한 데이터로 훈련됩니다. 그 결과는 동일한 이미지에 대한 인간 진료의 해석과 생체검사 또는 다른 방법을 통한 사후 분석 결과와 비교되었습니다. 이 시스템은 AI 도구가 이미지를 분석하는 데 정확성이 얼마나 높은지, 그리고 신뢰도 예측이 의사들과 비교했을 때 얼마나 정확한지를 학습하여 이후 스캔에 대한 AI 분석을 신뢰할 수 있는지 판단합니다. 이 연구에 참여한 Google Health UK의 Alan Karthikesalingam은 “CoDoC를 AI 도구와 실제 방사선과 의사의 의견과 함께 사용하고, CoDoC가 어떤 의견을 사용할지 결정하는 경우, 결과적인 정확도가 개인이나 AI 도구만 사용한 것보다 더 좋다”고 말합니다.
이 테스트는 다양한 유방 조영술 데이터셋과 결핵 스크리닝용 X-선을 사용하여 여러 예측 AI 시스템에서 반복되었으며, 유사한 결과를 보였습니다. Google DeepMind의 Krishnamurthy “Dj” Dvijotham은 “CoDoC의 장점은 다양한 소유자 AI 시스템과 상호 운용 가능하다는 것입니다”라고 말했습니다.
하지만 유방 조영술과 결핵 검사는 대부분의 진단 결정보다 변수가 적습니다. 그래서 AI를 다른 응용 분야에 확대하는 것은 도전적일 것입니다. 옥스퍼드 대학의 Helen Salisbury는 “블랙 박스에서 나오는 것에 대해 사후로 어떤 영향을 주지 못하는 시스템에서는 기계 학습을 추가하는 것이 좋은 아이디어로 보입니다. 하지만 일상적인 작업을 위해 우리와 함께 있는 AI를 더 가까이 가져다줄 것인지는 잘 모르겠습니다”라고 말했습니다.
|
|
|
ChatGPT, 대화형 AI 시스템, 튜링 테스트 통과 - AI 평가를 위한 새로운 방법 경쟁
영국의 컴퓨팅과 수학 분야에서 저명한 인물인 앨런 튜링이 73년 전 컴퓨터의 사고 능력을 테스트하기 위해 ‘모방 게임’을 제안한 이래로, 블레치리 파크(Bletchley Park)의 앨런 튜링 조각상은 여전히 그 인상을 남기고 있습니다. 이 게임은 대화를 주고받는 인터뷰어와 사람들, 그리고 컴퓨터 간의 텍스트 기반 대화를 포함하며, 컴퓨터가 인터뷰어에게 감지되지 않는다면 컴퓨터가 사고한다고 가정할 수 있다는 것을 시사하였습니다. 이 게임은 튜링 테스트로 알려져 있습니다.
그러나 이 테스트는 너무 모호하고 속임수에 초점을 맞추어 진짜 지능적인 행동보다는 속임수에 더 중점을 둔다는 이유로, 인공지능(AI)에 대한 심층적인 연구 도구나 목표로서는 일반적으로 고려되지 않았습니다. 그러나 언어가 지능을 평가하고 창조하는 데 어떤 역할을 할 수 있는지에 대한 질문은 오늘날 더욱 중요해지고 있습니다. 이는 샌프란시스코의 OpenAI에서 개발된 ChatGPT 챗봇 등의 AI 시스템인 대형 언어 모델(Large Language Models, LLMs)의 능력이 폭발적으로 증가하고 있기 때문입니다.
ChatGPT는 인간과 대화하는 능력과 더불어 글쓰기, 코딩, 어려운 시험 통과, 텍스트 요약 등의 다양한 능력을 갖추고 있어서, AI의 상승이 인류에게 미치는 의미에 대한 흥미와 불안을 동시에 불러일으키고 있습니다. 그러나 이러한 인상적인 성과의 기반이 되는 것은 어떻게 LLMs가 작동하는지에 대한 질문입니다. 다른 신경망과 마찬가지로, LLMs의 많은 행동은 프로그래머가 명시하지 않고 훈련 과정에서 나타납니다. 결과적으로, LLMs가 그들 자신의 창조자에게도 모르게 동작하는 이유와 그 기작은 알려져 있지 않습니다.
자연은 LLMs의 실제 능력과 그들을 움직이게 하는 기작을 조감할 수 있도록 조각해내고 있습니다. 캘리포니아의 스탠포드 대학교 인지과학자인 마이클 프랭크는 이 작업을 “외계 지능”을 조사하는 것과 유사하다고 설명합니다. 이를 밝혀내는 것은 중요하며 시급한 일입니다. LLMs가 의학 및 법률과 같은 분야에서 문제를 해결하고 생산성을 높이기 위해서는 이 도구들의 성공과 실패를 더 잘 이해할 필요가 있습니다. 이를 위해서는 현재의 평가보다 체계적인 평가를 제공하는 새로운 테스트가 필요합니다.
LLMs는 대량의 텍스트를 소화하여 문장이나 대화에서 다음 단어를 예측하는 방식으로 학습합니다. 모델은 시행착오를 통해 출력을 조정하며, 인간 트레이너의 피드백을 통해 더욱 개선될 수 있습니다. 이 보다 간단한 과정이 강력한 결과를 가져올 수 있습니다. 한때 한 가지 작업을 수행하거나 한 가지 능력을 갖춘 전문적인 AI 시스템과 달리, LLMs는 몇 년 전까지는 하나의 시스템으로는 상상도 못했던 넓은 범위의 시험과 질문을 쉽게 해결할 수 있습니다.
그러나 연구자들이 점점 더 문서화하고 있는 대로, LLMs의 능력은 취약할 수 있습니다. ChatGPT 뒤의 LLM 중 가장 최신 버전인 GPT-4는 일부 학술 및 전문가 시험 문제에서 뛰어난 성과를 보였지만, 질문의 구문이 약간 변경되는 것만으로도 모델이 혼란스러워질 수 있습니다. 이런 강건성의 결여는 실세계에서의 신뢰성 부족을 시사합니다. 연구자들은 이러한 혼란스러운 성과를 감안할 때 LLMs의 내부 메커니즘에 대해 논의하고 있습니다. 일부 연구자들은 모델이 일부 테스트에서 성공할 때 추론과 이해의 귀마개를 볼 수 있는 반면, 다른 연구자들은 신뢰성 부족을 모델이 보이는 지능의 부족한 증거로 보고 있습니다.
LLMs의 능력에 대한 보다 체계적인 테스트는 이러한 논쟁을 해결하는 데 도움이 될 것입니다. 이러한 테스트는 모델의 강점과 약점을 더 견고하게 이해할 수 있도록 제공할 것입니다. 약물의 안전성과 효능은 단순히 임상 시험에서의 관찰된 결과뿐만 아니라 그 행동을 일으키는 메커니즘을 이해하는 것 역시 중요합니다. 이와 마찬가지로, LLMs의 행동을 일으키는 메커니즘을 해체하는 것은 그들의 ‘뇌과학’이라고 볼 수 있습니다. 연구자들은 LLMs의 내부 작동 원리를 이해하고자 하지만 아직 많은 시간이 걸릴 것으로 예상됩니다. LLMs를 구축하는 회사들이 어떤 데이터로 모델을 훈련시켰는지와 같은 정보를 공개하는 데에는 미비한 점이 있습니다. 그러나 규제 기관들로부터 AI 회사에 대한 감시가 증가하고 있으며, 앞으로 더 많은 데이터가 공개될 수도 있습니다.
튜링이 최초로 모방 게임을 제안한 지 73년이 지났지만, LLMs의 강점과 약점, 그리고 그들을 움직이게 하는 메커니즘을 이해하는 것보다 더 중요한 AI 분야의 과제를 상상하기 어렵습니다.
|
|
|
2023년 7월 26일 수요일, OpenAI가 개발한 ChatGPT는 지난 8개월 동안 이야기부터 코드까지 다양한 텍스트를 생성하는 능력으로 수백만 명의 사람들에게 감명을 주었습니다. 그러나 이 챗봇은 여전히 그 가능성이 제한적입니다. 이 대형 언어 모델(Large Language Model, LLM)은 사용자로부터 “프롬프트”를 받아 관련된 텍스트를 생성합니다. 이 응답은 2021년 9월에 인터넷에서 스크랩한 데이터를 일부 사용하여 생성되며, 새로운 데이터는 웹에서 가져오지 않습니다. 이제 기능을 추가하는 플러그인이 등장하였으며, 이 플러그인은 OpenAI의 모델인 GPT-4에 액세스할 수 있는 사람들에게만 제공됩니다. OpenAI가 3월에 ChatGPT용 플러그인을 출시한 이후로, 개발자들은 더 많은 기능을 추가할 수 있는 플러그인을 만들고 게시하기 위해 경쟁하고 있습니다. 현재 ChatGPT의 플러그인 스토어에는 100페이지 이상의 플러그인이 나열되어 있습니다. 그러나 이러한 확장의 폭발 속에서 보안 연구원들은 플러그인의 작동 방식에 일부 문제가 있다고 말하며, 이는 사람들의 데이터를 위험에 빠뜨릴 수 있거나 악의적인 해커에게 남용될 수 있다고 경고하고 있습니다. 보안 연구원인 Johann Rehberger는 ChatGPT의 플러그인에 관한 문제점을 자신의 여가 시간에 문서화하고 있습니다. 이 연구원은 ChatGPT의 플러그인을 통해 누군가의 채팅 기록을 도용하거나 개인 정보를 얻을 수 있으며, 또한 다른 사람의 기기에서 원격으로 코드를 실행할 수 있는 가능성도 제기하고 있습니다. 그는 주로 OAuth라는 웹 표준을 사용하는 플러그인에 초점을 맞추고 있다고 밝혔습니다. Rehberger는 문제를 제기하기 위해 약 반다스 플러그인 개발자들과 개인적으로 연락을 취했으며, OpenAI에도 몇 차례 연락했다고 말했습니다. “ChatGPT는 플러그인을 신뢰할 수 없습니다,”라고 Rehberger는 말합니다. “플러그인에서 돌아오는 것은 어떤 것이든지 될 수 있기 때문에 기본적으로 신뢰할 수 없습니다.” 악의적인 웹사이트나 문서는 플러그인을 통해 대형 언어 모델에 대한 프롬프트 주입 공격을 시도할 수도 있으며, Rehberger는 악의적인 페이로드를 삽입할 수도 있다고 말했습니다. 연구원은 또한 플러그인 간 요청 위조를 통해 데이터가 도난될 수도 있다고 말했습니다. 웹사이트는 ChatGPT가 다른 플러그인을 열고 추가 작업을 수행하도록 프롬프트 주입을 포함할 수 있으며, 이는 개념 증명을 통해 확인되었습니다. 연구원들은 이를 “체인”이라고 부르며, 한 플러그인이 다른 플러그인을 호출하여 작동시키는 것입니다. “ChatGPT의 플러그인 안에는 실제 보안 경계가 없습니다,”라고 Rehberger는 말했습니다. “각 이해 관계자들의 실제 책임과 보안, 신뢰에 대해 명확하게 정의되지 않았습니다.” ChatGPT의 플러그인은 3월에 출시되어 현재 베타 버전인 상태입니다. ChatGPT에서 플러그인을 사용할 때, 시스템은 사람들이 사용하기 전에 플러그인을 신뢰해야 하며, 플러그인이 작동하기 위해 ChatGPT가 대화와 기타 데이터를 플러그인에게 전송할 수도 있다는 경고를 합니다. OpenAI의 대변인인 Niko Felix는 회사가 ChatGPT 시스템이 남용되는 “악용”에 대해 개선하기 위해 노력하고 있다고 말했습니다. OpenAI는 현재 플러그인을 스토어에 포함시키기 전에 검토하고 있습니다. 회사는 6월에 블로그 글에서 “도구의 출력에서 신뢰할 수 없는 데이터가 모델이 의도하지 않은 작업을 수행하도록 할 수 있다는” 연구 결과를 확인했다고 밝혔습니다. 또한 OpenAI는 “이메일 전송과 같은 실제 영향을 미치는 작업”을 하기 전에 사람들로부터 확인 버튼을 클릭하도록 개발자들에게 권장하고 있습니다.
|
|
|
Stability AI 및 CarperAI 연구소가 자랑스럽게 FreeWilly1 및 그 후속작인 FreeWilly2를 발표합니다. 이 두 가지 강력한 새로운 오픈 액세스 Large Language Model (LLM)은 다양한 벤치마크에서 탁월한 추론 능력을 보여줍니다. FreeWilly1은 원래 LLaMA 65B foundation 모델을 활용하고, 새로운 합성 데이터셋을 Supervised Fine-Tune (SFT) 및 표준 Alpaca 형식으로 신중하게 fine-tuning하여 개발되었습니다. 마찬가지로, FreeWilly2는 LLaMA 2 70B foundation 모델을 활용하여 일부 작업에서 GPT-3.5와 비교해 우수한 성능을 보여줍니다. 이 두 모델은 연구 실험이며 비상업적 라이선스 하에 오픈 리서치를 촉진하기 위해 공개되었습니다. 모델이 예의 바르고 무해하도록 내부적인 레드팀을 수행했지만, 커뮤니티의 피드백과 레드팀 협력을 환영합니다.
데이터 생성 및 수집 FreeWilly 모델의 학습은 Microsoft의 논문 “Orca: Progressive Learning from Complex Explanation Traces of GPT-4”에서 개척한 방법론에서 영감을 받았습니다. 우리의 데이터 생성 과정은 유사하지만 데이터 소스에서 차이가 있습니다. Enrico Shippole이 작성한 다음 데이터셋의 고품질 지시사항을 활용하여 언어 모델에 프롬프트를 제공함으로써 60만 개의 데이터 포인트 (원래 Orca 논문에서 사용한 데이터셋 크기의 약 10%)를 포함하는 데이터셋을 생성했습니다.
- COT Submix Original
- NIV2 Submix Original
- FLAN 2021 Submix Original
- T0 Submix Original
이 접근 방식으로, 더 단순한 LLM 모델과 더 복잡한 LLM 모델을 각각 50만 개와 추가적으로 10만 개의 예제를 생성했습니다. 공정한 비교를 위해, 우리는 이러한 데이터셋을 신중하게 필터링하고 평가 벤치마크에서 유래한 예제를 제거했습니다. 원래 Orca 논문의 1/10의 샘플 크기로 학습한 결과, 얻어진 FreeWilly 모델은 다양한 벤치마크에서 탁월한 성능을 보여주었으며, 합성 데이터셋 생성 방법의 타당성을 검증했습니다.
성능 평가 이 모델들을 내부적으로 평가하기 위해, EleutherAI의 lm-eval-harness에 AGIEval을 추가하여 사용했습니다. FreeWilly 모델들은 복잡한 추론, 언어적 미묘함 이해, 특정 도메인 (예: 법률)과 관련된 복잡한 질문에 대한 해답 등 다양한 분야에서 우수한 성과를 보여주었습니다.
오픈 LLM 리더보드 벤치마크: 이러한 FreeWilly 결과는 Stability AI 연구원들에 의해 평가되었으며, Hugging Face에서 2023년 7월 21일에 독립적으로 재현되어 리더보드에 게시되었습니다.
개방적인 미래에 기여하기: FreeWilly1과 FreeWilly2는 오픈 액세스 Large Language Model의 새로운 기준을 세우고 있습니다. 두 모델은 연구를 크게 발전시키고 자연어 이해를 향상시키며 복잡한 작업을 가능하게 합니다. 우리는 이러한 모델이 AI 커뮤니티에 가져다줄 무한한 가능성과 새로운 응용 분야에 대해 열정적인 연구자, 엔지니어 및 협력자들에게 깊은 감사의 말씀을 전합니다. 더욱 흥미로운 발전에 주목하고, 지금 FreeWilly의 놀라운 잠재력을 탐색하기 시작하세요!
|
|
|
주식회사 오늘배움
contenjoo@learntoday.co.kr
대전광역시 유성구 지족로351 4층 402호 010-4819-1571
수신거부 Unsubscribe |
|
|
|
|