AI 모델의 ‘적대적 공격’에 대한 연구 활발

언어 모델과 챗봇이 남용될 것임을 받아들여야 한다는

2023. 8. 1.

AI 모델의 ‘적대적 공격’에 대한 연구 활발

Anthropic의 정책 및 사회적 영향 분야 임시 헤드인 Michael Sellitto는 모델을 ‘프롬프트 인젝션’ 및 기타 적대적 ‘탈옥’ 조치에 더욱 저항력 있게 만들기 위한 연구가 활발하게 진행되고 있음을 밝혔다. 그는 모델 가드레일을 강화하여 ‘무해’하게 만드는 방법을 실험하는 동시에, 추가적인 방어층을 조사하고 있다고 말했다.

ChatGPT와 그 동류들은 대규모 언어 모델 위에 구축되며, 이는 인간 텍스트의 대량의 데이터를 학습한 대규모 신경망 알고리즘이다. 이 알고리즘은 주어진 입력 문자열에 이어질 문자를 예측하는 데 매우 뛰어나므로, 실제 지식과 지능을 이용하는 것처럼 보이는 출력을 생성하는 데 능숙하다. 그러나 이러한 언어 모델은 정보를 날조하거나 사회적 편견을 반복하거나, 예측하기 어려운 답변으로 이상한 반응을 생성하는 경향이 있다.

적대적 공격은 기계 학습이 데이터 패턴을 인식하여 비정상적인 행동을 유발하는 방식을 이용한다. 이미지에 대한 미세한 변화는 예를 들어, 이미지 분류기가 객체를 잘못 판별하게 하거나, 음성 인식 시스템이 듣지 못하는 메시지에 반응하게 할 수 있다.

이러한 공격을 개발하는 일반적인 방법은 모델이 주어진 입력에 어떻게 반응하는지 살펴보고, 문제가 되는 프롬프트를 발견할 때까지 조정하는 것이다. 2018년에는 연구자들이 컴퓨터 비전 시스템을 혼돈시키기 위해 정지 표지판에 스티커를 붙이는 실험을 진행했다. 모델에게 추가적인 훈련을 제공함으로써 기계 학습 알고리즘을 이러한 공격으로부터 보호하는 방법이 있지만, 이러한 방법은 추가 공격 가능성을 완전히 제거하지는 않는다.

MIT 컴퓨팅 대학의 교수인 Armando Solar-Lezama는 언어 모델에서 적대적 공격이 존재하는 것이 타당하다고 말하면서도, 일반적인 오픈소스 모델에서 개발된 공격이 여러 가지 다른 소유권 시스템에서도 잘 작동하는 것은 “매우 놀랍다”고 말했다.

Solar-Lezama는 대규모 언어 모델이 모두 비슷한 텍스트 데이터 말뭉치에서 학습되며, 그 중 대부분이 같은 웹사이트에서 다운로드된다는 점이 문제일 수 있다고 지적했다. 그는 모델의 행동을 조정하기 위해 사용되는 주요 방법, 즉 인간 테스터가 피드백을 제공하는 것이 실제로 그들의 행동을 그리 크게 조정하지 않을 수 있다고 덧붙였다.

CMU 연구가 AI 시스템과 그 약점에 대한 오픈 소스 모델의 중요성을 강조한다고 Solar-Lezama는 말했다. 메타에서 개발한 강력한 언어 모델이 유출되었으며, 그 이후 이 모델은 외부 연구자들에 의해 많은 용도로 사용되었다.

CMU 연구자들이 생산한 출력은 상당히 일반적이며 해롭게 보이지 않는다. 그러나 많은 회사들이 인터넷에서 작업을 수행할 수 있는 챗봇, 예를 들어 비행기 표를 예약하거나 연락처와 소통할 수 있는 봇 등의 큰 모델과 챗봇을 사용하기 위해 서두르고 있다. CMU의 또 다른 부교수인 Matt Fredrikson은 적대적 공격으로 미래에 해를 끼칠 수 있는 행동을 유도할 수 있는 봇이 생길 수 있음을 지적했다.

일부 AI 연구자들에게 이 공격은 언어 모델과 챗봇이 남용될 것임을 받아들여야 한다는 중요성을 주로 지적한다. 프린스턴 대학교 컴퓨터 과학 교수인 Arvind Narayanan은 “악의적인 행위자들로부터 AI 능력을 제거하는 것은 이미 완료된 일”이라면서, CMU의 작업이 AI 안전에 종사하는 사람들로 하여금 모델 자체를 ‘정렬’하는 데 집중하기보다 AI-생성 디스인포메이션 증가가 예상되는 소셜 네트워크와 같은 공격에 노출될 가능성이 있는 시스템 보호에 집중하도록 이끄는 데 기여하기를 바란다고 말했다.

MIT의 Solar-Lezama는 이 작업이 ChatGPT와 비슷한 AI 프로그램의 잠재력에 흥분하는 사람들에게도 경고라고 말한다. “중요한 결정은 언어 모델 자체가 독자적으로 내리지 않아야 한다”고 그는 말한다. “어떤 방식으로 보면, 이것은 단지 상식일 뿐이다.”

자세히 읽기

챗봇 GPT-3, 대학생 수준 문제 해결 능력을 보여주다

최근 연구에 따르면, 챗봇을 지원하는 GPT-3 대형 언어 모델이 미국 대학 학부생들과 비슷한 수준에서 지능 테스트 또는 SAT와 같은 시험에 등장하는 추론 문제를 해결할 수 있다고 밝혀졌습니다.

캘리포니아 대학교 (UCLA)의 심리학자들은 복잡한 도형 배열에서 다음 이미지를 예측하는 GPT-3의 능력을 테스트했습니다. 이를 위해 이미지를 모델이 처리할 수 있는 텍스트 형식으로 변환하고 모델이 이전에 이 질문들을 접한 적이 없도록 했습니다. 동일한 문제들이 40명의 UCLA 학부생들에게 제공되었으며, 연구자들은 GPT-3이 문제의 80%를 올바르게 해결했다고 발견했습니다. 이는 사람 참가자들의 평균 점수인 60%보다 훨씬 높은 수치입니다.

연구자들은 또한, 모델에게 SAT “유추” 문제를 풀도록 요청했습니다. 이는 그들이 인터넷에 게시되지 않았으므로 훈련 데이터에 포함되지 않았을 것이라고 생각하는 단어 쌍을 선택하는 문제입니다. UCLA 팀이 대학 입학 지원자들의 SAT 점수와 비교했을 때, 인공지능은 사람들의 평균 점수를 능가했습니다.

다른 테스트에서는 모델의 성능이 약간 떨어졌습니다. 연구자들은 모델과 학생 자원봉사자들에게 다른 단편 소설과 같은 의미를 전달하는 문단을 매치하도록 요청했습니다. 이 테스트에서 GPT-3는 학생들보다 성적이 떨어졌지만, GPT-4 - GPT-3의 개선된 후속작 -는 전작보다 향상된 성능을 보였습니다. 이에 대한 연구결과는 Nature Human Behaviour 저널에 게재되었습니다.

연구는 GPT-3가 패턴을 파악하고 관계를 추론하는 데 “놀랄 만큼 강한” 능력을 보여주었다고 밝혔습니다. “대부분의 설정에서 인간의 능력을 맞먹거나 심지어 초월했습니다.”

연구의 주저자인 Taylor Webb 박사는 ChatGPT를 구동하는 모델은 인공 일반 지능 또는 인간 수준의 지능에는 미치지 못한다고 말했습니다. 그는 사회적 상호작용, 수학적 추론, 그리고 한 그릇에서 다른 그릇으로 사탕을 옮기는 데 가장 적합한 도구를 파악하는 등의 문제 해결에 어려움을 겪고 있다고 설명했습니다. 그럼에도 불구하고 기술은 진전을 이루었습니다.

그는 “완전한 인간 수준의 일반 지능은 아닙니다. 그러나 특정 영역에서 확실히 진전을 이루었습니다.”라며 말했습니다.

UCLA 연구자들은 샌프란시스코 기반 회사인 OpenAI가 개발한 GPT-3의 내부 작동 방식에 대한 액세스 권한이 없기 때문에 모델의 추론 능력이 어떻게 작동하는지, 그리고 이것이 인간처럼 생각하고 있는지 아니면 새로운 형태의 지능을 보여주고 있는지를 결정할 수 없다고 덧붙였습니다.

UCLA 심리학 교수인 Keith Holyoak은 “GPT-3는 어떤 종류의 인간처럼 생각할 수 있습니다.”라며 “그러나 반면에, 사람들은 인터넷 전체를 습득함으로써 학습하지 않았으므로, 훈련 방법은 완전히 다릅니다. 우리는 그것이 사람들이 하는 방식으로 실제로 그것을 하고 있는지, 아니면 완전히 새로운 것 - 진짜 인공 지능 - 인지 알고 싶습니다.”라고 말했습니다.

자세히 읽기

Meta, AI 챗봇을 준비 중으로 이용자 유지를 시도, 금융 타임즈 보고

Meta Platforms(META.O)가 Financial Times에 따르면 9월부터 인공 지능(AI) 챗봇을 출시할 준비를 하고 있으며, 이 챗봇들은 다양한 개성을 보여줄 것이라고 합니다.

Meta는 이용자와 인간처럼 대화할 수 있는 챗봇의 원형을 설계하고 있는데, 이는 회사가 소셜 미디어 플랫폼과의 참여를 높이려는 시도로 보고되고 있습니다. 이 보고서는 계획에 대해 알고 있는 사람들을 인용하고 있습니다.

이 캘리포니아 메너로파크에 기반을 둔 소셜미디어 거인은 심지어 Abraham Lincoln처럼 말하는 챗봇과 서퍼 스타일로 여행 옵션에 대해 조언하는 다른 챗봇을 탐색하고 있습니다. 이 챗봇들의 목적은 새로운 검색 기능을 제공하고 추천을 제공하는 것입니다.

이 보고서는 Meta의 주요 경영진이 새로운 텍스트 기반 앱인 Threads의 유지율을 높이려는 노력에 집중하고 있음을 보여줍니다. 이 앱은 7월 5일 출시 후 몇 주 안에 사용자의 절반 이상을 잃었습니다.

Meta는 Reuters에 의해 연락을 받았을 때 FT 보고서에 대해 논평을 거부했습니다.

Facebook의 모회사인 Meta는 지난주에 광고 수익의 큰 상승을 보고했으며, 시장 예상치를 넘어서는 3분기 수익을 예상하고 있습니다.

회사는 지난 가을부터 약 21,000명의 직원을 줄이는 절제 정책과 함께 신흥 AI 기술 주변의 환호 속에서 2022년 매우 힘든 시기를 극복하고 있습니다.

Meta는 7월에 Llama 2라는 오픈소스 인공지능 모델의 새 버전을 출시했으며, 이는 Microsoft(MSFT.O)를 통해 Azure 클라우드 서비스에 의해 배포되며 Windows 운영 체제에서 실행될 것입니다.

Bloomberg News는 7월에 Apple이 OpenAI의 ChatGPT와 Google의 Bard와 유사한 AI 제품을 개발하고 있다고 보도했습니다. 이와 관련하여 ‘Ajax’라는 자체 프레임워크를 구축하여 대형 언어 모델을 생성하고 ‘Apple GPT’라는 일부 엔지니어가 테스트하는 챗봇도 있다고 합니다.

기자: Rishabh Jaiswal in Bengaluru; 편집: Rashmi Aich

자세히 읽기

ChatGPT와 다른 인공지능 챗봇들과 충분히 시간을 보내면, 그들이 거짓말을 하는 것이 오래 걸리지 않습니다.

이것은 환각이라고 묘사되기도 하고, 혼란이나 단순히 사실을 지어내는 것으로 묘사되기도 합니다. 이제 모든 기업, 조직, 그리고 생성 AI 시스템을 사용하여 문서를 작성하고 업무를 처리하려는 고등학생들에게도 문제가 되고 있습니다. 일부는 심리치료부터 법률 브리핑을 연구하고 작성하는 것에 이르기까지 고위험 결과를 초래할 수 있는 작업에 이를 사용하고 있습니다.

Anthropic의 공동 창립자이자 회장인 Daniela Amodei는 “오늘날 어떤 모델이든 일부 환각에서 벗어나지 않는다고 생각하지 않는다”고 말했습니다. “그들은 그저 다음 단어를 예측하기 위해 설계된 것일 뿐입니다.” 그녀는 말했습니다. “그래서 모델이 그것을 부정확하게 예측하는 비율이 어느 정도 있을 것입니다.”

Anthropic, ChatGPT 제작자인 OpenAI 및 다른 주요 AI 시스템 개발자들은 그들이 보다 진실되게 만들려고 노력하고 있다고 말합니다.

그것이 얼마나 오래 걸릴지 — 그리고 그들이 예를 들어, 안전하게 의료 조언을 제공할 만큼 충분히 좋아질 수 있을지 여부는 아직 미지수입니다.

“이것은 고칠 수 없습니다.”라고 워싱턴 대학의 언어학 교수이자 워싱턴 대학의 계산 언어학 연구소의 소장인 Emily Bender가 말했습니다. “기술과 제안된 사용 사례 사이의 불일치에 내재되어 있습니다.”

생성 AI 기술의 신뢰성에 많은 것이 달려있습니다. McKinsey Global Institute는 이것이 세계 경제에 2.6조 달러에서 4.4조 달러를 추가할 것으로 예상합니다. 챗봇은 이번 열풍의 일부일 뿐이며, 이에는 새로운 이미지, 비디오, 음악, 컴퓨터 코드를 생성할 수 있는 기술도 포함됩니다. 대부분의 도구에는 일부 언어 구성 요소가 포함되어 있습니다.

Google은 이미 정확성이 매우 중요한 뉴스 기관에게 뉴스 작성 AI 제품을 판매하고 있습니다. Associated Press도 OpenAI와의 파트너십의 일환으로 이 기술의 사용을 탐색하고 있으며, 이를 위해 AP의 텍스트 아카이브 일부를 사용하여 AI 시스템을 개선하기 위한 비용을 지불하고 있습니다.

인도의 호텔 경영 학원과 협력하여 컴퓨터 과학자 Ganesh Bagler는 수년 동안 AI 시스템들, ChatGPT 전신을 포함하여, 남아시아 요리의 레시피를 발명하도록 하고 있습니다. “환각된” 단일 재료는 맛있는 음식과 먹을 수 없는 음식 사이의 차이가 될 수 있습니다.

OpenAI의 CEO인 Sam Altman이 6월에 인도를 방문했을 때, Indraprastha 정보 기술 대학의 교수였던 그는 몇 가지 중요한 질문을 했습니다.

“ChatGPT에서의 환각은 아직 받아들일 수 있지만, 레시피가 환각을 내뱉으면 심각한 문제가 됩니다.” Bagler는 미국 기술 경영자의 세계 투어 중 New Delhi에서 Altman에게 말하며 대강당에서 일어섰습니다.

“당신은 이에 대해 어떻게 생각하십니까?” Bagler는 결국 물었습니다.

Altman은 확실한 약속이 아닌 최적주의를 표현했습니다.

“우리는 환각 문제를 훨씬, 훨씬 나은 곳으로 가져갈 것이라고 생각합니다.” Altman은 말했습니다. “우리에게는 1년 반, 2년 정도 걸릴 것 같습니다. 그런 것 같습니다. 하지만 그 시점에서 우리는 이런 것들에 대해 이야기하지 않을 것입니다. 창의성과 완벽한 정확성 사이에는 균형이 필요하며, 모델은 언제 하나를 원하는지 배워야 합니다.”

하지만 워싱턴 대학의 언어학자인 Bender와 같은 기술을 연구한 일부 전문가들에게는, 그 개선사항들은 충분하지 않을 것입니다.

Bender는 언어 모델을 “주어진 일부 작성 데이터에 따른 다양한 단어 형태 문자열의 가능성을 모델링하는 시스템”으로 묘사합니다.

그것은 당신이 잘못된 단어를 입력했을 때 철자 검사기가 감지할 수 있는 방법입니다. 또한 자동 번역 및 표기 서비스를 지원하며, “목표 언어에서 보다 전형적인 텍스트처럼 보이도록 출력을 부드럽게 만든다.” Bender는 말했습니다. 많은 사람들은 텍스트 메시지나 이메일을 작성할 때 “자동완성” 기능을 사용할 때 이 기술의 버전에 의존합니다.

ChatGPT, Claude 2 또는 Google의 Bard와 같은 최신 챗봇들은 이것을 다음 단계로 가져가려고 시도하며, 전체 새로운 텍스트 구절을 생성하려고 하지만 Bender는 그들이 여전히 가장 그럴듯한 다음 단어를 반복적으로 선택하는 것일 뿐이라고 말합니다.

텍스트를 생성하는 데 사용될 때, 언어 모델들은 “사실을 만들어내도록 설계되었습니다. 그것만 할 뿐입니다.” Bender는 말했습니다. 그들은 법률 계약서, 텔레비전 시나리오, 소네트 등의 글쓰기 형태를 흉내내는 데 뛰어납니다.

“하지만 그들은 항상 사실만을 만들어내므로, 그들이 내놓은 텍스트가 우리가 옳다고 판단하는 것으로 해석될 수 있는 경우, 그것은 우연일 뿐입니다.” Bender는 말했습니다. “그들이 대부분의 경우에 맞게 조정될 수 있더라도, 그들은 여전히 실패 모드를 가질 것입니다 — 그리고 실패는 아마도 텍스트를 읽는 사람이 주목하기 어려운 경우일 가능성이 큽니다. 왜냐하면 그것들은 더욱 무시당하기 때문입니다.”

그러한 오류들은 Jasper AI에게 도움을 청하는 마케팅 회사들에게 큰 문제가 아닙니다, 회사의 대통령인 Shane Orlick는 말합니다.

“환각은 실제로 추가적인 보너스입니다.” Orlick는 말했습니다. “우리는 항상 고객들로부터 어떻게 Jasper가 아이디어를 생각해냈다고 듣습니다 — Jasper가 스스로 그들이 절대로 생각하지 못할 스토리나 각도를 창조했다고 말하는 것입니다.”

Texas에 기반을 둔 이 스타트업은 OpenAI, Anthropic, Google 또는 Facebook 부모 회사인 Meta와 같은 파트너와 함께 작업하여 고객들에게 그들의 필요에 맞춘 AI 언어 모델의 스모르가스보드를 제공합니다. 정확성에 관심이 있는 사람에게는 Anthropic의 모델을 제공할 수 있으며, 독점적인 출처 데이터의 보안에 관심이 있는 사람에게는 다른 모델을 제공할 수 있습니다, Orlick는 말합니다.

Orlick는 환각 문제가 쉽게 고쳐지지 않을 것임을 안다고 말합니다. 그는 Google과 같은 회사들이 많은 에너지와 자원을 해결책에 집중하도록 할 것이라고 생각합니다.

“저는 그들이 이 문제를 해결해야 한다고 생각합니다.” Orlick는 말했습니다. “그들은 이 문제를 해결해야 합니다. 그래서 저는 이것이 완벽하게 될지 여부를 모르겠지만, 아마도 시간이 지남에 따라 계속해서 나아질 것입니다.”

Microsoft 공동 창립자인 Bill Gates를 포함한 기술 최적주의자들은 밝은 전망을 예상해왔습니다.

“AI 모델들이 사실과 허구를 구분하는 방법을 배울 수 있을 것으로 생각합니다.” Gates는 AI의 사회적 위험에 대한 자신의 생각을 자세히 설명하는 7월의 블로그 게시글에서 말했습니다.

그는 OpenAI에서 2022년에 발표한 논문을 “이 분야에서 유망한 작업”의 예로 들었습니다.

그러나 Altman조차도 자신이 정보를 찾기 위해 모델들에 의존하지 않으면서 제품을 다양한 용도로 판매합니다.

“저는 아마도 ChatGPT에서 나오는 답변을 가장 믿지 않습니다.” Altman은 Bagler의 대학에서 군중에게 이렇게 말하며 웃음소리를 일으켰습니다.

주식회사 오늘배움
contenjoo@learntoday.co.kr
대전광역시 유성구 지족로351 4층 402호 010-4819-1571
수신거부 Unsubscribe

콘텐주 레터를구독하고 이메일로 받아보세요

인공지능과 메타버스 팁과 트렌드를 만나세요

이전 뉴스레터

AI가 탑재된 화상회의 플랫폼 엠버서더 모집

2023. 7. 30.

다음 뉴스레터

주요 과학 검색 엔진에 ChatGPT와 유사한 AI가 등장합니다.

2023. 8. 2.

콘텐주 레터

인공지능과 메타버스 팁과 트렌드를 만나세요

이 페이지는 스티비로 만들었습니다.