채팅GPT: 연구를 위한 5가지 우선순위

대화형 AI는 과학의 게임 체인저입니다. 응답 방법은 다음과 같습니다.

COMMENT 03 February 2023

ChatGPT: five priorities for research

Conversational AI is a game-changer for science. Here’s how to respond.

Eva A. M. van Dis, Johan Bollen, Willem Zuidema, Robert van Rooij & Claudi L. Bockting

https://www.nature.com/articles/d41586-023-00288-7

작년 말 ChatGPT라는 챗봇이 출시된 이후 이러한 유형의 인공 지능(AI) 기술은 연구원이 작업하는 방식에 큰 영향을 미칠 것이 분명해졌습니다.

ChatGPT는 대규모 언어 모델(LLM)로, 데이터에서 자율적으로 학습하고 방대한 텍스트 데이터 세트에 대한 교육 후 정교하고 겉보기에 지능적인 쓰기를 생성할 수 있는 기계 학습 시스템입니다. 캘리포니아 샌프란시스코의 AI 회사인 OpenAI 및 다른 회사에서 출시한 일련의 모델 중 최신 모델입니다. ChatGPT는 다양한 주제에 대해 영어 및 기타 언어로 사용자와 설득력 있게 대화할 수 있는 최초의 모델 중 하나이기 때문에 흥분과 논란을 불러일으켰습니다. 무료이며 사용하기 쉽고 계속 배우고 있습니다.

이 기술은 과학과 사회에 광범위한 영향을 미칩니다. 연구원과 다른 사람들은 이미 ChatGPT 및 기타 대규모 언어 모델을 사용하여 에세이 및 강연을 작성하고, 문헌을 요약하고, 논문 초안을 작성 및 개선하고, 연구 격차를 식별하고 통계 분석을 포함한 컴퓨터 코드를 작성했습니다. 곧 이 기술은 실험을 설계하고, 원고를 작성 및 완성하고, 동료 검토를 수행하고, 원고를 수락하거나 거부하는 편집 결정을 지원할 수 있는 지점까지 발전할 것입니다.

대화형 AI는 연구 관행과 출판에 혁명을 일으켜 기회와 우려를 모두 창출할 가능성이 큽니다. 혁신 프로세스를 가속하고 출판 시간을 단축하며 사람들이 유창하게 글을 쓸 수 있도록 도와줌으로써 과학을 보다 공평하게 만들고 과학적 관점의 다양성을 높일 수 있습니다. 그러나 그것은 또한 연구의 질과 투명성을 떨어뜨리고 인간 연구자로서의 자율성을 근본적으로 바꿀 수 있습니다. ChatGPT 및 기타 LLM은 설득력이 있지만, 종종 잘못된 텍스트를 생성하므로 과학적 사실을 왜곡하고 잘못된 정보를 퍼뜨릴 수 있습니다.

우리는 이 기술의 사용이 불가피하다고 생각하므로 금지는 효과가 없을 것입니다. 연구 커뮤니티는 잠재적으로 파괴적인 이 기술의 의미에 관한 토론에 참여하는 것이 필수적입니다. 여기에서는 다섯 가지 주요 문제를 간략하게 설명하고 어디서부터 시작해야 하는지 제안합니다.

사람의 검증을 유지하십시오

LLM은 수년 동안 개발됐지만 데이터 세트의 품질과 크기가 지속해서 증가하고 사람의 피드백으로 이러한 모델을 바로잡는 정교한 방법으로 인해 갑자기 이전보다 훨씬 강력해졌습니다. LLM은 차세대 검색 엔진으로 이어질 것입니다. 복잡한 사용자 질문에 대한 상세하고 유익한 답변을 생성할 수 있습니다.

그러나 전문 연구에 대화형 AI를 사용하면 부정확성, 편견 및 표절이 발생할 수 있습니다. 우리는 ChatGPT에 문헌에 대한 심층적인 이해가 필요한 일련의 질문과 과제를 제시했으며 종종 거짓되고 오해의 소지가 있는 텍스트를 생성한다는 것을 발견했습니다. 예를 들어, ‘얼마나 많은 우울증 환자가 치료 후 재발을 경험합니까?’라고 물었을 때, 치료 효과가 일반적으로 오래 지속한다고 주장하는 지나치게 일반적인 텍스트를 생성했습니다. 그러나 수많은 고품질 연구에 따르면 치료 효과가 약해지고 치료 완료 후 첫해에 재발 위험이 29%에서 51% 사이입니다. 동일한 질의를 반복하면 더욱 상세하고 정확한 답변이 생성된다(보충 정보, 도 S1 및 S2 참조).

다음으로, 우리는 ChatGPT에 우리 중 두 명이 JAMA Psychiatry에서 저술한 체계적인 리뷰를 요약하도록 요청했습니다. 불안 관련 장애에 대한인지 행동 치료 (CBT)의 효과. ChatGPT는 몇 가지 사실적 오류, 허위 진술 및 잘못된 데이터를 포함하는 설득력 있는 응답을 조작했습니다(추가 정보, 그림 참조). S3). 예를 들어, 검토는 46개의 연구 (실제로는 69개를 기반으로)를 기반으로 했으며 더 걱정스럽게도 CBT의 효과를 과장했습니다.

이러한 오류는 ChatGPT의 교육 세트에 관련 기사가 없거나 관련 정보를 추출하지 못하거나 신뢰할 수 있는 출처와 덜 신뢰할 수 있는 출처를 구별할 수 없기 때문일 수 있습니다. 가용성, 선택 및 확증 편향과 같이 종종 인간을 잘못된 길로 이끄는 동일한 편향이 대화형 AI에서 재현되고 종종 증폭되는 것 같습니다.

ChatGPT를 사용하는 연구원은 허위 또는 편향된 정보에 의해 오도되어 자기 생각과 논문에 통합될 위험이 있습니다. 부주의한 리뷰어는 후광 효과로 인해 아름답고 권위 있는 산문으로 AI로 작성된 논문을 받아들이도록 속일 수 있으며, 몇 가지 두드러진 긍정적인 인상에서 지나치게 일반화하는 경향이 있습니다. 그리고 이 기술은 일반적으로 원본 출처 나 저자를 안정적으로 인용하지 않고 텍스트를 복제하기 때문에 이를 사용하는 연구원은 이전 작업에 대한 크레딧을 제공하지 않고 무의식적으로 알려지지 않은 수많은 텍스트를 표절하고 심지어 자신의 아이디어를 포기할 위험이 있습니다. 연구자가 ChatGPT 및 기타 LLM에 공개하는 정보는 모델에 통합될 수 있으며, 챗봇은 원래 소스를 인정하지 않고 다른 사람에게 제공할 수 있습니다.

연구자들이 연구에 LLM을 사용한다고 가정하면 학자들은 경계를 유지해야 합니다. 전문가 중심의 사실 확인 및 검증 프로세스는 필수 불가결합니다. LLM이 요약, 평가 및 리뷰를 정확하게 신속하게 처리할 수 있더라도 고품질 저널은 사람의 검증 단계를 포함하거나 이 기술을 사용하는 특정 응용 프로그램을 금지하기로 할 수 있습니다. 자동화 시스템에 대한 과도한 의존인 인간 자동화 편향을 방지하려면 책임의 중요성을 강조하는 것이 더욱 중요해질 것입니다. 우리는 인간이 항상 과학적 실천에 대한 책임을 져야 한다고 생각합니다.

책임에 대한 규칙 개발

텍스트가 기계나 인간으로부터 유래할 가능성을 예측하는 도구는 이미 사용할 수 있습니다. 이러한 도구는 제지 공장 및 약탈 저널에서 콘텐츠를 제조하기 위해 LLM의 불가피한 사용을 감지하는 데 유용할 수 있지만 이러한 탐지 방법은 진화된 AI 기술과 영리한 프롬프트에 의해 우회될 가능성이 큽니다. AI 챗봇과 AI 챗봇 탐지기 간의 헛된 군비 경쟁에 참여하기보다는 연구 커뮤니티와 출판사가 LLM을 무결성, 투명성 및 정직하게 사용하는 방법을 찾아야 한다고 생각합니다.

연구 논문의 저자 기여 진술 및 인정은 저자가 원고 및 분석을 준비하는 데 ChatGPT와 같은 AI 기술을 사용했는지와 정도를 명확하고 구체적으로 명시해야 합니다. 또한, 사용된 LLM을 표시해야 합니다. 이렇게 하면 편집자와 검토자가 잠재적인 편견, 부정확성 및 부적절한 출처 표시에 대해 원고를 보다 주의 깊게 조사하도록 경고합니다. 마찬가지로, 과학 저널은 예를 들어 제출된 원고를 선택할 때 LLM 사용에 대해 투명해야 합니다.

연구 기관, 출판사 및 자금 제공자는 출판된 기록 일부가 될 수 있는 모든 자료를 준비하는 데 대화형 AI의 사용에 대한 인식을 높이고 투명성을 요구하는 명시적인 정책을 채택해야 합니다. 게시자는 이러한 정책이 준수되었다는 저자 인증을 요청할 수 있습니다.

현재 LLM은 자신의 작업에 대한 책임을 질 수 없으므로 원고의 저자가 되어서는 안 됩니다. 그러나 연구자들이 연구에서 LLM의 정확한 역할을 정확히 찾아내는 것이 점점 더 어려워질 수 있습니다. 때에 따라 ChatGPT와 같은 기술은 저자의 프롬프트에 대한 응답으로 원고의 상당 부분을 생성할 수 있습니다. 다른 곳에서는 저자가 AI를 문법 또는 맞춤법 검사기로 사용하여 여러 번의 수정 및 개선 주기를 거쳤지만, 텍스트를 작성하는 데 사용하지는 않았을 수 있습니다. 앞으로 LLM은 텍스트 처리 및 편집 도구, 검색 엔진 및 프로그래밍 도구에 통합될 가능성이 큽니다. 따라서 그들은 저자가 기여의 성격이나 규모를 반드시 인식하지 않고도 과학 연구에 이바지할 수 있습니다. 이것은 저자, 표절 및 출처에 대한 오늘날의 이분법적 정의를 무시하며, 누군가가 저자인지 아닌지, 출처가 사용되었거나 사용되지 않았습니다. 정책은 적응해야 하지만 완전한 투명성이 항상 핵심입니다.

AI가 고안 한 발명은 이미 특허법에 대한 근본적인 재고를 일으키고 있습니다. AI를 훈련하는 데 사용되는 코드 및 이미지와 AI에 의해 생성된 코드 및 이미지의 저작권에 대한 소송이 제기되었습니다. (go.nature.com/3y4aery 참조). AI 작성 또는 지원 원고의 경우 연구 및 법률 커뮤니티는 텍스트에 대한 권리를 보유한 사람을 파악해야 합니다. AI 시스템이 훈련된 텍스트를 작성한 개인, AI를 생산 한 기업 또는 시스템을 사용하여 글쓰기를 안내한 과학자입니까? 다시 말하지만, 저자의 정의는 고려되고 정의되어야 합니다.

진정한 개방형 LLM에 투자

현재 거의 모든 최첨단 대화형 AI 기술은 AI 개발을 위한 리소스를 보유한 소수의 대형 기술 회사의 독점 제품입니다. OpenAI는 주로 Microsoft에서 자금을 지원하며 다른 주요 기술 회사는 유사한 도구를 출시하기 위해 경쟁하고 있습니다. 소수의 기술 회사의 검색, 워드 프로세싱 및 정보 액세스에 대한 거의 독점을 감안할 때 이는 상당한 윤리적 문제를 제기합니다.

연구 커뮤니티의 가장 시급한 문제 중 하나는 투명성 부족입니다. ChatGPT 및 이전 제품에 대한 기본 교육 세트 및 LLM은 공개적으로 사용할 수 없으며 기술 회사는 대화형 AI의 내부 작동을 숨길 수 있습니다. 이는 투명성과 개방형 과학을 향한 움직임에 반하는 것이며 챗봇 지식의 기원 또는 격차를 밝히기 어렵게 만듭니다. 예를 들어, 우리는 ChatGPT에 여러 연구원의 연구를 설명하도록 요청했습니다. 어떤 경우에는 h-지수 (연구의 영향을 측정하는 방법)를 기반으로 덜 영향력 있는 것으로 간주 될 수 있는 과학자들에 대한 자세한 설명을 생성했습니다. h-지수가 약 20인 연구자 그룹에는 성공했지만, h-지수가 80 이상인 과학자조차도 많이 인용되고 유명한 여러 과학자의 연구에 대한 정보를 전혀 생성하지 못했습니다.

이러한 불투명성에 대응하기 위해서는 오픈소스 AI 기술의 개발과 구현을 우선시해야 한다. 대학과 같은 비영리 조직은 일반적으로 LLM 개발의 빠른 속도를 따라잡는 데 필요한 계산 및 재정 자원이 부족합니다. 따라서 우리는 과학 자금 지원 기관, 대학, 비정부기구 (NGO), 정부 연구 시설 및 유엔과 같은 조직뿐만 아니라 기술 대기업이 독립적인 비영리 프로젝트에 상당한 투자를 해야 한다고 주장합니다. 이는 고급 오픈 소스, 투명하고 민주적으로 제어되는 AI 기술을 개발하는 데 도움이 될 것입니다.

비평가들은 그러한 협력이 빅테크와 경쟁할 수 없다고 말할 수도 있지만, 적어도 하나의 주로 학술 협력 인 BigScience는 이미 BLOOM이라는 오픈 소스 언어 모델을 구축했습니다. 기술 회사는 더 큰 커뮤니티 참여를 창출하고 혁신과 신뢰성을 촉진하기 위해 모델 및 코퍼스의 관련 부분을 오픈 소싱함으로써 이러한 프로그램의 이점을 누릴 수 있습니다. 학술 출판사는 LLM이 전체 아카이브에 액세스할 수 있도록 하여 모델이 정확하고 포괄적인 결과를 생성하도록 해야 합니다.

AI의 이점 수용

학계의 업무량과 경쟁이 증가함에 따라 대화형 AI를 사용해야 한다는 압박도 커지고 있습니다. 챗봇은 논문을 마무리하기 위해 노력하는 박사 과정 학생부터 보조금 제안서를 위해 빠른 문헌 검토가 필요한 연구자 또는 분석을 제출해야 하는 시간 압박을 받는 동료 검토자에 이르기까지 작업을 빠르게 완료할 기회를 제공합니다.

AI 챗봇이 이러한 작업에 도움이 될 수 있다면 결과를 더 빨리 게시하여 학계가 새로운 실험 설계에 집중할 수 있습니다. 이는 혁신을 크게 가속하고 잠재적으로 많은 분야에서 돌파구로 이어질 수 있습니다. 우리는 이 기술이 편견, 출처 및 부정확성과 관련된 현재의 치아 문제가 해결된다면 엄청난 잠재력이 있다고 생각합니다. 연구자가 특정 연구 관행에 대해 기술을 현명하게 사용하는 방법을 알 수 있도록 LLM의 유효성과 신뢰성을 조사하고 발전시키는 것이 중요합니다.

어떤 사람들은 챗봇이 의미를 이해하기보다는 훈련 세트에서 단어 간의 통계적 연관성을 배우기 때문에 LLM은 사람들이 이미 한 일을 기억하고 종합 할 수 있으며 창의적이고 개념적 사고와 같은 과학적 과정의 인간적 측면을 나타내지 않을 것이라고 주장합니다. 우리는 이것이 시기상조의 가정이며 미래의 AI 도구가 오늘날 도달할 수 없는 것처럼 보이는 과학적 과정의 측면을 마스터할 수 있다고 주장합니다. 1991 년 정액 논문에서 연구자들은 사람과 지능형 기술 간의 “지능형 파트너십”이 사람의 지적 능력을 능가할 수 있다고 썼습니다. 이러한 지능형 파트너십은 인간의 능력을 뛰어넘고 이전에는 상상할 수 없었던 수준으로 혁신을 가속화 할 수 있습니다. 문제는 자동화가 어디까지 갈 수 있고 얼마나 가야 하는가입니다.

AI 기술은 학업 기술을 재조정할 수 있습니다. 한편으로 AI는 예를 들어 학생의 작문 및 추론 능력을 향상하기 위한 피드백을 제공함으로써 학업 훈련을 최적화할 수 있습니다. 반면에 문헌 검색을 수행하는 능력과 같은 특정 기술의 필요성을 줄일 수 있습니다. 또한, 프롬프트 엔지니어링(대화형 AI 모델을 프롬프트하는 데 사용되는 텍스트를 디자인하고 제작하는 프로세스)과 같은 새로운 기술을 도입할 수도 있습니다. 특정 기술의 상실이 반드시 문제가 되는 것은 아니지만 (예를 들어, 대부분 연구자는 더 이상 손으로 통계 분석을 수행하지 않습니다), 커뮤니티로서 우리는 어떤 학문적 기술과 특성이 연구자에게 필수적인지 신중하게 고려해야 합니다.

성능에만 신경을 쓴다면 AI 기술이 발전함에 따라 사람들의 기여가 더 제한되고 모호해질 수 있습니다. 미래에는 AI 챗봇이 가설을 세우고, 방법론을 개발하고, 실험을 만들 수 있습니다. 데이터 분석 및 해석 및 원고 작성. 인간 편집자와 검토자 대신 AI 챗봇도 기사를 평가하고 검토할 수 있습니다. 우리는 아직 이 시나리오에서 어느 정도 떨어져 있지만, 대화형 AI 기술이 과학 출판 프로세스의 모든 단계에 점점 더 영향을 미칠 것이라는 데는 의심의 여지가 없습니다.

따라서 윤리학자를 포함한 학자들은 AI의 사용이 지식 생성의 잠재적 가속화를 만드는 것과 연구 과정에서 인간의 잠재력과 자율성의 상실 사이의 절충안에 대해 논의하는 것이 필수적입니다. 사람들의 창의성과 독창성, 교육, 훈련 및 다른 사람들과의 생산적인 상호 작용은 관련성 있고 혁신적인 연구를 수행하는 데 필수적일 것입니다.

논쟁의 폭을 넓히다

LLM의 파괴적인 잠재력을 고려할 때 연구 커뮤니티는 긴급하고 광범위한 토론을 조직해야 합니다. 첫째, 모든 연구 그룹은 즉시 회의를 열어 ChatGPT에 대해 논의하고 시도하는 것이 좋습니다(아직 시도하지 않은 경우). 그리고 교육자들은 학부생들과 그 사용과 윤리에 관해 이야기해야 합니다. 이 초기 단계에서 외부 규칙이 없는 경우 책임 있는 그룹 리더와 교사가 정직, 성실성 및 투명성으로 사용하는 방법을 결정하고 몇 가지 참여 규칙에 동의하는 것이 중요합니다. 연구에 이바지하는 모든 사람은 ChatGPT로 생성되었는지에 관계없이 자신의 작업에 대한 책임을 져야 함을 상기시켜야 합니다. 모든 저자는 텍스트, 결과, 데이터, 코드 및 참고 문헌을 신중하게 사실 확인할 책임이 있습니다.

둘째, 우리는 연구를 위한 LLM의 개발 및 책임 있는 사용에 관한 즉각적이고 지속적인 국제 포럼을 요구합니다. 초기 단계로 다양한 분야의 과학자, 기술 회사, 대규모 연구 자금 제공자, 과학 아카데미, 출판사, NGO, 개인 정보 보호 및 법률 전문가를 포함한 관련 이해 관계자를 위한 정상 회담을 제안합니다. 인간 유전자 편집과 같은 다른 파괴적인 기술에 대응하여 지침을 논의하고 개발하기 위해 유사한 정상 회담이 조직되었습니다. 이상적으로, 이 논의는 모든 관련 당사자를 위한 신속하고 구체적인 권고와 정책으로 이어져야 합니다. 우리는 이 포럼에서 논의될 수 있는 질문의 전체 목록을 제시합니다(‘토론을 위한 질문’ 참조).

해결해야 할 한 가지 주요 문제는 연구의 다양성과 불평등에 대한 함의입니다. LLM은 양날의 검이 될 수 있습니다. 예를 들어 언어 장벽을 제거하고 더 많은 사람이 고품질 텍스트를 작성할 수 있도록 함으로써 경기장을 평평하게 하는 데 도움이 될 수 있습니다. 그러나 대부분의 혁신과 마찬가지로 고소득 국가와 특권을 가진 연구자들은 자신의 연구를 가속하고 불평등을 확대하는 방식으로 LLM을 활용하는 방법을 신속하게 찾을 가능성이 있습니다. 따라서 토론에는 연구에서 과소 대표되는 그룹과 연구의 영향을 받는 지역 사회의 사람들이 포함되어 사람들의 생생한 경험을 중요한 자원으로 사용하는 것이 중요합니다.

사회의 다른 많은 영역과 마찬가지로 과학은 이제 AI 기술이 가장 소중한 가치, 관행 및 표준을 침해함으로써 유발된 계산에 직면해 있습니다. 기회를 수용하고 위험을 관리하는 데 중점을 두어야 합니다. 우리는 과학이 과학 작업을 가장 심오하고 만족스러운 기업 중 하나로 만드는 많은 중요한 측면인 호기심, 상상력 및 발견을 잃지 않고 대화형 AI의 이점을 누릴 방법을 찾을 것이라고 확신합니다.

토론을 위한 질문

대화형 AI에 대한 포럼에서 논의할 문제.

어떤 연구 작업을 대규모 언어 모델 (LLM)에 외주해야 하거나 외주해서는 안 됩니까?

연구자에게 필수적인 학문적 기술과 특성은 무엇입니까?

AI 지원 연구 프로세스에서 사람의 검증이 필요한 단계는 무엇입니까?

LLM을 해결하기 위해 연구 무결성 및 기타 정책을 어떻게 변경해야 합니까?

LLM은 연구원의 교육 및 훈련에 어떻게 통합되어야 합니까?

연구자와 자금 제공자는 독립적인 오픈 소스 LLM의 개발을 어떻게 지원하고 모델이 과학 지식을 정확하게 나타내도록 할 수 있습니까?

LLM에 대해 어떤 품질 표준(예: 투명성, 정확성, 편향 및 출처 크레딧)을 기대해야 하며 LLM뿐만 아니라 표준을 담당하는 이해 관계자는 누구입니까?

연구자들은 LLM이 연구의 형평성을 증진하고 불평등 확대의 위험을 피할 수 있도록 어떻게 보장할 수 있습니까?

개방형 과학의 원칙을 향상하기 위해 LLM을 어떻게 사용해야 합니까?

Nature 614, 224-226 (2023)

doi: https://doi.org/10.1038/d41586-023-00288-7

References

Grant, N. & Metz, C. The New York Times (21 December 2022).

Jelovac, A., Kolshus, E. & McLoughlin, D. M. Neuropsychopharmacol. 38, 2467–2474 (2013).

Kato, M. et al. Mol. Psychiatry 26, 118–133 (2021).

Vittengl, J. R., Clark, L. A., Dunn, T. W. & Jarrett, R. B. J. Consult. Clin. Psychol. 75, 475–488 (2007).

van Dis, E. A. M. et al. JAMA Psychiatry 77, 265–273 (2020).

Rich, A. S. & Gureckis, T. M. Nature Mach. Intell. 1, 174–180 (2019).

Thorndike, E. L. J. Appl. Psychol. 4, 25–29 (1920).

Skitka, L. J., Mosier, K. & Burdick, M. D. Int. J. Human-Comp. Stud. 52, 701–717 (2000).

George, A. & Walsh, T. Nature 605, 616–618 (2022).

Rudin, C. Nature Mach. Intell. 1, 206–215 (2019).

Salomon, G., Perkins, D. N. & Globerson, T. Edu. Res. 20, 2–9 (1991).

Melnikov, A. A. et al. Proc. Natl Acad. Sci. USA 115, 1221–1226 (2018).

답글 남기기 응답 취소