인공지능 의사를 신뢰할 수 있을까?...구글 헬스와 네이처 격론
인공지능 의사를 신뢰할 수 있을까?...구글 헬스와 네이처 격론
  • 송호창 기자
  • 승인 2020.10.22 12:14
  • 댓글 0
이 기사를 공유합니다

이미지 출처: Pixabay/ Marc Manhart
이미지 출처: Pixabay/ Marc Manhart

 

[퓨처타임즈=송호창 기자] 우리는 미래에 등장할 인공지능 의사를 과연 신뢰할 수 있을까? 이번 주, Google Health와 학계 양측은 가장 유명한 과학저널 중 하나인 네이처 지에서 격렬한 결투를 벌였다. 자율주행차의 안정성을 의심했던 것과 마찬가지로 의료용 AI에도 안정성에 대한 충분한 논의가 필요하다. 문제는 안전하고 동등한 방식으로 이를 판단하고 배포하는 동시에 엄청난 대중의 신뢰를 이끌어내는 방법이다.

머신러닝은 의학적 진단을 받고 있다. 안과 질환, 유방암 및 기타 암에서 더 무정형 신경장애에 이르기까지 AI는 일상적으로 의사의 성과를 완전히 꺾지 않더라도 일치시킨다. 

그러나 우리는 그 결과를 액면 그대로 얼마나 취할 수 있을까? 삶과 죽음의 결정에 관해서, 우리는 창조자 조차도 완전히 설명하거나 이해할 수 없는 수수께끼 같은 알고리즘인 '블랙박스'를 전적으로 신뢰할 수 있을까?

의료 AI가 Google, Amazon 또는 Apple과 같은 학술 및 산업 강국을 포함한 여러 분야와 개발자를 서로 다른 인센티브로 교차시킴으로써 문제는 더욱 복잡해진다.

이번 주, 양측은 가장 유명한 과학저널 중 하나인 네이처 지에서 격렬한 결투를 벌였다. 한쪽에는 Princess Margaret Cancer Centre, University of Toronto, Stanford University, Johns Hopkins, Harvard, MIT 등의 저명한 AI 연구원이 있다. 반대편에는 타이탄 Google Health가 있다.

방아쇠는 올해 1월에 발표된 유방암 검진을 위한 Google Health의 폭발적인 연구였다. 이 연구는 유방암 진단을 위해 방사선 전문의를 훨씬 능가하는 AI 시스템을 개발했으며, 훈련에 사용되는 집단을 넘어서는 집단으로 일반화할 수 있는 AI 시스템을 개발했다고 주장했다. 이는 대규모 의료 영상 데이터 세트가 없기 때문에 엄청나게 어려운 종류의 성배이다. 이 연구는 미디어 환경을 파고들었고 의료 AI의 '성령'에 대한 대중적 영역에서 화제를 불러 일으켰다.

문제는 연구가 다른 사람들이 복제할 수 있는 코드와 모델에 대한 충분한 설명이 부족하다는 점이라고 학계는 주장했다. 다시 말해, 우리는 과학적 연구에서 수행되지 않은 연구라는 단어만 믿을 수 있다. Google Health는 환자 정보를 보호하고 AI가 악의적인 공격을 받지 않도록 방지해야 한다고 정중하고 미묘하지만 단호한 반박을 펼쳤다.

이와 같은 학문적 담론은 과학의 자리를 형성하고 믿을 수 없을 정도로 괴상하고 시대에 뒤 떨어진 것처럼 보일 수 있다. 특히 온라인 채널보다는 양측이 수세기 동안의 펜과 종이 토론에 의존했기 때문이다.

그러나 그렇게 함으로써 그들은 전 세계의 광범위한 청중들에게 필요한 논쟁을 불러 일으켰고, 양측은 모두에게 이익이 되는 의료 AI의 신뢰와 투명성을 위한 프레임 워크의 기초를 놓을 수 있는 탄탄한 펀치를 날렸다. 만약 이제 그들이 해밀턴과 제퍼슨의 해밀턴 내각 전투의 맥락에서 그들의 주장을 맹비난 할 수만 있다면 말이다. 

학계의 주장이 어디에서 왔는지 쉽게 알 수 있다. 과학은 종종 객관성과 진실을 구현하는 거룩한 노력으로 그려진다. 그러나 사람들이 다루는 모든 분야와 마찬가지로 오류, 잘못된 설계, 의도하지 않은 편견 또는 결과를 왜곡하는 의식적인 조작 (매우 적은 수)이 발생하기 쉽다. 이 때문에 결과를 게시할 때 과학자들은 다른 사람들이 결과를 복제할 수 있도록 방법론을 주의 깊게 설명한다.

코로나19로부터 보호하는 백신이 과학자, 재료 또는 피험자에 관계없이 거의 모든 실험실에서 발생한다면 백신이 실제로 효과가 있다는 더 강력한 증거가 있다. 그렇지 않다면 초기 연구가 잘못되었을 수 있으며 과학자들은 이유를 설명하고 계속 진행할 수 있다. 복제는 건강한 과학적 진화에 중요하다.

그러나 AI 연구는 교리를 분쇄하고 있다.

“전산 연구에서 AI 연구의 세부 사항에 완전히 액세스 할 수 있는 것은 아직 널리 퍼진 기준이 아니다. 이것은 우리의 발전에 해를 끼친다.”고 Princess Margaret Cancer Centre의 저자 Benjamin Haibe-Kains 박사는 말했다.

예를 들어 컴퓨터 코드나 학습 샘플 및 매개 변수의 미묘한 차이는 결과에 대한 학습 및 평가를 크게 바꿀 수 있다. 이러한 측면은 일반적으로 텍스트만으로는 쉽게 설명할 수 없다. 그 결과 복잡한 계산 파이프 라인을 확인하려는 시도가 불가능하게 된다고 팀은 말했다. (학계에서는 장갑을 벗는 것과 같다.)

학계에서는 Google Health의 유방암 연구를 예로 들었지만 문제가 훨씬 더 널리 퍼져 있음을 인정했다. Google Health 연구의 투명성 측면에서 부족한 점을 조사함으로써 팀은 "우리는 더 넓은 분야에 영향을 미칠 수 있는 잠재적인 솔루션을 제공한다"고 말했다. 불가능한 문제가 아니다. GitHub, Bitbucket 및 기타와 같은 온라인 보관소는 이미 코드 공유를 허용한다. 다른 것들은 ModelHub.ai와 같은 딥 러닝 모델을 공유하고 Google Health 팀에서 사용했던 TensorFlow와 같은 프레임 워크를 지원한다.

AI 모델에 대한 모든 세부 사항은 제쳐 두고 해당 모델이 훈련된 데이터를 공유하는 문제도 있다. 의료 AI의 경우 특히 까다로운 문제이다. 이러한 데이터 세트의 대부분은 라이선스가 적용되고 공유하면 개인 정보 보호 문제가 발생할 수 있기 때문이다. 그러나 전례가 없다.

예를 들어 Genomics는 수십 년 동안 환자 데이터 세트 (본질적으로 각 개인의 유전적 '기본 코드')를 활용했으며 환자 개인 정보를 보호하기 위한 광범위한 지침이 존재한다. 23andMe 조상 침 키트를 사용하고 데이터를 대규모 게놈 연구에 사용하는 데 동의한 적이 있다면 이러한 지침의 혜택을 받은 것이다. 의료 AI를 위해 비슷한 것을 설정하는 것은 불가능하지 않다.

결국 의료 AI의 투명성에 대한 더 높은 기준은 의사와 환자를 포함한 전체 분야에 도움이 될 것이다. “접근성과 투명성을 향상시키는 것 외에도 이러한 리소스는 모델 개발, 검증 및 생산 및 임상 구현으로의 전환을 상당히 가속화할 수 있다.”고  썼다.

Scott McKinney 박사가 이끄는 Google Health는 말을 간과하지 않았다. 그들의 일반적인 주장은 다음과 같다. 우리는 그 감정을 공유한다. 그러나 현재의 규제 프레임 워크 하에서 공개 공유에 관해서는 우리의 손이 묶여 있다.

예를 들어, 다른 사람들이 다른 의료 이미지 세트에서 테스트할 수 있도록 모델 버전을 출시할 때 팀은 AI 시스템이 '의료 기기 소프트웨어'로 분류될 수 있기 때문에 불가능하다고 말했다. 무제한 공개는 환자, 제공자 및 개발자를 위험에 빠뜨리는 책임 문제로 이어질 수 있다.

데이터 세트 공유와 관련하여 Google Health는 사용되는 가장 큰 소스가 액세스할 수 있는 애플리케이션과 함께 온라인에서 사용할 수 있다고 주장했다 (조직이 리소스 자금을 지원하는 데 도움이 된 힌트 만 있으면 됨). 윤리위원회로 인해 다른 데이터 세트는 공유할 수 없다.

마지막으로, 팀은 모델의 '학습된 매개 변수', 즉 구성 방법에 대한 정보를 공유하면 학습 데이터 세트와 모델이 악의적인 공격이나 오용에 노출될 수 있다고 주장했다. 확실히 우려 사항이다. 1주일 동안 Redditors를 속일 수 있을 정도로 무섭게 인간처럼 작성하는 OpenAI 알고리즘인 GPT-3에 대해 들어 보셨을 것이다. 그러나 일부 비틀어진 만족을 위해 유방암 탐지 도구를 쓰러뜨리려면 정말 아픈 사람이 필요하다. 

학계 대 Google Health 토론은 의료 AI에 대한 전 세계적 평가의 작은 부분에 불과하다. 2011년 9월 국제 의료 전문가 컨소시엄은 신뢰할 수 있는 알고리즘에서 AI 스네이크 오일을 추출하기 위해 의학에 AI를 배포하는 임상 시험에 대한 일련의 공식 표준을 도입했다. 한 가지 점은 친숙하게 들릴 수 있다. 의료 AI가 실험실의 유리한 훈련 세트 또는 조건에서 벗어나 실제 단어로 얼마나 안정적으로 작동하는 지이다. 이 가이드 라인은 의료 AI에 관한 첫 번째 사항 중 일부를 나타내지 만 마지막은 아니다.

이 모든 것이 상아탑에서 추상적이고 높은 곳으로 보인다면 다른 방식으로 생각해보라. 이제 그것이 일어나는 방을 목격하고 있다. 협상과 담론을 공개함으로써 AI 개발자는 대화에 참여할 추가 이해 관계자를 초대한다. 자율주행차와 마찬가지로 의료용 AI도 필연적으로 보인다. 문제는 안전하고 동등한 방식으로 이를 판단하고 배포하는 동시에 엄청난 대중의 신뢰를 이끌어내는 방법이다.


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.