AI / Tech

이어지는 AI들의 "유선생님 제자" 인증, 내 데이터는 안전할까?

Forest

2024년 6월 14일 — 6 min read

메타(Meta)가 만든 챗봇 "메타 AI"가 유튜브 동영상을 무단으로 학습했다고 직접 실토했습니다. 메타는 올해 4월에 메타 AI를 인스타그램과 왓츠앱을 비롯한 모든 앱에서 채팅 및 이미지 생성 기능으로 확장했습니다. 그러나 챗봇이 어떻게 훈련되었는지는 공개하지 않았죠.

그러나 비즈니스 인사이더가 메타 AI가 어떤 데이터로 훈련되었는지 묻자 메타AI는 유튜브 동영상을 전사한 대규모 데이터셋으로 훈련했다고 말했습니다. 그리고 메타는 "MSAE( Meta Scraping and Extraction)"라는 웹 스크래핑 봇을 보유하고 있으며, AI 모델을 훈련시키기 위해 웹에서 대량의 데이터를 스크래핑한다고 밝혔습니다. 메타는 이전에 이 스크레이퍼의 존재를 공개하지 않았습니다.

당연히 유튜브의 서비스 약관은 봇과 스크래퍼를 써서 데이터를 수집하는 것과 해당 데이터를 허가 없이 사용하는 것을 금지하고 있습니다. 메타 뿐만 아니라 최근 OpenAI도 이런 스크래핑 방식으로 학습시키지 않았는지 의심받고 있죠.

메타 대변인은 스크래퍼나 훈련 데이터에 대해 부인하지 않았어요. "업계의 다른 사람들과 마찬가지로, 우리는 웹 크롤러를 사용합니다,"라고 말했죠. 단 챗봇이 언급한 MSAE 가 맞다고 밝히지는 않았어요.

내 SNS가 AI의 학습지가 된다면

메타는 심지어 여기에 SNS 데이터까지 학습하는데요. 인스타타 페북에서 친구들이랑 떠들고 논 것, 찍은 사진들이 전부 AI의 "구몬"이 된 것입니다.

올해 초, 메타가 사용자에게 유럽에서 개인정보 보호정책 업데이트에 관한 메시지를 보내면서 메타가 사용자 사진, 게시물 및 댓글로 AI 모델을 훈련하고 있다는 사실이 밝혀졌죠.

메타의 개인정보 보호정책에는 "효과적인 모델을 학습시키기 위해서는 많은 양의 데이터가 필요하기 때문에 다양한 출처의 데이터가 훈련에 사용됩니다."라고 명시되어 있습니다.

회사는 공개적으로 이용 가능한 인터넷 정보를 모델 훈련에 사용하며, 여기에는 "Meta의 제품 및 서비스에서 공유된 정보가 포함됩니다. 이러한 정보는 게시물이나 사진 및 그 설명과 같은 것일 수 있습니다. 우리는 친구 및 가족과의 개인 메시지 내용을 AI 훈련에 사용하지 않습니다."라고 설명합니다. (공개 게시물은 모두 쓴다는 얘기죠)

AI는 어떻게 정보를 학습할까

AI가 정보를 학습하는 첫 단계인 '훈련'을 왜 걱정해야 할까요? 훈련 단계에서는 AI 모델이 SNS에 올라온 사진과 게시물과 같은 데이터를 선별적으로 '섭취'해서 더 정확하게 응답할 수 있도록 합니다.

그 다음 단계인 추론 단계에서는 사용자가 질문을 하면, 모델은 훈련된 정보를 기반으로 질문에 답합니다. 예를 들어 ChatGPT와 같은 대형 언어 모델에게 샐러드 레시피 목록을 작성해 달라고 요청하면 훈련된 정보를 바탕으로 대답하는거죠.

모델은 전체 데이터를 '저장'하는 대신, 다양한 사실, 이미지 및 아이디어를 연결하는 '가중치'로 데이터를 저장하며, 이를 통해 새로운 명령에 대처합니다.

막을 수 있나?

페이스북은 유저가 AI 훈련에 자신의 데이터 사용을 반대할 수 있는 전용 페이지를 제공하지만, 이를 완전히 중단할 것을 약속하지는 않습니다.

유저는 이메일 주소, 거주 국가 및 자신의 메시지와 이미지를 AI 훈련에 사용하지 말아야 하는 이유를 공유하여 반대할 수 있는데요.(링크) 사용자가 다른 사람이 게시한 이미지에 등장하는 경우 데이터가 여전히 처리될 수 있다고 해요. (내가 내걸 지우고 거부해도, 타인이 나와 함께한 게시물이 피드에 있다면 학습에 활용될 수 있는거죠.)

심지어 직접 들어가서 해보려고 하니 아래와 같은 안내문이 있어서, 제가 직접 메타 AI를 쓰다가 제 정보를 쓴 정황까지 파악해야 했습니다. 사실상 유명무실하다고 봐야겠네요.

회원님의 요청을 처리하려면 Meta의 AI 모델이 회원님에 관해 알고 있는지 확인할 정보가 필요합니다. 회원님이 입력한 프롬프트 중 Meta의 AI 모델, 기능 또는 경험에서 제공한 응답에 회원님의 개인정보가 표시되는 모든 프롬프트를 제공하세요. 응답의 개인정보가 회원님의 개인정보라는 증거도 필요합니다.

결국 챗봇에게 내가 누군지 물어보고, 내 개인정보를 활용했을만한 프롬프트를 입력해 내 정보가 있다는걸 캐내야 직접적인 항의와 정보 삭제가 가능한 겁니다.

이미 너무 많은 데이터를 학습했기 때문에 그걸 학습하지 않은 상태로 되돌리는 것도 어려운 일일 겁니다. 하지만 AI로 인한 데이터 위험이 커지는 만큼 이러한 작업의 중요도가 커지고 있습니다.