이어지는 AI들의 "유선생님 제자" 인증, 내 데이터는 안전할까?

이어지는 AI들의 "유선생님 제자" 인증, 내 데이터는 안전할까?

메타(Meta)가 만든 챗봇 "메타 AI"가 유튜브 동영상을 무단으로 학습했다고 직접 실토했습니다. 메타는 올해 4월에 메타 AI를 인스타그램과 왓츠앱을 비롯한 모든 앱에서 채팅 및 이미지 생성 기능으로 확장했습니다. 그러나 챗봇이 어떻게 훈련되었는지는 공개하지 않았죠.

그러나 비즈니스 인사이더가 메타 AI가 어떤 데이터로 훈련되었는지 묻자 메타AI는 유튜브 동영상을 전사한 대규모 데이터셋으로 훈련했다고 말했습니다. 그리고 메타는 "MSAE( Meta Scraping and Extraction)"라는 웹 스크래핑 봇을 보유하고 있으며, AI 모델을 훈련시키기 위해 웹에서 대량의 데이터를 스크래핑한다고 밝혔습니다. 메타는 이전에 이 스크레이퍼의 존재를 공개하지 않았습니다.

당연히 유튜브의 서비스 약관은 봇과 스크래퍼를 써서 데이터를 수집하는 것과 해당 데이터를 허가 없이 사용하는 것을 금지하고 있습니다. 메타 뿐만 아니라 최근 OpenAI도 이런 스크래핑 방식으로 학습시키지 않았는지 의심받고 있죠.

메타 대변인은 스크래퍼나 훈련 데이터에 대해 부인하지 않았어요. "업계의 다른 사람들과 마찬가지로, 우리는 웹 크롤러를 사용합니다,"라고 말했죠. 단 챗봇이 언급한 MSAE 가 맞다고 밝히지는 않았어요.

내 SNS가 AI의 학습지가 된다면

메타는 심지어 여기에 SNS 데이터까지 학습하는데요. 인스타타 페북에서 친구들이랑 떠들고 논 것, 찍은 사진들이 전부 AI의 "구몬"이 된 것입니다.

올해 초, 메타가 사용자에게 유럽에서 개인정보 보호정책 업데이트에 관한 메시지를 보내면서 메타가 사용자 사진, 게시물 및 댓글로 AI 모델을 훈련하고 있다는 사실이 밝혀졌죠.

메타의 개인정보 보호정책에는 "효과적인 모델을 학습시키기 위해서는 많은 양의 데이터가 필요하기 때문에 다양한 출처의 데이터가 훈련에 사용됩니다."라고 명시되어 있습니다.

회사는 공개적으로 이용 가능한 인터넷 정보를 모델 훈련에 사용하며, 여기에는 "Meta의 제품 및 서비스에서 공유된 정보가 포함됩니다. 이러한 정보는 게시물이나 사진 및 그 설명과 같은 것일 수 있습니다. 우리는 친구 및 가족과의 개인 메시지 내용을 AI 훈련에 사용하지 않습니다."라고 설명합니다. (공개 게시물은 모두 쓴다는 얘기죠)

AI는 어떻게 정보를 학습할까

AI가 정보를 학습하는 첫 단계인 '훈련'을 왜 걱정해야 할까요? 훈련 단계에서는 AI 모델이 SNS에 올라온 사진과 게시물과 같은 데이터를 선별적으로 '섭취'해서 더 정확하게 응답할 수 있도록 합니다.

그 다음 단계인 추론 단계에서는 사용자가 질문을 하면, 모델은 훈련된 정보를 기반으로 질문에 답합니다. 예를 들어 ChatGPT와 같은 대형 언어 모델에게 샐러드 레시피 목록을 작성해 달라고 요청하면 훈련된 정보를 바탕으로 대답하는거죠.

모델은 전체 데이터를 '저장'하는 대신, 다양한 사실, 이미지 및 아이디어를 연결하는 '가중치'로 데이터를 저장하며, 이를 통해 새로운 명령에 대처합니다.

막을 수 있나?

페이스북은 유저가 AI 훈련에 자신의 데이터 사용을 반대할 수 있는 전용 페이지를 제공하지만, 이를 완전히 중단할 것을 약속하지는 않습니다.

유저는 이메일 주소, 거주 국가 및 자신의 메시지와 이미지를 AI 훈련에 사용하지 말아야 하는 이유를 공유하여 반대할 수 있는데요.(링크) 사용자가 다른 사람이 게시한 이미지에 등장하는 경우 데이터가 여전히 처리될 수 있다고 해요. (내가 내걸 지우고 거부해도, 타인이 나와 함께한 게시물이 피드에 있다면 학습에 활용될 수 있는거죠.)

심지어 직접 들어가서 해보려고 하니 아래와 같은 안내문이 있어서, 제가 직접 메타 AI를 쓰다가 제 정보를 쓴 정황까지 파악해야 했습니다. 사실상 유명무실하다고 봐야겠네요.

회원님의 요청을 처리하려면 Meta의 AI 모델이 회원님에 관해 알고 있는지 확인할 정보가 필요합니다. 회원님이 입력한 프롬프트 중 Meta의 AI 모델, 기능 또는 경험에서 제공한 응답에 회원님의 개인정보가 표시되는 모든 프롬프트를 제공하세요. 응답의 개인정보가 회원님의 개인정보라는 증거도 필요합니다.

결국 챗봇에게 내가 누군지 물어보고, 내 개인정보를 활용했을만한 프롬프트를 입력해 내 정보가 있다는걸 캐내야 직접적인 항의와 정보 삭제가 가능한 겁니다.

이미 너무 많은 데이터를 학습했기 때문에 그걸 학습하지 않은 상태로 되돌리는 것도 어려운 일일 겁니다. 하지만 AI로 인한 데이터 위험이 커지는 만큼 이러한 작업의 중요도가 커지고 있습니다. 다음 레터에서는 AI가 특정 데이터를 잊어버리도록 하는 "언러닝(Unlearning)"에 대해 알아보겠습니다.

Read more

AI가 정치를 한다면

AI가 정치를 한다면

영국에서 AI 정치인이 등장해 큰 화제를 불러일으키고 있습니다. 이번 영국 총선에 'AI 스티브'라는 이름으로 출마한 후보는 실제로는 AI 기업 회장인 스티브 엔더콧이지만, 유세 활동은 AI 챗봇을 통해 이루어지고 있습니다. AI가 정치인을 대체할 수 있을까? AI가 인간의 많은 영역을 대체하지만, 그 대상이 정치라는 사실은 우리에게 양가적인 감정을 불러

By Forest
진짜 트럼프가 만든 암호화폐가 있다?

진짜 트럼프가 만든 암호화폐가 있다?

What's Hot? ㅣ$DJT 토큰 트럼프가 만들었다? 급등! ㅇ 솔라나 덱스에 상장된 $DJT 가상화폐가 트럼프 전 대통령과 연결돼있다는 소문이 미국 온라인 중소 매체인 파이러트와이어스를 통해 나왔어. 트럼프 전 대통령이 $DJT라는 이름의 가상화폐를 출시했으며, 막내 아들인 배런 트럼프가 프로젝트를 주도한다고 보도했지 ㅇ 이후 $DJT 토큰은 급등했어! 트위터에서도 다양한 인플루언서들이

By GENB
암호화폐가 나스닥을 못 따라가는 이유

암호화폐가 나스닥을 못 따라가는 이유

What's Hot? ㅣ나스닥은 가는데 암호화폐는.. ㅇ 비트코인은 지난 일주일 동안 6% 이상 하락하며 나스닥과 양의 상관관계가 깨졌어. 언론은 FED가 올해 기존 세 번 에서, 단 한 번의 금리 인하를 시사한 결정 때문으로 돌리지만, 기술주는 금리 점도표 공개 이후에도 상승세를 이어가고 있어서 하락은 암호화폐 고유의 요인이 있을 수

By GENB
암호화폐 하락, 게임스톱 관련코인

암호화폐 하락, 게임스톱 관련코인

What's Hot? ㅣ환경은 우호적이었으나 암호화폐 하락 ㅇ 비트코인 현물 ETF가 18일 동안 순유입 기록을 세우며 상승에 우호적인 환경이었어. 현물 ETF는 18일 연속 56,000개 이상의 비트코인을 축적했으며, 이는 해당 기간 동안 채굴된 비트코인의 거의 7배에 해당해 ㅇ 선물 시장은 대체로 상승 베팅이 많았어. 선물 미결제 약정이 377억

By GENB