GPT-4o가 유난히 인간적으로 느껴지는 이유
오픈AI가 내놓은 GPT-4o의 첫 인상은 영화 <Her>의 주인공 사만다 그 자체였습니다.
데모 시연 영상 속 GPT-4o의 목소리는 스칼렛 요한슨과 똑닮아 있었죠. <Her>에서 보았던 친근하고 사랑스러운 캐릭터가 GPT-4o에서도 그대로 반영되어 있었습니다. 실수에 대처하는 방식도 너무나 인간적이었죠.
수학 문제를 풀어달라는 요청에 아직 문제를 보여주지 않았는데도 "I see it"이라고 대답하는 실수가 있었는데요. 개발자가 아직 보여주지 않았다고 하자, "앗, 내가 너무 신났나봐. 네가 준비될 때까지 기다릴게. (Oops! I got too excited. I'm ready when you are.)"라며 머쓱해했습니다.
개인적으로 이 말을 하는 목소리에 담겨 있는 호흡이 '당황', '머쓱함'같은 감정을 담고 있어서 놀랐습니다. 단순히 감정에 의해 변화하는 음성의 높낮이만을 구현한 것이 아니라, 감정표현의 핵심으로 꼽히는 "호흡"을 구현해냈다는 생각이 들었죠.
"연기? 별 거 없어 그거 그냥 숨쉬는 거야."
잠시 수강했던 연기 수업에서 선생님이 학부 시절에 선배들에게 들었던 말을 알려 주었습니다. 연기의 원리는 감정을 밖으로 꺼내는 것인데, 이 과정에서 호흡이 매개체 역할을 한다는 것입니다. 감정을 느낀 만큼 안으로 집어넣었다가 마찬가지로 그만큼 밖으로 꺼내는 것이죠. 아마도 이 호흡의 자연스러움 때문에 GPT-4o가 마치 사람같은 감정을 느끼고 표현한다는 착각이 들었던 것 같습니다.
그런데 이게 어떻게 가능했을까요? 조금 더 찾아보니 오픈AI가 '음성채팅' 기능을 개발할 때 성우들과 협업했다는 내용이 있었습니다. 오픈AI는 음성채팅 기능을 만들 때 5명의 성우들과 함께 작업했다고 발표했습니다.
시중에 나와 있는 음성 AI들처럼 실제 인물의 목소리를 확보해서 합성하는 것과 비슷하게 보일 수 있지만, 분명한 차이가 있습니다. "밥 먹었어?" 라는 대사를 일반인이 국어책 읽듯이 하는 것와, 전문 배우가 발랄한 캐릭터를 녹여서 하는 건 전혀 다르니까요. 음성만으로 감정과 이야기를 전달하는 5명의 성우들을 선별해 그들의 목소리와 표현방식을 깊게 연구했을테니, GPT-4o가 보여주는 자연스러운 대사와 표현이 가능했겠구나 하는 생각이 들었습니다.
그럼 왜 이용자의 목소리가 아니라 성우의 목소리를 택했을까요? 이용자의 목소리로 음성비서를 만드는 게 훨씬 신기할 텐데요. 사실 AI가 내 목소리를 학습해서 텍스트로 대사를 입력만 하면 이런 저런 말들을 할 수 있다는 건 다소 소름끼치는 일입니다. 내 목소리를 입은 AI가 엄마 번호로 전화해서 거액을 요구하는 상상도 어렵지 않게 해볼 수 있죠.
실제로 삼성이 이용자의 목소리를 빅스비에 입히는 기능을 처음으로 내 놓았을때, 외신의 반응은 "크리피하다"였습니다. 일단 AI가 내 목소리로 말하는 것 자체가 소름끼치는 일인데다, 거기서 파생될 수 있는 여러 사기 가능성까지 생각하면 끔찍한 일처럼 느껴지죠. 오픈AI도 이런 점 때문에 성우를 활용했다고 이야기 합니다.
"단 몇 초만에 실제 음성으로 음성을 합성하는 기술은 창의성을 위한 새로운 도구를 제공하지만, 악의적으로 공인을 사칭하거나 범죄를 저지를 수 있는 가능성을 초래할 수 있습니다. 이것이 우리가 이 기술로 음성 채팅만을 지원하는 이유입니다." - 오픈AI 공식 블로그
이런 생각은 사실 전혀 놀랍지 않고 어쩌면 거대 AI 기업이 해야 할 당연한 생각에 가깝습니다. 그리고 한편 저 생각은 기술의 수준을 단순 합성 수준에서 머무르게 할 수 있을 만한 논리이기도 합니다. 하지만 오픈AI는 무분별한 음성합성 툴을 제공하지 않는 대신 특정 성우의 감정 표현 방식과 캐릭터까지 음성으로 구현하는 방향으로 나아갔다는 점이 인상적이었습니다.
하지 않으려는 마음을 먹으면 이유는 너무나도 많습니다. 하지만 그 제약 안에서도 하고자 하는 것을 찾는다면 너무나 멋진 결과물을 만들 수 있겠죠. 노래하며 동화를 읽어주는 GPT-4o처럼요.