중국 자체 개발 AI 'vidu', 영상 생성 AI 왕좌에 도전!!

中, 영상 생성형 AI ‘Vidu’ 발표

근래 AI 분야의 엄청난 기술 발전으로 이제는 일상에서도 ChatGPT 같은 텍스트 생성형 AI나 Midjourney와 같은 이미지 생성형 AI는 많이 사용하는 모습을 볼 수 있는데요, 돌이켜 보면 이 정도로 AI 기술을 우리 생활에서 쓰게 될 줄은 불과 1~2년 전에도 생각 못했던 거 같습니다.

그런데 여기에 더해, ChatGPT 개발사로 널리 알려진 Open AI에서 지난 2월 또 하나의 야심 찬 작품을 선보였습니다.

바로 영상 생성형 AI ‘Sora’ 입니다.

이제는 비디오 영상도 ChatGPT 쓰듯이 텍스트만 입력하면 1분 길이의 퀄리티 높은 영상을 만들어 낼 수 있다는 것은 단순히 생활을 편리하게 한다는 정도가 아니라, 미디어 관련 업계의 판도도 바꿀 수 있는 큰 변화라 할 수 있습니다.

혹시 ‘Sora’에 대해 아직 잘 모르시는 분들은 아래 링크를 통해 한번 살펴보시면 좋을 거 같습니다. 아직 일반인이 사용할 수는 없고, 몇몇 제작자들에게 배포하여 Test Video를 만들어 놓은 게 있습니다.

[Link] Open AI – SORA 소개 및 Test Video

그리고 ‘Sora’의 등장에서 2개월이 지난 4월 27일.

중국 베이징의 중관촌 포럼에서, Shengshu Technology와 칭화대가 공동 개발한 중국 최초의 비디오 모델인 ‘Vidu’를 선보였습니다.

Vidu 특징

Vidu 측 설명에 따르면, Vidu는 Sora와 마찬가지로 실제 물리적인 세계를 시뮬레이션 할 수 있을 뿐만 아니라, 풍부한 상상력으로 실제 존재하지 않는 상황도 영상으로 만들 수 있으며, 다중 렌즈 생성 및 높은 시/공간적 일관성을 갖추고 있다고 합니다.

기술적인 원리는 워낙 복잡해서 설명 드리기 어렵지만, 확실한 건 지난 2월 Sora 출시 이후 획기적인 발전을 이룬 세계 최초의 대규모 비디오 모델이라고 볼 수 있겠습니다.

Vidu가 만들어 낸 영상들을 보면 Sora와 마찬가지로 수준 높은 퀄리티를 보여주고 있는데요, 일부 부자연스러운 부분도 있지만 이는 Sora 에서도 나타나는 현상으로, 점점 더 개선되어 나갈 것으로 생각됩니다.

실제 물리적 세계를 시뮬레이션하고, 합리적인 빛과 그림자 효과, 섬세한 캐릭터 표현 등 실제 물리적 법칙을 준수하면서 복잡한 디테일을 갖춘 장면을 생성할 수 있음
상상력이 풍부해 현실 세계에 존재하지 않는 허구적인 이미지를 만들어낼 수 있어 ‘스튜디오의 배가 파도를 타고 카메라를 향해 항해하고 있다’ 같은 장면 등 깊이와 복잡함이 있는 초 현실적인 콘텐츠를 만들어 낼 수 있음
카메라 밀기, 당기기, 이동 등 단순한 고정 샷에 국한되지 않는 복잡한 동적 샷을 생성할 수 있음. Vidu는 장거리 샷, 근접 샷, 중간 샷, 근접 샷 등 다양한 샷 간에 전환할 수 있으며, 롱샷을 직접 생성하는 기능, 초점 추적, 전환 및 기타 효과를 포함하여 단일 프레임에서 동일한 피사체를 영상에 삽입할 수 있음
중국에서 자체 개발한 대규모 비디오 모델 답게 중국 요소도 이해할 수 있어, 비디오에서 판다, 용과 같은 독특한 중국 요소를 생성할 수 있음

Vidu 제작 영상

설명 만으로는 어떠한지 감이 잘 오지 않으니, Vidu로 제작된 영상 샘플을 한번 살펴보도록 하겠습니다.

아래 영상을 보시면 일부 부자연스러운 부분도 보이지만 전반적으로 영상이 사실적이고 일관된 분위기로 진행됨을 알 수 있습니다.

생성형 AI에 대해 익숙하지 않은 분들을 위해 다시 한번 말씀드리면, 아래 영상들은 모두 촬영한 것이 아닌, 사용자가 입력한 텍스트를 기반으로 ‘만들어진’ 영상들입니다. 즉, ‘기타 연주하는 팬더’, ‘자금성에 나타난 하얀 용’ 같이 프롬프트 내용을 입력하면 이렇게 만들어진다는 이야기 입니다.

관련 업계 평가

중국 Vidu가 공개되면서 관련한 많은 평가들이 나오고 있습니다.

역시나 Sora와의 비교가 가장 많은데, 가장 큰 차이점은 Sora가 최대 1분까지 동영상을 만들어 낼 수 있는 것에 비해, Vidu는 현재 최대 16초까지 만들어낼 수 있다는 차이점이 있습니다.

그럼 4번 만들어서 붙이면 되지 않을까 하실 수도 있지만, 일관된 캐릭터와 주제로 가능한 긴 영상을 만들 수 있다는 것은 실제 상업용 영상으로 가기 위해서는 반드시 필요한 부분이라 할 수 있습니다.

이미지/영상 생셩형 AI들을 사용해 보신 분들은 아시겠지만, 프롬프트를 유사하게 유지하고, Seed를 입력해서 이전 결과물을 그대로 활용하도록 한다 해도, 일관성 있게 결과물을 만들어내기가 그렇게 쉽지 않습니다.

Vidu 측에서도 그 부분은 잘 알고 있어 앞으로 계속 시간은 늘려나갈 계획이라고 밝히고 있어 이 부분은 점점 더 개선 될 것으로 보입니다.

그 외에 Sora 대비 영상 퀄리티가 조금 떨어진다는 지적도 있는데 이 부분은 Sora가 워낙 ‘넘사벽의 클라스’를 가지고 있어서 그렇지 Vidu의 퀄리티가 절대적으로 모자른 것은 아닌 거 같습니다.

현재 나와있는 다른 영상 생성형 AI들 (예를 들면, Runway Gen-2, Pika Labs 등) 과 비교해 봤을 때도 개인적으로 봤을 때 떨어지지 않고 오히려 사실적으로 표현되는 부분도 있고, 기타 다른 영상 생성형 AI들이 2~4초 정도의 짧은 영상 길이를 제공하고 움직임도 Active 하지 않은 면에 비해 훨씬 높은 수준을 보이는 거 같습니다.

그래도 Sora와 비교를 한다고 하면… 아직까지 Sora와는 기술적인 격차가 있어 보입니다.

마치며…

지금까지 중국의 영상 생성형 AI인 Vidu에 대해 간단히 살펴봤습니다.

아직 대중에게 공식적으로 오픈 되지 않은 상황이라, 실제 사용기는 좀 더 기다려봐야 알 수 있을 거 같습니다.

한 가지 확실한 건, 중국의 기술력이 정말 많이 높아지고 있으며, 특히 AI와 관련된 부분은 미국과 겨룰 수 있을 정도에 까지 이른 거 같아 상당히 인상적이었습니다. 특히 최근 반도체 규제로 인해 AI 기술에 핵심인 고성능 GPU를 제대로 공급 받지 못하고 있는 상황에서, 이 정도의 기술력을 보인 것은 놀라운 수준이라는 것이 서방 외신의 평가이기도 합니다.