샌드 AI, 차세대 동영상 생성 모델 ‘매지-1’ 공개… 세계 모델 경쟁 본격화

중국 인공지능(AI) 스타트업 샌드 AI가 고도화된 세계 모델(LWM) 기술을 기반으로 한 차세대 동영상 생성 모델 ‘매지-1(MAGI-1)’을 공개하며, 글로벌 동영상 생성 AI 시장에 새로운 경쟁 구도를 형성했다. 샌드 AI는 22일(현지시간) 자사 플랫폼을 통해 매지-1을 발표하고, 이 모델이 단순 영상 생성 수준을 넘어 자기회귀 방식(autoregressive)으로 물리적 움직임을 예측하고 구현하는 능력을 갖췄다고 밝혔다.

[코리안투데이] 자동회귀적 디노이징(사진출처=샌드AI) ©변아롱 기자

매지-1은 디퓨전 트랜스포머(DiT) 아키텍처를 기반으로 한다. 이는 기존 이미지 생성에 주로 쓰였던 확산 모델(Diffusion)과 언어 모델에 쓰이는 트랜스포머(Transformer)의 강점을 결합한 구조다. 텍스트와 이미지를 독립적으로 처리하면서도 긴밀하게 상호작용시키는 설계를 통해, 보다 정밀한 영상 품질과 자연스러운 문맥 이해 능력을 구현한 것이 특징이다.

기술적으로 매지-1은 전체 영상을 한 번에 생성하지 않고, 24프레임 단위 청크(chunk)를 하나씩 디노이징하는 방식을 채택했다. 청크 단위 병렬 처리가 가능해져, 최대 4개 청크를 동시에 생성할 수 있다. 이를 통해 시간적 일관성과 확장성이 크게 향상됐으며, 이미지-투-비디오(I2V) 변환 과제에서도 높은 성능을 입증했다.

모델의 내부에는 블록-캐주얼 어텐션(Block-Causal Attention), 병렬 어텐션 블록(Parallel Attention Block), QK-Norm, SwiGLU 등 다양한 최신 AI 최적화 기법이 적용됐다. 또한, 속도 기반 단일 모델 학습 및 셀프 컨시스턴시(self-consistency) 제약을 활용해, 다양한 추론 속도 환경에서도 안정적인 품질을 유지하도록 설계됐다.

매지-1의 최대 모델은 240억 개의 파라미터를 갖고 있으며, 최대 400만 토큰의 컨텍스트 창을 지원한다. 이는 대규모 입력 시퀀스에서도 연속성과 디테일을 유지할 수 있도록 한다. 성능 측면에서도 매지-1은 동급 최고로 평가받고 있다. 텐센트의 ‘하이루 i2v-01’, ‘훈위안비디오’, 알리바바의 ‘완-2.1’ 등과의 비교 평가에서,

지시문 이해, 물리적 동작 재현 모두에서 최고 점수를 기록했다. 특히 물리학적 상식과 행동 예측 능력을 평가하는 Physics-IQ 벤치마크에서는 기존 모든 모델을 압도하는 성과를 보이며, 트랜스포머 기반 세계 모델로서의 가능성을 입증했다.

다만, 매지-1의 일반 사용자 접근성은 제한적이다. 최소 4개, 최대 8개 엔비디아 H100 GPU가 필요해 개인 이용자는 체험이 어렵고, 현재는 샌드 AI가 운영하는 플랫폼 ‘매지-프로덕트’를 통해서만 체험할 수 있다.

모델 소스 코드는 ‘매지-소스’, 주된 어텐션 메커니즘은 ‘매지-어텐션’을 통해 일부 공개됐다.

샌드 AI는 매지-1을 통해 단순한 동영상 생성 AI를 넘어, 세계 모델 연구와 실용화의 교두보를 마련하겠다는 전략이다. 01.AI 창립자 카이푸 리 등 주요 전문가들도 매지-1을 “동영상 AI 시장의 판도를 바꿀 모델”로 평가하고 있다. 차세대 동영상 생성 AI 전쟁은 이제, 영상 품질을 넘어 ‘물리 세계 이해력’ 경쟁으로 넘어갈 전망이다.