Skip to content

LTX 2.3, 동기화된 오디오와 함께 오픈소스 4K 영상을 선보이다

Lightricks가 오픈소스 영상 생성 모델 LTX 2.3을 공개했습니다. 단일 순방향 패스로 최대 50 FPS의 네이티브 4K 영상과 동기화된 스테레오 오디오를 만들어냅니다. 고해상도 영상과 오디오 생성을 함께 결합한 첫 오픈소스 모델이며, 소비자용 하드웨어에서 돌아갑니다.

Lightricks의 공식 LTX 2.3 소개

모델에 담긴 것

LTX 2.3은 220억 파라미터 DiT(Diffusion Transformer)로, 영상과 오디오 생성을 하나의 통합된 작업으로 다룹니다. 텍스트-투-비디오, 이미지-투-비디오, 오디오-투-비디오, 비디오-투-비디오, 그리고 깊이 조건화를 지원합니다. 텍스트 프롬프트를 주면 그에 맞는 소리가 입혀진 영상 클립을 돌려줍니다. 별도의 오디오 생성 단계도, 사후 동기화 작업도 없습니다.

이 모델은 24, 25, 48, 50 FPS로 최대 20초 길이의 클립을 생성합니다. 가로 비율과 네이티브 세로(9:16) 비율을 모두 처리하는데, 소셜 미디어 포맷을 노리는 사람이라면 중요한 부분입니다. 오디오 출력은 24 kHz 스테레오입니다.

LTX 2에서 무엇이 바뀌었나

이전 버전 대비 가장 큰 개선은 더 선명한 디테일과 더 나은 움직임입니다. LTX 2는 다소 정적인 화면을 만들어내는 경향이 있었습니다. LTX 2.3은 텍스처를 더 또렷하게, 움직임을 더 자연스럽게 만들기 위해 VAE(변분 오토인코더)를 새로 구축해 이 문제를 다룹니다.

프롬프트 이해력도 크게 향상됐습니다. 텍스트 커넥터가 이제 4배 커졌고 게이티드 어텐션이 추가됐는데, 이는 모델이 생성 과정 전반에서 프롬프트의 여러 부분을 더 적극적으로 참조한다는 뜻입니다. 캐릭터가 어떤 동작을 하는 동안의 특정 카메라 움직임을 묘사하면, 두 가지를 동시에 유지하는 능력이 더 좋아졌습니다.

그 밖의 개선으로는 아티팩트가 줄어든 더 깨끗한 오디오, 첫/마지막 프레임 가이드 같은 모션 컨트롤 기능, 그리고 달리, 지브, 포커스 시프트를 포함한 카메라 효과가 있습니다.

LTX 2.3이 실제로 만들어낼 수 있는 것을 직접 살펴보기

성능

Lightricks는 이 모델이 H100 GPU에서 경쟁 모델보다 18배 빠르다고 밝혔습니다. 소비자급 하드웨어에서는 5초짜리 클립을 24 FPS로 약 4초 만에 만들어낼 수 있습니다. 여러 테이크를 생성하고 가장 좋은 것을 고르는 반복 작업에 충분히 빠른 속도입니다.

이것이 게임 개발에 중요한 이유

오픈 웨이트라는 건 API 비용이나 사용 한도 없이 LTX 2.3을 로컬에서 돌릴 수 있다는 뜻입니다. 게임 개발자에게는 여러 활용 사례가 열립니다. 컷신 프로토타입 생성, 프리프로덕션 단계의 예고편 영상 제작, 마케팅 자료 생산, 또는 본격적인 제작에 들어가기 전 시네마틱 시퀀스를 빠르게 프로토타입하는 작업이 그렇습니다.

영상과 오디오를 함께 출력하는 방식은 게임 예고편과 시네마틱에 특히 유용합니다. 그러지 않으면 오디오를 따로 동기화해야 하기 때문입니다. 단일 생성 패스에서 시각과 오디오 톤을 동시에 다듬을 수 있다는 점이 피드백 루프를 상당히 압축해 줍니다.

이 모델은 연 매출 1,000만 미만 조건에서 무료로 사용할 수 있습니다. Lightricks API Playground, ComfyUI, PyTorch, 그리고 Replicate 같은 서드파티 플랫폼을 통해 이용 가능합니다.

참고 자료