LTX 2.3 लेकर आया सिंक्रोनाइज़्ड ऑडियो के साथ ओपन-सोर्स 4K वीडियो
Lightricks ने LTX 2.3 जारी किया है, एक ओपन-सोर्स वीडियो जनरेशन मॉडल जो एक ही फॉरवर्ड पास में सिंक्रोनाइज़्ड स्टीरियो ऑडियो के साथ 50 FPS तक नेटिव 4K वीडियो बनाता है। यह पहला ओपन-सोर्स मॉडल है जो हाई-रिज़ॉल्यूशन वीडियो और ऑडियो जनरेशन को एक साथ जोड़ता है, और यह कंज़्यूमर हार्डवेयर पर चलता है।
Lightricks का आधिकारिक LTX 2.3 परिचय
मॉडल में क्या है
LTX 2.3 एक 22-बिलियन-पैरामीटर DiT (Diffusion Transformer) है जो वीडियो और ऑडियो जनरेशन को एक ही काम के तौर पर संभालता है। यह text-to-video, image-to-video, audio-to-video, video-to-video, और depth conditioning को सपोर्ट करता है। आप इसे एक text prompt देते हैं और बदले में मिलता है एक वीडियो क्लिप, जिसकी आवाज़ उसके साथ मेल खाती है। न कोई अलग ऑडियो जनरेशन स्टेप, न बाद में सिंक करने की ज़रूरत।
मॉडल 24, 25, 48, या 50 FPS पर 20 सेकंड तक की क्लिप बनाता है। यह हॉरिज़ॉन्टल और नेटिव पोर्ट्रेट (9:16) दोनों आस्पेक्ट रेशियो संभालता है, जो सोशल मीडिया फॉर्मैट को टारगेट करने वालों के लिए मायने रखता है। ऑडियो आउटपुट 24 kHz स्टीरियो है।
LTX 2 से क्या बदला
पिछले वर्शन के मुकाबले सबसे बड़े सुधार हैं तेज़ डिटेल और बेहतर मोशन। LTX 2 में विज़ुअल कुछ हद तक स्टैटिक रहने की प्रवृत्ति थी। LTX 2.3 इसे ठीक करता है एक दोबारा बनाए गए VAE (variational autoencoder) के ज़रिए, जिससे टेक्सचर ज़्यादा साफ़ और मूवमेंट ज़्यादा नैचुरल मिलता है।
Prompt को समझने की क्षमता भी काफ़ी बेहतर हुई है। text connector अब 4x बड़ा है और इसमें gated attention जोड़ा गया है, इसका मतलब है कि मॉडल जनरेशन प्रोसेस के दौरान आपके prompt के अलग-अलग हिस्सों को ज़्यादा सक्रियता से देखता है। अगर आप किसी खास कैमरा मूवमेंट का ज़िक्र करते हैं जबकि एक किरदार कोई एक्शन कर रहा है, तो यह दोनों को एक साथ बनाए रखने में बेहतर है।
बाकी सुधारों में शामिल हैं कम artifacts के साथ साफ़ ऑडियो, first/last frame guidance जैसे मोशन कंट्रोल फ़ीचर, और dolly, jib, तथा focus shift समेत कैमरा इफ़ेक्ट।
LTX 2.3 क्या बना सकता है, इसकी हैंड्स-ऑन झलक
परफ़ॉर्मेंस
Lightricks का दावा है कि यह मॉडल H100 GPUs पर प्रतिस्पर्धी मॉडलों से 18x तेज़ चलता है। कंज़्यूमर-ग्रेड हार्डवेयर पर यह 24 FPS की 5-सेकंड क्लिप करीब 4 सेकंड में बना सकता है। यह उस तरह के दोहराव वाले काम के लिए काफ़ी तेज़ है जहाँ आप कई टेक बनाते हैं और सबसे अच्छा चुनते हैं।
यह गेम डेवलपमेंट के लिए क्यों मायने रखता है
ओपन वेट्स का मतलब है कि आप LTX 2.3 को बिना API लागत या इस्तेमाल की सीमा के लोकल चला सकते हैं। गेम डेवलपर्स के लिए इससे कई इस्तेमाल खुलते हैं: cutscene प्रोटोटाइप बनाना, प्री-प्रोडक्शन के दौरान ट्रेलर फ़ुटेज तैयार करना, मार्केटिंग सामग्री बनाना, या पूरी प्रोडक्शन में जाने से पहले सिनेमैटिक सीक्वेंस का तेज़ प्रोटोटाइप बनाना।
वीडियो और ऑडियो को मिलाकर देने वाला आउटपुट खासकर गेम ट्रेलर और सिनेमैटिक्स के लिए उपयोगी है, जहाँ वरना आपको ऑडियो अलग से सिंक करना पड़ता। विज़ुअल और ऑडियो टोन पर एक साथ, एक ही जनरेशन पास में काम कर पाना फ़ीडबैक लूप को काफ़ी छोटा कर देता है।
मॉडल 10M सालाना रेवेन्यू की सीमा तक मुफ़्त इस्तेमाल किया जा सकता है। यह Lightricks API Playground, ComfyUI, PyTorch, और Replicate जैसे थर्ड-पार्टी प्लेटफ़ॉर्म के ज़रिए उपलब्ध है।