Skip to content

Avataar का Varya AI वीडियो को 10x सस्ता बनाता है, और असली कहानी यही है

Avataar.ai ने आज नई दिल्ली में एक इवेंट में Varya को पेश किया, और इस दौरान भारत के इलेक्ट्रॉनिक्स और IT मंत्रालय के सचिव भी मौजूद थे। यह 14 अरब पैरामीटर वाला एक AI वीडियो मॉडल है, जिसे कंपनी क्वालिटी के लिहाज़ से Alibaba के Wan 2.2 और Google के Veo 3 की ही श्रेणी में रखती है, पर जो आंकड़ा सबसे ज़्यादा मायने रखता है वह कोई क्वालिटी बेंचमार्क नहीं है। वह है कीमत। Varya करीब ₹0.48 प्रति सेकंड पर वीडियो बनाता है, जो कंपनी के मुताबिक टॉप ग्लोबल मॉडलों से दस गुना तक सस्ता है। यह वह एक distilled आर्किटेक्चर चलाकर करता है जो जनरेशन को आमतौर पर लगने वाले 50 diffusion स्टेप से घटाकर चार पर ले आता है, और साथ ही आउटपुट क्वालिटी को पूरे-स्टेप वाले मॉडलों के करीब बनाए रखता है।

Varya, भारत का distilled वीडियो मॉडल, क्लिप पचास के बजाय चार स्टेप में बनाता है

मॉडल यहां तक भारत के IndiaAI Mission की मदद से पहुंचा, जिसने नेशनल AI कंप्यूट तक सब्सिडाइज़्ड पहुंच दी। इसे जानबूझकर भारतीय संदर्भों के लिए ट्रेन किया गया है, ताकि यह क्षेत्रीय विविधता, त्योहार, खानपान, पहनावा, और रोज़मर्रा के माहौल को उन मॉडलों से बेहतर दिखा सके जो ज़्यादातर पश्चिमी डेटा पर ट्रेन किए गए हैं। varya.avataar.ai पर एक लाइव डेमो मौजूद है, और Avataar का कहना है कि वह Varya को ट्रेनिंग डेटा के साथ एक open-weight मॉडल के रूप में भारत के AIKosh पोर्टल पर रिलीज़ करेगा, ताकि डेवलपर इसे खुद होस्ट या fine-tune कर सकें। आर्किटेक्चर और distillation मेथड पर एक टेक्निकल रिपोर्ट भी आ रही है।

पचास के बजाय चार स्टेप

यहां जो टेक्निकल चाल है, वही पूरी बात है। Diffusion मॉडल noise से शुरू होकर कई स्टेप में रिफाइन करते हुए जनरेट करते हैं, और हर स्टेप नेटवर्क से होकर एक पूरा पास होता है। पचास स्टेप का मतलब है पचास पास। Distillation एक छोटे, तेज़ student मॉडल को ट्रेन करता है ताकि वह धीमे, कई-स्टेप वाले teacher जो बनाता है उसे दोहरा सके, पर बस गिने-चुने स्टेप में। पचास के बजाय चार स्टेप यानी प्रति फ्रेम दस गुना से भी कम कंप्यूट, और प्रति फ्रेम कंप्यूट ही वह जगह है जहां वीडियो जनरेशन की लगभग पूरी लागत बसती है।

वॉल-क्लॉक आंकड़े इसे ठोस बना देते हैं। Avataar के मुताबिक एक NVIDIA H200 पर Varya 5 सेकंड की 720p क्लिप करीब 45 सेकंड में तैयार कर देता है। यही काम वह Wan 2.2 के लिए करीब 1,230 सेकंड पर आंकता है। यह मार्जिन पर मिली कोई छोटी जीत नहीं है, यह एक अलग ही पैमाना है, और यही फर्क है उस मॉडल में जिसे आप एक भीड़ को सर्व कर सकते हैं और उस मॉडल में जिसे आप सिर्फ एक डेमो के लिए चला सकते हैं।

यह वही ट्रिक है जिसने पिछले दो साल में तेज़ इमेज जनरेशन को व्यावहारिक बनाया। इसे प्रोडक्शन पैमाने पर वीडियो पर उतरते देखना, एक असली प्रति-सेकंड कीमत के साथ, वही संकेत है जिस पर ध्यान देना ज़रूरी है।

2026 की वीडियो कहानी लागत की क्यों है

दो साल तक AI वीडियो की बातचीत capability के बारे में थी। किसका मॉडल 4K करता है। किसका मॉडल ऑडियो सिंक करता है। किसका मॉडल कई शॉट में एक कैरेक्टर को टिकाए रखता है। वह दौड़ ज़्यादातर सुलझ चुकी है। Kling 3.0 ने मार्च में ऑडियो के साथ 4K भेजा, LTX 2.3 ने इसे ओपन-सोर्स में किया, और फ्रंटियर मॉडल सब इतने करीब हैं कि अंतर अब बहस हैं, खाई नहीं।

जो नहीं सुलझा वह थी इकोनॉमिक्स। हमने लिखा था कि कैसे Sora ने रोज़ाना करीब दस लाख डॉलर जलाए जबकि जीवनभर की कमाई बीस लाख डॉलर रही, इससे पहले कि OpenAI ने उसे बंद कर दिया। capability कभी समस्या थी ही नहीं। समस्या उसे सर्व करने की लागत थी। एक मॉडल जो खूबसूरत हो पर खर्च के काबू से बाहर हो, वह एक डेमो है, प्रोडक्ट नहीं।

तो 2026 में दिलचस्प फ्रंटियर वह मॉडल नहीं है जो कुछ नया करे। यह वह मॉडल है जो वही चीज़ दसवें हिस्से की लागत पर करे। Varya एक डेटा पॉइंट है। पूरे क्षेत्र में चल रही बड़ी हलचल, यानी distillation, कम स्टेप, और खास संदर्भों के लिए ट्यून किए गए छोटे मॉडल, वही चीज़ है जो AI वीडियो को एक घाटे वाले शोकेस से बदलकर ऐसी चीज़ बनाती है जिस पर एक छोटी टीम सच में कुछ बना सके।

बिल्डर्स के लिए इसका क्या मतलब है

अगर आप कुछ ऐसा बना रहे हैं जो प्रोडक्ट के हिस्से के तौर पर वीडियो जनरेट करता है, न कि एक बार के काम के तौर पर, तो प्रति-सेकंड लागत ही आपकी यूनिट इकोनॉमिक्स है। यही फर्क है उस फीचर में जो आप सबको दे सकते हैं और उस फीचर में जिसे आप राशन करते हैं या जिसके लिए प्रीमियम वसूलते हैं। 10x लागत में गिरावट आपके प्रोडक्ट को 10x बेहतर नहीं बना देती। यह प्रोडक्ट्स की एक पूरी श्रेणी को, जो पहले पानी के नीचे थी, अचानक व्यावहारिक बना देती है।

इसी वजह से हम चमक-दमक वाले छोर के बजाय कर्व के सस्ते छोर को ज़्यादा देखते रहते हैं। Cinevva में, प्लेटफॉर्म के जनरेशन टूल एक बिज़नेस के रूप में तभी काम करते हैं जब एक जनरेशन की लागत इतनी कम हो कि क्रिएटर बिना किसी रोक के एक्सपेरिमेंट कर सकें और हम हर क्लिक पर पैसा न बहाएं। Sora से सीख यह थी कि गलत लागत पर शानदार आउटपुट कंपनी को खत्म कर देता है। Varya से सीख यह है कि लागत आखिरकार हिलने लगी है, तेज़ी से, और जो टीमें सस्ते-और-अच्छे मॉडलों पर बनाएंगी, वे उन टीमों से ज़्यादा टिकेंगी जो महंगे-और-शानदार मॉडलों के पीछे भाग रही हैं।

क्षेत्रीय पहलू भी मायने रखता है। एक मॉडल जो भारतीय संदर्भों के लिए ट्रेन किया गया हो और भारतीय बजट के हिसाब से प्राइस किया गया हो, यह याद दिलाता है कि इन टूल्स की अगली लहर सब की सब उन्हीं चंद US लैब से नहीं आएगी, और न ही सब की सब US जेबों के हिसाब से प्राइस होगी। सस्ता, ज़्यादा लोकल, ज़्यादा खास होना, बड़ा और ज़्यादा सामान्य होने से अलग एक प्रतिस्पर्धी धुरी है, और यह वह धुरी है जिसे बचाने में मौजूदा खिलाड़ी धीमे हैं।

संदर्भ