Avataar का Varya AI वीडियो को 10x सस्ता बनाता है, और असली कहानी यही है
Avataar.ai ने आज नई दिल्ली में एक इवेंट में Varya को पेश किया, और इस दौरान भारत के इलेक्ट्रॉनिक्स और IT मंत्रालय के सचिव भी मौजूद थे। यह 14 अरब पैरामीटर वाला एक AI वीडियो मॉडल है, जिसे कंपनी क्वालिटी के लिहाज़ से Alibaba के Wan 2.2 और Google के Veo 3 की ही श्रेणी में रखती है, पर जो आंकड़ा सबसे ज़्यादा मायने रखता है वह कोई क्वालिटी बेंचमार्क नहीं है। वह है कीमत। Varya करीब ₹0.48 प्रति सेकंड पर वीडियो बनाता है, जो कंपनी के मुताबिक टॉप ग्लोबल मॉडलों से दस गुना तक सस्ता है। यह वह एक distilled आर्किटेक्चर चलाकर करता है जो जनरेशन को आमतौर पर लगने वाले 50 diffusion स्टेप से घटाकर चार पर ले आता है, और साथ ही आउटपुट क्वालिटी को पूरे-स्टेप वाले मॉडलों के करीब बनाए रखता है।
Varya, भारत का distilled वीडियो मॉडल, क्लिप पचास के बजाय चार स्टेप में बनाता है
मॉडल यहां तक भारत के IndiaAI Mission की मदद से पहुंचा, जिसने नेशनल AI कंप्यूट तक सब्सिडाइज़्ड पहुंच दी। इसे जानबूझकर भारतीय संदर्भों के लिए ट्रेन किया गया है, ताकि यह क्षेत्रीय विविधता, त्योहार, खानपान, पहनावा, और रोज़मर्रा के माहौल को उन मॉडलों से बेहतर दिखा सके जो ज़्यादातर पश्चिमी डेटा पर ट्रेन किए गए हैं। varya.avataar.ai पर एक लाइव डेमो मौजूद है, और Avataar का कहना है कि वह Varya को ट्रेनिंग डेटा के साथ एक open-weight मॉडल के रूप में भारत के AIKosh पोर्टल पर रिलीज़ करेगा, ताकि डेवलपर इसे खुद होस्ट या fine-tune कर सकें। आर्किटेक्चर और distillation मेथड पर एक टेक्निकल रिपोर्ट भी आ रही है।
पचास के बजाय चार स्टेप
यहां जो टेक्निकल चाल है, वही पूरी बात है। Diffusion मॉडल noise से शुरू होकर कई स्टेप में रिफाइन करते हुए जनरेट करते हैं, और हर स्टेप नेटवर्क से होकर एक पूरा पास होता है। पचास स्टेप का मतलब है पचास पास। Distillation एक छोटे, तेज़ student मॉडल को ट्रेन करता है ताकि वह धीमे, कई-स्टेप वाले teacher जो बनाता है उसे दोहरा सके, पर बस गिने-चुने स्टेप में। पचास के बजाय चार स्टेप यानी प्रति फ्रेम दस गुना से भी कम कंप्यूट, और प्रति फ्रेम कंप्यूट ही वह जगह है जहां वीडियो जनरेशन की लगभग पूरी लागत बसती है।
वॉल-क्लॉक आंकड़े इसे ठोस बना देते हैं। Avataar के मुताबिक एक NVIDIA H200 पर Varya 5 सेकंड की 720p क्लिप करीब 45 सेकंड में तैयार कर देता है। यही काम वह Wan 2.2 के लिए करीब 1,230 सेकंड पर आंकता है। यह मार्जिन पर मिली कोई छोटी जीत नहीं है, यह एक अलग ही पैमाना है, और यही फर्क है उस मॉडल में जिसे आप एक भीड़ को सर्व कर सकते हैं और उस मॉडल में जिसे आप सिर्फ एक डेमो के लिए चला सकते हैं।
यह वही ट्रिक है जिसने पिछले दो साल में तेज़ इमेज जनरेशन को व्यावहारिक बनाया। इसे प्रोडक्शन पैमाने पर वीडियो पर उतरते देखना, एक असली प्रति-सेकंड कीमत के साथ, वही संकेत है जिस पर ध्यान देना ज़रूरी है।
2026 की वीडियो कहानी लागत की क्यों है
दो साल तक AI वीडियो की बातचीत capability के बारे में थी। किसका मॉडल 4K करता है। किसका मॉडल ऑडियो सिंक करता है। किसका मॉडल कई शॉट में एक कैरेक्टर को टिकाए रखता है। वह दौड़ ज़्यादातर सुलझ चुकी है। Kling 3.0 ने मार्च में ऑडियो के साथ 4K भेजा, LTX 2.3 ने इसे ओपन-सोर्स में किया, और फ्रंटियर मॉडल सब इतने करीब हैं कि अंतर अब बहस हैं, खाई नहीं।
जो नहीं सुलझा वह थी इकोनॉमिक्स। हमने लिखा था कि कैसे Sora ने रोज़ाना करीब दस लाख डॉलर जलाए जबकि जीवनभर की कमाई बीस लाख डॉलर रही, इससे पहले कि OpenAI ने उसे बंद कर दिया। capability कभी समस्या थी ही नहीं। समस्या उसे सर्व करने की लागत थी। एक मॉडल जो खूबसूरत हो पर खर्च के काबू से बाहर हो, वह एक डेमो है, प्रोडक्ट नहीं।
तो 2026 में दिलचस्प फ्रंटियर वह मॉडल नहीं है जो कुछ नया करे। यह वह मॉडल है जो वही चीज़ दसवें हिस्से की लागत पर करे। Varya एक डेटा पॉइंट है। पूरे क्षेत्र में चल रही बड़ी हलचल, यानी distillation, कम स्टेप, और खास संदर्भों के लिए ट्यून किए गए छोटे मॉडल, वही चीज़ है जो AI वीडियो को एक घाटे वाले शोकेस से बदलकर ऐसी चीज़ बनाती है जिस पर एक छोटी टीम सच में कुछ बना सके।
बिल्डर्स के लिए इसका क्या मतलब है
अगर आप कुछ ऐसा बना रहे हैं जो प्रोडक्ट के हिस्से के तौर पर वीडियो जनरेट करता है, न कि एक बार के काम के तौर पर, तो प्रति-सेकंड लागत ही आपकी यूनिट इकोनॉमिक्स है। यही फर्क है उस फीचर में जो आप सबको दे सकते हैं और उस फीचर में जिसे आप राशन करते हैं या जिसके लिए प्रीमियम वसूलते हैं। 10x लागत में गिरावट आपके प्रोडक्ट को 10x बेहतर नहीं बना देती। यह प्रोडक्ट्स की एक पूरी श्रेणी को, जो पहले पानी के नीचे थी, अचानक व्यावहारिक बना देती है।
इसी वजह से हम चमक-दमक वाले छोर के बजाय कर्व के सस्ते छोर को ज़्यादा देखते रहते हैं। Cinevva में, प्लेटफॉर्म के जनरेशन टूल एक बिज़नेस के रूप में तभी काम करते हैं जब एक जनरेशन की लागत इतनी कम हो कि क्रिएटर बिना किसी रोक के एक्सपेरिमेंट कर सकें और हम हर क्लिक पर पैसा न बहाएं। Sora से सीख यह थी कि गलत लागत पर शानदार आउटपुट कंपनी को खत्म कर देता है। Varya से सीख यह है कि लागत आखिरकार हिलने लगी है, तेज़ी से, और जो टीमें सस्ते-और-अच्छे मॉडलों पर बनाएंगी, वे उन टीमों से ज़्यादा टिकेंगी जो महंगे-और-शानदार मॉडलों के पीछे भाग रही हैं।
क्षेत्रीय पहलू भी मायने रखता है। एक मॉडल जो भारतीय संदर्भों के लिए ट्रेन किया गया हो और भारतीय बजट के हिसाब से प्राइस किया गया हो, यह याद दिलाता है कि इन टूल्स की अगली लहर सब की सब उन्हीं चंद US लैब से नहीं आएगी, और न ही सब की सब US जेबों के हिसाब से प्राइस होगी। सस्ता, ज़्यादा लोकल, ज़्यादा खास होना, बड़ा और ज़्यादा सामान्य होने से अलग एक प्रतिस्पर्धी धुरी है, और यह वह धुरी है जिसे बचाने में मौजूदा खिलाड़ी धीमे हैं।
संदर्भ
- TechCrunch: Cheaper, faster, and culturally aware, Avataar's video AI is built for India's scale
- Outlook Business: Avataar launches Varya, India's first distilled video AI model under IndiaAI Mission
- Republic World: This new India-built AI model wants to make video generation far more affordable
- WaveSpeed: AI video generation news 2026, latest models and updates
- MagicHour: AI video model release tracker 2026