Google I/O 2026: Gemini Omni ने Veo 4 की जगह ली और हर जगह पहुंचा
Google I/O आज उसी सवाल के जवाब के साथ शुरू हुआ जो हर कोई पूछ रहा था: हां, एक नया video मॉडल है, नहीं, इसका नाम Veo 4 नहीं है। मॉडल का नाम है Gemini Omni, और यही rebrand ही असल रणनीति है। Google video, audio, image और text generation को Gemini नाम के तहत एक ही एकीकृत मॉडल में समेट रहा है। Veo और Imagen अलग प्रोडक्ट लाइन के तौर पर असल में इसी में मिल गए हैं।
Demis Hassabis I/O 2026 keynote में Gemini Omni पेश करते हुए
Gemini Omni असल में है क्या
Omni text, images, audio और video के किसी भी मेल को input के रूप में लेता है और Gemini के world knowledge पर आधारित उच्च-गुणवत्ता वाला video तैयार करता है। मॉडल बातचीत के ज़रिए edit करता है: एक clip अपलोड करें, framing घुमाने को कहें, कोई element जोड़ें, lighting बदलें, actor का पहनावा बदल दें। पूरा pipeline एकीकृत है, यानी एक ही मॉडल generation, editing और continuation को एक ही pass में संभालता है।
पहले दिन का distribution आक्रामक है। Gemini Omni Flash अभी Gemini app, Google Flow और YouTube Shorts पर AI Plus, Pro और Ultra subscribers के लिए दुनिया भर में लाइव है। यह किसी भी पिछले Google AI video लॉन्च से कहीं बड़ी पहुंच है, और यह तीन हफ्ते पहले हुए Sora shutdown का सीधा जवाब है। Google यह पक्का कर रहा है कि Sora ने जिस audience को छोड़ा, उसके पास तुरंत एक Google-owned ठिकाना हो।
यह कैसा मुकाबला करता है
Kling 3.0 के मुकाबले Gemini Omni का सबसे बड़ा फर्क इसका multimodal input है। Kling की ताकत multi-shot निरंतरता और 4K output है; Omni की ताकत यह है कि वह modalities के बीच references को आज़ादी से मिला सकता है (एक voice clip + एक reference image + एक prompt + एक guide video, सबको एक output में घोल देना)।
एकीकृत-मॉडल वाला तरीका editing workflow को भी बदल देता है। जहां Kling और Runway editing को एक अलग मॉडल pass की तरह लेते हैं (जो आमतौर पर धीमा और महंगा होता है), वहीं Omni edits को generation के उसी diffusion pass में कर देता है। व्यवहार में इसका मतलब है कि iterations पारंपरिक video tools के बजाय text chat के ज़्यादा करीब महसूस होते हैं।
keynote मंच पर Pro tier की pricing की घोषणा नहीं हुई, लेकिन Gemini app के ज़रिए आ रहा Flash variant यह बताता है कि ज़्यादातर subscribers को अपने मौजूदा tier के साथ मुफ्त access मिल जाता है। अकेले यही बात AI video बाजार के एक अच्छे-खासे हिस्से को Google के gravity well में खींच लेगी।
सबसे चौंकाने वाले Gemini Omni demos का स्वतंत्र recap
Gemini 3.5 Flash और Google Antigravity
बनाने वालों के लिए दो और घोषणाएं मायने रखती हैं। Gemini 3.5 Flash नया mid-tier मॉडल है, और बताया जा रहा है कि यह coding और agentic benchmarks पर Gemini 3.1 Pro से बेहतर प्रदर्शन करता है, जबकि Flash-tier की गति और कीमत पर चलता है। आज Gemini को कॉल करने वाली किसी भी app के लिए यह migration पूरी तरह से बेहतरी है।
Google Antigravity Google का agent-first development platform है। इसका दावा यह है कि developers को code लिखने में मदद करने वाले tools बनाने के बजाय, Antigravity ऐसे agents देता है जो developers को काम करने में मदद करते हैं, जिनमें Google के प्रोडक्ट surfaces (Search, Workspace, Cloud और नया Gemini Spark assistant) भी शामिल हैं। इसे सीधे Anthropic के Claude with computer use के खिलाफ और OpenAI के GPT-आधारित agent stack के खिलाफ पेश किया गया है।
एक Android XR glasses preview भी था, जो सचमुच दिलचस्प है लेकिन game और creator workflows के लिए मायने रखने में अभी एक साल जल्दी है।
AI video बाजार के लिए इसका क्या मतलब है
आज तीन चीज़ें बदल रही हैं।
पहली, "कई विशेष मॉडल" वाला पैटर्न जिसने 2024 और 2025 को परिभाषित किया (text के लिए एक, image के लिए एक, video के लिए एक, audio के लिए एक) उसे अब उन्हीं labs में से एक खुलकर खत्म कर रहा है जिसने इसे गढ़ने में मदद की थी। यह टिकेगा या नहीं, यह इस पर निर्भर करता है कि Omni की एकीकृत output quality असल इस्तेमाल में modalities के बीच टिकी रहती है या नहीं, सिर्फ demos में नहीं।
दूसरी, distribution की खाई और चौड़ी हो गई। Sora इसलिए खत्म हुआ क्योंकि वह एक अरब users तक तेज़ी से नहीं पहुंच सका। Omni पहले दिन से Gemini app, Google Flow और YouTube Shorts के साथ शुरू होता है। यह वही जगह है जहां अरबों लोग पहले से video बनाते और देखते हैं।
तीसरी, open-source और कीमत में टक्कर देने वाले मॉडलों (Kling $0.07-0.14/sec पर, LTX-2 open-weights, Wan2.2) को एक दिलचस्प स्थिति मिलती है। अगर Google का bundled offer "अपने $20/mo Gemini subscription के साथ मुफ्त" है, तो मुकाबला करने की जगह सिर्फ या तो ऊपर है (गहरे नियंत्रण वाले pro tools) या नीचे (open-source self-hosted)।
हम पहले क्या टेस्ट करेंगे
creator tools बनाने वाले किसी भी व्यक्ति के लिए तुरंत का सवाल यह है कि Omni API I/O developer day पर आता है या नहीं, इसकी pricing कैसी दिखती है, और rate limits क्या हैं। marketing surface (Gemini app, Flow, Shorts) Google तक सीमित है। API ही Omni को अपने प्रोडक्ट में जोड़ने का अकेला रास्ता है। ये जानकारी आने पर हम इस पोस्ट को अपडेट कर देंगे।
खासकर game studios के लिए, multi-shot consistency वाली बात देखने लायक है। अगर Omni किसी character को cuts के बीच उसी तरह बनाए रख सके जैसे Kling 3.0 रखता है लेकिन साथ में बीच-धारा में editable नियंत्रण के साथ, तो vertical-slice trailers के लिए cinematic prototyping काफी सस्ता हो जाता है।