في سباق الذكاء الاصطناعي الذي يزداد شراسة يوماً بعد يوم، يبدو أن Google قررت الانتقال إلى مرحلة جديدة بالكامل.
خلال مؤتمر Google I/O 2026 كشفت الشركة عن عائلة نماذج جديدة تحمل اسم Gemini Omni، وهي خطوة قد تغير مستقبل إنشاء الفيديو وصناعة المحتوى الرقمي بشكل جذري.
النسخة الأولى التي بدأت Google بإطلاقها تعرف باسم Gemini Omni Flash، وتركز بشكل أساسي على إنشاء الفيديو وتعديله باستخدام الذكاء الاصطناعي، لكن بطريقة مختلفة تماماً عن الأدوات التقليدية أو حتى أغلب نماذج المنافسين.
فبدلاً من الاعتماد على تحويل النص إلى فيديو فقط، يأتي Gemini Omni كنظام Multimodal حقيقي قادر على فهم النصوص والصور والفيديو والصوت معاً داخل Prompt واحد، ثم إنتاج محتوى متكامل بناء على كل هذه المدخلات في نفس اللحظة.
ببساطة: نحن أمام نموذج يمكنه فهم العالم الرقمي كما يفهمه الإنسان تقريباً.
ما هو Gemini Omni؟
يعتبر Gemini Omni الجيل الجديد من نماذج Gemini متعددة الوسائط من Google DeepMind، وتم تصميمه ليكون منصة موحدة لإنشاء أي نوع من المحتوى ومن أي نوع من المدخلات.
فبدلاً من وجود نموذج منفصل للنصوص وآخر للصور وآخر للفيديو، تحاول جوجل هنا بناء نموذج واحد يفهم كل الوسائط معاً ويتعامل معها بشكل طبيعي، يمكنك مثلاً أن تقوم بـ:
- رفع صورة لشخصية
- إضافة مقطع فيديو قصير
- تسجيل صوتي
- كتابة تعليمات نصية
ثم يطلب منك النموذج إنشاء فيديو سينمائي كامل اعتماداً على كل هذه العناصر في وقت واحد.
هذه الفكرة تمثل نقلة ضخمة مقارنة بالأدوات السابقة التي كانت تعتمد غالباً على نوع إدخال واحد فقط.
لماذا يعتبر Gemini Omni مختلف عن أي نموذج سابق؟
السبب الرئيسي هو أن جوجل تصفه بأنه “Native Multimodal Model”، أي أن فهم الوسائط المتعددة مدمج داخل النموذج نفسه، وليس مجرد دمج عدة أنظمة مع بعضها، وهذا يمنحه قدرات أكثر تقدم مثل:
- فهم العلاقات بين الصورة والصوت والنص
- تحليل الحركة داخل الفيديو
- الحفاظ على استمرارية الشخصيات
- فهم الإضاءة والزوايا والمنطق الفيزيائي للمشهد
النتيجة هي فيديوهات تبدو أكثر واقعية واتساق مقارنة بالكثير من النماذج الحالية.
إنشاء الفيديو من أي شئ
واحدة من أقوى ميزات Gemini Omni Flash هي قدرته على إنشاء فيديو انطلاق من أي نوع مدخلات تقريباً، يمكنك استخدام:
- نص فقط
- صورة واحدة
- عدة صور
- فيديو موجود مسبقاً
- ملف صوتي
- أو دمج كل ذلك معاً
ثم يقوم النموذج بتوليد فيديو جديد بالكامل.
مثال عملي
يمكنك رفع:
- صورة لمدينة
- مقطع صوتي لأصوات المطر
- فيديو قصير لشخص يمشي
- وكتابة Prompt مثل: “حول المشهد إلى ليلة ممطرة بأسلوب سينمائي مع إضاءة نيون”
ليقوم النموذج بإنتاج فيديو متكامل يحافظ على الشخصيات والخلفيات مع تعديل البيئة والإضاءة والحركة بشكل طبيعي.
تعديل الفيديو بالمحادثة فقط
أحد أكثر الجوانب التي أثارت الاهتمام في Gemini Omni هو فكرة Conversational Video Editing أو تعديل الفيديو بالمحادثة، بدلاً من استخدام برامج مونتاج معقدة مثل:
- Adobe Premiere Pro
- DaVinci Resolve
- Final Cut Pro
يمكنك ببساطة كتابة أوامر نصية مثل:
- “غير الإضاءة”
- “اجعل المشهد في الليل”
- “حول الكاميرا إلى لقطة قريبة”
- “أضف جاكيت أسود للشخصية”
- “اجعل الحركة أبطأ”
وسيقوم النموذج بتعديل الفيديو مباشرة مع الحفاظ على استمرارية المشهد والشخصيات.
هنا تظهر قوة الذكاء الاصطناعي الحقيقي، لأن التحدي الأكبر في الفيديو ليس إنشاء لقطة واحدة فقط، بل الحفاظ على ثبات العناصر عبر عدة لقطات متتالية.
فهم واقعي أكثر للحركة والفيزياء
يعتمد Gemini Omni على تحسينات كبيرة في فهم العالم الحقيقي، بما يشمل:
- الفيزياء
- الإضاءة
- حركة الأجسام
- استمرارية الشخصيات
- العلاقات المكانية داخل المشهد
وهذا يعني أن:
- حركة الأشخاص تبدو أكثر طبيعية
- الظلال والإضاءة أكثر منطقية
- انتقالات الكاميرا أكثر سلاسة
- التعديلات لا تكسر المشهد بصرياً
وهي نقطة كانت تمثل مشكلة كبيرة في العديد من نماذج الفيديو السابقة.
ما الفرق بين Gemini Omni و Google Veo؟
قبل Gemini Omni، كانت Google تمتلك نموذج فيديو معروف باسم Google Veo، لكن هناك فرق جوهري بين النظامين.
Google Veo
كان يركز بشكل أساسي على:
- تحويل النص إلى فيديو
- إنشاء لقطات سينمائية
- إنتاج فيديوهات واقعية اعتماداً على Prompts نصية
Gemini Omni
أما Omni فهو مشروع أشمل بكثير، حيث:
- يفهم النص والصوت والصور والفيديو معاً
- يتيح تعديل الفيديو بالمحادثة
- يحافظ على استمرارية المشاهد
- يعمل كنظام ذكاء اصطناعي موحد داخل منظومة Gemini
يبدو بوضوح أن جوجل ترى Omni كمستقبل صناعة الفيديو داخل نظام Gemini بالكامل.
أين سيتم استخدام Gemini Omni؟
بحسب Google، سيتم دمج Gemini Omni تدريجياً داخل عدة منتجات رئيسية، أبرزها:
- Gemini
- Google Flow
- YouTube Shorts
- YouTube Create
هذا يعني أن صناعة الفيديو بالذكاء الاصطناعي قد تصبح جزء أساسي من تجربة إنشاء المحتوى اليومية على منصات جوجل.
هل Gemini Omni متاح الان؟
نعم، بدأت Google بالفعل الإطلاق التدريجي لـ Gemini Omni Flash، لكن ما زالت هناك بعض القيود الحالية، مثل:
- محدودية الوصول لبعض المستخدمين
- عدم توفر جميع المزايا عالمياً
- قيود على الفيديوهات الواقعية
- سياسات صارمة للتعديلات الحساسة
اشتكى بعض المستخدمين من أن النظام يرفض عدد كبيراً من الـ Prompts بسبب سياسات الأمان والمحتوى.
لكن من الواضح أن جوجل تفضل الانطلاق بحذر، خصوصاً مع المخاوف المتزايدة المرتبطة بالفيديوهات المزيفة والـ Deepfake.
لماذا قد يغير Gemini Omni مستقبل صناعة المحتوى؟
إذا نجحت Google في تطوير Gemini Omni بالشكل الذي وعدت به، فقد نشهد تحول ضخم في عالم صناعة المحتوى، لأن النموذج لا يقدم مجرد أداة فيديو، بل منصة إنتاج متكاملة تعتمد على الذكاء الاصطناعي، وهذا قد يؤدي إلى:
1. تبسيط صناعة الفيديو
بدلاً من تعلم برامج مونتاج معقدة، يمكن لأي شخص تعديل الفيديو بالمحادثة فقط.
2. تسريع إنتاج المحتوى
صناع المحتوى والشركات سيتمكنون من إنتاج فيديوهات احترافية خلال دقائق.
3. خفض تكاليف الإنتاج
الكثير من مهام التصوير والمونتاج والمؤثرات قد تصبح مؤتمتة بالكامل.
4. دمج الذكاء الاصطناعي داخل YouTube
وجود Omni داخل YouTube Shorts وYouTube Create قد يغير شكل المحتوى القصير على الإنترنت.
هل تتفوق Google في سباق فيديو الذكاء الاصطناعي؟
خلال السنوات الأخيرة، سيطرت شركات مثل:
- Higgsfield
- Runway
- Kling
على الاهتمام الإعلامي في مجال الفيديو بالذكاء الاصطناعي، لكن Gemini Omni قد يكون أول مشروع من جوجل يجمع في نظام واحد متكامل:
- الفهم متعدد الوسائط
- تعديل الفيديو بالمحادثة
- الاستمرارية البصرية
- التكامل مع YouTube
- وقوة بنية Gemini نفسها
لهذا يرى كثيرون أن Google قد تدخل مرحلة جديدة من المنافسة الحقيقية في مجال إنشاء الفيديو بالذكاء الاصطناعي.
الخلاصة
يبدو أن Gemini Omni ليس مجرد تحديث عادي داخل عائلة Gemini، بل بداية جيل جديد من أدوات إنشاء المحتوى المدعومة بالذكاء الاصطناعي.
الفكرة الأساسية للنموذج هي إنشاء أي نوع محتوى من أي نوع إدخال قد تجعل عملية صناعة الفيديو أسهل وأسرع وأكثر احترافية من أي وقت مضى، ورغم أن النظام ما زال في بدايته، فإن الاتجاه واضح هو أن جوجل تريد أن تجعل تعديل وإنتاج الفيديو يتم بسهولة جدًا.
ومع دمجه داخل Gemini وYouTube، قد نكون أمام مستقبل تصبح فيه صناعة الفيديو بالكامل تتم عن طريق الذكاء الاصطناعي.

