🎬 Gemini Omni Flash : Google lance la vidéo IA conversationnelle à Google I/O 2026

Google a présenté Gemini Omni Flash le 19 mai 2026 : le premier modèle vidéo IA multimodal conversationnel, avec filigrane SynthID intégré. Ce que ça change.

![Gemini Omni Flash annoncé à Google I/O 2026](https://media.thenextweb.com/2026/05/Gemini-Omni.avif) Google a frappé fort à son I/O 2026. Parmi les dizaines d'annonces du 19 mai, une a concentré l'essentiel de l'attention technique : **Gemini Omni**, une nouvelle famille de modèles conçus pour générer et éditer de la vidéo à partir de n'importe quelle combinaison d'entrées, texte, image, audio et vidéo. Le premier modèle disponible s'appelle Gemini Omni Flash. Il est actif dès cette semaine pour les abonnés Google AI Plus, Pro et Ultra, ainsi que dans YouTube Shorts. L'accès API pour les développeurs suivra dans les prochaines semaines. Ce n'est pas un outil vidéo de plus. C'est une requalification complète de ce que "multimodal" signifie dans un produit grand public. ## Qu'est-ce que Gemini Omni Flash fait que Veo ne fait pas ? La distinction mérite d'être posée clairement, parce que Google dispose déjà de Veo, son modèle vidéo spécialisé, désormais en version 3.1. Omni n'est pas un successeur de Veo. Ce sont deux surfaces différentes avec des intentions différentes. Veo est pensé pour la génération texte-vers-vidéo cinématographique, avec un contrôle fin sur la caméra et la durée. Omni Flash est, lui, conçu pour l'**édition conversationnelle** : l'utilisateur peut modifier une scène existante, changer le style d'un plan, remplacer un élément visuel ou en ajouter un, tour à tour, en parlant au modèle. Chaque échange de la conversation fait office de couche d'édition. Selon Koray Kavukcuoglu, directeur technique de Google DeepMind, le modèle génère des vidéos de haute qualité "ancrées dans la connaissance du monde réel de Gemini." Ce que cela signifie concrètement : les scènes générées tiennent compte des règles physiques, gravité, inertie des fluides, friction. L'objectif annoncé est de sortir des mouvements irréalistes qui ont longtemps stigmatisé les vidéos IA. | Critère | Gemini Omni Flash | Veo 3.1 | Seedance 2.0 (ByteDance) | |---|---|---|---| | Type de modèle | Multimodal conversationnel | Texte-vers-vidéo spécialisé | Multimodal unifié | | Durée max (lancement) | 10 secondes | Non divulguée | 4-15 secondes | | Entrées acceptées | Texte + image + audio + vidéo | Texte + image | Texte + image + audio + vidéo (12 assets) | | Édition multi-tours | Oui (natif) | Non | Non (génération unique) | | Filigrane AI | SynthID (C2PA) | SynthID | Non publié | | Résolution | Haute définition | Non divulguée | 2K natif | | Disponibilité | Gemini app, YouTube Shorts | Flow + Google AI | Dreamina / Jimeng | | API développeurs | Prochaines semaines | Disponible | Q3 2026 | La limite à 10 secondes est explicitement présentée par Google comme un choix de déploiement, pas une contrainte architecturale. Des durées plus longues sont annoncées dans les futures versions. ## Comment fonctionne l'édition conversationnelle en pratique ? Le cas d'usage le plus démontré lors de la keynote : un utilisateur prend un selfie, le télécharge dans la Gemini app, et demande oralement au modèle de l'animer dans une scène spécifique. Puis il demande de changer l'arrière-plan, d'ajouter de la pluie, de modifier l'angle de caméra. Chaque instruction crée une itération, comme dans un échange de messages. C'est là que Gemini Omni se distingue techniquement de ses concurrents directs : les entrées sont mélangées dans un seul prompt. L'utilisateur peut écrire, parler et joindre des médias dans la même requête, et le modèle les traite ensemble, pas séquentiellement. ![Google I/O 2026 — keynote stage](https://thetechportal.com/wp-content/uploads/2026/05/Google-IO-2026.webp) Sur la question de la traçabilité, un point critique dans le débat autour des deepfakes, Google a confirmé que chaque vidéo générée par Omni sera automatiquement marquée par **SynthID**, le système de filigrane numérique invisible développé par DeepMind. Ce même standard C2PA qu'OpenAI a adopté plus tôt cette année. L'objectif : permettre à n'importe quel outil de vérification de détecter si un contenu a été produit par IA, y compris sur des plateformes tierces comme Google Search et Chrome. L'édition audio et speech dans les vidéos existantes a été délibérément retenue au lancement. Google indique vouloir "mieux comprendre comment proposer cette capacité de manière responsable" avant de la déployer, tant le risque de détournement deepfake est réel. Le mode avatar existe, mais requiert une vérification vocale préalable de l'utilisateur avant toute génération. > "Omni combine images, audio, vidéo et texte en entrée et génère des vidéos de haute qualité ancrées dans la connaissance du monde réel de Gemini." > — Koray Kavukcuoglu, CTO de Google DeepMind et Chief AI Architect de Google Cette formulation résume l'ambition centrale du modèle : non pas générer du pixel réaliste, mais raisonner sur le monde pour produire des scènes cohérentes avec la physique, la géographie et le contexte. ## Quel impact pour les professionnels qui utilisent l'IA au quotidien ? La réponse honnête : c'est encore trop tôt pour le savoir avec précision. Omni Flash reste limité à 10 secondes par clip, l'API n'est pas encore accessible et le tarif par génération n'est pas publié. Mais les signaux sont structurants. Pour les équipes marketing, content, formation ou communication, l'édition vidéo conversationnelle réduit une barrière fondamentale : il n'est plus nécessaire de maîtriser un outil de montage pour faire évoluer un plan. La boucle de feedback devient immédiate et intégrable dans un workflow automatisé. C'est exactement ce type de pipeline, connecter un modèle génératif à une chaîne de tâches orchestrées par des agents, qui est au cœur des compétences enseignées dans la formation [Automatiser ses workflows et créer des agents IA](https://www.travelearn.fr/formation/automatiser-ses-workflows-et-crer-des-agents-ia). La compétition dans la vidéo IA s'intensifie rapidement. Seedance 2.0 de ByteDance, sorti en février 2026 et classé numéro un sur le leaderboard Artificial Analysis image-to-video sans audio avec un Elo de 1 349, est aujourd'hui le concurrent le plus direct sur le plan technique : architecture multimodale unifiée, résolution 2K, jusqu'à 12 assets de référence par génération. La fermeture de Sora par OpenAI en mars 2026 (15 millions de dollars de coûts par jour pour 2,1 millions de revenus cumulés) a laissé un vide que Seedance 2.0 et Gemini Omni se disputent frontalement. Google répond avec un avantage structurel qu'aucun concurrent ne peut facilement répliquer : distribuer Omni dans des surfaces déjà utilisées par des milliards de personnes, Search, YouTube, Android, Workspace, sans que l'utilisateur ait à adopter un nouvel outil. --- **Sources** - [TNW — Google launches Gemini Omni Flash, a conversational video-generation model](https://thenextweb.com/news/google-gemini-omni-flash-video-model-io-2026) - [The Tech Portal — Google introduces Gemini Omni, Gemini 3.5 Flash, AI-powered Search upgrades](https://thetechportal.com/2026/05/20/google-introduces-gemini-omni-gemini-3-5-flash-ai-powered-search-upgrades-and-more-at-i-o-2026/) - [PixVerse — Gemini Omni Flash Official Release and Prompt Guide](https://pixverse.ai/en/blog/gemini-omni-video-model-review) - [INCRYPTED — Google I/O 2026: Testing Gemini 3.5, Omni Video Generation](https://incrypted.com/en/google-io-2026-testing/) - [Tom's Guide — Biggest Google I/O 2026 announcements](https://www.tomsguide.com/news/live/google-io-2026-live-news-updates)