La semaine dernière, la rumeur courait qu’Amazon serait prêt à lancer un modèle multimodal impressionnant – pas moins de 2 000 milliards de paramètres – répondant au doux nom d’Olympus. Il n’aura pas fallu longtemps à l’un de ses concurrents, à savoir Google, pour répliquer. La firme vient de lâcher une bombe du nom de Veo : il s’agit d’un modèle capable de générer des vidéos en 1080p à partir de commandes textuelles ou visuelles. Disponible sur Vertex AI en version “private preview”, le modèle image-to-video a de quoi impressionner.

Capable de s’adapter aux demandes des utilisateurs avec un panel de styles cinématographiques et visuels variés, il génère des vidéos qui correspondent étroitement à l’invite textuelle. Le modèle est même capable de suivre et d’appliquer une série de prompts.

Donner les clés de la production vidéo aux non-initiés

“Nous explorons les capacités de génération de médias de l’IA Google Cloud, utilisant Imagen pour créer des visuels uniques de destinations de rêve dans divers styles. Ces images sont ensuite animées sous forme de vidéos avec la technologie image-to-video de Veo. Ces technologies ont le potentiel de rationaliser notre processus de création de contenu de jours à heures”, commente Matteo Frigerio, Chief Marketing Officer au sein d’Agoda.

Partagez cet article