Que vous soyez pour ou contre celles-ci, les vidéos verticales ne sont pas près de disparaître. Et la popularité des Stories sur les réseaux sociaux fait que cette orientation est de plus en plus utilisée sur mobile.

Et comme la vidéo verticale devient petit à petit la norme sur les plateformes mobiles, la conversion des vidéos filmées pour les télévisions et les écrans d’ordinateur, afin d’adapter celles-ci pour les écrans de smartphones, est devenue une nouvelle tâche pour certains éditeurs.

Celle-ci pourrait néanmoins devenir moins pénible grâce à Autoflip, une nouvelle intelligence artificielle proposée par Google qui s’occupe de cette conversion.

Comme le rappelle la firme de Mountain View dans un billet de blog, actuellement, lorsqu’on convertit une vidéo horizontale (16 :9 ou 4 :3) en vidéo verticale pour les smartphones, on a parfois recours à un recadrage statique. Si cela permet d’avoir le bon ratio, le résultat n’est pas toujours très bon puisque ce recadrage statique peut faire disparaître certains éléments.

Certains font également des recadrages dynamiques à la main. « […] les approches plus sur mesure nécessitent généralement que les conservateurs vidéo identifient manuellement le contenu saillant de chaque image, suivent leurs transitions d’une image à l’autre et ajustent les zones de recadrage en conséquence tout au long de la vidéo. Ce processus est souvent fastidieux, long et sujet aux erreurs », explique la firme de Mountain View.

Un générateur de vidéos verticales, à partir des vidéos horizontales

Son IA Autoflip pourrait permettre d’avoir les mêmes résultats ou même des résultats meilleurs, sans requérir autant d’effort. Celle-ci analyse les contenus des vidéos, puis détermine les stratégies de recadrage et de suivi, et produit des vidéos de même durée avec le format désiré.

Dans un premier temps, l’IA détecte les scènes. Puis, elle analyse le contenu. Cette analyse se fait via des modèles de détection d’objet afin de détecter les contenus intéressants et saillants. « Ce contenu comprend généralement des personnes et des animaux, mais d’autres éléments peuvent être identifiés, selon l’application, y compris des superpositions de texte et des logos pour les publicités, ou la détection de mouvement et de balle pour les sports », indique Google.

Et une fois que le contenu est analysé, Autoflip procède au recadrage. Celui-ci a le choix, en fonction du contenu analysé, entre trois stratégies : stationnaire, panoramique ou suivi.

Sur une scène, lorsque la majorité du contenu important peut-être visible avec un recadrage fixe, Autoflip choisit le mode stationnaire. Sinon, si les éléments importants se déplacent, l’IA choisit le pano ou bien le suivi des éléments intéressants pendant qu’ils se déplacent dans le cadre.

On notera que Google ne propose pas un logiciel pour le grand public, mais plutôt un framework que les développeurs ou les cinéastes pourront adapter à leurs outils. Des informations plus détaillées sont accessibles (en anglais) sur la « source » de cet article.