Vous pouvez maintenant essayer Sora, le générateur vidéo AI d’OpenAI

Sora est désormais largement disponible, pour le meilleur ou pour le pire.

Plus tôt cette année, OpenAI, créateur de ChatGPT, a annoncé Sora, un générateur vidéo IA. Certaines des démos présentées par la société étaient hyperréalistes, depuis des chiots jouant dans la neige jusqu’à la vue depuis un wagon de métro traversant un paysage urbain. Bref, c’était à la fois impressionnant et terrifiant, comme je l’ai expliqué dans mes premières réflexions ici.

Depuis lors, l’actualité de Sora est restée plutôt discrète : la société n’a pas rendu la plate-forme disponible pour des tests publics, nous n’avons donc pas eu beaucoup d’expériences directes sur lesquelles travailler. Cela change cette semaine. Non seulement OpenAI rend Sora plus largement disponible, mais ils ouvrent également leur générateur de vidéo IA à toute personne possédant un compte ChatGPT Plus. Les choses sont sur le point de devenir folles.

Quoi de neuf avec Sora

OpenAI a fait cette annonce lundi, à la suite d’une révélation précoce de Marques Brownlee. Si vous avez suivi de près l’annonce originale de Sora, aucun des exemples présentés ici ne vous choquera : pour faire court, Sora peut être invité à générer de courtes vidéos photoréalistes dans un certain nombre de situations différentes : OpenAI et Marques Brownlee ont tous deux fait une démonstration de prises de vue de drone. des falaises, des animaux dans la nature et des personnes effectuant des tâches « devant la caméra ». Mais ce qui est vraiment nouveau aujourd’hui, ce sont un certain nombre de fonctionnalités qu’OpenAI a ajoutées au programme Sora en général.

Il existe « Storyboard », une sorte d’éditeur vidéo qui vous permet d’assembler différentes invites vidéo pour créer des vidéos plus longues sur un seul sujet. Par exemple, vous pouvez avoir une invite demandant qu’une grue soit debout dans l’eau et une autre demandant que cette grue plonge la tête dans l’eau. Ensuite, Sora combinera ces deux invites en une seule vidéo continue. « Recut » fait également office d’éditeur vidéo, seulement ici, vous pouvez isoler une partie spécifique de votre vidéo et demander à Sora de l’étendre. « Remix » ouvre un nouveau champ d’invite, qui vous permet de demander des modifications à une vidéo existante. (Vous pouvez également choisir la « force » du remix, ce qui affecte la quantité de vidéo réellement modifiée à partir de votre invite.) Enfin, « Mélange » vous permet de choisir de transformer le sujet d’une vidéo en un autre. L’exemple de Sora est de transformer un papillon d’une vidéo en une orchidée d’un deuxième clip.

storyboard dans sora

Parmi toutes ces nouveautés, Storyboard semble être la plus intéressante. Cela semble être une solution de contournement intelligente pour amener l’IA à générer une scène complexe avec plusieurs actions, car essayer de regrouper tout cela dans une seule invite échouera probablement. Le remix pourrait également être utile en théorie pour peaufiner les éléments d’une vidéo, sans avoir à jeter la génération initiale. Mais en fin de compte, notre intérêt collectif pour le modèle vient de sa fonction de base : vous proposez à Sora une idée vidéo, et il la génère pour vous. Ou bien, vous téléchargez une photo de votre bibliothèque et Sora anime les sujets inanimés dans une scène en mouvement.

Sora en action

Lorsque vous soumettez une invite, votre vidéo est ajoutée à votre « file d’attente » pour traitement. Le temps nécessaire à la génération d’une vidéo dépend de vos paramètres, notamment de la résolution, de la durée et du nombre de variantes que vous générez : j’ai un forfait ChatGPT Plus standard, je suis donc limité à une résolution maximale de 720p et à une durée maximale. de cinq secondes. Les utilisateurs de ChatGPT Pro peuvent augmenter cette résolution jusqu’à 1080p, créer des vidéos d’une durée maximale de 20 secondes et générer jusqu’à quatre variantes de leur vidéo.

Malheureusement pour moi, il semble que tout le monde, y compris leur mère, essaie actuellement d’utiliser Sora. Ma première et unique tentative rapide (« travelling d’un taxi traversant un centre-ville ») est restée dans les limbes pendant tout le temps que j’écrivais cet article. En fait, OpenAI a interrompu la création de comptes pour le moment, car trop de personnes tentent d’accéder au générateur vidéo.

Ma vidéo a finalement été générée, et c’était difficile. La qualité vidéo du taxi et de la ville était assez bonne (encore une fois, très photoréaliste), mais les mouvements du taxi étaient partout. Il a d’abord fait marche arrière, puis s’est transformé en une voiture orientée dans une direction différente, avant de s’éloigner à toute vitesse alors qu’un autre taxi passait au premier plan. (Mon taxi d’origine a également disparu dans les airs, tandis que le nouveau taxi n’avait pas de coffre, mais plutôt deux façades.)

Comme il faut beaucoup de temps à Sora pour générer des vidéos, pour l’instant, il est utile de regarder quelqu’un, comme Marques Brownee, qui a passé du temps à tester cet outil. Dans son examen de Sora, il constate que l’outil a encore du mal à éviter les pièges typiques des vidéos générées par l’IA : les vidéos peuvent paraître photoréalistes, mais elles perdent du réalisme dans le mouvement. Sora confond souvent quelle jambe doit être devant et laquelle doit être derrière pendant les cycles de marche, ou « oublie » complètement les objets. Lorsque Brownlee a demandé une vidéo d’un critique technique couvrant un smartphone, le critique tient deux smartphones dans ses mains, et l’un d’entre eux disparaît tout simplement sans raison. Certains aspects d’une vidéo peuvent s’exécuter au ralenti, tandis que d’autres s’exécutent à une vitesse normale, ce qui semble étrange à l’œil nu. Ces problèmes sont répandus dans la plupart des sorties Sora que j’ai vues : si vous les recherchez, vous les verrez, et ils attirent l’attention sur le caractère artificiel de la vidéo.

Cela est également vrai pour les vidéos de « basse qualité », comme les générations de séquences de vidéosurveillance ou de caméras de sécurité. Les voitures se croisent et disparaissent, ou les gens se déplacent de manière irréaliste. Mais je dirai que la faible qualité de ces vidéos facilite la falsification : si Sora parvient à comprendre la physique, les gens vont s’amuser à inventer des images de vidéosurveillance qui n’existent pas.

Images de vidéosurveillance générées par l'IA

D’après l’expérience de Brownlee, les choses que Sora fait actuellement de mieux ne sont pas du tout réalistes : les graphiques animés, par exemple, sont généralement beaux, tout comme certains clips d’animations et de personnages animés. Une animation d’un croquis de l’Empire State Building ressemble par exemple à une intro de série Netflix. Et lorsque Brownlee a téléchargé une image de personnages de feuilles animés générés par DALL-E, Sora a animé l’image d’une manière quelque peu crédible. Il est un peu plus facile d’ignorer les imperfections lorsque la vidéo ne prétend pas du tout être réelle.

Sora semble également être doué pour générer des plans de drone et de suivi : une prise de vue par drone du mont Fuji, ou du Golden Gate Bridge, semble lisse et photoréaliste. Si vous regardez de près, vous remarquerez peut-être des problèmes et des imperfections, comme des vagues qui ne se comportent pas comme elles le devraient, mais vous pourriez probablement glisser ces clichés dans des émissions et des films sans que beaucoup (ou la plupart) des gens ne le remarquent.

Où allons-nous à partir d’ici ?

Sora m’a fait peur en février lors de son annonce. Depuis dix mois, j’ai toujours peur, mais pas parce que les vidéos sont bien meilleures. En fait, d’après ce que je vois aujourd’hui, la qualité semble à peu près la même, bien qu’avec de nouvelles fonctionnalités d’IA que vous pouvez utiliser pour peaufiner ces vidéos. Le réalisme est toujours là quand il est là, tout comme les défauts, qui sont nombreux.

Ce qui me fait peur, c’est l’accessibilité : une fois qu’OpenAI aura répondu à la demande, Sora sera disponible pour toute personne disposant d’un abonnement ChatGPT Plus. Pour 20 $, vous avez accès à un outil pouvant générer jusqu’à 50 vidéos de cinq secondes par mois. Bien sûr, cinq secondes, ce n’est pas très long, donc sans un peu d’intelligence, ces vidéos ne seront probablement pas celles qui feront le plus de dégâts.

C’est là qu’intervient ChatGPT Pro. Ce forfait est beaucoup plus cher (200 $ par mois), mais pour ces 200 $, vous pouvez créer jusqu’à 500 vidéos, chacune pouvant atteindre 1080p et durer jusqu’à 20 secondes. OpenAI indique que vous pouvez également télécharger ces vidéos sans filigrane, ce qui rendra la détection encore plus difficile.

Bien sûr, la plupart d’entre nous ne s’abonneront pas à Pro pour cela, mais 200 $ ne dissuadent pas vraiment les mauvais acteurs qui souhaitent diffuser des informations erronées. Imaginez la prochaine crise polarisante majeure, alimentée par un flot de vidéos qui « prouvent » ce qui s’est passé d’une manière ou d’une autre, alors qu’en réalité ces vidéos ne sont pas réelles du tout. OpenAI intègre certaines fonctionnalités de sécurité, comme empêcher l’incorporation de documents protégés par le droit d’auteur ou de personnages notables dans une vidéo, mais nous verrons dans quelle mesure ces barrages routiers fonctionnent dans la pratique.

Comment essayer Sora

Pour le moment, la création de compte n’est pas disponible pour Sora, mais cela pourrait changer sous peu. Si vous souhaitez essayer Sora par vous-même, rendez-vous sur sora.com. À partir de là, cliquez sur Connexion, puis authentifiez-vous avec votre compte ChatGPT. N’oubliez pas que vous avez besoin d’un compte ChatGPT Plus (20 $ par mois) ou d’un compte ChatGPT Pro (200 $ par mois) pour utiliser Sora.