La dernière mise à jour de ChatGPT rend plus difficile que jamais la détection des images générées par l'IA

Les images générées par l’IA sont de plus en plus difficiles à repérer. Il existe bien sûr les signaux habituels, mais ces signaux diminuent à chaque nouveau modèle d’image d’IA. Vous pourriez par exemple compter sur des mains générées par l’IA incluant trop ou trop peu de doigts sur les personnes ; de nos jours, ce n’est pas forcément le cas.

L’un des points faibles des modèles d’images IA est la génération de texte. L’image elle-même peut sembler convaincante, mais regardez attentivement les mots et vous remarquerez souvent qu’ils ne le sont pas. vraiment droite. Peut-être que certaines sont exactes, tandis que d’autres sont assez proches, mais, dans de nombreux cas, vous remarquerez beaucoup d’incohérences : trop de lettres qui se répètent, des lettres qui ne sont pas vraiment des lettres, des caractères qui se mélangent et se trémoussent les uns dans les autres. Beaucoup de ces bizarreries me rappellent à quoi ressemble le langage de Star Wars, du moins lorsque l’IA tente de reproduire l’anglais américain.

Images 2.0 d’OpenAI est capable de générer des images d’IA très réalistes

Mais les derniers modèles d’IA s’améliorent bien avec la génération de texte. En fait, le dernier modèle d’OpenAI pour ChatGPT, Images 2.0, peut restituer un texte très réaliste, et un parcelle – au point que je ne suis pas sûr que beaucoup d’entre nous (ou n’importe lequel d’entre nous) pourront le repérer. Selon OpenAI, Images 2.0 est le premier modèle d’image de l’entreprise doté de capacités de réflexion : cela signifie que le modèle peut prendre son temps pour décomposer chaque étape d’une requête, ce qui peut générer des images plus détaillées ou plus précises, ainsi que la possibilité de générer jusqu’à huit images à partir d’une seule invite (bien que cela ne soit disponible que pour les abonnés payants). Les utilisateurs gratuits peuvent toujours profiter des avantages d’Images 2.0, comme la façon dont il recherche des informations sur le Web et revérifie son travail. La société affirme que « les résultats semblent moins générés par l’IA et plus intentionnellement conçus », ce qui signifie essentiellement que les images générées à l’aide de ChatGPT seront beaucoup plus difficiles à repérer à l’avenir.

L’entreprise semble très confiante dans ce dernier modèle. Il vante le nombre de types d’images différents qu’il peut créer : pas seulement des images photoréalistes, mais aussi des captures d’écran de l’interface utilisateur d’un ordinateur, un collage de magazine, un tas de riz (c’est beaucoup à générer), une page de magazine et un essai manuscrit. Ils signifient également manuscrit, jusqu’à une tache de café sur le papier. Vous pouvez faire défiler ces exemples sur le message d’annonce officiel d’OpenAI pour voir à quel point ils sont incroyablement réalistes. L’article comprend d’autres exemples, comme des photographies très réalistes, des pages de romans graphiques, des affiches de films et des images avec différents formats d’image, jusqu’à la vue panoramique de l’iPhone.

Tous ces développements sont aussi impressionnants que pénibles, mais pour moi, ce sont les améliorations apportées au texte qui amènent vraiment les choses à un autre niveau. De nombreux modèles deviennent assez efficaces pour générer des images qui font croire aux utilisateurs qu’elles sont réelles, mais le niveau de détail du texte et de l’écriture de ces exemples est quelque chose que je n’ai pas encore vu. J’ai demandé à ChatGPT de me générer un menu pour un restaurant italien, mettant en avant cinq plats et deux desserts. J’ai laissé les plats spécifiques à la discrétion de l’IA. Il a réussi à générer quelque chose de réaliste, avec des entrées pour le dîner et le dessert sans erreurs, pour autant que je sache. Je lui ai ensuite demandé de générer un article de journal annonçant que les Red Sox et les Yankees changeraient de ville. Il l’a fait également, encore une fois sans aucune erreur évidente.

Crédit : Vie Associative

Je ne dis pas que ces images sont parfait: Ils ont toujours un « éclat » d’IA, qu’un œil exercé ou un observateur attentif serait capable de remarquer. OpenAI indique qu’Images 2.0 a du mal à gérer certaines tâches complexes, comme les puzzles, ainsi que les détails trouvés dans des zones cachées ou étrangement placées, comme les surfaces inversées. Mais rien de tout cela n’a vraiment d’importance lorsque les images produites par ce modèle sont suffisamment impressionnantes pour tromper la plupart des gens qui les défilent. Infographies, photographies, cartes, bandes dessinées, affiches de films, etc. : les gens vont utiliser cet outil et vous allez commencer à voir beaucoup plus d’images d’IA dans votre vie, souvent sans même le savoir.