Comment Apple prévoit d'améliorer les éditeurs d'images AI

Apple est un peu en retard dans la course à l’IA.

Apple est peut-être bon dernier dans la course à l’IA – du moins si l’on considère la concurrence d’entreprises comme OpenAI, Google et Meta – mais cela ne signifie pas que l’entreprise ne travaille pas sur la technologie. En fait, il semble que la majeure partie du travail effectué par Apple sur l’IA se déroule dans les coulisses : alors qu’Apple Intelligence est là, les chercheurs de l’entreprise travaillent sur d’autres moyens d’améliorer les modèles d’IA pour tout le monde, pas seulement pour les utilisateurs d’Apple. Le dernier projet ? Amélioration des éditeurs d’images IA basés sur des invites textuelles.

Dans un article publié la semaine dernière, les chercheurs ont présenté Pico-Banana-400K, un ensemble de données de 400 000 images « guidées par texte » sélectionnées pour améliorer l’édition d’images basée sur l’IA. Apple estime que son ensemble de données d’images améliore les ensembles existants en incluant des images de meilleure qualité et plus diversifiées : les chercheurs ont découvert que les ensembles de données existants utilisent des images produites par des modèles d’IA ou ne sont pas suffisamment variés, ce qui peut entraver les efforts visant à améliorer les modèles.

Curieusement, Pico-Banana-400K est conçu pour fonctionner avec Nano Banana, le modèle d’édition d’images de Google. Les chercheurs affirment qu’en utilisant Nano Banana, leur ensemble de données peut générer 35 types de modifications différents, ainsi que puiser dans Gemini-2.5-Pro pour évaluer la qualité des modifications et si ces modifications doivent rester dans l’ensemble de données global.

Dans le cadre de ces 400 000 images, il existe 258 000 échantillons de modifications uniques (où Apple compare les images originales à une image avec des modifications) ; 56 000 « paires de préférences », qui font la distinction entre les générations de modifications ayant échoué et celles ayant réussi ; et 72 000 « séquences multi-tours », qui parcourent deux à cinq montages.

Les chercheurs notent que différentes fonctions avaient des taux de réussite différents dans cet ensemble de données. Les modifications globales et la stylisation sont « faciles », atteignant les taux de réussite les plus élevés ; la sémantique des objets et le contexte de la scène sont « modérés » ; tandis que la géométrie, la mise en page et la typographie précises sont « difficiles ». La fonction la plus performante, « transfert de style artistique fort », qui pourrait inclure le changement du style d’une image en « Van Gogh » ou en anime, a un taux de réussite de 93 %. La fonction la moins performante, « changer le style de police ou la couleur du texte visible s’il y a du texte », n’a réussi que 58 % du temps. Les autres fonctions testées incluent « ajouter un nouveau texte » (taux de réussite de 67 %), « zoomer » (taux de réussite de 74 %) et « ajouter un grain de film ou un filtre vintage » (taux de réussite de 91 %).

Contrairement à de nombreux produits Apple, qui sont généralement fermés aux propres plates-formes de l’entreprise, Pico-Banana-400K est ouvert à tous les chercheurs et développeurs d’IA. C’est cool de voir des chercheurs d’Apple contribuer à une recherche ouverte comme celle-ci, en particulier dans un domaine dans lequel Apple est généralement en retard. Aurons-nous bientôt un Siri alimenté par l’IA ? Peu clair. Mais il est clair qu’Apple travaille activement sur l’IA, peut-être juste à sa manière.