ChatGPT peut enfin voir

Sept mois plus tard, le mode vocal avancé gagne en vision.

Après des mois de tests, OpenAI a déployé le mode « voix avancée » pour ChatGPT en septembre. La fonctionnalité vous permet d’avoir des conversations en temps réel avec ChatGPT : vous pouvez interrompre le robot et son « parler » pour poser une autre question, et il comprend votre ton de voix, qu’il utilise pour informer ses réponses, ainsi que son inflexion. utilise. (C’est très effrayant quand ça rit.)

Une fonctionnalité du mode vocal avancé manque cependant depuis le lancement. Lorsque OpenAI a annoncé cet avantage pour la première fois en mai, il a montré comment ChatGPT pourrait accéder à votre caméra et « voir » le monde qui vous entoure. Tout en discutant avec le bot, vous pouvez pointer votre caméra vers quelque chose, poser une question et ChatGPT répondra du mieux qu’il pourra. Sept mois plus tard, cette capacité est là, et elle est terriblement impressionnante.

Pour y accéder, vous devez disposer d’un abonnement payant à ChatGPT, soit Plus (20 $ par mois), soit Pro (200 $ par mois). Les abonnés de l’équipe ChatGPT sont également éligibles. La fonctionnalité peut ne pas être disponible immédiatement de votre côté, même si vous payez, car OpenAI la déploie au fil du temps.

Test de la fonctionnalité de vision du mode vocal avancé de ChatGPT

L’accès à la caméra est assez simple une fois qu’elle est déployée sur votre compte. Vous lancez le mode vocal avancé de la même manière que vous le faites toujours, en utilisant l’icône de forme d’onde en bas à droite du chat. À partir de là, vous verrez une nouvelle icône de caméra qui, bien sûr, lance le flux de caméra en direct. Cela n’interrompt pas le chat : vous pouvez être au milieu d’une conversation avec ChatGPT, ouvrir la caméra et continuer à bavarder, uniquement maintenant avec le flux de la caméra dans le cadre de la conversation.

La première fois que je l’ai utilisé, j’ai pointé l’appareil photo vers un boîtier Nintendo Switch que j’avais à proximité, avec un câble iPhone et mon Magic Trackpad posé dessus, et j’ai demandé : « Qu’est-ce que c’est ? ChatGPT a déclaré : « Cela ressemble à un boîtier Nintendo Switch OLED avec quelques câbles et un ordinateur portable sur le dessus. Envisagez-vous de l’installer ? » Deux sur trois sont corrects, car mon trackpad a été confondu avec un ordinateur portable, mais bon, assez proche. Ensuite, je l’ai pointé vers ma bouteille d’eau et lui ai demandé d’identifier ce que je mettais en évidence : « Ça ressemble à une bouteille Hydro Flask noire. Elle est idéale pour garder les boissons froides ou chaudes ! L’emportez-vous souvent avec vous ? »

J’ai demandé un suivi : « Savez-vous de quel modèle d’Hydro Flask il s’agit ? ChatGPT : « Je ne peux pas être certain du modèle exact, mais cela ressemble à l’une de leurs bouteilles à large goulot, probablement environ 32 onces. Elle est définitivement conçue pour garder vos boissons à la bonne température pendant des heures. » C’est… fondamentalement vrai. Je ne suis pas très à l’aise avec ChatGPT pour deviner le taille correctement non plus.

Je suis passé à mon clavier, qui, selon ChatGPT, était un Apple Magic Keyboard. J’ai demandé quelles clés il pouvait voir et j’ai nommé une poignée, mais pas la totalité, des clés que j’avais dans le cadre. J’ai donc demandé combien de clés il pouvait voir, et il m’a répondu « environ 30 », alors qu’il y en avait 26. Donc, encore une fois, fermez.

Il a pu identifier le port MagSafe de mon MacBook, ainsi que les deux ports USB et la prise casque à sa droite. Il a reconnu la bouche d’aération de mon plafond et le type spécifique de bottes que j’avais près de ma porte d’entrée. Dans l’ensemble, il a essentiellement reconnu tout ce sur quoi je l’ai testé, à l’exception du trackpad.

La vue du mode vocal avancé est rapide

Mais au-delà de toute reconnaissance, je pense que ce qui m’a le plus surpris, c’est la rapidité de ces réponses. Vous demandez à ChatGPT d’identifier quelque chose, et c’est le cas, parfois plus rapidement que si vous demandiez à une vraie personne de le faire. Parfois, le bot retiendra un mot pendant un moment (par exemple « Je pense que c’est un… »), ce qui est probablement une astuce pour laisser ChatGPT traiter le reste de ce qu’il veut dire. Je l’ai également surpris avec sa première réponse : je l’ai pointé vers ma Magic Mouse, et sa première idée est qu’il s’agit d’une souris d’ordinateur. Mais lorsque j’ai demandé de quelle marque il s’agissait, il n’a pas seulement précisé Apple, mais a également indiqué qu’il s’agissait d’une Apple Magic Mouse, connue pour son « design élégant » et sa « surface tactile ».

Tout bien considéré, cependant, ces réponses sont souvent quasi instantanées, ce qui témoigne de la puissance des modèles OpenAI de nos jours. Je suis encore largement sceptique en matière d’IA, mais c’est le premier développement depuis longtemps qui m’a impressionné – et je suis déchiré par ce que je ressens à ce sujet.

D’une part, je pouvais voir cette technologie utilisée à bon escient. Imaginez à quel point une telle chose pourrait être utile aux utilisateurs aveugles ou malvoyants, en particulier dans un appareil pratique comme les lunettes intelligentes. Quelqu’un pourrait demander à son assistant IA dans quelle direction il se trouve, lire le menu d’un restaurant ou s’il est sécuritaire de traverser la rue. Une technologie comme celle-ci pourrait améliorer la recherche et permettre d’apprendre facilement de nouvelles choses sur le monde en pointant l’appareil photo de notre smartphone vers un sujet.

D’un autre côté, mon esprit se tourne vers le négatif, d’autant plus que l’IA est toujours sujette aux hallucinations. À mesure que de plus en plus de personnes utilisent cette technologie, elles seront inévitablement confrontées aux erreurs que l’IA peut commettre, et s’ils comptent sur le robot pour les aider dans leurs tâches, en particulier celles qui impliquent leur sécurité, les hallucinations peuvent être dangereuses. Je n’ai pas rencontré d’erreurs majeures ; juste la confusion du trackpad. Anderson Cooper a découvert que le robot avait fait une erreur sur un problème de géométrie (encore une fois, ce n’est pas un gros problème). Mais cela nous rappelle que, à mesure que cette technologie s’améliore rapidement, ses défauts inhérents augmentent les risques d’échec.

C’est peut-être la raison pour laquelle chaque session de caméra en direct vous avertit de ne pas utiliser cette fonctionnalité à des fins de sécurité.