Les modèles d'IA mis à jour d'Anthropic peuvent contrôler votre ordinateur pour vous

Asseyez-vous et laissez Claude faire le gros travail.

Si vous avez toujours voulu confier une partie de votre travail informatique fastidieux à l’intelligence artificielle, cet avenir est maintenant un peu plus proche : le modèle d’IA Claude 3.5 Sonnet mis à jour qu’Anthropic vient de publier est capable de prendre en charge votre souris et votre clavier et d’accomplir des tâches. tout seul.

Pour l’instant, cela n’est qu’en version bêta et disponible uniquement pour les développeurs ayant accès à l’API Claude, mais plus tard, nous pourrions tous demander à l’IA de remplir des formulaires, de déplacer des fichiers, de rechercher des informations sur le Web, et effectuer toutes les autres tâches pour lesquelles nous comptions auparavant sur nos doigts et nos pouces.

Tout d’abord, les modèles Claude mis à jour : Anthropic a désormais exclu les utilisateurs de Claude 3.5 Sonnet, qui, selon lui, offre des « améliorations globales » et des mises à niveau particulièrement significatives en termes de capacités de codage, avec des améliorations de performances significatives dans les tests d’analyse comparative standard ( y compris SWE-bench, basé sur GitHub).

Ensuite, il y a Claude 3.5 Haiku, une nouvelle version du modèle d’IA plus rapide, plus léger, moins cher et moins puissant proposé par Anthropic. Là encore, les performances globales ont été améliorées, affirme la société, et comme avec Sonnet, il y a des gains particuliers en termes de capacités de codage.

Ce sont cependant les capacités d’utilisation de l’ordinateur qui retiendront le plus l’attention, activées dans le cadre de la mise à jour Claude 3.5 Sonnet, et qui promettent de faire passer l’automatisation des postes de travail à un niveau supérieur. Pour l’instant, cependant, Anthropic souligne qu’il s’agit bien d’un produit bêta.

Utilisation de l’ordinateur dans Claude 3.5 Sonnet

Dans la vidéo de démonstration Anthropic ci-dessous, vous pouvez voir l’IA Claude chargée de remplir un formulaire. Les différentes informations nécessaires à ce formulaire doivent être récupérées dans différentes bases de données et onglets du navigateur, mais tout ce que l’utilisateur a à faire est de demander que le formulaire soit rempli et d’indiquer où se trouvent les informations nécessaires.

Pendant que Claude accomplit les tâches, il prend des captures d’écran et les étudie pour voir ce qu’il regarde, ce qui est similaire aux capacités de reconnaissance et d’analyse d’images pour lesquelles l’IA est déjà bien connue. Il détermine ensuite ce qu’il doit faire ensuite en fonction de ce qui est à l’écran et des instructions qui lui ont été données.

Dans ce cas, l’IA est suffisamment intelligente pour se rendre compte qu’elle doit passer à un autre onglet de navigateur et lancer une recherche sur le nom d’une entreprise pour trouver certaines des informations qu’elle recherche. Le déplacement du curseur, le clic du curseur et la saisie sont tous gérés par Claude tout au long du processus. Le robot est capable d’identifier les bonnes données et de les copier dans les champs appropriés du formulaire.

À la fin, Claude est assez intelligent pour repérer et sélectionner le bouton de soumission du formulaire à l’écran, ce qui termine ensuite la tâche, le tout sous les yeux de l’utilisateur. Dès le départ, il semble que le modèle d’IA soit capable de comprendre ce qui est à l’écran et de comprendre comment le manipuler pour accomplir des tâches.

Cependant, Anthropic note que les tâches de base telles que le défilement, le glisser et le zoom « présentent toujours des défis » pour Claude, et les bêta-testeurs sont encouragés à les tester en utilisant des scénarios « à faible risque » pour le moment. Dans le benchmark OSWorld, qui mesure la capacité de l’IA à effectuer des tâches informatiques, Claude 3.5 Sonnet obtient apparemment un score de 14,9 % (les humains obtiennent généralement un score d’environ 70 à 75 %).

Les développeurs à l’origine de ces nouvelles fonctionnalités n’ont pas eu peur de signaler certaines des erreurs qui peuvent survenir : lors d’un test, Claude a annulé un enregistrement d’écran sans raison apparente. Dans d’autres cas, le robot est passé soudainement et de manière aléatoire d’une tâche de codage à la navigation sur des photos en ligne du parc national de Yellowstone.

Anthropic note également que chaque avancée en matière d’IA peut entraîner de nouveaux problèmes de sécurité. Selon un audit réalisé par ses équipes internes de confiance et de sécurité, les capacités d’utilisation de l’ordinateur telles qu’elles existent actuellement ne présentent pas de risque accru pour la sécurité du système, même si cela sera continuellement réévalué. De plus, aucune donnée soumise par l’utilisateur (y compris les captures d’écran capturées) ne sera utilisée pour entraîner les modèles Claude AI.