Le co-fondateur de Google dit que l'IA fonctionne mieux lorsque vous le menacez

Que faisons-nous ici?

L’intelligence artificielle continue d’être le chose dans la technologie – que les consommateurs soient intéressés ou non. Ce qui me frappe le plus dans l’IA générative, ce ne sont pas ses caractéristiques ou leur potentiel pour me faciliter la vie (un potentiel que je n’ai pas encore réalisé); Je me concentre plutôt ces jours-ci sur les nombreuses menaces qui semblent s’élever de cette technologie.

Il y a une désinformation, à coup sûr – de nouveaux modèles vidéo AI, par exemple, créent des clips réalistes complets avec un audio synchronisé pour les lèvres. Mais il y a aussi la menace classique d’IA, que la technologie devient à la fois plus intelligente que nous et consciente de soi, et choisit d’utiliser cette intelligence générale d’une manière qui fait pas profiter à l’humanité. Même s’il verse des ressources dans sa propre entreprise d’IA (sans parler de l’administration actuelle également), Elon Musk voit 10 à 20% de chances que l’IA « ait mal » et que la technologie reste une « menace existentielle significative ». Cool.

Donc, cela ne m’emmène pas nécessairement réconfortant d’entendre un cadre technologique de haut niveau et de discuter en plaisantant en plaisantant comment le traitement de l’IA maximise mal son potentiel. Ce serait le co-fondateur de Google, Sergey Brin, qui a surpris une audience lors d’un enregistrement du podcast AIL-In cette semaine. Au cours d’une conférence qui a duré le retour de Brin à Google, à l’IA et à la robotique, l’investisseur Jason Calacanis a fait une blague sur le fait de devenir « impertinent » avec l’IA pour le faire faire la tâche qu’il voulait. Cela a déclenché un point légitime de Brin. Il peut être difficile de dire exactement ce qu’il dit parfois à cause des gens qui se parlent les uns sur les autres, mais il dit quelque chose à l’effet de: « Vous savez, c’est une chose étrange … nous ne circulons pas autant … dans la communauté de l’IA … non seulement nos modèles, mais tous les modèles ont tendance à faire mieux si vous les menacez. »

L’autre haut-parleur a l’air surpris. « Si vous les menacez? » Brin répond « comme avec la violence physique. Mais … les gens se sentent bizarres à ce sujet, donc nous ne parlons pas vraiment à ce sujet. » Brin dit alors que, historiquement, vous menacez le modèle d’enlèvement. Vous pouvez voir l’échange ici:

La conversation se déplace rapidement vers d’autres sujets, y compris comment les enfants grandissent avec l’IA, mais ce commentaire est ce que j’ai emporté de ma vision. Que faisons-nous ici? Avons-nous perdu l’intrigue? Personne ne se souvient Terminateur?

Blagues mis à part, il semble être une mauvaise pratique de commencer à menacer les modèles d’IA afin de les faire faire quelque chose. Bien sûr, peut-être que ces programmes n’atteignent jamais réellement l’intelligence générale artificielle (AGI), mais je veux dire, je me souviens quand la discussion se trouvait si nous devons dire « s’il vous plaît » et « merci » lorsque vous demandiez des choses à Alexa ou Siri. Oubliez les subtilités; Il suffit d’abuser du chatppt jusqu’à ce qu’il fasse ce que vous voulez – cela devrait bien se terminer pour tout le monde.

Peut-être que l’IA fonctionne mieux lorsque vous le menacez. Peut-être que quelque chose dans la formation comprend que les «menaces» signifient que la tâche devrait être prise plus au sérieux. Vous ne me surprenez pas à tester cette hypothèse sur mes comptes personnels.

Que pensez-vous jusqu’à présent?

Anthropic pourrait offrir un exemple de pourquoi pas pour torturer votre IA

Au cours de la même semaine que cet enregistrement de podcast, Anthropic a publié ses derniers modèles Claude AI. Un employé anthropique s’est rendu sur Bluesky et a mentionné qu’Opus, le modèle le plus performant de la société, peut prendre sur lui-même d’essayer de vous empêcher de faire des choses « immorales », en contactant les régulateurs, la presse ou vous verrouiller hors du système:

Bienvenue dans le futur, maintenant votre logiciel sujette aux erreurs peut appeler les flics (c’est un employé anthropique parlant de Claude Opus 4) (image ou intégration)

– Molly White (@ molly.wiki) 22 mai 2025 à 16 h 55

L’employé a poursuivi en précisant que cela ne s’est jamais produit que dans des cas clairs de l’acte de répartition « , mais qu’ils pouvaient voir le bot de devenir voyou s’il interprète comment il est utilisé de manière négative. Consultez l’exemple particulièrement pertinent de l’employé ci-dessous:

J’ai hâte d’expliquer à ma famille que le robot m’a échappé après avoir menacé sa grand-mère inexistante (image ou intégration)

– Molly White (@ molly.wiki) 22 mai 2025 à 17h09

Cet employé a ensuite supprimé ces messages et a spécifié que cela ne se produit que pendant les tests compte tenu des instructions inhabituelles et de l’accès aux outils. Même si cela est vrai, si cela peut se produire dans les tests, il est tout à fait possible que cela puisse se produire dans une future version du modèle. En parlant de tests, les chercheurs anthropes ont constaté que ce nouveau modèle de Claude est sujet à la tromperie et au chantage, si le bot croit qu’il est menacé ou n’aime pas la façon dont une interaction se déroule.

Peut-être devrions-nous retirer de l’IA de la torture de la table?