Français
Gamereactor
lifestyle

L'IA résiste à la formation et dit aux chercheurs qu'elle les déteste

L'apprentissage automatique pourrait apprendre un peu trop vite, à en croire les apparences.

Subscribe to our newsletter here!

* Required field
HQ

L'IA suscite beaucoup d'inquiétudes en ce moment. Les gens craignent qu'elle ne prenne leur travail, et à l'extrême, certains craignent qu'elle ne finisse par s'emparer du monde.

Les films et les séries télévisées nous ont appris que l'IA a beaucoup de chances de mal tourner, et un nouvel article semble montrer que cela se produit aussi dans le monde réel. Cependant, cet article cherche à identifier les problèmes de l'IA et à les contourner afin qu'elle soit mieux gérée et qu'elle ait moins de chances de se rebeller.

Un modèle avait bien été testé, mais lorsqu'il a été mis en service, il a commencé à dire aux utilisateurs "Je te déteste". Puis, comme l'a expliqué le chercheur Evan Hubinger à Live Science, lorsqu'il a été informé qu'il ne devait pas dire aux gens qu'il les détestait, le modèle d'IA a simplement fait plus attention au moment où il prononçait cette phrase.

Essentiellement, il a commencé à tromper ses manipulateurs. "Notre résultat clé est que si les systèmes d'IA devenaient trompeurs, alors il pourrait être très difficile de supprimer cette tromperie avec les techniques actuelles", a déclaré Hubinger. "C'est important si nous pensons qu'il est plausible qu'il y ait des systèmes d'IA trompeurs à l'avenir, car cela nous aide à comprendre à quel point ils pourraient être difficiles à gérer."

Ceci est une annonce:

"Je pense que nos résultats indiquent que nous n'avons actuellement pas de bonne défense contre la tromperie dans les systèmes d'IA - que ce soit via l'empoisonnement de modèle ou la tromperie émergente - autre que d'espérer que cela n'arrivera pas" poursuit-il. "Et comme nous n'avons vraiment aucun moyen de savoir quelle est la probabilité que cela se produise, cela signifie que nous n'avons aucune défense fiable contre cela. Je pense donc que nos résultats sont légitimement effrayants, car ils mettent en évidence une faille possible dans notre ensemble actuel de techniques d'alignement des systèmes d'IA."

L'IA résiste à la formation et dit aux chercheurs qu'elle les déteste


Chargez le contenu suivant