Il y a quelques années, un informaticien nommé Yejin Choi a fait une présentation lors d'une conférence sur l'intelligence artificielle à la Nouvelle-Orléans. Sur un écran, elle a projeté une image d'un journal télévisé où deux présentateurs apparaissaient avant le titre "CHEESEBURGER STABBING". Choi a expliqué que les êtres humains trouvent facile de discerner les contours de l'histoire à partir de ces deux mots seuls. Quelqu'un avait-il poignardé un cheeseburger ? Probablement pas. Un cheeseburger avait-il été utilisé pour poignarder une personne ? Peu probable également. Un cheeseburger avait poignardé un cheeseburger ? Impossible. Le seul scénario plausible était que quelqu'un avait poignardé quelqu'un d'autre pour un cheeseburger. Les ordinateurs, a déclaré Choi, sont intrigués par ce genre de problème. Ils n'ont pas le bon sens pour écarter la possibilité d'un crime alimentaire.
Pour certains types de tâches (jouer aux échecs, détecter des tumeurs), l'intelligence artificielle peut rivaliser ou surpasser la pensée humaine. Mais le monde au sens large présente des circonstances imprévues sans fin, et là A.I. trébuche souvent. Les chercheurs parlent de « cas de coin », qui se situent à la périphérie du probable ou anticipé ; dans de telles situations, les esprits humains peuvent compter sur le bon sens pour les mener à bien, mais A.I. les systèmes, qui dépendent de règles prescrites ou d'associations apprises, échouent souvent.
Par définition, le bon sens est quelque chose que tout le monde possède ; cela ne ressemble pas à un gros problème. Mais imaginez vivre sans cela et cela devient plus clair. Supposons que vous soyez un robot visitant un carnaval et que vous affrontiez un miroir amusant ; dépourvu de bon sens, vous pourriez vous demander si votre corps a subitement changé. Sur le chemin du retour, vous voyez qu'une bouche d'incendie a éclaté, inondant la route ; vous ne pouvez pas déterminer s'il est sécuritaire de conduire à travers le spray. Vous vous garez devant une pharmacie et un homme sur le trottoir crie à l'aide, saignant abondamment. Êtes-vous autorisé à récupérer des pansements au magasin sans faire la queue pour payer ? À la maison, il y a un reportage - quelque chose à propos d'un cheeseburger poignardé. En tant qu'être humain, vous pouvez puiser dans un vaste réservoir de connaissances implicites pour interpréter ces situations. Vous le faites tout le temps, parce que la vie est dans les coins. Les IA sont susceptibles de rester bloquées.
Oren Etzioni, le PDG de l'Allen Institute for Artificial Intelligence, à Seattle, m'a dit que le bon sens est "la matière noire" de l'IA. Cela « façonne tellement ce que nous faisons et ce que nous devons faire, et pourtant c'est ineffable », a-t-il ajouté. L'Institut Allen travaille sur le sujet avec la Defense Advanced Research Projects Agency (DARPA), qui a lancé en 2019 un effort de quatre ans et de soixante-dix millions de dollars appelé Machine Common Sense. Si les informaticiens pouvaient donner leur A.I. systèmes de bon sens, de nombreux problèmes épineux seraient résolus. Comme l'a noté un article de synthèse, A.I. regarder un morceau de bois au-dessus d'une table saura qu'il s'agissait probablement d'une partie d'une chaise, plutôt que d'une planche au hasard. Un système de traduction linguistique pourrait démêler les ambiguïtés et les doubles sens. Un robot de ménage comprendrait qu'un chat ne doit être ni jeté ni placé dans un tiroir. De tels systèmes pourraient fonctionner dans le monde parce qu'ils possèdent le type de connaissances que nous tenons pour acquis.
[Soutenez le journalisme primé du New Yorker. Abonnez-vous aujourd'hui »]
Dans les années 1990, les questions sur l'I.A. et la sécurité a poussé Etzioni à commencer à étudier le bon sens. En 1994, il a co-écrit un article tentant de formaliser la "première loi de la robotique" - une règle fictive dans les romans de science-fiction d'Isaac Asimov qui stipule qu'"un robot ne peut pas blesser un être humain ou, par inaction, permettre un être humain à venir à mal. Le problème, a-t-il découvert, était que les ordinateurs n'ont aucune notion de danger. Ce type de compréhension nécessiterait une compréhension large et de base des besoins, des valeurs et des priorités d'une personne; sans cela, les erreurs sont presque inévitables. En 2003, le philosophe Nick Bostrom a imaginé une I.A. programme chargé de maximiser la production de trombones ; il se rend compte que les gens pourraient l'éteindre et s'en débarrasse pour accomplir sa mission.
Le trombone de Bostrom A.I. manque de bon sens moral - il pourrait se dire que des documents désordonnés et non coupés sont une forme de mal. Mais le bon sens perceptif est aussi un défi. Ces dernières années, les informaticiens ont commencé à cataloguer des exemples d'entrées « contradictoires » - de petits changements dans le monde qui confondent les ordinateurs qui tentent de s'y retrouver. Dans une étude, le placement stratégique de quelques petits autocollants sur un panneau d'arrêt a fait en sorte qu'un système de vision par ordinateur le considère comme un panneau de limitation de vitesse. Dans une autre étude, la modification subtile du motif d'une tortue imprimée en 3D a permis à une A.I. programme informatique le voit comme un fusil. I.A. avec le bon sens ne serait pas si facilement perplexe - il saurait que les fusils n'ont pas quatre pattes et une cartouche.
Choi, qui enseigne à l'Université de Washington et travaille avec l'Institut Allen, m'a dit que, dans les années 1970 et 1980, A.I. les chercheurs pensaient qu'ils étaient sur le point de programmer du bon sens dans les ordinateurs. "Mais ensuite, ils ont réalisé" Oh, c'est tout simplement trop difficile "", a-t-elle déclaré; ils se sont plutôt tournés vers des problèmes «plus faciles», tels que la reconnaissance d'objets et la traduction de la langue. Aujourd'hui, l'image est différente. Beaucoup d'I.A. des systèmes, tels que les voitures sans conducteur, pourraient bientôt fonctionner régulièrement à nos côtés dans le monde réel ; cela rend plus aigu le besoin de bon sens artificiel. Et le bon sens peut aussi être plus accessible. Les ordinateurs apprennent mieux par eux-mêmes et les chercheurs apprennent à leur fournir les bons types de données. I.A. pourrait bientôt couvrir plus de coins.
Comment les êtres humains acquièrent-ils le bon sens ? La réponse courte est que nous sommes des apprenants aux multiples facettes. Nous essayons des choses et observons les résultats, lisons des livres et écoutons les instructions, absorbons en silence et raisonnons par nous-mêmes. Nous tombons sur nos visages et regardons les autres faire des erreurs. I.A. les systèmes, en revanche, ne sont pas aussi complets. Ils ont tendance à suivre une voie à l'exclusion de toutes les autres.
Les premiers chercheurs ont suivi la voie des instructions explicites. En 1984, un informaticien nommé Doug Lenat a commencé à construire Cyc, une sorte d'encyclopédie du bon sens basée sur des axiomes, ou des règles, qui expliquent comment le monde fonctionne. Un axiome pourrait soutenir que posséder quelque chose signifie posséder ses parties ; un autre pourrait décrire comment les choses dures peuvent endommager les choses molles ; un troisième pourrait expliquer que la chair est plus douce que le métal. Combinez les axiomes et vous arrivez à des conclusions de bon sens : si le pare-chocs de votre voiture sans conducteur heurte la jambe de quelqu'un, vous êtes responsable de la blessure. "Il s'agit essentiellement de représenter et de raisonner en temps réel avec des expressions modales imbriquées compliquées", m'a dit Lenat. Cycorp, la société propriétaire de Cyc, est toujours en activité, et des centaines de logiciens ont passé des décennies à saisir des dizaines de millions d'axiomes dans le système ; les produits de l'entreprise sont entourés de secret, mais Stephen DeAngelis, le C.E.O. d'Enterra Solutions, qui conseille les entreprises de fabrication et de vente au détail, m'a dit que son logiciel peut être puissant. Il a donné un exemple culinaire : Cyc, a-t-il dit, possède suffisamment de connaissances de bon sens sur les "profils de saveur" de divers fruits et légumes pour raisonner que, même si une tomate est un fruit, elle ne devrait pas entrer dans une salade de fruits.
Les universitaires ont tendance à considérer l'approche de Cyc comme dépassée et à forte intensité de main-d'œuvre ; ils doutent que les nuances du bon sens puissent être saisies par des axiomes. Au lieu de cela, ils se concentrent sur l'apprentissage automatique, la technologie derrière Siri, Alexa, Google Translate et d'autres services, qui fonctionne en détectant des modèles dans de grandes quantités de données. Au lieu de lire un manuel d'instructions, les systèmes d'apprentissage automatique analysent la bibliothèque. En 2020, le laboratoire de recherche OpenAI a révélé un algorithme d'apprentissage automatique appelé GPT-3 ; il a examiné le texte du World Wide Web et a découvert des modèles linguistiques qui lui ont permis de produire une écriture vraisemblablement humaine à partir de zéro. Le mimétisme du GPT-3 est étonnant à certains égards, mais il est décevant à d'autres. Le système peut encore produire des déclarations étranges : par exemple, "Il faut deux arcs-en-ciel pour sauter d'Hawaï à dix-sept". Si GPT-3 avait du bon sens, il saurait que les arcs-en-ciel ne sont pas des unités de temps et que dix-sept n'est pas un lieu.
L'équipe de Choi essaie d'utiliser des modèles de langage tels que GPT-3 comme tremplin vers le bon sens. Dans une ligne de recherche, ils ont demandé à GPT-3 de générer des millions d'énoncés plausibles et de bon sens décrivant les causes, les effets et les intentions, par exemple : "Avant que Lindsay reçoive une offre d'emploi, Lindsay doit postuler". Ils ont ensuite demandé à un deuxième système d'apprentissage automatique d'analyser un ensemble filtré de ces déclarations, en vue de répondre à des questions à remplir. ("Alex fait attendre Chris. Alex est considéré comme . . .") -trois pour cent de bon sens.
Le laboratoire de Choi a fait quelque chose de similaire avec de courtes vidéos. Elle et ses collaborateurs ont d'abord créé une base de données de millions de clips sous-titrés, puis ont demandé à un système d'apprentissage automatique de les analyser. Pendant ce temps, les crowdworkers en ligne – des internautes qui effectuent des tâches contre rémunération – ont composé des questions à choix multiples sur des images fixes extraites d'un deuxième ensemble de clips, que l'I.A. n'avait jamais vu, et des questions à choix multiples demandant des justifications à la réponse. Une image typique, tirée du film "Swingers", montre une serveuse livrant des crêpes à trois hommes dans un restaurant, l'un des hommes en désignant un autre. En réponse à la question "Pourquoi [personne4] pointe-t-elle vers [personne1] ?", le système a indiqué que l'homme pointant "indiquait à [personne3] que [personne1] avait commandé les crêpes". Invité à expliquer sa réponse, le programme a déclaré que "[person3] livre de la nourriture à la table, et elle ne sait peut-être pas à qui appartient la commande". L'I.A. ont répondu aux questions avec bon sens soixante-douze pour cent du temps, contre quatre-vingt-six pour cent pour les humains. De tels systèmes sont impressionnants - ils semblent avoir suffisamment de bon sens pour comprendre les situations quotidiennes en termes de physique, de cause à effet et même de psychologie. C'est comme s'ils savaient que les gens mangent des crêpes dans les restaurants, que chaque restaurant a une commande différente et que le pointage est un moyen de fournir des informations.