Mark Chen d’OpenAI affirme que l’IA capable de mener ses propres recherches est proche

Le directeur scientifique (Chief Research Officer) d’OpenAI, Mark Chen, a déclaré que l’entreprise se rapproche de modèles d’IA capables de mener leurs propres recherches, ce qui rend l’intelligence artificielle générale de plus en plus accessible.

Points clés :

Chen a soutenu que les lois de passage à l’échelle restent valides, le pré-entraînement et l’allongement des chaînes de raisonnement continuant de porter le progrès vers l’AGI.

Il a indiqué que les modèles capables de recherches auto‑soutenues sont proches, un tournant qui transformerait le travail des chercheurs humains.

Chen a désigné l’aggravation de la crise de l’évaluation et l’absence d’apprentissage continu résolu comme les plus grands obstacles du domaine.

Comment Chen trace la voie vers l’AGI

Chen a exposé sa réflexion dans un récent podcast, où il cuisinait devant la caméra tout en expliquant la stratégie de recherche d’OpenAI.

Il a réfuté l’idée que le passage à l’échelle se serait essoufflé. Selon lui, cet argument réapparaît chaque fois que le domaine rencontre un nouveau goulot d’étranglement.

L’entreprise se situe sur une courbe exponentielle qui tient sur près de 10 ordres de grandeur, et peu d’éléments suggèrent qu’elle va se briser, a‑t‑il affirmé.

Chen a également mis en avant le pari d’OpenAI sur le raisonnement. Il a indiqué que, au début, des sceptiques en interne doutaient du projet o1, avant que Jakub Pachocki, Ilya Sutskever et quelques autres ne le fassent avancer.

Il s’attend désormais à ce que les modèles prennent en charge des tâches de recherche s’étalant sur des semaines, en produisant des idées qui dépassent les angles morts des experts humains.

La feuille de route d’OpenAI couvre trois ans, a‑t‑il indiqué, pour aboutir à des modèles qui gèrent la recherche de bout en bout, de la première idée au résultat final.

Pourquoi l’idée de « vibe researcher » compte

Chen a lancé un terme qui a retenu l’attention : le « vibe researcher ».

Dans ce futur, a‑t‑il expliqué aux auditeurs, les meilleurs chercheurs ne rédigent plus chaque ligne de code ; ils pilotent plutôt des modèles qui s’occupent de l’exécution et de la planification. Le travail humain se réduit à deux tâches : poser des questions percutantes et juger si une réponse a une vraie « saveur ».

Cette vision repose sur des bases fragiles, et Chen ne le nie pas.

Il a averti d’une crise de l’évaluation, décrivant des équipes qui traquent les scores de benchmarks sans gains réels, une habitude qu’il appelle « benchmaxxing ». Les anciens tests sont désormais saturés, et les nouveaux perdent presque toute valeur dès qu’ils deviennent publics.

L’apprentissage continu reste le fossé le plus difficile. Chen l’a qualifié de capacité de base que le domaine doit encore débloquer, même s’il a souligné que de nombreux travaux visent déjà ce problème.

Si cette trajectoire se maintient, a suggéré Chen, la ressource humaine la plus rare se déplacera de l’intelligence brute vers le jugement et l’expérience vécue.

Chen a déjà défendu cette position. Autour du lancement de GPT‑4.5, il a soutenu que le paradigme du passage à l’échelle pouvait continuer, et il a depuis longtemps affirmé qu’il n’existe aucune preuve que les lois de passage à l’échelle soient mortes.