06/06/2026
Les co-mathématiciens IA ne naîtront pas seulement de prouveurs plus puissants.
Ils naîtront de systèmes capables de préserver une preuve sur la durée.
Nouveau papier de Yuanhe Zhang, Yuekai Sun, Taiji Suzuki, Jason D. Lee et Fanghui Liu :
LeanMarathon: Toward Reliable AI Co-Mathematicians through Long-Horizon Lean Autoformalization
Le problème n’est pas seulement de prouver un lemme difficile.
C’est de maintenir la fidélité mathématique d’un développement entier.
À l’échelle d’un article, l’autoformalisation échoue autrement :
les énoncés dérivent
les dépendances s’emmêlent
le contexte se dégrade
les réparations locales cassent des preuves lointaines
un lemme formellement correct peut devenir mathématiquement hors sujet
Le vrai goulot d’étranglement est donc la durabilité agentique.
LeanMarathon traite la formalisation Lean comme un système d’ingénierie de la vérité mathématique.
Son abstraction centrale : un blueprint évolutif.
Un fichier Lean qui sert à la fois de squelette formel, graphe de preuve en langage naturel, DAG de dépendances et système de référence partagé.
Quatre agents à périmètre contractuel travaillent dessus :
Blueprinter — construit le squelette Lean
Target Reviewer — vérifie la fidélité aux théorèmes visés
Worker — prouve les nœuds locaux
Refiner — répare les défauts multi-nœuds
L’orchestrateur opère en deux temps :
d’abord stabiliser les énoncés par r***e adversariale,
puis décharger le DAG de preuve depuis les feuilles dynamiques, en parallèle, avec validation CI.
Le geste clé :
ne pas faire confiance à un agent monolithique pour tout retenir.
Limiter le périmètre.
Externaliser l’état.
Vérifier déterministiquement.
Faire de la CI l’autorité de merge.
Rendre les erreurs locales, récupérables et non contagieuses.
En Lean, “sorry” est le placeholder qui permet à une preuve incomplète de passer.
LeanMarathon rapporte avoir formalisé les sept théorèmes cibles de deux articles récents couvrant quatre problèmes d’Erdős, sans aucun sorry, avec 258 lemmes et théorèmes prouvés sur trois runs autonomes.
Ce n’est pas seulement du proof search.
C’est du long-horizon proof engineering.
Et la leçon dépasse les mathématiques :
la fiabilité à l’échelle est un problème de harness.
Le futur de l’IA mathématique ne demandera pas seulement des modèles plus forts.
Il demandera des systèmes durables qui préservent l’intention, les dépendances et la vérification sur de longues chaînes de raisonnement.
Crédit complet aux auteurs :
Yuanhe Zhang, Yuekai Sun, Taiji Suzuki, Jason D. Lee, Fanghui Liu.
Paper :
https://arxiv.org/abs/2606.05400
Code :
https://github.com/YuanheZ/LeanMarathon
J’attache la première page, car l’abstract mérite une lecture attentive.
La prochaine frontière n’est pas une IA qui écrit des preuves plausibles.
C’est une IA dont le travail mathématique survit au marathon.