
Et si la meilleure façon de rendre l'IA plus fiable, c'était de la faire surveiller par une autre IA ? C'est exactement le pari que vient de prendre Microsoft avec Critique, une nouvelle fonctionnalité intégrée à Copilot Researcher. Le principe : GPT d'OpenAI rédige, Claude d'Anthropic vérifie. Le résultat est spectaculaire — 34 % de précision supplémentaire sur les benchmarks de recherche complexe.
Comment fonctionne Critique concrètement
Le fonctionnement est simple mais redoutablement efficace. Quand vous posez une question complexe à Copilot Researcher, voici ce qui se passe en coulisses :
1. GPT génère un premier jet complet — recherche, synthèse, citations.
2. Claude passe tout au crible — exactitude factuelle, cohérence des sources, qualité des citations.
3. Le résultat final vous est livré seulement après cette double vérification.
Nicole Herskowitz, VP de Microsoft 365 et Copilot, a déclaré que Microsoft prévoit de rendre ce processus bidirectionnel à terme : GPT pourra aussi relire les brouillons de Claude. Deux cerveaux artificiels qui se corrigent mutuellement.
Les chiffres qui parlent
Sur le benchmark DRACO (100 tâches de recherche complexes en médecine, droit et technologie, développé par Perplexity AI), les résultats sont sans appel :
Claude Opus 4.6 seul : 42,7 %
GPT + Claude (Critique) : 57,4 %
Soit une amélioration de 34 %. Ce n'est pas marginal — c'est un changement de catégorie dans la fiabilité des réponses IA pour la recherche professionnelle.
Model Council : comparer les IA côte à côte
Microsoft a aussi lancé Model Council, une fonctionnalité qui permet de voir les réponses de GPT et Claude côte à côte sur la même question. Vous obtenez deux rapports séparés, plus un résumé des points d'accord et de divergence entre les deux modèles.


