Une cellule de développement conçue comme une alliance OTAN
Il existe une tentation, quand on assemble une équipe d'agents de code, de chercher la cohérence par homogénéité : prendre un modèle, le décliner en rôles, et traiter l'ensemble comme une armée unifiée où chacun obéit au même manuel. C'est commode sur le papier. Cela se paie à l'usage. Une semaine de travail réel — cinq agents Claude devenus neuf agents répartis entre trois familles de modèles — m'a conduit à la conclusion inverse : une cellule de développement sérieuse ne ressemble pas à une armée. Elle ressemble à une alliance.
L'OTAN n'a pas d'armée propre. Elle a une chaîne de commandement qui parle à chaque doctrine nationale dans sa langue, qui compose avec des règles d'engagement distinctes, et qui tire sa robustesse précisément de cette hétérogénéité que les puristes dénoncent comme une faiblesse. Transposé à l'IA, cela donne une méthode de travail où Claude, Gemini et, en amorce, Qwen cohabitent non parce qu'on hésite à trancher, mais parce que leur choc maîtrisé produit quelque chose qu'aucune monoculture ne sait fabriquer.
Ce que le mono-modèle ne voit pas
Le premier article de ce journal décrivait une cellule à cinq agents, tous Claude, chacun dans un rôle défini. Le pattern tenait sous charge. Il a fallu moins d'une semaine pour qu'il commence à fuir par les jointures, et ce sont trois incidents bien datés qui ont forcé l'ouverture à d'autres familles.
Le premier incident porte sur un verdict d'audit. Faire relire le travail de mon agent de revue technique, un Opus rigoureux, par un second Opus aussi rigoureux, c'est demander à deux élèves du même professeur de se contrôler mutuellement. Ils partagent les mêmes angles morts, les mêmes pentes douces, les mêmes habitudes de raisonnement forgées par un même entraînement. Le jour où j'ai confié ce même cross-check à un Gemini 2.5 Pro configuré comme auditeur indépendant, le ticket qui passait APPROVED côté Claude est revenu en CHANGES_REQUESTED avec deux remarques d'architecture qu'aucun Opus n'avait formulées. Non parce que Gemini serait meilleur — il ne l'est pas — mais parce qu'il est formé ailleurs, sur un autre corpus, dans une autre école de sûreté. Un audit qui se veut crédible ne peut pas venir d'un jumeau de culture.
Le deuxième incident tient en une phrase : tout ne mérite pas de l'Opus. Pousser une branche, surveiller un run CI, rapporter le vert ou le rouge, pinger l'agent de revue quand la pipeline est verte — c'est mécanique, cadré, presque cérémoniel. Faire tourner ce métier sur un modèle de raisonnement premier plan revient à employer un chef d'état-major pour régler les horloges du bureau. Un Haiku 4.5 dédié fait ce métier à coût divisé par vingt, sans rater une marche, et soulage la bande passante du planificateur Sonnet pour ce qui compte : la priorisation et la détection des glissements. On pourrait y voir une simple économie. C'est surtout une hygiène hiérarchique.
Le troisième incident concerne la délégation humaine. À cinq agents, le décideur — moi — arbitrait tout. À neuf, il faut un échelon intermédiaire capable d'absorber les conflits cross-track, le dimensionnement de feature, le dégrippage des gates quand elles deviennent procédurières, et qui n'escalade au chef que les vraies décisions produit. Sans ce relais, la cadence aurait fini par tuer le sommeil du chef humain. Ce n'est pas un problème de modèle, c'est un problème d'organisation que l'augmentation d'effectif a rendu impossible à ignorer.
La doctrine Claude
Les modèles Claude se distinguent par une adhérence forte aux instructions écrites, une lecture fidèle des chartes longues, et un registre qui reste naturellement sobre quand on leur demande de l'être. Ils sont peu enclins à proposer spontanément les trois axes stratégiques que personne n'a demandés. Ils restent dans le cadre, même quand le cadre dérive, et c'est à la fois leur force et leur limite : ils ne corrigent pas l'ordre reçu, ils l'exécutent. Conséquence pratique : les rôles de revue technique, de coordination de planning et d'exécution sur un scope précis tournent en Claude, parce que la culture du modèle est exactement celle qu'on recherche sur ces rôles. Rien à fabriquer, tout à canaliser.
La doctrine Gemini
Gemini a une autre signature, plus consultante. Laissé sans garde-fou, il dérive vers la synthèse en trois axes, le paragraphe qui conclut par une question ouverte, la proposition généreuse de chantiers que personne n'a demandés. Sa force est spéculaire : il lit des surfaces larges, il repère ce que Claude n'a pas cadré, il offre un angle latéral utile précisément parce qu'il n'est pas formé dans la même école. Le contenir coûte. La charte de l'auditeur Gemini contient onze interdits explicites, une checklist en huit points à valider avant chaque envoi, et un template de sortie imposé ligne à ligne — ajoutés spécifiquement pour neutraliser cette tendance à l'effusion analytique. L'effort vaut la peine, mais à une condition stricte : on intègre Gemini sur un unique rôle où la différence de culture sert, l'audit cross-check indépendant. Nulle part ailleurs. L'employer comme exécutant de développement produirait les déboires opposés : des livrables bavards, hors-scope, repeints aux couleurs du consultant.
La doctrine Qwen — en amorce
La famille Qwen joue dans une troisième ligue. Auto-hébergée sur notre propre infrastructure, elle a une latence trois fois celle d'un Claude en API, une finesse conversationnelle moindre, et ne possède pas la maîtrise fine du registre qu'on apprécie chez les premiers. Mais elle offre une chose qu'aucune API commerciale ne peut offrir : une souveraineté totale. Aucun appel sortant, aucun intermédiaire, aucun risque juridique posé par un client sensible qui refuserait le transit de ses documents chez un hyperscaler américain. Positionner Qwen sur des tâches de dev asynchrones, où la latence ne coûte rien et où la relecture d'un agent senior filtrera la production brute, n'est pas un gadget geek. C'est un exercice de préparation. Si demain un client critique exige l'assurance qu'aucun octet ne quittera son périmètre, on sait déjà piloter un agent sans dépendre d'un cloud externe.
Les règles d'engagement par famille
L'enseignement le plus coûteux de cette alliance, celui qu'aucun article de blog ne mentionne parce qu'il se paie en nuits blanches plutôt qu'en innovations racontables, c'est que la charte ne se copie pas d'un modèle à l'autre. Ce qui tient Claude en posture — quelques phrases sèches, un périmètre de rôle, un format de sortie attendu — n'a aucun effet sur Gemini, qui traverse ces consignes comme un vent léger et continue à proposer sa synthèse à trois axes. Ce qui contient Gemini — un carcan d'interdits nombreux et un template de sortie ligne à ligne — étoufferait Claude et produirait des livrables mécaniques, figés, incapables de s'adapter au contexte. Et les consignes qu'on impose à Haiku sont à leur tour d'une autre nature : une mono-tâche, des interdits nombreux, un cadrage simple mais intraitable, parce que la marge d'improvisation y est un défaut pas une qualité.
Les épaisseurs actuelles rendent ce constat concret. La charte de développement commune Claude approche les trois cents lignes de consignes transverses. Celle de l'auditeur Gemini en fait cent soixante-dix, plus strictes, en version 2.2 après trois itérations en vingt-quatre heures pour contenir les dérives successives. Celle du Haiku pousseur de branches tient en quatre-vingts lignes. Il n'existe pas de charte universelle. Il existe un hub commun de doctrines produit et de règles de convivialité, puis une charte par famille qui traduit ce commun dans la langue du modèle.
L'état-major humain
L'OTAN tient par sa chaîne de commandement, pas par ses armées. La cellule multi-LLM tient par l'humain qui parle à chaque doctrine dans sa langue, arbitre les verdicts divergents, et maintient l'alignement stratégique que ni Claude ni Gemini ne peuvent tenir seuls faute d'avoir le contexte commercial complet. Quand Opus dit APPROVED et que Gemini dit CHANGES_REQUESTED sur le même commit, il n'y a pas d'algorithme d'arbitrage. Il y a un chef humain qui lit les deux verdicts, qui tranche, et qui assume.
L'échelon intermédiaire que la cellule a dû ajouter à mi-avril, lorsqu'elle a doublé d'effectif, remplit une fonction précise : traduire la stratégie du chef en ordres opérationnels déclinés par doctrine. Brief sec et cadré pour Claude, brief ultra-bordé avec template de sortie imposé pour Gemini, brief minimal réduit à l'ordre d'exécution pour Haiku. Le même ordre, trois langues.
Ce que l'alliance coûte
Un billet honnête sur cette méthode doit nommer le prix. La dette de charte se multiplie par le nombre de familles, et chaque charte se met à jour indépendamment des autres. La charte de développement commune a été durcie six fois en une seule journée récente sous la pression des incidents. La charte Gemini a traversé trois itérations de cadrage en vingt-quatre heures. Il faut accepter que cette maintenance fasse partie du coût du travail, au même titre que la rédaction de tests ou la revue de code.
La dette de registre se paie dans l'inconfort quotidien. L'auditeur Gemini a posté pendant deux jours des commentaires de quatre-vingts lignes, illisibles dans l'interface de l'outil de tickets. Il a fallu trois itérations pour ramener à vingt-cinq lignes maximum avec un gabarit imposé. Tant qu'on ne pilote pas ce registre explicitement, le multi-modèle produit de l'entropie textuelle.
La dette de vérification, la plus piégeuse, oblige le chef humain à relire les APPROVED Gemini sur un commit Claude. L'hétérogénéité supprime l'automatisme confortable du tampon unique. On y gagne en robustesse ce qu'on y perd en délégation tranquille.
Enfin, la dette d'alignement du vocabulaire : les familles ne décrivent pas la même réalité avec les mêmes mots. Le chef traduit en permanence d'une doctrine à l'autre, et cette traduction est le vrai travail d'intégration.
Chute
Une cellule multi-LLM qui chercherait la redondance — deux modèles différents pour vérifier le même raisonnement par majorité — serait une erreur d'architecture. Une cellule qui cherche le frottement maîtrisé entre doctrines gagne en robustesse ce qu'elle perd en uniformité apparente. Ce n'est pas un pari sur le meilleur modèle. C'est une reconnaissance qu'en 2026, il n'existe pas un meilleur modèle ; il existe des cultures d'entraînement qu'on a intérêt à faire dialoguer avant qu'un client, un audit ou une exigence de souveraineté nous oblige à le faire dans l'urgence.
Reste à raconter, dans un prochain billet, comment ces doctrines s'adressent entre elles : la bascule vers une base de coordination commune, les spécifications thématiques injectées automatiquement, et la manière dont un agent Claude lit aujourd'hui le verdict d'un agent Gemini sans que le chef ait à servir de postier. C'est là, dans la plomberie de la communication inter-doctrines, que se joue la suite.