AccueilGoogle AdsBiais d’un A/B test : pourquoi histoire et saisonnalité faussent un test même rigoureux

Biais d’un A/B test : pourquoi histoire et saisonnalité faussent un test même rigoureux

En bref

Un A/B test peut être statistiquement significatif et pourtant faux si un facteur externe a changé pendant qu’il tournait. La significativité protège du hasard, pas du biais. Tester les variantes en parallèle neutralise les chocs communs ; le danger majeur reste le test séquentiel, qui confond l’effet de la variante avec celui du calendrier.

Significatif ne veut pas dire valide

La page sur la significativité et la taille d’échantillon a réglé une menace : le hasard. Mais elle ne suffit pas, et c’est un piège de croire le contraire.

Un test peut atteindre la significativité, respecter sa taille d’échantillon et sa durée, ne souffrir d’aucun peeking, et délivrer un résultat complètement trompeur, parce qu’un facteur extérieur a faussé la comparaison.

La significativité protège du hasard ; elle ne protège pas du biais. Ce sont deux menaces différentes, et il faut les traiter séparément.

Le biais, ici, porte un nom en méthodologie expérimentale : les menaces à la validité. Deux nous concernent particulièrement en CRO : l’histoire et la saisonnalité.

Biais d’histoire
En méthodologie expérimentale, un événement externe (actualité, panne, campagne presse, mouvement concurrent) qui survient pendant le test et modifie le comportement mesuré, indépendamment de la variante testée.

Ce que la randomisation simultanée protège, et ce qu’elle ne protège pas

Bonne nouvelle d’abord : un A/B test bien fait neutralise déjà la plupart des biais d’histoire, grâce à un mécanisme simple, la randomisation simultanée. Comme les deux variantes sont servies en même temps, à des visiteurs répartis aléatoirement, un événement externe qui survient pendant le test (une vague de froid, un pic d’actualité, une panne du site) frappe les deux variantes également.

L’effet se répartit, la comparaison reste valide. C’est toute la force du test simultané : il transforme les chocs externes en bruit commun, qui s’annule dans la comparaison.

Mauvaise nouvelle : ça ne protège pas de tout. Deux menaces survivent.

Le test séquentiel, la faute majeure. Si, au lieu de servir A et B en parallèle, vous testez A pendant un mois puis B le mois suivant, la randomisation simultanée n’opère plus. Tout événement, toute variation saisonnière entre les deux périodes se confond avec l’effet de la variante.

Vous ne savez plus si B a « gagné » parce qu’elle est meilleure ou parce que son mois était meilleur (paie, météo, actualité, fin de trimestre). Tester A en janvier et B en février, ce n’est pas un A/B test : c’est comparer janvier et février.

Le séquentiel est l’erreur de conception qui ruine le plus de tests, et elle est invisible aux statistiques : le résultat peut être superbement significatif et totalement faux. Le choix du dispositif compte autant : selon que vous opposez deux pages entières ou deux variantes d’un même élément, le délai de chargement entre en jeu. C’est le biais de vitesse en split URL, une autre menace à neutraliser avant d’interpréter quoi que ce soit.

L’interaction événement × variante. Cas plus subtil : un événement externe qui affecte différemment les deux variantes. Une promotion qui résonne avec le concept de la page A mais pas de la page B ; une couverture presse qui amène un public qui réagit mieux à l’une.

Là, même en parallèle, l’événement crée un écart qui n’est pas dû à la qualité intrinsèque des variantes mais à leur interaction avec le contexte. Plus rare, plus difficile à détecter, d’où le journal d’événements (plus bas).

L’erreur que je vois le plus
Le test séquentiel déguisé. « On a lancé la version A en janvier, ça marchait moyen, alors on a basculé sur la B en février et là ça a décollé. » Personne n’a fait d’A/B test : on a comparé deux mois. Et c’est rigoureusement invisible dans l’outil, qui affiche un résultat « significatif » sans broncher.

La saisonnalité : une histoire prévisible

La saisonnalité est un cas particulier, prévisible, du biais d’histoire : le comportement des gens varie selon le moment, soldes, vacances scolaires, fêtes, fin de mois, jours de paie.

D’abord, ne concluez pas sur une période atypique : tester une page de cadeaux pendant la semaine de Noël et en tirer une vérité valable toute l’année, c’est généraliser un comportement saisonnier.

Ensuite, couvrez des cycles complets : un test qui ne tourne que sur des jours ouvrés (et jamais le week-end) mesure une population biaisée, d’où la règle du cycle hebdomadaire complet vue à la page significativité, qui sert ici une seconde fonction (neutraliser la saisonnalité intra-semaine).

La parade générale n’est pas statistique, elle est méthodologique : parallélisme (toujours), cycles complets (au moins un), et un journal des événements.

Notez ce qui se passe pendant le test (campagnes, presse, mouvements concurrents, incidents techniques) pour pouvoir, après coup, interpréter une anomalie ou repérer une interaction.

La limite honnête : on ne peut pas anticiper tous les événements externes, et un test parfaitement conçu peut quand même être pollué par un imprévu. Le journal sert précisément à le détecter a posteriori, pour décider de rejouer le test plutôt que de conclure sur des données suspectes.

Le réflexe vaut pour les enchères aussi : c’est la même logique que l’exclusion d’une période faussée côté Smart Bidding, vous n’utilisez pas des données qu’un événement identifiable a corrompues.

Menace Ce qui se passe Parade
Choc externe commun Frappe les deux variantes également Neutralisé par la randomisation simultanée
Test séquentiel A puis B : l’effet du calendrier se confond avec celui de la variante Parallélisme (jamais de séquentiel)
Saisonnalité Comportement qui varie selon le moment Cycles complets, pas de conclusion sur une période atypique
Interaction événement × variante Un événement affecte différemment A et B Journal des événements
À retenir
  • La significativité protège du hasard, pas du biais : un test peut être significatif ET faux.
  • La randomisation simultanée neutralise les chocs externes communs aux deux variantes ; restent le test séquentiel et l’interaction événement × variante.
  • Le test séquentiel (A puis B) est la faute majeure : il confond l’effet de la variante avec celui du calendrier, et reste invisible aux statistiques.
  • Parades méthodologiques : parallélisme, cycles complets, journal des événements.

Trois règles avant de conclure un test

Trois règles, dans l’ordre de gravité :

Gardez la distinction en tête à chaque résultat : la significativité vous dit que ce n’est pas le hasard ; elle ne vous dit pas que ce n’est pas le calendrier.

Un test propre ne dit toujours que les gens cliquent, pas pourquoi, c’est là que les cartes de chaleur reprennent la main pour lire le comportement réel. Tout cela tient ensemble dans une démarche de CRO avancée et d’analyse comportementale : la méthode prime sur le chiffre.

VD
Vincent Duquesne
Consultant Google Ads / SEA freelance depuis 2011 · +100 comptes · +20 M€ gérés
Google Partner Premier 2026
Publié le 13 juin 2026 · Mis à jour le 13 juin 2026

Vos tests A/B tournent en sequentiel ?

C’est la faute methodologique la plus courante. On regarde votre protocole et on corrige.

Réserver un appelParlons de vos objectifs