Un A/B test peut être statistiquement significatif et pourtant faux si un facteur externe a changé pendant qu’il tournait. La significativité protège du hasard, pas du biais. Tester les variantes en parallèle neutralise les chocs communs ; le danger majeur reste le test séquentiel, qui confond l’effet de la variante avec celui du calendrier.
La page sur la significativité et la taille d’échantillon a réglé une menace : le hasard. Mais elle ne suffit pas, et c’est un piège de croire le contraire.
Un test peut atteindre la significativité, respecter sa taille d’échantillon et sa durée, ne souffrir d’aucun peeking, et délivrer un résultat complètement trompeur, parce qu’un facteur extérieur a faussé la comparaison.
La significativité protège du hasard ; elle ne protège pas du biais. Ce sont deux menaces différentes, et il faut les traiter séparément.
Le biais, ici, porte un nom en méthodologie expérimentale : les menaces à la validité. Deux nous concernent particulièrement en CRO : l’histoire et la saisonnalité.
Bonne nouvelle d’abord : un A/B test bien fait neutralise déjà la plupart des biais d’histoire, grâce à un mécanisme simple, la randomisation simultanée. Comme les deux variantes sont servies en même temps, à des visiteurs répartis aléatoirement, un événement externe qui survient pendant le test (une vague de froid, un pic d’actualité, une panne du site) frappe les deux variantes également.
L’effet se répartit, la comparaison reste valide. C’est toute la force du test simultané : il transforme les chocs externes en bruit commun, qui s’annule dans la comparaison.
Mauvaise nouvelle : ça ne protège pas de tout. Deux menaces survivent.
Le test séquentiel, la faute majeure. Si, au lieu de servir A et B en parallèle, vous testez A pendant un mois puis B le mois suivant, la randomisation simultanée n’opère plus. Tout événement, toute variation saisonnière entre les deux périodes se confond avec l’effet de la variante.
Vous ne savez plus si B a « gagné » parce qu’elle est meilleure ou parce que son mois était meilleur (paie, météo, actualité, fin de trimestre). Tester A en janvier et B en février, ce n’est pas un A/B test : c’est comparer janvier et février.
Le séquentiel est l’erreur de conception qui ruine le plus de tests, et elle est invisible aux statistiques : le résultat peut être superbement significatif et totalement faux. Le choix du dispositif compte autant : selon que vous opposez deux pages entières ou deux variantes d’un même élément, le délai de chargement entre en jeu. C’est le biais de vitesse en split URL, une autre menace à neutraliser avant d’interpréter quoi que ce soit.
L’interaction événement × variante. Cas plus subtil : un événement externe qui affecte différemment les deux variantes. Une promotion qui résonne avec le concept de la page A mais pas de la page B ; une couverture presse qui amène un public qui réagit mieux à l’une.
Là, même en parallèle, l’événement crée un écart qui n’est pas dû à la qualité intrinsèque des variantes mais à leur interaction avec le contexte. Plus rare, plus difficile à détecter, d’où le journal d’événements (plus bas).
La saisonnalité est un cas particulier, prévisible, du biais d’histoire : le comportement des gens varie selon le moment, soldes, vacances scolaires, fêtes, fin de mois, jours de paie.
D’abord, ne concluez pas sur une période atypique : tester une page de cadeaux pendant la semaine de Noël et en tirer une vérité valable toute l’année, c’est généraliser un comportement saisonnier.
Ensuite, couvrez des cycles complets : un test qui ne tourne que sur des jours ouvrés (et jamais le week-end) mesure une population biaisée, d’où la règle du cycle hebdomadaire complet vue à la page significativité, qui sert ici une seconde fonction (neutraliser la saisonnalité intra-semaine).
La parade générale n’est pas statistique, elle est méthodologique : parallélisme (toujours), cycles complets (au moins un), et un journal des événements.
Notez ce qui se passe pendant le test (campagnes, presse, mouvements concurrents, incidents techniques) pour pouvoir, après coup, interpréter une anomalie ou repérer une interaction.
La limite honnête : on ne peut pas anticiper tous les événements externes, et un test parfaitement conçu peut quand même être pollué par un imprévu. Le journal sert précisément à le détecter a posteriori, pour décider de rejouer le test plutôt que de conclure sur des données suspectes.
Le réflexe vaut pour les enchères aussi : c’est la même logique que l’exclusion d’une période faussée côté Smart Bidding, vous n’utilisez pas des données qu’un événement identifiable a corrompues.
| Menace | Ce qui se passe | Parade |
|---|---|---|
| Choc externe commun | Frappe les deux variantes également | Neutralisé par la randomisation simultanée |
| Test séquentiel | A puis B : l’effet du calendrier se confond avec celui de la variante | Parallélisme (jamais de séquentiel) |
| Saisonnalité | Comportement qui varie selon le moment | Cycles complets, pas de conclusion sur une période atypique |
| Interaction événement × variante | Un événement affecte différemment A et B | Journal des événements |
Trois règles, dans l’ordre de gravité :
Gardez la distinction en tête à chaque résultat : la significativité vous dit que ce n’est pas le hasard ; elle ne vous dit pas que ce n’est pas le calendrier.
Un test propre ne dit toujours que où les gens cliquent, pas pourquoi, c’est là que les cartes de chaleur reprennent la main pour lire le comportement réel. Tout cela tient ensemble dans une démarche de CRO avancée et d’analyse comportementale : la méthode prime sur le chiffre.
C’est la faute methodologique la plus courante. On regarde votre protocole et on corrige.
Réserver un appelParlons de vos objectifs