A/B test : histoire, saisonnalité et causalité

Dans le CRO avancé et l'analyse comportementale, c'est-à-dire l'optimisation de la conversion, une colonne verte ne suffit jamais. Il faut un protocole qui rend les groupes comparables, une mesure intacte et une question écrite avant le lancement. Sinon, vous obtenez un chiffre précis posé sur une cause incertaine.

Que dit vraiment un résultat statistiquement significatif ?

Une p-value mesure, si l'effet testé est nul et si les hypothèses de l'analyse tiennent, la probabilité d'observer des données au moins aussi incompatibles avec ce modèle. Elle ne donne ni la probabilité que l'hypothèse nulle soit vraie, ni la probabilité que le résultat soit « dû au hasard ». C'est la lecture posée par l'American Statistical Association, déclaration sur les p-values, vérifiée le 22 juillet 2026.

Un seuil franchi ne dit pas non plus si l'écart est utile. Je veux voir l'effet estimé, son intervalle d'incertitude, la métrique principale annoncée avant le test et les indicateurs de garde-fou. Un gain minuscule peut être très précis et sans intérêt économique. Un gain prometteur peut rester inconclusif faute de puissance.

Une taille d'échantillon adéquate réduit l'incertitude sous un protocole donné. Elle dépend notamment du taux de départ, de l'effet minimal détectable, du risque de faux positif, de la puissance, de la répartition et du modèle d'analyse. Elle ne répare ni une mauvaise assignation ni une conversion mal collectée. Le NIST, calcul de taille et de puissance, vérifié le 22 juillet 2026, part lui aussi de ces paramètres avant l'expérience.

L'histoire et la saisonnalité sont deux menaces temporelles, pas les seules. Instrumentation défaillante, pertes d'observations, ratio d'échantillon inattendu, contamination entre variantes, analyses multiples et arrêt opportuniste peuvent déplacer l'estimation ou rendre son incertitude mal calibrée. Une p-value correcte ne couvre aucun de ces défauts de conception.

Soyons précis : un biais ne rend pas chaque résultat « faux ». Il menace l'interprétation causale ou déplace l'effet estimé. La bonne question n'est donc pas « le chiffre est-il vrai ? », mais « quel effet ce dispositif identifie-t-il, pour quelle population et dans quel contexte ? »

Biais d'histoire

Événement ponctuel survenu pendant l'expérience et susceptible de modifier le résultat mesuré : panne, rupture de stock, changement de campagne, promotion imprévue ou incident de collecte. Le journal peut dater l'événement. Seuls l'assignation, les données techniques et le plan d'analyse permettent ensuite de savoir s'il a touché les branches différemment.

Ce que la randomisation simultanée protège, sous conditions

Dans un A/B test, l'assignation aléatoire équilibre les caractéristiques observées et non observées en moyenne, pas à coup sûr dans chaque échantillon. Cette protection tient si l'unité d'assignation reste stable, si les variantes sont servies en même temps, si l'allocation ne dérive pas et si exposition, mesure et délai de conversion sont comparables. Google Analytics définit d'ailleurs l'A/B test comme des variantes présentées simultanément à un échantillon aléatoire d'utilisateurs ; GA4 sert à interpréter les résultats d'un outil tiers, pas à randomiser à sa place. Source Google Analytics, vérifiée le 22 juillet 2026.

Quand un choc commun s'annule-t-il vraiment ?

Un choc de calendrier peut s'annuler dans la différence A contre B si les deux groupes y sont exposés au même moment, avec la même probabilité d'être mesurés, et si le choc n'interagit pas avec la variante. Cette condition se vérifie, elle ne se décrète pas. Une panne peut empêcher l'exposition de B, augmenter ses erreurs de chargement ou couper sa collecte plus longtemps que celle de A. Contrôlez par branche les impressions de variante, les erreurs, les temps de chargement, les conversions reçues et la reprise après incident. Même sous choc commun, le résultat relatif ne vaut que pour la population et la période effectivement observées.

A puis B : une comparaison temporelle, pas une analyse séquentielle

Servir A en janvier puis B en février confond la variante avec le calendrier. Vous pouvez calculer une petite p-value sur ces deux périodes ; elle quantifie alors un mélange d'effet de page, de composition du trafic, de demande, de mesure et de saison. Elle n'isole pas la cause recherchée.

Deux groupes d'annonces ou deux audiences ne forment pas automatiquement un A/B test. Ils peuvent différer avant même l'exposition par leurs requêtes, leurs enchères ou leur éligibilité. Pour comparer une variable Google Ads, utilisez une assignation contrôlée et vérifiez le ratio d'échantillon, les caractéristiques disponibles avant traitement et la collecte. Pour une page, un répartiteur après le clic peut assurer cette assignation si son unité et sa persistance sont définies.

Une analyse séquentielle légitime est autre chose : elle autorise des lectures intermédiaires selon des frontières d'arrêt, des risques d'erreur et une méthode décidés avant de voir les résultats. Le NIST, plans séquentiels, vérifié le 22 juillet 2026, décrit ce principe. Regarder chaque matin puis arrêter au premier résultat favorable n'en est pas un.

Le raccourci qui casse la causalité

« A tournait avant la promotion, B pendant, et B gagne. » Vous avez une observation. Pas une cause. Relancez A et B simultanément, conservez la même règle d'assignation et décidez l'arrêt avant de lire l'écart.

L'interaction entre contexte et variante

Un événement peut produire un effet différent selon la variante. Exemple : une promotion démarre, B la met clairement en avant et son taux monte tandis que A reste stable. L'observation est un écart pendant la promotion. L'hypothèse est une interaction entre le message de B et ce contexte. Le test consiste à estimer cette interaction, contrôler composition et mesure, puis répéter hors promotion ou lors d'une période comparable. L'effet peut être causal dans ce contexte sans prouver que B domine le reste de l'année.

Saisonnalité et effet de nouveauté : deux mécanismes distincts

Ils se déroulent tous deux dans le temps, mais ils ne racontent pas la même chose. La saisonnalité modifie périodiquement la population ou son comportement. L'effet de nouveauté vient du temps écoulé depuis l'exposition à un changement. Le biais d'histoire, lui, part d'un événement ponctuel. Mélanger ces trois mécanismes conduit à appliquer la mauvaise correction.

Comment la saisonnalité intervient-elle dans un A/B test ?

La saisonnalité est une variation récurrente liée au calendrier : jour de semaine, vacances, soldes ou cycle commercial propre à l'annonceur. Le biais d'histoire désigne un événement ponctuel pendant l'expérience. L'un n'est pas simplement le sous-type prévisible de l'autre : ils appellent des diagnostics et des hypothèses de portée différents.

Dans un test simultané correctement assigné, la saisonnalité ne biaise pas automatiquement l'écart interne entre A et B. Elle devient un problème causal si vous comparez deux périodes non concurrentes, si la composition ou la mesure dérive entre les branches, ou si la période interagit avec une variante. Même sans biais interne, elle peut limiter la généralisation.

Tester pendant les soldes n'est donc pas une faute en soi. Si votre décision porte sur les soldes, ce contexte fait partie de la cible. Le résultat répond à cette question précise. Pour l'étendre au reste de l'année, il faut une hypothèse de transport crédible ou une répétition sur une autre fenêtre.

Un test limité aux jours ouvrés peut également être valide si la décision ne concerne que ces jours. Il ne dit rien du week-end. La durée doit couvrir les cycles pertinents pour la décision, le délai de conversion et la détection de l'effet minimal prévu ; aucun « cycle hebdomadaire » universel ne remplace ce calcul.

Avant le lancement, fixez la population, la fenêtre représentative, la métrique principale, les garde-fous, la taille visée et la règle d'arrêt. Les cycles servent la représentativité ; ils ne garantissent pas à eux seuls une interprétation causale. Le NIST, planification d'une expérience, vérifié le 22 juillet 2026, place ces choix avant la collecte.

Tenez ensuite un journal daté des promotions, pannes, changements de campagne, ruptures de stock et incidents de mesure. Les annotations de GA4 permettent d'ajouter ces notes aux rapports. Elles documentent une coïncidence, pas une cause. Source Google Analytics sur les annotations, vérifiée le 22 juillet 2026.

Le contrôle sérieux commence à l'exposition. Pour une intégration tierce, Google documente l'événement experience_impression et le paramètre exp_variant_string. Pour un dispositif interne, il propose par exemple experiment_impression avec experiment_id et variant_id, puis des dimensions personnalisées de portée événement. Documentation développeur GA4, mise à jour le 29 juin 2026 et vérifiée le 22 juillet 2026.

Le journal aide à formuler une hypothèse et à choisir un nouveau test. Il ne corrige ni une assignation cassée ni une mesure perdue. Une date qui coïncide avec une rupture de courbe reste un indice ; confrontez-la aux journaux techniques, aux événements d'exposition, au ratio d'échantillon et aux interactions prévues.

L'effet de nouveauté favorise-t-il toujours B ?

Non. Une nouvelle interface peut attirer, mais elle peut aussi désorienter des utilisateurs habitués à A. Les nouveaux visiteurs ne connaissent pas l'ancienne version ; les visiteurs récurrents, si. Selon le produit et la fréquence de retour, B peut monter, baisser ou ne montrer aucun profil temporel particulier.

Analysez cet effet selon le temps depuis la première exposition et, lorsque l'identification le permet, par cohortes de nouveaux et d'anciens visiteurs. Sa durée n'est pas une constante. Microsoft Research montre que la nouveauté et l'apprentissage peuvent modifier la portée temporelle d'un résultat, sans fournir de délai universel. Analyse Microsoft Research, vérifiée le 22 juillet 2026.

N'arrêtez pas parce que la courbe paraît « stabilisée ». Arrêtez selon la taille, la durée, le délai de conversion et la règle préspécifiés, ou selon un plan séquentiel valide. Une analyse par ancienneté d'exposition peut ensuite tester l'hypothèse de nouveauté ; elle ne doit pas servir de justification inventée après le résultat.

Quand un résultat cesse-t-il d'être transportable ?

Un résultat n'a pas de date de péremption automatique. Sa portée diminue lorsque la population, le produit, le contexte ou la mesure s'éloignent assez de l'expérience pour rendre l'effet moins plausible. Il reste une estimation située, pas une loi sur tous les futurs visiteurs.

Regardez ce qui a changé depuis le test : sources et requêtes d'acquisition, appareils et zones géographiques, prix et offre, parcours autour de la page, définition de la conversion, latence de remontée ou politique commerciale. Ce sont des hypothèses de transport à examiner, pas une liste qui invalide mécaniquement le passé.

La décision de rejouer dépend de l'amplitude observée, de son incertitude, du coût d'une erreur, de l'enjeu économique et du coût du nouveau test. Pour une modification irréversible ou très rentable, un groupe témoin durable peut valoir davantage qu'une répétition ponctuelle.

Quand Google Ads peut-il déséquilibrer un test de page ?

Le risque dépend de l'architecture. Les enchères intelligentes, ou Smart Bidding, fixent les enchères avant le clic. Elles ne peuvent pas favoriser une variante de page qu'elles ne voient pas. Il faut donc distinguer la répartition réalisée sur le site de celle réalisée dans Google Ads.

Avec une annonce et une URL finale communes, puis un répartiteur après le clic, Google Ads ne connaît pas la branche de page. Le mécanisme d'enchères ne peut pas attribuer une enchère différente à A ou B. Votre outil doit en revanche maintenir l'assignation, enregistrer l'exposition réelle et gérer les retours d'un même utilisateur.

Si A et B passent par des annonces, groupes d'annonces ou campagnes distincts, les variantes deviennent visibles dans Google Ads. Enchères, éligibilité, validation des annonces, budgets ou diffusion peuvent alors modifier l'exposition. Ce n'est pas parce que B serait « moins connue ». Vérifiez les mises aux enchères éligibles, impressions, clics, conversions, ratio attendu et caractéristiques disponibles avant le traitement.

Un test personnalisé Google Ads crée une campagne test à partir de l'originale et partage trafic et budget selon le pourcentage choisi. Google recommande 50 % ; sa méthodologie précise qu'une répartition 50/50 porte sur les mises aux enchères éligibles. Elle ne promet donc ni le même nombre d'impressions, ni la même dépense, ni le même volume de conversions. Configuration officielle des tests, vérifiée le 22 juillet 2026 ; méthodologie statistique Google Ads, vérifiée le 22 juillet 2026. Durée fixe et budgets égaux ne suffisent pas : verrouillez aussi l'unité d'assignation, la mesure, la puissance, le délai de conversion et l'analyse.

Les ajustements de saisonnalité règlent-ils la causalité ?

Non. Un ajustement de saisonnalité informe une stratégie d'enchères d'une variation attendue du taux de conversion. Il ne randomise personne, ne corrige pas un avant/après et ne démontre aucune cause. Le journal d'expérience et cet ajustement concernent tous deux le temps, mais ils n'ont ni la même fonction ni le même objet.

L'annonceur fournit à Google Ads une hausse ou une baisse estimée du taux de conversion sur une fenêtre datée. Les enchères s'adaptent pendant l'événement, puis reprennent leur fonctionnement antérieur sans ajustement inverse. C'est une anticipation de pilotage, pas une réparation statistique.

Google réserve l'outil aux variations majeures attendues. La fenêtre idéale va d'un à sept jours et l'efficacité baisse au-delà de quatorze jours. En juillet 2026, il couvre les campagnes Shopping, sur le Réseau Display et sur le Réseau de Recherche utilisant un CPA cible ou un ROAS cible, ainsi que Performance Max et les campagnes pour applications en bêta avec toutes leurs stratégies ; les campagnes de voyage ne sont pas compatibles. Source Google Ads sur les ajustements de saisonnalité, vérifiée le 22 juillet 2026.

Une exclusion de données répond encore à un autre problème : données de conversion erronées après une balise cassée, une interruption de site ou un défaut d'importation. Elle modifie les données utilisées par Smart Bidding, pas le rapport de conversions, et ne doit pas effacer une vraie promotion ou une baisse réelle de demande. Source Google Ads sur les exclusions de données, vérifiée le 22 juillet 2026.

Quatre contrôles avant d'analyser le résultat

1. A et B ont-ils été assignés aléatoirement pendant la même période ?

Oui, vérifiez que l'assignation est restée stable, puis passez au contrôle 2.

Non, vous avez un avant/après ou des groupes non comparables. Relancez avec un témoin concurrent.

2. Exposition, ratio d'échantillon et mesure sont-ils intacts ?

Oui, examinez le contexte au contrôle 3.

Non ou incertain, inspectez l'assignation, les erreurs, les événements GA4 et le délai de conversion avant toute lecture causale.

3. La période représente-t-elle la décision visée ?

Oui, recherchez encore une interaction entre contexte et variante.

Non, limitez la conclusion à cette période ou répétez le test dans le contexte cible.

4. Taille, durée et règle d'arrêt ont-elles été décidées avant la lecture ?

Oui, rapportez l'effet, l'intervalle et les garde-fous.

Non, l'incertitude annoncée peut être mal calibrée. Recalculez selon une méthode adaptée ou considérez le résultat comme exploratoire.

A/A : un diagnostic, pas un certificat

Dans un test A/A, l'effet causal attendu est nul. Avec un seuil alpha non nul, des faux positifs restent pourtant possibles. On attend des distributions compatibles avec l'incertitude, pas des comptes ou des taux identiques. Un écart significatif est donc une alerte, pas la preuve d'un bug. Vérifiez sa répétition, le ratio d'échantillon attendu, l'assignation et l'instrumentation. Un résultat non significatif unique ne certifie pas davantage l'installation. Le test A/A est utile quand le risque, la maturité et le coût le justifient ; à grande échelle, une surveillance automatisée du ratio peut être plus rentable. Recherche Microsoft sur le ratio d'échantillon inattendu, vérifiée le 22 juillet 2026.

Menace	Ce qu'elle change	Conclusion permise
A puis B	Variante et période changent ensemble	Aucune attribution causale sans témoin concurrent
Choc temporel commun	Touche A et B au même moment	L'écart reste interprétable seulement si exposition, mesure et réponse au choc sont comparables
Interaction contexte × variante	Le choc modifie différemment A et B	Effet possible dans ce contexte ; généralisation à tester
Saisonnalité	Population ou comportement varient périodiquement	Résultat valable pour la fenêtre cible ; transport hors période à justifier
Effet de nouveauté	B peut monter ou baisser selon l'ancienneté d'exposition	Analyser cohortes et temps depuis exposition selon un plan annoncé
Mesure ou ratio inattendu	Branches incomplètes ou assignation rompue	Diagnostic technique avant l'effet
Branches visibles dans Google Ads	Éligibilité, enchères ou diffusion peuvent modifier l'exposition	Interprétation sous contrôle des mises aux enchères, impressions et ratios

Repères

Une p-value ne donne ni la cause, ni l'importance économique de l'effet.
La randomisation protège en moyenne si assignation, exposition et mesure restent intactes.
L'histoire est ponctuelle ; la saisonnalité est récurrente ; chacune peut interagir avec la variante ou limiter la portée.
Un journal date les faits. Il aide au diagnostic, mais ne corrige pas le protocole.

Le protocole avant toute conclusion

Je ne valide pas un gagnant à partir d'une couleur dans l'interface. Je valide la chaîne qui permet de relier l'assignation à la décision :

Écrivez l'hypothèse, la métrique principale, les garde-fous, l'effet minimal détectable et l'unité d'assignation.
Servez les variantes simultanément, conservez l'assignation et enregistrez l'exposition réelle dans l'outil de test et dans GA4.
Prévoyez taille, durée, cycles pertinents, délai de conversion et règle d'arrêt ; si l'analyse est séquentielle, prévoyez aussi ses frontières.
Surveillez ratio d'échantillon, instrumentation, pertes, contamination et multiplicité sans changer la décision au premier signal favorable.
Rapportez effet, intervalle, contexte et écarts de garde-fou, puis décidez d'un nouveau test selon l'enjeu et l'incertitude restante.

La discipline n'empêche pas les surprises. Elle empêche surtout de raconter une histoire après coup pour défendre le résultat que l'on espérait. Un test inconclusif propre vaut mieux qu'un faux gagnant très convaincant.

Les cartes de chaleur et les enregistrements de session peuvent montrer où les comportements divergent. Ils n'expliquent pas pourquoi. Pour comprendre une interaction, confrontez-les à des retours qualitatifs, aux journaux techniques et, surtout, à une répétition conçue pour départager les hypothèses.

Questions fréquentes

Un résultat significatif prouve-t-il que la variante a causé l'écart ?

Non. Une p-value mesure la compatibilité des données avec un modèle nul, sous des hypothèses données. Il faut aussi un effet estimé, un intervalle d'incertitude, une assignation intacte, une mesure fiable et un protocole respecté pour soutenir une interprétation causale.

Quelle différence entre biais d'histoire et saisonnalité ?

Le biais d'histoire désigne un événement ponctuel survenu pendant le test, comme une panne ou une promotion imprévue. La saisonnalité est une variation récurrente liée au calendrier. Dans un test simultané, elles ne biaisent pas automatiquement l'écart : il faut chercher un avant/après confondu, une interaction avec la variante ou une portée limitée au contexte.

Faut-il exclure les soldes d'un A/B test ?

Pas automatiquement. Si la décision concerne les soldes, cette période appartient à la population cible. Servez A et B simultanément, prévoyez la fenêtre et analysez l'interaction avec la période. Le résultat décrit alors ce contexte ; il ne se généralise pas sans preuve au reste de l'année.

À quoi sert le journal des événements dans GA4 ?

Il date les promotions, pannes, changements de campagne ou incidents de mesure afin de rapprocher une rupture de courbe d'un fait observable. Une annotation GA4 documente une coïncidence ; elle n'identifie pas la cause. Face à une divergence, examinez l'instrumentation, le ratio d'échantillon, la composition du trafic, la fluctuation d'échantillonnage et l'interaction avec la période, puis rejouez le test si ces vérifications ne départagent pas les hypothèses.

Un test A/A significatif prouve-t-il un bug ?

Non. Quand l'effet réel attendu est nul, le seuil alpha autorise encore des faux positifs. Un résultat A/A significatif est une alerte : vérifiez le ratio d'échantillon, l'assignation, la collecte et la répétition du signal. Un seul résultat ne prouve ni un bug ni une implémentation saine.

Smart Bidding voit-il les variantes d'un test de page ?

Seulement si les variantes sont exposées dans Google Ads par des annonces, groupes d'annonces ou campagnes distincts. Avec une URL commune et une répartition après le clic, Google Ads ne connaît pas la variante de page. Dans tous les cas, contrôlez l'assignation, l'exposition et le ratio d'échantillon.

Vincent Duquesne

Expert Google Ads Certifié depuis 2011 : j’ai audité et restructuré des centaines de comptes dans des dizaines de thématiques différentes. +20M€ gérés.

Google Partner Premier 2026

A/B test : distinguer biais d'histoire, saisonnalité et causalité

Que dit vraiment un résultat statistiquement significatif ?

Ce que la randomisation simultanée protège, sous conditions

Quand un choc commun s'annule-t-il vraiment ?

A puis B : une comparaison temporelle, pas une analyse séquentielle

L'interaction entre contexte et variante

Saisonnalité et effet de nouveauté : deux mécanismes distincts

Comment la saisonnalité intervient-elle dans un A/B test ?

L'effet de nouveauté favorise-t-il toujours B ?

Quand un résultat cesse-t-il d'être transportable ?

Quand Google Ads peut-il déséquilibrer un test de page ?

Les ajustements de saisonnalité règlent-ils la causalité ?

Quatre contrôles avant d'analyser le résultat

Le protocole avant toute conclusion

Questions fréquentes

Vos tests sont fiables ?

A/B test : distinguer biais d'histoire, saisonnalité et causalité

Que dit vraiment un résultat statistiquement significatif ?

Ce que la randomisation simultanée protège, sous conditions

Quand un choc commun s'annule-t-il vraiment ?

A puis B : une comparaison temporelle, pas une analyse séquentielle

L'interaction entre contexte et variante

Saisonnalité et effet de nouveauté : deux mécanismes distincts

Comment la saisonnalité intervient-elle dans un A/B test ?

L'effet de nouveauté favorise-t-il toujours B ?

Quand un résultat cesse-t-il d'être transportable ?

Quand Google Ads peut-il déséquilibrer un test de page ?

Les ajustements de saisonnalité règlent-ils la causalité ?

Quatre contrôles avant d'analyser le résultat

Le protocole avant toute conclusion

Questions fréquentes

Approfondir le sujet

Vos tests sont fiables ?