Taille d’échantillon A/B test : p-value et significativité

La statistique ne sauve pas un mauvais protocole. Elle donne un cadre au CRO avancé et à l’analyse comportementale : qui est assigné à quelle variante, quelle métrique tranche, quel effet mérite un déploiement et quand la décision peut être prise.

Pourquoi un écart observé ne suffit pas à conclure

Une variante affiche +18 % après trois jours. Tentant. Sauf que ce nombre ne dit encore ni ce que vaut l’effet, ni l’incertitude qui l’entoure, ni si l’assignation et le suivi sont propres. C’est une observation, pas un verdict.

Sur un faible effectif, les estimations varient davantage et les intervalles sont souvent larges. Le signal peut se confirmer, s’atténuer, s’inverser ou rester indécidable. Le problème n’est pas qu’une p-value « danse » par nature : c’est que la précision et la puissance dépendent du plan, du modèle et des données disponibles.

Randomisation, unité d’analyse, allocation, métrique principale, délai de conversion, effet minimal utile et règle d’arrêt doivent être écrits avant le lancement. Taille d’échantillon, durée et arrêt opportuniste sont trois garde-fous. Ils ne sont pas, à eux seuls, un certificat de validité.

La significativité sert à quantifier l’incompatibilité entre les données et un modèle nul. Elle ne remplace ni le diagnostic du parcours ni la décision économique. Dans une démarche CRO fondée sur le comportement réel, elle empêche surtout de transformer un écart flatteur en certitude.

P-value, erreur de type I et erreur de type II : ce que vous risquez vraiment

La p-value ne contrôle pas directement toutes les erreurs. Dans une procédure fréquentiste correctement planifiée, le seuil α gouverne le risque de type I. La puissance, calculée pour un effet spécifié, gouverne le risque de type II.

Qu’est-ce que la p-value et comment la lire sans se tromper ?

Voici la bonne question : si H₀ et les hypothèses du modèle étaient vraies, quelle serait la probabilité d’obtenir une statistique au moins aussi extrême que celle observée ? C’est cela, la p-value. Elle ne donne ni la probabilité que H₀ soit vraie, ni la probabilité que « le hasard » ait produit les données, ni la taille de l’effet.

P-value

Probabilité, calculée sous H₀ et sous les hypothèses du modèle retenu, d’observer une statistique au moins aussi extrême que celle obtenue. Une petite valeur indique une incompatibilité plus forte avec ce modèle. Elle ne désigne pas la cause de l’écart.

Une p-value élevée ne prouve pas l’absence d’effet. Elle indique seulement que les données ne fournissent pas assez d’éléments pour rejeter H₀ avec la procédure choisie. À faible effectif, le problème dominant est souvent une puissance insuffisante et une estimation imprécise. Certaines méthodes exactes restent pourtant valides avec peu d’observations, si leurs hypothèses sont respectées.

Erreur de type I et erreur de type II : les deux curseurs du risque

Les deux erreurs n’ont ni la même définition ni le même coût.

Le faux positif, ou erreur de type I, consiste à rejeter H₀ alors qu’elle est vraie. Si α vaut 5 % et que le même protocole est répété dans les mêmes conditions avec H₀ vraie, la procédure limite à long terme la fréquence de ces rejets erronés à 5 %. Cela ne signifie pas que 5 % de tous vos tests, mélangeant hypothèses vraies et fausses, seront faux.

L’erreur de type II consiste à ne pas rejeter H₀ alors qu’un effet donné est présent. Son risque β dépend de cet effet, de la taille d’échantillon, de l’allocation, de la variabilité, du seuil et du test. La puissance statistique, égale à 1 − β, est la probabilité de rejeter H₀ pour cet effet spécifié et ce plan précis. Pas une capacité abstraite à trouver « un gain s’il existe ».

	H₀ vraie (pas de vraie différence)	Effet cible réel (alternative spécifiée)
Vous rejetez H₀ (déclarez un gagnant)	Faux positif, au sens de la procédure (risque α)	Effet détecté ; direction et ampleur restent à estimer
Vous ne rejetez pas H₀ (pas de gagnant)	Non-rejet ; H₀ n’est pas démontrée	Erreur de type II pour cet effet (risque β)

α et la puissance sont des choix de conception, pas des constantes universelles. À effet, taux de base, variabilité, allocation et test identiques, réduire α ou viser davantage de puissance augmente généralement l’effectif requis. L’ampleur de cette hausse dépend aussi du caractère unilatéral ou bilatéral du test.

Ajoutez des variantes, des métriques ou des analyses intermédiaires sans correction, et le risque global de faux positif augmente. Le protocole doit donc désigner une métrique principale et prévoir le traitement de la multiplicité. Sinon, vous ne pilotez plus α : vous collectionnez les occasions d’avoir de la chance.

Fixer le MDE et calculer la taille d’échantillon avant de lancer

La discipline numéro un est de dimensionner avant, pas de chercher après le nombre qui justifie la conclusion. Le MDE fixe l’effet d’intérêt ; le modèle traduit ensuite le taux de base, la variabilité, α, la puissance et l’allocation en nombre d’unités randomisées.

Qu’est-ce que le MDE et comment le fixer ?

Le MDE (Minimum Detectable Effect, ou effet minimal détectable) est le plus petit effet que le plan est conçu pour détecter avec la puissance visée. Il peut être absolu ou relatif. Sur un taux de base de 3 %, une hausse à 3,3 % représente +0,3 point de pourcentage et +10 % en relatif. Donnez toujours les deux unités.

Plus l’effet cible est petit, plus la taille d’échantillon augmente. Pour de petits écarts et toutes choses égales par ailleurs, l’effectif varie approximativement comme l’inverse du carré de l’effet : diviser l’effet par deux peut donc approcher un facteur quatre. C’est un repère de calcul, pas une loi universelle, et il porte sur les observations prévues par le modèle, pas sur un nombre de conversions.

Le MDE doit aussi être utile économiquement. Si un écart ne rembourse ni le développement, ni le risque de déploiement, ni la complexité ajoutée, inutile de dimensionner le protocole pour le trouver.

Avec peu de trafic, priorisez un effet attendu assez large pour être détectable et assez important pour changer la décision. C’est le bon moment pour choisir les variables à tester en priorité. Pas pour répéter dix micro-variations jusqu’à obtenir une p-value flatteuse.

Les calculateurs de taille d’échantillon : lesquels utiliser et comment les alimenter

Un calculateur n’est pas une boîte à vérité. C’est l’implémentation d’un modèle. Avant d’utiliser sa sortie, vérifiez la métrique acceptée, l’unité comptée, le type de test et la règle d’arrêt. Deux calculateurs de fournisseurs différents peuvent répondre à deux questions différentes.

Les paramètres varient selon la méthode. Pour une comparaison fréquentiste à horizon fixe, vous retrouvez généralement :

La métrique et son niveau de base. Pour un taux, utilisez une période stable et représentative du trafic futur. Contrôlez les jours de semaine, la saisonnalité, les promotions et le délai de conversion. Pour une moyenne, renseignez aussi une estimation de variance lorsque le calculateur la demande.
Le MDE. Saisissez l’écart absolu ou relatif attendu par le modèle et notez les deux unités dans le protocole.
Le seuil α. Choisissez-le selon le coût d’un faux positif et la correction prévue pour plusieurs variantes, métriques ou comparaisons.
La puissance statistique. Elle vaut pour l’effet cible renseigné, pas pour tout effet possible.
Le nombre de variantes et l’allocation. Une répartition déséquilibrée change l’effectif total et le rythme de collecte de chaque branche.
Le test retenu. Unilatéral ou bilatéral, horizon fixe ou séquentiel : ces choix ne sont pas interchangeables.

Pour un taux de conversion, la sortie usuelle est un nombre d’observations ou d’utilisateurs éligibles par variante. Les conversions attendues en découlent via le taux de base. Elles ne constituent pas le dénominateur de durée.

Pour estimer l’horizon, divisez les observations requises pour une variante par le nombre quotidien d’unités éligibles effectivement allouées à cette variante. Ajoutez le délai de conversion et écartez les jours non représentatifs prévus au protocole. Si le résultat traverse une promotion, une migration de suivi ou un changement de trafic, le calendrier doit être revu. Pas maquillé après coup.

Comment Google Ads calcule-t-il lui-même la significativité dans l’onglet Expériences ?

Google Ads documente une méthode propre à ses expériences de campagne. La plateforme applique un rééchantillonnage jackknife à des données regroupées en classes pour estimer la variance de la variation en pourcentage. Elle indique utiliser 20 classes dans le groupe de contrôle et 20 dans le groupe de traitement, puis un test bilatéral associé à un intervalle à 95 %.

L’interface actuelle ajoute un reporting dynamique. Vous pouvez choisir le niveau de l’intervalle affiché ; Google fixe 80 % par défaut. Un astérisque bleu signale un résultat que la plateforme juge statistiquement pertinent. Ne fabriquez donc pas un exemple de gain et ne supposez pas que tout nombre entre crochets correspond automatiquement à 95 %.

Cette méthode n’est pas « exactement la même » qu’un calculateur de taille d’échantillon pour une page web. L’unité d’assignation, les classes, le rééchantillonnage et les métriques sont propres à Google Ads. L’idée générale reste commune : lire une estimation avec son incertitude. La mécanique, elle, diffère.

Une absence d’astérisque ne livre pas son diagnostic. Elle peut coïncider avec une durée trop courte, un trafic ou une allocation insuffisants, un effet nul, faible ou défavorable, une forte variabilité, un délai de conversion, une métrique mal suivie ou une mise en œuvre défectueuse. Regardez l’intervalle, la qualité du protocole et les données brutes avant de prolonger.

Enfin, ne transposez pas mécaniquement la règle d’un test fréquentiste externe à horizon fixe. Google actualise ses intervalles et prescrit une date de fin, une durée et des cycles de conversion. Suivez la procédure officielle du type d’expérience utilisé ; l’affichage dynamique n’est pas une permission d’arrêter au premier signal flatteur.

Répartition par recherche ou par utilisateur : pourquoi ça change la fiabilité des données

Google distingue la répartition basée sur les recherches et la répartition basée sur les cookies. Dans la première, chaque recherche éligible peut envoyer le même utilisateur vers la campagne d’origine ou la campagne test. Dans la seconde, un utilisateur reste exposé à une seule branche pendant le test.

La répartition intervient avant l’application du ciblage et concerne les mises aux enchères ou les utilisateurs éligibles. Elle ne garantit pas un nombre d’impressions identique. Choisissez selon l’unité d’exposition : une assignation persistante limite la contamination lorsqu’un même utilisateur peut revenir ; une assignation par recherche répond à une autre question. Aucune option n’est universellement « plus propre ».

Les trois disciplines qui rendent un test valide

Dimensionner, couvrir une période représentative et respecter la règle d’arrêt sont trois disciplines utiles. Elles viennent après la randomisation, l’unité d’analyse, l’allocation, la métrique principale, le suivi et le traitement de la multiplicité. Oubliez l’un de ces éléments et un effectif parfait ne réparera rien.

Fixer la durée et couvrir un cycle complet

Une semaine complète peut être un minimum contextuel lorsqu’un cycle lundi-dimanche affecte le trafic. Ce n’est pas une durée universelle. Une activité B2B, une saison de réservation, un délai de vente ou une campagne ponctuelle peuvent imposer un autre horizon. Le protocole doit couvrir les cycles qui rendent la population observée représentative de la décision future.

Soldes, promotion concurrente, pic saisonnier, montée en charge et changement de suivi peuvent déplacer la composition du trafic. Ces biais d’histoire et de saisonnalité peuvent fausser un protocole bien dimensionné. Anticipez-les ; ne les invoquez pas après coup pour sauver un résultat.

Pour ses expériences, Google recommande actuellement quatre à six semaines au minimum et un à deux cycles de conversion, davantage si le délai est long. Certains rapports écartent les sept premiers jours de montée en puissance. Ces repères appartiennent au protocole Google concerné, pas à tous les A/B tests du web.

Ne pas peeker, et quand le test séquentiel change la donne

La consultation répétée, souvent appelée peeking, devient un problème lorsque vous recalculez un test à horizon fixe et arrêtez au premier franchissement favorable. Chaque regard suivi d’une décision ajoute une occasion de rejeter H₀. Le risque de type I n’est alors plus celui annoncé par le calcul initial.

Le point qui déraille

Un voyant à 95 % ne suffit pas. Pour une analyse à horizon fixe, vérifiez l’effectif prévu, la durée, la randomisation, la métrique principale, le délai de conversion, les comparaisons multiples et les hypothèses du test. Si l’arrêt dépend du premier voyant vert, le calcul initial ne couvre plus votre procédure réelle.

Dans un plan à horizon fixe, vous pouvez surveiller l’intégrité du suivi, les coûts ou un dommage évident. Vous ne transformez pas ces contrôles opérationnels en règle de victoire improvisée. La décision statistique intervient à l’horizon prévu, sauf règle de sécurité définie séparément.

Un plan séquentiel peut prévoir un arrêt anticipé, avec ses propres règles. Le test séquentiel est une famille de plans conçus pour des analyses intermédiaires ou un suivi continu. Le SPRT en est un exemple. Il existe aussi les tests de groupe avec dépense d’alpha, les p-values toujours valides et les séquences de confiance. Les bornes, la puissance, l’effectif moyen et l’éventuel plafond dépendent de la méthode. Il n’existe ni deux bornes universelles ni surcoût d’échantillon toujours « légèrement supérieur ».

Les éditeurs ne proposent pas tous le même moteur. Optimizely documente un Stats Engine combinant inférence séquentielle et contrôle du taux de fausses découvertes. VWO propose un moteur bayésien avec des corrections séquentielle et de Bonferroni configurables. Kameleoon distingue les approches fréquentiste à échantillon fixe, bayésienne et séquentielle. AB Tasty présente un moteur principal bayésien. Même interface, sens statistique différent : lisez la méthode avant le voyant.

Faut-il un outil de testing dédié ou l’onglet Expériences de Google Ads suffit-il ?

Commencez par l’unité randomisée. Une expérience Google Ads répartit un budget, du trafic, des recherches ou des utilisateurs éligibles entre des branches de campagne. Un test de page web assigne des visiteurs après le clic. Ce sont deux populations, deux moments du parcours et deux protocoles.

Utilisez Google Ads pour les types d’expériences de campagne que l’interface rend éligibles et pour les métriques mesurées par la plateforme. Utilisez un outil web lorsque la variable se situe sur la page de destination, le formulaire ou le tunnel. Ne mélangez pas ensuite les unités d’analyse dans un même verdict.

Dans un test simple, changer une seule variable facilite l’attribution causale. Ce n’est pas une loi absolue. Un plan factoriel ou multivarié peut estimer plusieurs facteurs et leurs interactions, à condition d’être conçu et dimensionné pour cela. Changer plusieurs éléments sans plan ne produit pas un test multivarié. Seulement un résultat impossible à expliquer.

Significatif ne veut pas dire rentable

Aucun texte statistique n’impose 0,05 à toutes les décisions. Si votre plan fréquentiste fixe α à 5 %, le critère de rejet doit être appliqué comme prévu. Un plan séquentiel, une analyse bayésienne ou une règle de risque métier utilise d’autres objets. Dans tous les cas, le critère se choisit avant de voir les résultats.

Lire l’intervalle de confiance, pas le verdict binaire

« Significatif » ou « non significatif » écrase l’information utile. L’intervalle de confiance fréquentiste montre les valeurs d’effet compatibles avec les données et le modèle au niveau retenu.

Son niveau décrit une procédure répétée : si vous répétiez l’échantillonnage et la construction de l’intervalle, la proportion annoncée de ces intervalles couvrirait le vrai paramètre à long terme. Pour l’intervalle déjà calculé, le paramètre n’a pas une probabilité fréquentiste de se trouver dedans.

Si un intervalle bilatéral correspondant au test exclut zéro, les données sont incompatibles avec l’absence d’écart au seuil associé, sous les hypothèses du modèle. Cela ne donne pas la probabilité que B soit meilleur. Et un intervalle très large peut exclure zéro tout en laissant la taille de l’effet trop incertaine pour planifier.

Le double filtre : validité statistique puis pertinence business

Premier filtre : la procédure statistique prévue a-t-elle été respectée ? Deuxième filtre : l’effet estimé justifie-t-il le coût, la marge exposée, le risque technique et le temps de mise en œuvre ? La p-value ne répond qu’à une partie du premier.

Fixez avant le lancement un seuil économique dans l’unité de la métrique. Comparez ensuite l’estimation et son intervalle à ce seuil. Une borne basse légèrement positive peut être suffisante pour un changement gratuit et réversible, mais insuffisante pour une refonte coûteuse. Il n’existe pas de borne universelle.

Un résultat non concluant signifie que l’expérience n’a pas tranché dans le cadre prévu. Les données peuvent rester compatibles avec une absence d’effet, un bénéfice, un dommage, une forte variance, une faible puissance ou un défaut de mise en œuvre. Pour conclure que deux variantes sont suffisamment proches, prévoyez un test d’équivalence et une marge d’équivalence. Le simple non-rejet de H₀ ne suffit pas.

Sur quelles campagnes tester en priorité quand le trafic est limité ?

Priorisez les campagnes capables de fournir assez d’unités éligibles pour l’effet qui compte. Le besoin se calcule avec le taux de base, le MDE, α, la puissance, l’allocation, le modèle et le délai de conversion. Un seuil générique exprimé en conversions n’a aucune valeur statistique.

Deux décisions pratiques évitent d’immobiliser le trafic :

Écartez les micro-variations sous-dimensionnées. Sur un faible trafic, testez une hypothèse dont l’effet minimal utile reste détectable dans un délai acceptable. Sinon, changez de méthode de recherche ou accumulez du trafic avant de lancer.
N’agrégez pas seulement pour grossir le nombre. Les campagnes réunies doivent partager le traitement, l’unité d’assignation et la métrique. Évitez les chevauchements et les interférences. Si les taux de base diffèrent, prévoyez une analyse stratifiée plutôt qu’une moyenne qui masque l’hétérogénéité.

Une campagne volumineuse n’est donc pas automatiquement un bon terrain. Elle doit aussi offrir une assignation propre, un suivi fiable et une population assez stable pour répondre à la question posée.

Comment présenter un résultat de test à une direction ou un client qui veut une réponse simple ?

Présentez l’estimation, l’incertitude et la décision. Jamais un voyant seul. Ajoutez le niveau de l’intervalle, l’unité d’analyse, la période observée et le seuil économique retenu.

Trois réflexes évitent la fausse certitude :

Ne traduisez pas 95 % par « B a 95 % de chances de gagner ». Dans un cadre fréquentiste, annoncez l’estimation et l’intervalle, puis rappelez la règle de décision prévue.
Donnez le dénominateur utile. Utilisateurs ou recherches randomisés, conversions observées, durée et délai de conversion n’expliquent pas la même chose.
Documentez aussi l’indécision. Notez l’estimation, l’intervalle, la puissance visée, les écarts au protocole et les problèmes de suivi. Ne remplacez pas « nous n’avons pas tranché » par « les variantes sont équivalentes ».

Une formulation utile tient en une ligne : « Effet estimé : … ; intervalle à … % : […] ; unité : … ; période : … ; seuil économique : … ; décision : … ». Elle ne promet rien que les données ne soutiennent.

Repères

Plan fixe : définissez avant le lancement H₀, la métrique, l’unité randomisée, le MDE, α, la puissance statistique, l’allocation, la taille d’échantillon, la durée et la règle d’arrêt.
Plan séquentiel : nommez la méthode et ses règles d’analyse intermédiaire. « Regarder souvent » n’est pas une méthode.
Une petite p-value mesure l’incompatibilité avec H₀ sous le modèle. Elle ne mesure ni la probabilité que H₀ soit vraie, ni la cause, ni l’importance de l’effet.
La taille d’échantillon se calcule en unités d’analyse. La durée dépend du trafic éligible par branche et du délai de conversion.
Lisez l’estimation avec son intervalle et comparez-la au seuil économique fixé avant le test.
Non concluant signifie non tranché. L’équivalence exige une marge et un test prévus pour cette question.

Décision

Commencez par séparer deux plans. Pour une expérience de campagne Google Ads, fixez la branche de contrôle, le traitement, la répartition, la métrique et la procédure propre au type d’expérience. Pour une page web, choisissez l’unité d’assignation et la mise en œuvre après avoir tranché entre split URL et A/B classique.

Avec un horizon fixe, calculez la taille d’échantillon et ne prenez pas la décision au premier passage favorable. Avec un plan séquentiel, appliquez les bornes ou la séquence de confiance prévues. Dans les deux cas, contrôlez le suivi, le délai de conversion, la multiplicité et les changements concurrents.

À la fin, rapportez l’effet et son incertitude, puis appliquez le seuil économique. Si l’intervalle laisse ouvertes plusieurs décisions, dites-le. Vous ne cherchiez pas un voyant vert. Vous cherchiez une décision dont le risque est explicite.

Sources primaires et officielles vérifiées le 17 juillet 2026

L’American Statistical Association cadre l’interprétation des p-values. Le NIST documente le calcul de taille pour une proportion et l’interprétation fréquentiste d’un intervalle.

La prépublication primaire de Johari, Pekelis et Walsh décrit l’inférence toujours valide pour les tests A/B. La directive officielle ICH E9 distingue l’équivalence du simple non-rejet.

Google Ads documente la méthode jackknife et les répartitions, le reporting dynamique des expériences et les durées et cycles de conversion.

Les différences entre moteurs sont détaillées par Optimizely, VWO, Kameleoon et AB Tasty.

Questions fréquentes

Qu’est-ce que la p-value en A/B test ?

Sous H₀ et les hypothèses du modèle, la p-value est la probabilité d’observer une statistique au moins aussi extrême que celle obtenue. Elle ne donne ni la probabilité que H₀ soit vraie, ni la probabilité que le hasard soit la cause, ni l’importance de l’effet.

Pourquoi fixer le nombre d’observations avant de lancer ?

Un plan à horizon fixe exige une taille d’échantillon et une date d’analyse définies avant le lancement. Un plan séquentiel peut permettre un arrêt anticipé, mais il exige une méthode, des bornes ou une séquence de confiance et une règle d’arrêt prévues à l’avance.

Le peeking, c’est vraiment si grave ?

La consultation répétée devient problématique lorsque vous arrêtez un test à horizon fixe au premier résultat favorable. Vous multipliez alors les occasions de faux positif. Surveiller le suivi reste possible ; décider en cours de route exige une méthode séquentielle adaptée.

Un test non concluant, ça veut dire quoi ?

Que l’expérience n’a pas permis de trancher dans le cadre prévu. Rapportez l’effet estimé, son intervalle, la puissance visée et les éventuels problèmes de suivi. Ne concluez ni à l’absence d’effet ni à l’équivalence sans test et marge d’équivalence dédiés.

Que mesure la puissance statistique dans un A/B test ?

Pour un effet spécifié et un plan donné, la puissance statistique est la probabilité de rejeter H₀ lorsque cet effet est réel. Elle dépend notamment de la taille d’échantillon, de l’allocation, de la variabilité, du seuil α et du test retenu.

Faut-il attendre d’atteindre la taille d’échantillon même si l’écart semble déjà clair ?

Oui pour une décision prévue à horizon fixe : l’écart intermédiaire ne remplace pas l’analyse finale. Un arrêt anticipé est valide seulement si le plan séquentiel retenu l’autorise selon sa règle. Une urgence opérationnelle peut justifier un arrêt de sécurité, pas une victoire statistique improvisée.

C’est quoi le MDE dans un A/B test ?

Le MDE est le plus petit effet que le plan est dimensionné pour détecter avec la puissance choisie. Il peut concerner un taux, une valeur moyenne ou une autre métrique compatible avec le modèle, et s’exprimer en écart absolu ou relatif. Indiquez les deux pour éviter l’ambiguïté.

Qu’est-ce qu’un test séquentiel ?

C’est une famille de plans autorisant des analyses intermédiaires ou un suivi continu tout en contrôlant le risque selon une méthode définie. Le SPRT, les tests de groupe avec dépense d’alpha et les séquences de confiance en sont des exemples. Leurs règles d’arrêt ne sont pas interchangeables.

Vincent Duquesne

Expert Google Ads Certifié depuis 2011 : j’ai audité et restructuré des centaines de comptes dans des dizaines de thématiques différentes. +20M€ gérés.

Google Partner Premier 2026

Taille d’échantillon, durée et règle d’arrêt : trois disciplines pour un A/B test valide