AccueilGoogle AdsTaille d’échantillon, p-value et significativité : les trois disciplines qui rendent un A/B test valide

Taille d’échantillon, p-value et significativité : les trois disciplines qui rendent un A/B test valide

En bref

Un A/B test n’est valide que si la taille d’échantillon est fixée avant, la durée couvre un cycle complet, sans arrêt prématuré. La p-value mesure la probabilité que l’écart soit dû au hasard : sous 5 %, peu probable par chance seule. Sur petit volume, un +20 % peut n’être que du bruit.

La vérité inconfortable : la plupart des tests ne prouvent rien

La majorité des A/B tests menés dans le monde réel sont statistiquement invalides, et leurs « gagnants » ne tiennent pas en production. Pas parce que les gens manquent de méthode, mais parce que l’intuition humaine est terriblement mauvaise avec le hasard.

On lance un test, on voit la variante B à +18 % au bout de trois jours, on déploie, satisfait, et trois mois plus tard le taux de conversion n’a pas bougé. Que s’est-il passé ?

Le +18 % n’était pas un signal. C’était du bruit : la fluctuation aléatoire normale de petits nombres, qui s’efface dès qu’on accumule assez de données. +20 % au bout de trois jours, ce n’est pas une victoire, c’est du bruit qui n’a pas encore eu le temps de s’effacer.

Toute la rigueur statistique du CRO existe pour une seule raison : distinguer le vrai signal du coup de chance. La significativité n’est pas du pédantisme de statisticien, c’est ce qui sépare savoir d’espérer. Elle n’est qu’une pièce d’une démarche CRO sérieuse fondée sur le comportement réel, mais elle en est le garde-fou.

La p-value, sans jargon faux

La p-value est l’outil central, et elle est presque toujours mal expliquée. Voici ce qu’elle dit, exactement : si les deux variantes étaient en réalité identiques (aucune vraie différence), quelle serait la probabilité d’observer un écart au moins aussi grand que celui que je vois, par pur hasard ? Une p-value faible (par convention, sous 5 %) signifie : « cet écart serait très improbable si les variantes étaient identiques, donc elles ne le sont probablement pas ». Une p-value élevée signifie : « cet écart pourrait facilement n’être que du hasard, je ne peux rien conclure ».

P-value
Probabilité d’observer un écart au moins aussi grand sous l’hypothèse nulle (variantes identiques). Une p-value sous 5 % signifie que cet écart serait très improbable par pur hasard. Ce seuil de 5 % est une convention : il fixe à 5 % le risque accepté de crier victoire à tort.

Une p-value n’est fiable que sur un échantillon suffisant : calculée sur trois jours et deux cents visiteurs, elle danse dans tous les sens. D’où la nécessité, avant même de parler de p-value, de la taille d’échantillon.

Les trois disciplines non négociables

Un : calculer la taille d’échantillon AVANT de lancer. Combien de conversions faut-il par variante pour qu’un écart donné soit détectable ? Ça se calcule a priori, à partir de votre taux de conversion de base, de l’effet minimal que vous voulez pouvoir détecter, et d’une puissance statistique suffisante (la capacité à repérer un effet réel s’il existe, vous visez usuellement 80 %). Lancer un test sans connaître ce nombre, c’est partir en voyage sans savoir où l’on va : on s’arrête au hasard.

Deux : fixer la durée AVANT, et couvrir un cycle complet. Même si la taille d’échantillon est atteinte rapidement, il faut laisser tourner le test sur au moins un cycle hebdomadaire complet, parce que le comportement du lundi n’est pas celui du samedi, et un test qui ne couvre que les jours ouvrés mesure une population biaisée. Et le calendrier ne s’arrête pas à la semaine : soldes, promo concurrente, pic saisonnier, ces biais d’historique et de saisonnalité faussent même un test parfaitement dimensionné, il faut les anticiper avant de lancer.

Trois : ne pas regarder en continu pour s’arrêter dès que ça arrange. C’est le piège le plus pernicieux et le moins connu : le peeking. Vous regardez votre test chaque jour, et le jour où il affiche « significatif », vous l’arrêtez et déclarez victoire. Problème : à force de regarder, vous tomberez forcément sur un pic de bruit qui franchit le seuil, et vous l’attraperez précisément ce jour-là. Le peeking transforme votre risque de 5 % de faux positif en un risque bien plus élevé, parce que vous multipliez les occasions de vous tromper.

L’erreur que je vois le plus
Arrêter le test le jour où le calculateur affiche « 95 % de confiance » sans vérifier si la taille d’échantillon prévue est atteinte. Le 95 % affiché ne vaut que si l’échantillon et la durée prévus sont respectés et qu’on n’a pas arrêté au moment opportun. Sinon, ce chiffre est un artefact du peeking.

La règle : on décide la taille et la durée à l’avance, et on ne conclut qu’à la fin. Regarder en cours de route pour surveiller est permis ; arrêter en cours de route parce que « c’est bon » est interdit.

Lire l’incertitude, pas un verdict binaire

« Significatif / pas significatif » est une lecture binaire appauvrie. Plus honnête est l’intervalle de confiance : la fourchette dans laquelle se situe probablement le vrai effet.

Un test peut être « significatif » tout en ayant un intervalle qui va de +1 % à +25 %. Vous savez que B est probablement meilleur, mais vous ignorez de combien, et planifier sur « +18 % » serait imprudent.

Lire l’intervalle, c’est accepter de raisonner en incertitude plutôt qu’en certitude binaire.

La limite honnête, et elle est structurelle : tout ceci suppose du volume. Un site à faible trafic n’atteindra peut-être jamais la taille d’échantillon nécessaire pour détecter un effet modéré dans un délai raisonnable, et c’est une information en soi.

Sur petit trafic, mieux vaut tester des changements à gros effet (qu’un petit échantillon suffit à révéler) que des micro-optimisations indétectables. C’est tout l’enjeu de choisir les variables à tester en priorité : avec peu de volume, vous n’avez droit qu’à quelques paris, autant les viser gros.

Un test non concluant n’est pas un échec : c’est un résultat honnête (cet effet, s’il existe, est trop petit pour être visible avec ce volume), qui vous évite de déployer une fausse victoire.

À retenir
  • Calculez la taille d’échantillon nécessaire AVANT de lancer : taux de base, effet minimal détectable, puissance cible (usuellement 80 %).
  • Fixez la durée AVANT, couvrez au moins un cycle hebdomadaire complet.
  • Le peeking gonfle les faux positifs : décidez à l’avance, concluez à la fin, pas au premier pic flatteur.
  • Lisez l’intervalle de confiance, pas seulement le « 95 % ». Un verdict binaire masque l’incertitude réelle.
  • Un test non concluant est un résultat valide : il vous évite de déployer du bruit.

La décision

Avant de lancer : calculez la taille d’échantillon et fixez la durée (au moins un cycle complet), une fois que vous avez tranché entre split URL et A/B classique pour monter le test.

Pendant : surveillez si vous voulez, mais n’arrêtez pas avant d’avoir atteint les deux seuils prévus. À la fin : lisez l’intervalle de confiance, pas seulement le « 95 % ». Et acceptez qu’un test non concluant est une réponse valide.

La question à vous poser devant tout résultat enthousiasmant : ai-je atteint mon échantillon et ma durée, ou suis-je en train de regarder du bruit ? La significativité, c’est la différence entre savoir et espérer. En CRO, espérer coûte cher.

Questions fréquentes

Qu’est-ce que la p-value en A/B test ?
La p-value mesure la probabilité d’observer l’écart constaté entre les variantes si elles étaient en réalité identiques. Sous 5 %, cet écart est peu probable par pur hasard. Au-dessus, il pourrait n’être que du bruit.
Pourquoi calculer la taille d’échantillon avant de lancer ?
Sans taille cible définie a priori, vous n’avez pas de critère d’arrêt objectif. Vous risquez de conclure trop tôt sur du bruit ou, à l’inverse, de prolonger inutilement un test dont le résultat est déjà lisible.
Le peeking, c’est vraiment si grave ?
Oui. Arrêter un test le premier jour où il franchit le seuil de significativité, c’est exactement ce que fait le peeking. À force de regarder quotidiennement, vous tombez forcément sur un pic de bruit flatteur : votre risque de faux positif dépasse largement les 5 % annoncés.
Un test non concluant, ça veut dire quoi ?
Que l’effet, s’il existe, est trop petit pour être détecté avec le volume disponible. C’est une information utile : elle vous évite de déployer une variante B qui ne fait probablement pas mieux que A, et vous oriente vers des changements à plus gros impact.
VD
Vincent Duquesne
Consultant Google Ads / SEA freelance depuis 2011 · +100 comptes · +20 M€ gérés
Google Partner Premier 2026
Publié le 13 juin 2026 · Mis à jour le 13 juin 2026

Vos tests A/B concluent trop tôt ?

Vous déployez dès que ça passe 95 % ? On recadre la méthode ensemble avant le prochain test.

Réserver un appelParlons de vos objectifs