Un A/B test n’est valide que si la taille d’échantillon est fixée avant, la durée couvre un cycle complet, sans arrêt prématuré. La p-value mesure la probabilité que l’écart soit dû au hasard : sous 5 %, peu probable par chance seule. Sur petit volume, un +20 % peut n’être que du bruit.
La majorité des A/B tests menés dans le monde réel sont statistiquement invalides, et leurs « gagnants » ne tiennent pas en production. Pas parce que les gens manquent de méthode, mais parce que l’intuition humaine est terriblement mauvaise avec le hasard.
On lance un test, on voit la variante B à +18 % au bout de trois jours, on déploie, satisfait, et trois mois plus tard le taux de conversion n’a pas bougé. Que s’est-il passé ?
Le +18 % n’était pas un signal. C’était du bruit : la fluctuation aléatoire normale de petits nombres, qui s’efface dès qu’on accumule assez de données. +20 % au bout de trois jours, ce n’est pas une victoire, c’est du bruit qui n’a pas encore eu le temps de s’effacer.
Toute la rigueur statistique du CRO existe pour une seule raison : distinguer le vrai signal du coup de chance. La significativité n’est pas du pédantisme de statisticien, c’est ce qui sépare savoir d’espérer. Elle n’est qu’une pièce d’une démarche CRO sérieuse fondée sur le comportement réel, mais elle en est le garde-fou.
La p-value est l’outil central, et elle est presque toujours mal expliquée. Voici ce qu’elle dit, exactement : si les deux variantes étaient en réalité identiques (aucune vraie différence), quelle serait la probabilité d’observer un écart au moins aussi grand que celui que je vois, par pur hasard ? Une p-value faible (par convention, sous 5 %) signifie : « cet écart serait très improbable si les variantes étaient identiques, donc elles ne le sont probablement pas ». Une p-value élevée signifie : « cet écart pourrait facilement n’être que du hasard, je ne peux rien conclure ».
Une p-value n’est fiable que sur un échantillon suffisant : calculée sur trois jours et deux cents visiteurs, elle danse dans tous les sens. D’où la nécessité, avant même de parler de p-value, de la taille d’échantillon.
Un : calculer la taille d’échantillon AVANT de lancer. Combien de conversions faut-il par variante pour qu’un écart donné soit détectable ? Ça se calcule a priori, à partir de votre taux de conversion de base, de l’effet minimal que vous voulez pouvoir détecter, et d’une puissance statistique suffisante (la capacité à repérer un effet réel s’il existe, vous visez usuellement 80 %). Lancer un test sans connaître ce nombre, c’est partir en voyage sans savoir où l’on va : on s’arrête au hasard.
Deux : fixer la durée AVANT, et couvrir un cycle complet. Même si la taille d’échantillon est atteinte rapidement, il faut laisser tourner le test sur au moins un cycle hebdomadaire complet, parce que le comportement du lundi n’est pas celui du samedi, et un test qui ne couvre que les jours ouvrés mesure une population biaisée. Et le calendrier ne s’arrête pas à la semaine : soldes, promo concurrente, pic saisonnier, ces biais d’historique et de saisonnalité faussent même un test parfaitement dimensionné, il faut les anticiper avant de lancer.
Trois : ne pas regarder en continu pour s’arrêter dès que ça arrange. C’est le piège le plus pernicieux et le moins connu : le peeking. Vous regardez votre test chaque jour, et le jour où il affiche « significatif », vous l’arrêtez et déclarez victoire. Problème : à force de regarder, vous tomberez forcément sur un pic de bruit qui franchit le seuil, et vous l’attraperez précisément ce jour-là. Le peeking transforme votre risque de 5 % de faux positif en un risque bien plus élevé, parce que vous multipliez les occasions de vous tromper.
La règle : on décide la taille et la durée à l’avance, et on ne conclut qu’à la fin. Regarder en cours de route pour surveiller est permis ; arrêter en cours de route parce que « c’est bon » est interdit.
« Significatif / pas significatif » est une lecture binaire appauvrie. Plus honnête est l’intervalle de confiance : la fourchette dans laquelle se situe probablement le vrai effet.
Un test peut être « significatif » tout en ayant un intervalle qui va de +1 % à +25 %. Vous savez que B est probablement meilleur, mais vous ignorez de combien, et planifier sur « +18 % » serait imprudent.
Lire l’intervalle, c’est accepter de raisonner en incertitude plutôt qu’en certitude binaire.
La limite honnête, et elle est structurelle : tout ceci suppose du volume. Un site à faible trafic n’atteindra peut-être jamais la taille d’échantillon nécessaire pour détecter un effet modéré dans un délai raisonnable, et c’est une information en soi.
Sur petit trafic, mieux vaut tester des changements à gros effet (qu’un petit échantillon suffit à révéler) que des micro-optimisations indétectables. C’est tout l’enjeu de choisir les variables à tester en priorité : avec peu de volume, vous n’avez droit qu’à quelques paris, autant les viser gros.
Un test non concluant n’est pas un échec : c’est un résultat honnête (cet effet, s’il existe, est trop petit pour être visible avec ce volume), qui vous évite de déployer une fausse victoire.
Avant de lancer : calculez la taille d’échantillon et fixez la durée (au moins un cycle complet), une fois que vous avez tranché entre split URL et A/B classique pour monter le test.
Pendant : surveillez si vous voulez, mais n’arrêtez pas avant d’avoir atteint les deux seuils prévus. À la fin : lisez l’intervalle de confiance, pas seulement le « 95 % ». Et acceptez qu’un test non concluant est une réponse valide.
La question à vous poser devant tout résultat enthousiasmant : ai-je atteint mon échantillon et ma durée, ou suis-je en train de regarder du bruit ? La significativité, c’est la différence entre savoir et espérer. En CRO, espérer coûte cher.
Vous déployez dès que ça passe 95 % ? On recadre la méthode ensemble avant le prochain test.
Réserver un appelParlons de vos objectifs