Le concept de signification statistique est central dans la planification, l’exécution et l’évaluation des tests A/B (et multivariés).mais en même temps, c’est l’élément le plus important pour la planification et l’évaluation des tests A/B (et multivariables). incompris et mal utilisé outil statistique dans le domaine du marketing internet, de l’optimisation de la conversion, de l’optimisation des pages de renvoi et des tests utilisateurs.
Cet article tente de l’exposer dans un anglais aussi simple que possible : il couvre tous les angles, mais sans entrer dans les mathématiques et les détails inutiles. La première partie, où le concept est expliqué, est nécessairement très théorique, tandis que la seconde partie est plus orientée vers la pratique, couvrant la manière de choisir un niveau de signification statistique approprié, d’éviter les mauvaises interprétations et utilisations courantes, etc.
Contenu / navigation rapide :
- Comprendre la variabilité aléatoire
- Qu’est-ce que la signification statistique ?
- Qu’est-ce que cela signifie si un résultat est statistiquement significatif ?
- Signification dans les tests A/B de non-infériorité
- Mauvaises interprétations courantes de la signification statistique
- Erreurs courantes d’utilisation de la signification statistique dans les tests A/B
- Comment choisir un niveau de signification statistique approprié (et la taille de l’échantillon) ?
- Réflexions finales
Comprendre la variabilité aléatoire
Pour expliquer correctement le concept de signification statistique, il faut prendre un peu de recul pour avoir une vue d’ensemble. De nombreuses activités de marketing en ligne / UX visent à trouver des actions qui améliorent les résultats de l’entreprise. Cette amélioration peut être mesurée de différentes manières : acquérir plus de visiteurs, convertir plus de visiteurs, générer un revenu plus élevé par visiteur, augmenter la rétention et réduire le taux de désabonnement, augmenter les commandes répétées, etc.
Cependant, savoir quelles actions conduisent à des améliorations n’est pas une tâche triviale. C’est là que les tests A/B entrent en jeu. Un test A/B, c’est-à-dire une expérience contrôlée en ligne, est le seul moyen scientifique d’établir un lien de causalité entre notre ou nos actions (prévues) et les résultats observés. Il est possible d’éviter l’approche scientifique et de se fier à une intuition ou à des données d’observation. Cependant, l’utilisation de l’approche scientifique permet d’estimer l’effet de son implication et de ses résultats. prédire l’avenir (n’est-ce pas la chose la plus cool !).
Dans un monde idéal, les gens seraient omniscients et il n’y aurait aucune incertitude. L’expérimentation serait inutile dans une telle utopie. Cependant, dans le monde réel du commerce en ligne, il existe des limites dont il faut tenir compte. Dans les tests A/B, la limite est le temps nécessaire pour prendre une décision et les ressources et utilisateurs que l’on peut consacrer à un test donné.
Ces limites signifient que dans un test, un échantillon des futurs visiteurs d’un site, potentiellement infinis, sont mesurés. Les observations sur cet échantillon sont ensuite utilisées pour prédire comment les visiteurs se comporteront à l’avenir. Dans toute mesure de ce type effectuée sur un échantillon fini dans le but d’acquérir des connaissances sur une population entière et/ou de faire des prédictions sur le comportement futur, il existe une incertitude inhérente à la fois à la mesure et à toute prédiction effectuée.
Ce site incertitude est due à la variance naturelle du comportement des groupes observés. Sa présence signifie que si les utilisateurs sont répartis en deux groupes choisis au hasard, des différences notables entre le comportement de ces deux groupes seront observées, y compris sur les indicateurs clés de performance tels que les taux de conversion du commerce électronique, les taux de conversion des prospects, les taux de rebond, etc. Cela se produira même si rien n’a été fait pour différencier un groupe ou l’autre, à l’exception de l’affectation aléatoire.
Malgré cela, les deux groupes d’utilisateurs séparés au hasard vont apparaissent différents. Pour avoir une bonne idée de la façon dont cette variance peut jouer avec l’esprit, il suffit de faire quelques tests A/A et d’observer les résultats dans le temps. À de nombreux moments, on peut observer des performances nettement différentes dans les deux groupes, la plus grande différence se situant au début et la plus petite vers la fin du test.
Qu’est-ce que la signification statistique ?
La signification statistique est un outil qui permet de prendre des mesures malgré l’incertitude aléatoire. Il s’agit d’un seuil sur une statistique appelée valeur p, ou, de manière équivalente, d’un seuil sur une transformation simple de cette statistique appelée « niveau de confiance » ou simplement « confiance » dans certains calculateurs statistiques.
Le désir d’avoir une prédiction fiable sur l’avenir à partir d’une quantité limitée de données nécessite l’utilisation de la signification statistique et d’autres statistiques de test A/B. La valeur p observée, a.p., est une valeur de confiance. La valeur p observée, aussi appelée niveau de signification, est un outil permettant de mesurer le niveau d’incertitude de nos données.
La signification statistique est utile pour quantifier l’incertitude.
Mais comment la signification statistique nous aide-t-elle à quantifier l’incertitude ? Pour l’utiliser, il faut test statistique d’hypothèse nulle[2] doit être planifié, exécuté et analysé. Ce processus fait appel à la logique de l’argumentation Reductio ad absurdum. Dans un tel argument, on examine ce qui se serait passé si quelque chose était vrai, jusqu’à ce qu’une contradiction soit atteinte, ce qui permet alors de déclarer fausse l’affirmation examinée.
Premièrement, choisissez une variable pour mesurer les résultats. Un exemple classique est la différence de taux de conversion pour une action telle que l’achèvement d’une piste ou un achat. Désignons-la par la lettre grecque µ (mu). Définissez ensuite deux hypothèses statistiques. Combinées, elles doivent inclure toutes les valeurs possibles de µ.
Habituellement (mais pas toujours ! Voir le test de non-infériorité ci-dessous), une hypothèse (l’hypothèse nulle, ou hypothèse par défaut) est définie comme l’intervention n’ayant aucun effet positif, ou ayant un effet négatif (µ ≤ 0). L’hypothèse alternative est que les changements proposés à mettre en œuvre ont un effet positif (µ > ; 0).
Dans la plupart des tests, la probabilité d’observer certains résultats pour toute valeur vraie donnée est connue. Elle peut être calculée à l’aide d’une simple méthode mathématique. modèle lié au monde réel. Cela permet d’examiner les résultats des tests A/B à travers la question suivante : « En supposant que l’hypothèse nulle soit vraie, quelle serait la fréquence ou la probabilité d’observer des résultats aussi extrêmes ou plus extrêmes que ceux observés ? ». « Extrême » signifie ici simplement « différer d’une quantité donnée ».
C’est précisément ce que mesure une valeur p observée, c’est-à-dire la signification statistique observée.
La signification statistique mesure la probabilité d’observer ce qui a été observé, en supposant que l’hypothèse nulle est vraie.
Voici une représentation visuelle que j’ai préparée. L’exemple porte sur un seuil de 95 % couramment utilisé pour le niveau de confiance, équivalent à un seuil de valeur p unilatérale de 0,05 :

Si le seuil de signification pour déclarer un résultat statistiquement significatif est une valeur p de 0,05 et que la signification observée est un nombre inférieur, par exemple 0,04, alors on peut dire que le résultat est statistiquement significatif par rapport à l’hypothèse nulle choisie..
La signification statistique est donc une mesure approximative de la probabilité de commettre l’erreur de décider que l’hypothèse statistique nulle doit être rejetée, alors qu’en fait, on aurait dû s’abstenir de la rejeter. On parle également d’une erreur de type Iou une erreur de première espèce. Un niveau de signification statistique plus élevé signifie qu’il y a plus de garanties contre la commission d’une telle erreur.
Les personnes plus intéressées par la technique pourraient considérer cette approche plus approfondie de la définition et de l’interprétation des valeurs p.
Voir ceci en action
Essayez-leCalculateur de signification statistique
Calcul robuste de la valeur p et de l’intervalle de confiance.
Certains se demandent peut-être encore : pourquoi voudrais-je savoir cela, je veux juste savoir si A est meilleur que B, ou vice versa ?
Qu’est-ce que cela signifie si un résultat est statistiquement significatif ?
Une faible valeur p signifie que la probabilité qu’un résultat, ou un résultat plus extrême, se soit produit est faible. Le passage d’un seuil de signification statistique faible nous indique que, sous les hypothèses de l’hypothèse nulle (par exemple, l’effet réel est négatif ou nul), quelque chose de très improbable s’est produit. Logiquement, l’observation d’un résultat statistiquement significatif à un niveau donné peut signifier que l’un ou l’autre de ces éléments est vrai :
1.) Il y a est une véritable amélioration dans les performances de notre variante par rapport à notre contrôle.
2.) Il y a Il n’y a pas de véritable amélioration mais un résultat rare a été observé.
3.) Le modèle statistique est invalide (ne reflète pas la réalité).
Si l’on mesure la différence de proportions, comme dans la différence entre deux taux de conversion, le numéro 3 peut être écarté à toutes fins utiles. Dans ce cas, le modèle est assez simple : la distribution binomiale classique, elle comporte peu d’hypothèses et est généralement applicable à la plupart des situations. Il reste une possibilité que la distribution utilisée ne soit pas adaptée à l’analyse d’un ensemble particulier de données. Une erreur fréquente dont j’ai été témoin est que les gens essaient d’adapter les données de revenu moyen par utilisateur dans un calcul qui ne permet que des entrées binomiales, comme les taux de conversion.
Concernant le point 2 : plus le niveau de signification statistique est faible, plus l’événement est rare. 0,05 correspond à 1 sur 20, tandis que 0,01 correspond à 1 sur 100. De même, plus le niveau de confiance statistique est élevé, plus l’événement est rare. Une confiance statistique de 95% ne serait observée « par hasard » qu’une fois sur 20, en supposant qu’il n’y ait pas d’amélioration.
Ce que l’on espère, c’est que les points 2 et 3 puissent être écartés avec le niveau d’incertitude (faible) souhaité, de sorte que le point 1 puisse rester la conclusion nécessaire. Si l’on sait qu’un résultat est statistiquement significatif avec une valeur p (mesure de la signification statistique) de 0,05, par exemple, ce qui équivaut à un niveau de confiance de 95 %, il reste toujours une probabilité que le point 2 soit vrai. Ce qui est bien, c’est que cette probabilité est connue compte tenu de la procédure de test A/B et du scénario le plus défavorable. C’est ainsi qu’une valeur p et une signification statistique servent à mesurer incertitude.
Si l’on est heureux d’avancer avec autant (ou aussi peu) d’incertitude, alors ce sont les garanties quantifiables fournies par les tests.
C’est probablement le bon endroit pour dire que tout ce qui a été dit ici sur la signification statistique et les valeurs p est également valable pour les approches qui s’appuient sur le principe de l’incertitude. intervalles de confiance. Les intervalles de confiance sont basés sur exactement la même logique, sauf que c’est l’inverse. Ce qui est vrai pour l’un, est vrai pour l’autre. Il est généralement recommandé d’examiner à la fois la valeur p et un intervalle de confiance pour mieux comprendre l’incertitude entourant les résultats d’un test A/B.
Significativité dans les tests A/B de non-infériorité
Bien que de nombreuses expériences contrôlées en ligne soient conçues comme des tests de supériorité, c’est-à-dire que l’erreur la plus préoccupante est de mettre en œuvre une conception, un processus, etc. qui n’est pas supérieur à celui existant, il existe une bonne proportion de cas où ce n’est pas l’erreur la plus préoccupante. Au lieu de cela, l’erreur que l’on essaie d’éviter le plus est celle qui consiste à ne pas mettre en œuvre une conception ou un processus qui n’est pas supérieur à celui qui existe déjà. non-inférieure solution.
Par exemple, lorsqu’on teste un simple changement de couleur ou de texte sur un Call-to-Action (CTA), l’entreprise ne souffrira d’aucun point négatif si une couleur ou un texte est remplacé par un autre, tant qu’il n’est pas pire que l’actuel, car dans la plupart des cas, cela ne nous coûte rien d’avoir l’un ou l’autre. Dans d’autres cas, la variante testée a des coûts de maintenance/opérationnels inférieurs, on sera donc heureux de l’adopter, tant qu’elle n’est pas plus performante… de manière significative moins bien que la solution actuelle. On pourrait même être prêt à accepter la possibilité qu’elle soit légèrement moins performante, en raison des économies qui seraient réalisées à l’avenir. Dans des cas comme ceux qui précèdent, une solution sera acceptée tant que l’on peut prouver qu’elle n’est pas inférieure à la solution existante de plus d’une marge acceptable.
Dans ces cas, l’hypothèse nulle est définie comme notre intervention ayant un effet positif, ou ayant un effet négatif non supérieur à une marge donnée M : µ ≤ -M. L’hypothèse alternative est que les changements proposés pour la mise en œuvre auront un effet positif ou un effet négatif plus petit que M : µ > ; -M. M peut être nul ou positif. Naturellement, dans ce cas l’interprétation d’un résultat statistiquement significatif changera: si un résultat statistiquement significatif est observé, la conclusion ne sera pas qu’il y a une véritable amélioration d’une magnitude donnée, mais que la variante testée est aussi bonne que notre solution actuelle, ou meilleure, et pas pire que notre marge M choisie.
Pour en savoir plus sur la manière d’utiliser ces tests pour mieux aligner les questions et les statistiques dans les tests A/B, et pour accélérer vos expériences, consultez mon guide complet sur les tests AB de non-infériorité.
Mauvaises interprétations courantes de la signification statistique
Si vous êtes la proie de l’une des erreurs d’interprétation ci-dessous, vous risquez de prendre de très mauvaises décisions. Faites donc de votre mieux pour les éviter.
1. Traiter une faible signification statistique comme une preuve (en soi) qu’il n’y a pas d’amélioration.
Il est facile d’illustrer pourquoi il s’agit d’une grave erreur. Disons que seuls 2 (deux) utilisateurs de chaque groupe sont mesurés dans un test donné. Après avoir fait les calculs, le résultat n’est pas statistiquement significatif car il a une valeur p très élevée, disons 0,6, alors qu’un seuil de signification de 0,01 a été choisi.
Cela signifie-t-il que les données justifient l’acceptation de l’absence d’amélioration ? Bien sûr que non. Une telle expérience ne soumet pas cette hypothèse à un test sévère. Le test n’a littéralement aucune chance d’aboutir à un résultat statistiquement significatif, même s’il existe une vraie différence de grande ampleur. La même chose pourrait être vraie avec 200, 2 000 ou même 200 000 utilisateurs par bras, selon les paramètres du test.[3:2.5].
Afin de mesurer de manière fiable l’incertitude liée à une affirmation d’absence d’amélioration, il convient d’examiner la puissance statistique du test. La puissance statistique mesure la sensibilité du test à un certain effet réel, c’est-à-dire : la probabilité que le test détecte un écart réel d’une certaine ampleur à un niveau de signification statistique souhaité. (« L’analyse de puissance porte sur la capacité à rejeter l’hypothèse nulle lorsqu’elle est fausse » (sic) [2])
Si la puissance est suffisamment élevée, et que le résultat n’est pas statistiquement significatif, un raisonnement similaire à celui d’un résultat statistiquement significatif peut être utilisé pour dire : « Ce test avait une puissance de 95% pour détecter une amélioration de 5% à un seuil de signification statistique de 99%, si elle existait vraiment, mais ce n’est pas le cas. Cela signifie qu’il y a de bonnes raisons de déduire que l’amélioration, si elle existe, est inférieure à 5 %. »
2. Confondre une signification statistique élevée avec une amélioration substantielle ou pertinente sur le plan pratique.
C’est une erreur, car un résultat statistiquement significatif peut concerner un résultat d’une ampleur si faible qu’il n’a aucune valeur pratique. Par exemple, une amélioration statistiquement significative de 2% pourrait ne pas valoir la peine d’être mise en œuvre si le gagnant du test coûte plus cher à mettre en œuvre et à maintenir que ce que ces 2% produiraient en termes de revenus au cours des prochaines années. Cela peut facilement être le cas pour une petite entreprise de commerce électronique.
Ce qui précède n’est qu’un exemple, car la magnitude qui est pratiquement pertinente est subjective et la décision doit être prise au cas par cas. Voici à quoi cela ressemblerait, avec un intervalle de confiance correspondant (lisez « Significativité » comme « Confiance », l’intervalle est de 0,4% à 3,6% d’élévation) :
Cet exemple est tiré de notre calculateur de signification statistique
Certains considèrent qu’il s’agit d’une « défaillance » de la signification statistique (ce n’est pas un bogue, c’est une véritable fonctionnalité !) L’argument est que la signification est une mesure directionnelle seulement, mais c’est faux.[3:2.3]. Une signification statistique observée plus faible (valeur p plus faible, et donc confiance plus élevée) dans un test A/B est la preuve d’une plus grande ampleur de l’effet, toutes choses étant égales par ailleurs. Cela démontre qu’une valeur p n’est pas seulement une mesure directionnelle, mais qu’elle indique également l’ampleur de l’effet réel.
Cela dit, il peut être difficile d’évaluer l’ampleur d’un effet auquel on peut raisonnablement s’attendre par la seule signification statistique. La meilleure pratique consiste à construire des intervalles de confiance à un ou plusieurs niveaux de confiance pour avoir une idée de l’ampleur de l’effet.
3. Traiter la signification statistique comme la probabilité que l’amélioration observée soit l’amélioration réelle.
Toutes choses étant égales par ailleurs, l’observation d’une signification statistique plus faible (confiance plus élevée) est une meilleure preuve d’une amélioration réelle plus importante que l’observation d’une signification plus faible, cependant, ce serait une erreur importante d’attacher directement la mesure de signification statistique au résultat observé. Pour obtenir une telle certitude, il faudrait généralement beaucoup, beaucoup plus d’utilisateurs ou de sessions. Voici une illustration rapide (lisez « Significativité » comme « Confiance ») :

Cet exemple est tiré de notre calculateur de signification statistique.
Bien que l’augmentation observée soit de 20 % et qu’elle ait une signification statistique élevée, l’intervalle de confiance de 95 % montre que la valeur réelle de l’augmentation est susceptible d’être aussi faible que 2,9 % – les chiffres bleus sous le % de changement sont les limites de l’intervalle de confiance.
Pour avoir une idée de l’ampleur de la différence à laquelle on peut s’attendre, il est préférable d’examiner les intervalles de confiance autour de la valeur observée.
4. Traiter la signification statistique comme la probabilité que l’hypothèse alternative soit vraie ou fausse.
Il s’agit d’une idée fausse courante, qui devient particulièrement mauvaise si elle est associée à l’erreur d’interprétation n°3. Oublier que l’hypothèse alternative est « A est meilleur que le contrôle » et la remplacer par « A est 20% meilleur que le contrôle » (dans l’exemple ci-dessus) à la volée constitue une interprétation parfaitement mauvaise.
Attacher des probabilités à toute hypothèse qui tente d’expliquer les chiffres n’est pas quelque chose qui peut être fait en utilisant la signification statistique ou les méthodes fréquentistes. Pour ce faire, il faudrait une liste exhaustive d’hypothèses et de probabilités préalables qui leur seraient attachées. C’est le territoire de l’inférence bayésienne (inférence inverse) et il est truffé de pièges, alors faites attention si vous choisissez de l’explorer. Mes réflexions sur la tentation de la « simplicité » bayésienne et sur les autres avantages supposés de ces approches se trouvent aux points 1 et 2 de « 5 Reasons to go Bayesian in AB Testing : Debunked », ainsi que dans « Bayesian Probability and Nonsensical Bayesian Statistics in A/B Testing ».
Erreurs courantes dans l’utilisation de la signification statistique en test A/B
Chacune de ces erreurs peut invalider un test de signification statistique et les taux d’erreur résultants peuvent facilement être des multiples, et non des pourcentages, de ceux attendus. Il faut donc redoubler de prudence pour les éviter. L’utilisation d’outils et de procédures appropriés est un moyen d’y parvenir. Par exemple, le flux d’utilisateurs du hub de tests A/B a été conçu pour éviter la plupart de ces erreurs.
Le point commun de ces erreurs est le suivant la statistique nominale (rapportée)quel que soit le type et l’étiquette : signification, confiance, valeur p, valeur z, valeur t ou intervalle de confiance, ne reflète pas la véritable incertitude associée au résultat observé.. La mesure de l’incertitude devient inutile ou introduit un biais important et difficile à mesurer. Comme le dit le dicton : Garbage In, Garbage Out.
1. Absence d’une taille d’échantillon fixe ou observation non comptabilisée.
Cette erreur se produit lorsque :
- en utilisant un simple test de signification pour évaluer des données sur une base quotidienne/hebdomadaire/etc., en s’arrêtant dès qu’un résultat nominalement significatif sur le plan statistique est observé. Bien que cela semble correct à première vue, il s’agit d’une erreur grave. Les calculs simples de signification statistique nécessitent de fixer à l’avance la taille de l’échantillon et de n’observer les données qu’une seule fois au moment ou au nombre d’utilisateurs prédéterminés. Faites autrement, et la mesure de l’incertitude peut être faussée par les multiples. Comme ce problème n’est pas forcément évident au premier abord, nous vous proposons une discussion détaillée à la rubrique « The bane of A/B testing : Atteindre la signification statistique ».
- la taille de l’échantillon a été décidée à l’avance, mais le fait de jeter un coup d’œil avec l’intention d’arrêter se produit malgré tout.
- utiliser une méthode de test séquentielle appropriée, mais ne pas enregistrer fidèlement ses observations, afin que les statistiques puissent être ajustées en conséquence.
- l’utilisation d’une méthode de test séquentiel bayésienne qui prétend être immunisée contre l’arrêt facultatif (pourquoi les approches bayésiennes ne sont pas immunisées contre l’arrêt facultatif).
Comment éviter les problèmes de peeking / arrêt optionnel ?
Une façon est de fixer la taille de l’échantillon à l’avance et de s’en tenir à une seule observation à la fin d’un test. Cela peut être inflexible et inefficace, mais le résultat sera fiable dans la mesure où il montrera ce qui est justifié par les données disponibles. On peut aussi utiliser une méthodologie de test séquentielle, comme l’approche AGILE de test A/B. Notre calculateur de tests A/B est disponible pour faciliter son application dans le travail quotidien de CRO. Avec l’évaluation séquentielle, on gagne en flexibilité quant au moment d’agir sur les données, ce qui s’accompagne d’une efficacité accrue grâce à des tests 20 à 80 % plus rapides.
2. Manque d’ajustements pour les tests multiples
Le test multiple, également appelé test multivarié ou test A/B/n, consiste à tester plus d’une variante par rapport à un contrôle dans un test donné. Cela peut conduire à une efficacité accrue dans certaines situations et est une pratique assez courante, malgré l’inconvénient qu’elle nécessite plus de temps/utilisateurs pour exécuter un test. L’analyse d’un tel test, soit en choisissant la meilleure variante et en effectuant un test t / z / chi carré, etc. sur le contrôle et cette variante, soit en effectuant un tel test pour chaque variante par rapport au contrôle, augmente considérablement le taux d’erreur par famille (FWER). Plus le nombre d’hypothèses testées est élevé, plus le risque d’obtenir un faux positif est important.
Il existe des procédures spéciales permettant de tenir compte de cette augmentation et de présenter des valeurs p et des niveaux de confiance qui reflètent la véritable incertitude associée à une décision. L’ajustement post-hoc de Dunnett est la méthode préférée. C’est également celle utilisée dans les tests A/B AGILE. Pour en savoir plus, lisez notre guide détaillé sur les tests multivariés, qui explique notamment quand un tel test est plus efficace.
3. Absence d’ajustements pour les comparaisons multiples
Les comparaisons multiples se produisent lorsqu’il y a plus d’un point d’arrivée pour un test. Il s’agit d’un autre exemple d’augmentation du taux d’erreur de la famille. Par exemple, dans un seul test, la signification statistique de toutes les mesures suivantes est calculée : différences de taux de rebond, différences de taux de conversion d’ajout au panier, différences de taux de conversion d’achèvement de l’achat. Si l’une d’entre elles est statistiquement significative, la variante est mise en œuvre.
Il s’agit d’un problème car en effectuant plus d’une comparaison entre les groupes, il est plus probable que l’une d’entre elles s’avère statistiquement significative que la valeur p et le niveau de confiance ou de signification indiqués. Il existe différentes procédures pour gérer un tel scénario. La correction classique de Bonferroni doit être privilégiée. Les procédures du taux de fausse découverte de Benjamini-Hofberg-Yekutieli peuvent également être envisagées, mais je pense qu’elles sont généralement inappropriées pour le scénario typique des tests A/B.
Erreur bonus : utiliser des tests bilatéraux et les interpréter comme des tests unilatéraux. Cette erreur est très fréquente, d’autant plus que de nombreux fournisseurs semblent utiliser et communiquer des tests de signification bilatéraux. J’ai écrit un article entier sur ce sujet ici : one-tailed vs. two-tailed significance tests in A/B testing.
Comment choisir un niveau de signification statistique approprié ?
De nombreuses personnes ont des difficultés lorsqu’il s’agit de choisir le niveau de signification statistique pour un test donné. Cela s’explique par les compromis à faire. Le principal compromis se situe entre, d’une part, la vitesse, la flexibilité et l’efficacité et, d’autre part, la précision, la certitude, la sensibilité et la prévisibilité.
Le principal compromis dans le test A/B est entre la vitesse, la flexibilité et l’efficacité d’une part, et la précision, la certitude, la sensibilité et la prévisibilité d’autre part.
Quel que soit le type de méthode statistique utilisé, les points suivants doivent être pris en compte. compromis sont inévitables :
- l’augmentation de l’exigence seuil de signification statistique signifie une augmentation de la taille de l’échantillon nécessaire, ce qui ralentit les tests ;
- augmenter la certitude de la vraie différence, ce qui équivaut à diminuer la largeur de l’intervalle de confiancesignifie une augmentation de la taille de l’échantillon nécessaire, donc un test plus lent ;
- l’augmentation de la la puissance statistique (sensibilité du test aux effets réels) signifie que l’on augmente la taille de l’échantillon nécessaire, ce qui ralentit le test ;
- diminuer la taille minimale de l’effet détectable (avec une puissance et une signification données) signifie augmenter la taille de l’échantillon nécessaire, ce qui ralentit les tests ;
- augmenter la la taille de l’échantillon (temps pour effectuer un test) signifie une meilleure certitude et/ou une plus grande sensibilité du test et/ou la même sensibilité pour une taille d’effet plus petite.
Des détails importants sur les différents compromis dans le test A/B AGILE, dont beaucoup s’appliquent à tout type de test A/B, sont disponibles dans « Efficient AB Testing with the AGILE statistical method » (allez directement à la partie « Guide pratique », si vous préférez).
Voir cela en action
Essayez-leCalculatrice de tests A/B
Calculateur avancé de signification et d’intervalle de confiance.
Plusieurs questions émergent rapidement, même à partir du bref résumé ci-dessus. Des questions comme : Dois-je tester plus longtemps, pour une meilleure certitude, ou dois-je tester plus rapidement, en acceptant des échecs plus fréquents ? Dois-je effectuer des tests rapides et peu puissants, en recherchant des améliorations d’une grande ampleur tout en passant à côté d’opportunités plus modestes ? Malheureusement, il n’y a pas de réponse facile dans la méthodologie des tests A/B quant aux valeurs à choisir pour les principaux paramètres d’un test statistique.
Contrairement à la croyance populaireles réponses ne sont pas plus faciles si l’on dispose d’un plus grand nombre d’utilisateurs et de sessions (site énorme et très fréquenté), et elles ne deviennent pas non plus particulièrement difficiles pour les petits sites qui n’obtiennent pratiquement aucun trafic ni aucune conversion.
En effet, si les sites à fort trafic et à taux de conversion élevé ont plus d’utilisateurs sur lesquels effectuer des tests, cela signifie généralement que la moindre amélioration peut se traduire par des milliers, voire des millions de dollars de revenus ou de bénéfices. Cela justifie l’exécution de tests très sensibles, et la puissance élevée augmente rapidement les exigences des utilisateurs à des niveaux tels que même les sites les plus visités au monde ont besoin de semaines ou de mois pour effectuer un test correct. Les erreurs, même minimes, sont tout aussi coûteuses, car elles augmentent les exigences en matière de signification statistique, ce qui ralentit encore plus les tests.
Inversement, le fait d’avoir peu de visites et de conversions signifie que l’on doit viser de grandes améliorations dans ce que l’on tente de faire, si le test A/B en vaut la peine. D’un autre côté, si une entreprise est petite ET agile, elle peut accepter une plus grande incertitude dans toute action, ou être capable de tester si rapidement, que la sensibilité inférieure n’est pas un si grand problème.
Mon conseil est le suivant peser les coûts pour la conception, la préparation et l’exécution du test A/B par rapport aux avantages potentiels (avec une extrapolation future raisonnable, par exemple plusieurs années) et voyez la taille des échantillons (et donc le temps) requis par plusieurs combinaisons différentes de valeurs pour les trois principaux paramètres (signification, puissance, taille minimale de l’effet). Ensuite, choisissez un plan statistique qui se rapproche le plus de l’équilibre parfait. L’utilisation d’un cadre de test séquentiel flexible tel que AGILE peut faciliter la décision sur la taille minimale de l’effet, puisque dans le cas où la vraie différence est beaucoup plus grande ou beaucoup plus petite, le test s’arrêtera simplement plus tôt, de sorte que l’efficacité sacrifiée sera minimale.
Certaines bonnes pratiques doivent être suivies indépendamment de la taille des échantillons. Par exemple, analyser les tests (séquentiels) sur une base hebdomadaire et ne pas exécuter de tests pendant moins d’une semaine. Pour de nombreuses entreprises, les mardis ne sont pas les mêmes que les dimanches, et même si un test satisfaisant peut être exécuté en trois jours, mieux vaut le planifier sur sept jours complets. D’autres conseils sur les meilleures pratiques peuvent être trouvés dans des livres blancs et des livres écrits par des experts dans ce domaine.
Bien qu’il n’y ait pas de recette pour un test A/B parfait, les conseils ci-dessus pour faire un choix tout en faisant face à plusieurs compromis devraient être un point de départ utile pour les praticiens du CRO et de l’UX.
Voir cette vidéo en action
Essayez-leHub de test A/B
La solution tout-en-un de statistiques de tests A/B
(Ajouté le 27 avril 2018): J’ai par la suite développé un aperçu complet des coûts & ; bénéfices et risques & ; récompenses dans les tests A/B et j’ai construit un outil qui fera l’acte d’équilibrage pour vous, vous permettant d’utiliser les tests A/B pour gérer les risques commerciaux tout en maximisant les gains et les récompenses : le calculateur de ROI des tests A/B.
(Mise à jour février 2022) : Depuis décembre de l’année dernière, cet outil fait partie intégrante de la planification de tests optimaux en termes de retour sur investissement à l’aide du hub de tests A/B.
Dernières réflexions
Si le test de signification statistique est un outil puissant dans les bras d’un bon CRO ou d’un expert UX, il n’est pas une panacée ou un substitut à l’expertise, à des tests bien étudiés et bien conçus. Il s’agit d’un concept assez complexe à appréhender, à appliquer de manière appropriée et à communiquer à des clients non informés. J’espère que ce billet, qui est la suite logique d’années de travail sur la théorie et la méthodologie statistiques des tests A/B, a permis d’y voir plus clair et peut servir d’introduction pratique à la question.
Références
1 Aberson, C. L. (2010) – « Applied Power Analysis for the Behavioral Sciences », New York, NY, Routledge Taylor & ; Francis Group.
2 Fisher, R.A. (1935) – « The Design of Experiments », Edinburgh : Oliver & ; Boyd
3 Mayo, D.G., Spanos, A. (2010) – « Error Statistics », in P. S. Bandyopadhyay & ; M. R. Forster (Eds.), Philosophy of Statistics, (7, 152-198). Handbook of the Philosophy of Science. Pays-Bas : Elsevier.