2025-12-15

Déterminer le succès d'un AB Test grâce à la confiance statistique

Pierre-Alexandre Yacoub

Senior Experience Optimization Manager

Pierre-Alexandre vous aide à tout comprendre de la Confiance Statistique pour ainsi prendre les bonnes décisions quant aux résultats de vos A/B Tests.

Pourquoi calculer la confiance statistique?

Avant que nous rentrions dans le vif du sujet et sa définition, commençons par nous demander pourquoi nous sommes ici!

La mise en place d’une stratégie d’expérimentation et d’optimisation de l’expérience internaute passe souvent par l’activation d’AB Tests.

Lorsque nous faisons des AB Tests, nous partons d’une hypothèse visant à améliorer l’expérience  et basée sur divers enseignements (études UX, analyse de données…). Cette hypothèse, ce changement, nous l’appliquons en temps réel sur une fraction des internautes d’un site tandis que les internautes restants naviguent quant à eux sur un site sans ce changement (c’est la variation de contrôle, aussi appelée variation 0, ou variation A).

Nous nous retrouvons donc avec deux types d’internautes, deux groupes: ceux naviguant sur la variation originale et ceux exposés à notre changement.

Ces deux groupes d’internautes vont, idéalement, avoir des comportements différents et nous pouvons analyser ces parcours.

Parmi toutes les questions que nous nous posons, une première est essentielle: puis-je me fier aux données que j’observe?

C’est la confiance statistique qui nous donne un début de réponse. Elle nous aidera par exemple à comprendre si:

  • Nous avons assez de données,
  • Les données que nous observons sont un comportement aléatoire,
  • Notre changement est suffisamment impactant pour modifier le comportement des internautes

Attention, cet indicateur ne suffit pas à lui seul pour conclure sur les performances d’une expérimentation. Nous y reviendrons!

Une dernière chose, avant de plonger dans le sujet: nous allons naturellement beaucoup parler de conversions mais… c’est quoi? Un achat? Une page vue?

Une conversion représente toute action ayant une importance pour l’entreprise (achat, ajout au panier, inscription à la newsletter, navigation vers une page produit, consultation d’un article…)

De fait, notre confiance statistique ici est pertinente pour une large variété d’expérimentations.

Il y a deux grands types de confiances statistiques

Débutons par une réponse: non, l’une ou l’autre des méthodes n’est pas la meilleure par défaut.

Voyons néanmoins comment les deux se comparent:

Méthodologie bayésienne

Le modèle bayésien est un modèle algorithmique se basant sur 3 piliers:

  1. La probabilité a priori (dite Prior): ce sont nos connaissances ou croyances en amont de l’observation des données.
  2. La vraisemblance (ou Likelihood): c’est la probabilité d’obtenir les résultats observés selon différents scénarios possibles.
  3. La probabilité a posteriori (Posterior): ce sont nos nouvelles croyances après observation des résultats.

Ce théorème permet donc de mettre à jour des probabilités grâce à l’intégration de nouvelles données et fait donc le lien entre les croyances initiales (prior) et les nouvelles données (likelihood) pour arriver à de nouvelles croyances (posterior)

Dans un AB Test, nous analysons par exemple la part d’internautes ayant effectué un achat (encore une fois, d’autres conversions existent), que nous appellerons ici taux de conversion.

  1. Prior: nos croyances quant au taux de conversion, typiquement observé avant le début de notre test.
  2. Likelihood: sur base des achats observés durant la période du test, c'est la probabilité d'obtenir ces résultats d'achat selon différents taux de conversion possibles.
  3. Posteriori: c’est l’ajustement de nos croyances initiales (prior) grâce aux observations du test (likelihood)

Ce modèle algorithmique nous donnera notamment la probabilité d’une variation d’être la meilleure comparativement à l’autre.

Méthodologie fréquentiste

Le modèle fréquentiste repose sur des méthodes d'inférence statistique basées sur la théorie des probabilités. Ces méthodes sont utilisées pour analyser des échantillons réduits d’une population et extrapoler des résultats depuis cet échantillon vers la population globale.

Voici plusieurs lois utilisées dans cette méthodologie:

  1. Loi des Grands Nombres: plus l’échantillon est grand, plus haute est la probabilité que la moyenne observée pour l’échantillon soit proche de la moyenne pour la population globale.
  2. Distribution Normale (aussi appelée Distribution Gaussienne ou Loi Normale): cette loi visible dans la nature met en lumière la répartition des données pour une population (ex.: la taille de l’être-humain); la plus haute proportion se trouve au milieu et l’ensemble forme un graphique en cloche.
  3. Distribution Normale Standard (souvent utilisée en AB Testing): c’est une distribution normale avec une moyenne de 0 et un écart-type de 1 qui sert de référence universelle en lien avec le Théorème Central Limite.

En lien avec ces lois, de multiples valeurs sont également calculées dans le but d’arriver à la p-value:

Important: l’hypothèse nulle, dans le cas d’un AB Testing, c’est partir du principe qu’il n’y a aucune différence entre nos variations; nos calculs visent à tenter de la rejeter.

  • Variance (σ²): mesure la dispersion des données autour de la moyenne
  • Écart-type (ou Standard Deviation) (σ: √Variance): racine carrée de la variance ().
  • Erreur Standard (ou Standard Error) (SE: σ/√n): mesure la variabilité de la moyenne d'échantillon par rapport à la vraie moyenne de la population. Elle diminue quand la taille de l'échantillon augmente.
  • Z-Test: test statistique qui compare une statistique d’échantillon avec la distribution normale standard.
  • Z-Score: dans le contexte du Z-Test, mesure le nombre d'écarts-types standard entre la valeur observée et la valeur attendue sous l'hypothèse nulle.
  • P-Value: grâce au z-test, probabilité d'observer des résultats au moins aussi extrêmes que ceux obtenus, en supposant que l'hypothèse nulle soit vraie. Plus la p-value est petite (plus petite que 0.05 par exemple), plus les résultats sont susceptibles de ne pas être dues à des phénomènes aléatoires.
  • Significativité statistique: lorsque la p-value est inférieure au seuil choisi (ex.: 0.05), on considère le résultat comme statistiquement significatif. Le seuil de 0.05 correspond à un niveau de confiance de 95% ((1 - p-value) * 100)), généralement plus lisible.

Grâce à cette suite de calculs, nous parvenons à évaluer si nos résultats sont statistiquement significatifs.

Reprenons l’hypothèse nulle: nos variations sont identiques.

Avec une p-value de 0.05, si nos deux variations étaient réellement identiques, il n’y aurait que 5% de chance d’observer des différences aussi importantes que les résultats observés durant notre test; le changement est donc significatif statistiquement.

En pratique, nous exprimons souvent ce résultat en termes de niveau de confiance: avec une p-value de 0.05, nous avons un niveau de confiance de 95% (1 - 0.05), permettant de rejeter l'hypothèse nulle.

Choisir la bonne méthode

Le choix de la méthode est circonstanciel.

L’avantage notable de la méthode bayésienne par rapport à la méthode fréquentiste se situe dans le paramètre Prior.

En effet, la méthode fréquentiste vient analyser un ensemble de données à un instant donné (celui de l’observation) et compare lesdites données à des règles statistiques.

La méthode bayésienne quant à elle va considérer d’autres paramètres, comme les tendances passées, des facteurs métier décidés par l’analyste ou encore des choix d'algorithmes intégrés à l’outil utilisé, ce qui compose ledit paramètre Prior.

Dans les faits, cependant, peu d’outils utilisent pleinement le potentiel de la méthodologie bayésienne, faute de pouvoir enrichir ce Prior.

Ainsi, comment choisir?

  • Bayésien: idéal lorsque nous pouvons intégrer des paramètres additionnels à un jeu de données (ex.: tendances, pondérations grâce à des critères métier…)
  • Fréquentiste: idéal lorsque nous avons un nombre restreint de paramètres connus (ex.: trafic, conversions)

Chaque méthode a, naturellement, ses contraintes:

  • Bayésien: rares sont les outils permettant d’enrichir les résultats avec des paramètres externes, réduisant drastiquement l’intérêt de cette méthode; la méthode brillera donc plus largement grâce à l’élaboration d'algorithmes in-house.
  • Fréquentiste: les fluctuations sur la période ne sont pas considérées, seulement les données au moment de l’observation, ce qui est pourtant suffisamment dans la majorité des cas.

Les deux méthodes ont cependant un point commun majeur: leurs résultats, seuls, ne permettent pas de valider les performances d’une expérimentation.

Exemple concret

Pour mieux comprendre à quoi ressemblent ces deux méthodes, il est à présent temps de les utiliser. 

Voici les données d’un test effectué sur une page produit visant à améliorer le taux d’ajout au panier:

Dans cet exemple, voici ce que disent les deux méthodes:

  • Probabilité que V1 soit meilleure (bayésien, sans Prior): 84%
  • P-Value (fréquentiste, two-sided): 0.33 (1-pvalue = 67%)

Comment lire ces résultats?

  • Bayésien: la V1 a ~8 chances sur 10 d’être meilleure que la V0
  • Fréquentiste: le niveau de confiance contre le hasard est de 67%

Pour rappel, le "67%" est une simplification pédagogique de la p-value pour rendre l'analyse plus intuitive. Il ne mesure pas la même chose que le 84% bayésien, mais permet d'appliquer la même règle simple: "plus c'est proche de 99%, mieux c'est"!

Cela étant, que ce soit l’une ou l’autre des deux méthodes, la conclusion est similaire: l’hypothèse du test n’est pas suffisamment forte pour que l’on puisse définir le test comme gagnant, alors même que la différence est positive.

En effet, nous visons au moins 90% dans les deux cas, idéalement 95%, ce qui n’est pas le cas ici.

Un indicateur complémentaire pour mesurer ce test est d’utiliser les intervalles de confiance (fréquentiste).

Ces intervalles permettent d’identifier le spectre du taux d’ajout au panier selon différents paramètres à un niveau de confiance spécifique (en l’occurence, 95%) et nous répondons alors à la question: “si nous répétions l'expérience 100 fois dans les mêmes conditions, quel serait l'intervalle contenant la vraie différence dans 95% des cas?”

Nous pouvons alors connaître les pires et les meilleurs taux possibles, pour chaque variation individuellement. In fine, nous avons de quoi comparer le meilleur et le pire des scénarios en prenant les extrêmes de chaque variation:

  • Différence identifiée: + 1.64%
  • Pire scénario (meilleur taux V0, pire taux V1): - 2.92%
  • Meilleur scénario (pire taux V0, meilleur taux V1): + 6.43%

Avec un niveau de confiance faible (67%) et bien que notre différence observée soit positive (+1.64%), les intervalles de confiance montrent qu'il existe une probabilité significative que la vraie différence soit, en réalité, négative (jusqu'à -2.92%).

Ces résultats nous indiquent que notre changement n’est pas assez fort 

Maintenant, admettons que notre V1 ait un impact plus élevé, passant de 4.56% à 4.75% (99% de confiance), les données seraient alors:

*Pour simplifier la comparaison, nous utilisons ici l’outil Speero qui propose les deux méthodes.

  • Probabilité que V1 soit meilleure (bayésien, sans Prior): 99%
  • P-Value (fréquentiste, two-sided): 0.001 (1-pvalue = 99%)
  • Différence identifiée: + 5.89%
  • Pire scénario: + 1.56%
  • Meilleur scénario: + 10.82%

Ainsi, avec une meilleure confiance, la valeur réelle a plus de chance de suivre la tendance observée (et ce dans un spectre de possibles plus large également), renforçant ainsi la force de nos résultats!

Ici se trouve l’enjeu de l’analyse statistique de nos expérimentations: la réponse est rarement binaire et nécessite le plus souvent des analyses complémentaires.

Correctement exploiter la confiance statistique

Que ce soit “95% de confiance statistique” ou “95% de probabilité de gagner”, il ne s’agit là que de valeurs à contextualiser dans un ensemble d’informations.

  • Mon changement est-il suffisant pour modifier le comportement de mon internaute à une étape donnée? Ce changement génère-t-il d’autres comportements?
  • Mon test a-t-il tourné suffisamment longtemps pour prendre en compte les fluctuations journalières et hebdomadaires? Les volumes observés sont-ils suffisants pour valider mon analyse?
  • Les tendances sont-elles stables dans le temps?

Considérer l’ensemble du contexte d’une expérimentation permet alors:

  • d’éviter le peeking problem, c’est-à-dire conclure à partir de données limitées,
  • de limiter les faux-positifs ou faux-négatifs, c’est-à-dire des résultats statistiquement valides mais contraires à la réalité par manque de volumes ou de pertinence,
  • de justifier des dépenses en développement grâce à des résultats plus robustes.

C’est donc là le travail de l’analyste: observer des chiffres avec des paramètres objectifs comme subjectifs et tirer des conclusions en mélangeant plusieurs expertises.

Une grande partie du travail se fait en amont du test: il est donc impératif de rationaliser chaque test à travers son impact possible, sa complexité ou encore sa pertinence pour la marque.

Et pour cela, Jellyfish vous accompagne!

Propulsons votre programme d’optimisation

En collaboration avec nos experts·es en Data Science et Experience Optimization, Jellyfish vous propose ses outils statistiques:

  • Calculateur de Confiance Statistique (fréquentiste), idéal pour suivre et analyser vos tests.
  • Calculateur de Minimum Detectable Effect (MDE), parfait pour estimer l’impact nécessaire pour avoir un test concluant.

Et pour aller plus loin:

  1. Retrouvez notre guide pratique pour débuter votre programme d’amélioration continue.
  2. Support In-House: Nous vous aidons à délivrer votre programme d’optimisation et travaillons avec vos équipes jusqu'à leur autonomie avec du support sur 6 ou 12 mois. Contactez-nous pour en savoir plus.
  3. Support Consultant·e ou tout-inclus: Jellyfish travaille avec vous pour maximiser l'impact de votre programme et vous aider à atteindre vos objectifs.

Travaillons ensemble!

Contactez-nous