Traduction de l'article: RÚgles empiriques pour les expérimentateursLes propriétaires de portails Web, du plus petit au plus grand, comme Amazon, Facebook, Google, LinkedIn, Microsoft et Yahoo, tentent d'améliorer leurs sites en optimisant diverses mesures, du nombre de réutilisation à leur temps et à leurs revenus. Nous avons été attirés par des milliers d'expériences sur Amazon, Booking.com, LinkedIn et Microsoft, et nous voulons partager les sept rÚgles empiriques que nous avons déduites de ces expériences et de leurs résultats. Nous pensons que ces rÚgles sont largement applicables à la fois lors de l'optimisation du Web et lors de l'analyse en dehors des expériences de contrÎle. Bien qu'il y ait des exceptions.
Pour rendre ces rĂšgles plus significatives, nous donnerons de vrais exemples de nos travaux, dont la plupart seront publiĂ©s pour la premiĂšre fois. Certaines rĂšgles ont Ă©tĂ© exprimĂ©es plus tĂŽt (par exemple, «La vitesse est importante»), mais nous les avons complĂ©tĂ©es avec des hypothĂšses qui peuvent ĂȘtre utilisĂ©es dans la conception d'expĂ©riences, et partageons des exemples supplĂ©mentaires qui ont permis de mieux comprendre oĂč la vitesse est particuliĂšrement importante et dans quels domaines du Web. pages, il n'est pas critique.
Cet article a deux objectifs.
PremiÚrement : enseigner aux expérimentateurs les rÚgles du bon goût, qui permettront d'optimiser les sites.
DeuxiÚmement : fournir à la communauté KDD de nouveaux sujets pour explorer l'applicabilité de ces rÚgles, leur amélioration et l'existence d'exceptions.
Présentation
Les propriétaires de portails Web des plus petits aux plus grands géants tentent d'améliorer leurs sites. Les entreprises leaders utilisent des tests de benchmarking (tels que les tests A / B) pour évaluer les changements. Cela se fait par Amazon [1], Ebay, Etsy [2], Facebook [3], Google [4], Groupon, Intuit [5], LinkedIn [6], Microsoft [7], Netflix [8], ShopDirect [9] , Yahoo et Zynga [10].
Nous avons acquis une expĂ©rience dans l'optimisation de sites Web, en travaillant avec de nombreuses entreprises, notamment Amazon, Booking.com, LinkedIn et Microsoft. Par exemple, Bing et LinkedIn mĂšnent Ă tout moment des centaines d'expĂ©riences parallĂšles [6; 11]. En raison de la variĂ©tĂ© et de la multiplicitĂ© des expĂ©riences auxquelles nous avons participĂ©, des rĂšgles empiriques ont Ă©tĂ© dĂ©veloppĂ©es, dont nous discuterons ici. Ils sont confirmĂ©s par de vrais projets, mais il y a des exceptions Ă toute rĂšgle (nous en parlerons Ă©galement). Par exemple, la rĂšgle des 72 est un bon exemple d'une rĂšgle d'or utile dans le domaine financier. Il prĂ©tend que vous devez multiplier le pourcentage de croissance annuel par 72 pour dĂ©terminer approximativement combien d'annĂ©es vous doublerez votre investissement. Dans des situations normales, la rĂšgle est trĂšs utile (lorsque le taux d'intĂ©rĂȘt oscille entre 4 et 12%), mais dans d'autres domaines, elle ne fonctionne pas.
Ătant donnĂ© que ces rĂšgles ont Ă©tĂ© formulĂ©es en fonction des rĂ©sultats des expĂ©riences de contrĂŽle, elles sont bien applicables pour l'optimisation du site et l'analyse simple, mĂȘme si les expĂ©riences de contrĂŽle ne sont pas effectuĂ©es sur les sites (bien que dans ce cas, il ne sera pas possible d'Ă©valuer avec prĂ©cision l'effet des modifications apportĂ©es).
Ce que vous trouverez dans cet article:
- RÚgles utiles pour expérimenter avec des sites Web. Ils sont encore en développement et nous devons en outre évaluer l'étendue de leur application et savoir s'il existe de nouvelles exceptions à ces rÚgles. L'importance d'utiliser des expériences de contrÎle a été discutée dans l'article «Expériences contrÎlées en ligne à grande échelle» [11]
- Amélioration des rÚgles précédentes. Des observations telles que «les questions de vitesse» ont déjà été exprimées par d'autres auteurs [12; 13] et nous [14]. Mais nous avons fait quelques hypothÚses lors de la conception de l'expérience, et nous parlerons d'études qui démontrent que dans certaines zones de la page, la vitesse est particuliÚrement critique, et dans d'autres non. Nous avons également amélioré l'ancienne rÚgle des «milliers d'utilisateurs», qui répond à la question du nombre de personnes nécessaires pour mener une expérience de contrÎle.
- De vrais exemples d'expériences de contrÎle sont publiés pour la premiÚre fois. Chez Amazon, Bing et LinkedIn, les expériences de contrÎle sont utilisées dans le cadre du processus de développement [7; 11]. De nombreuses entreprises qui n'utilisent toujours pas d'expériences de contrÎle peuvent grandement bénéficier d'exemples supplémentaires de travail avec des changements avec l'introduction de nouveaux paradigmes de développement [7, 15]. Les entreprises qui utilisent déjà des expériences de contrÎle bénéficieront des informations décrites.
ContrÎlez les expériences, les données et le processus d'extraction des connaissances à partir des données
Nous discuterons ici des expĂ©riences de contrĂŽle en ligne dans lesquelles les utilisateurs sont divisĂ©s en groupes de maniĂšre alĂ©atoire (par exemple, pour afficher diverses options de site). De plus, la division est effectuĂ©e sur une base continue, c'est-Ă -dire que chaque utilisateur aura la mĂȘme expĂ©rience tout au long de l'expĂ©rience (il lui sera toujours montrĂ© la mĂȘme version du site). L'interaction de l'utilisateur avec le site (clics, pages vues, etc.) est enregistrĂ©e et les mesures clĂ©s (CTR, nombre de sessions par utilisateur, revenus de l'utilisateur) sont calculĂ©es sur cette base. Des tests statistiques sont effectuĂ©s pour analyser les mesures calculĂ©es. Et si la diffĂ©rence entre les mĂ©triques du groupe tĂ©moin (qui a vu l'ancienne version du site) et l'expĂ©rimental (qui a vu la nouvelle version) du groupe est statistiquement significative, alors nous pouvons Ă©galement dire avec une forte probabilitĂ© que les modifications apportĂ©es affecteront les mĂ©triques observĂ©es dans l'expĂ©rience. Les dĂ©tails sont dĂ©crits dans «ExpĂ©riences contrĂŽlĂ©es sur le Web: enquĂȘte et guide pratique» [16].
Nous avons participé à de nombreuses expériences dont les résultats étaient incorrects et avons consacré beaucoup de temps et d'efforts à comprendre les raisons et à trouver des moyens de les corriger. De nombreux piÚges sont décrits dans les articles [17] and [18]. Nous voulons mettre en évidence certaines questions sur les données utilisées dans la conduite d'expériences de contrÎle en ligne et sur le processus d'obtention de connaissances à partir de ces données:
- La source de données est les vrais sites dont nous avons parlé ci-dessus. Il n'y aura aucune information générée artificiellement. Tous les exemples sont basés sur une interaction réelle de l'utilisateur et les métriques sont calculées aprÚs la suppression des bots [16].
- Les groupes d'utilisateurs dans les exemples sont tirés au hasard de la distribution uniforme du public cible (c'est-à -dire les utilisateurs qui, par exemple, doivent cliquer sur le lien pour voir les changements à l'étude) [16]. La méthode d'identification de l'utilisateur dépend du site: si l'utilisateur n'est pas connecté, des cookies sont utilisés et s'il est connecté, alors son identifiant est utilisé.
- La taille des groupes d'utilisateurs, aprÚs avoir effacé les robots, varie de centaines de milliers à millions (les valeurs exactes sont indiquées dans les exemples). Dans la plupart des expériences, cela est nécessaire pour que les différences mineures de métriques aient une signification statistique élevée.
- Les résultats notés étaient statistiquement significatifs à une valeur de p <0,05, et généralement encore moins. Les résultats étonnants (dans la rÚgle 1) ont été reproduits au moins une fois de plus, de sorte que la valeur p cumulative basée sur le test de probabilité cumulative de Fisher avait une valeur bien inférieure à ce qui était nécessaire.
- Chaque expérience est notre expérience personnelle, vérifiée par au moins un des auteurs pour la présence de piÚges standards. Chaque expérience a été menée pendant au moins une semaine. Les parts d'audience qui ont démontré les options de site étaient stables pendant toute la période de l'expérience (afin d'éviter l'effet du paradoxe Simpson) et les ratios entre l'audience que nous avons observés au cours de l'expérience coïncidaient avec les ratios que nous avions fixés lors du lancement de l'expérience [17].
RÚgles d'or pour l'expérimentation
Les trois premiÚres rÚgles concernent l'impact des modifications sur les mesures clés:
- de petits changements peuvent avoir un impact important;
- le changement a rarement un grand effet positif;
- vos tentatives pour rĂ©pĂ©ter les succĂšs stellaires annoncĂ©s par d'autres sont plus susceptibles d'ĂȘtre moins rĂ©ussies.
Les 4 rÚgles suivantes sont indépendantes les unes des autres, mais chacune d'elles est trÚs utile.
RÚgle n ° 1: de petits changements peuvent avoir un GRAND impact sur les mesures clés
Quiconque a rencontrĂ© la vie de sites sait que tout petit changement peut avoir un impact nĂ©gatif important sur les mesures clĂ©s. Une petite erreur JavaScript peut rendre le paiement impossible, et de petits bugs qui dĂ©truisent la pile peuvent provoquer le crash du serveur. Mais nous nous concentrerons sur les changements positifs dans les mesures clĂ©s. La bonne nouvelle est qu'il existe de nombreux exemples oĂč un petit changement a conduit Ă une amĂ©lioration des paramĂštres clĂ©s. Bryan Eisenberg a Ă©crit que la suppression du champ de saisie du coupon sur le formulaire d'achat augmentait la conversion de 1000% sur le site Web de Doctor Footcare [20]. Jared Spool a Ă©crit que la suppression de l'obligation de s'inscrire au moment de l'achat rapportait 300 millions de dollars par an Ă un grand dĂ©taillant [21].
Néanmoins, nous n'avons pas vu de changements aussi importants dans le processus d'expériences menées personnellement. Mais nous avons vu des améliorations significatives de petits changements avec un retour sur investissement étonnamment élevé (ratio élevé de profit sur le coût de l'effort investi).
Nous voulons Ă©galement noter que nous discutons d'un effet stabilisĂ©, pas d'un «flash sur le soleil» ou d'une fonctionnalitĂ© avec un effet spĂ©cial de nouvelles / viral. Un exemple de quelque chose que nous ne recherchons pas a Ă©tĂ© dĂ©crit dans le livre Yes!: 50 façons scientifiquement prouvĂ©es d'ĂȘtre persuasives [22]. Collen Szot, l'auteur d'une Ă©mission de tĂ©lĂ©vision qui a battu un record de vente de 20 ans sur la chaĂźne de tĂ©lĂ©vision Couch Store, a remplacĂ© trois mots dans une barre d'information standard, entraĂźnant une Ă©norme augmentation du nombre d'achats. Au lieu de la phrase «Les opĂ©rateurs attendent, veuillez appeler maintenant», a dĂ©duit Collen «si les opĂ©rateurs sont occupĂ©s, veuillez rappeler Ă nouveau». Les auteurs expliquent cela par les preuves sociologiques suivantes: les tĂ©lĂ©spectateurs pensent que si la ligne est occupĂ©e, les gens comme eux qui regardent la chaĂźne d'information appellent Ă©galement.
Si des astuces comme celle mentionnée ci-dessus sont utilisées réguliÚrement, leur effet est nivelé, car les utilisateurs s'y habituent. Dans les expériences de contrÎle dans de tels cas, l'effet disparaßt rapidement. Par conséquent, nous vous recommandons de mener une expérience pendant au moins deux semaines et de surveiller la dynamique. Bien que dans la pratique, de telles choses soient rares [11; 18]. Les situations dans lesquelles nous avons observé un effet positif de l'impact de ces changements étaient associées aux systÚmes de recommandation lorsque le changement en soi donne un effet à court terme ou lorsque les ressources finales sont utilisées pour le traitement.
Par exemple, lorsque LinkedIn a modifiĂ© l'algorithme de fonctionnalitĂ© «Personnes que vous connaissez peut-ĂȘtre», il n'a gĂ©nĂ©rĂ© qu'une augmentation ponctuelle des mesures de clic. De plus, mĂȘme si l'algorithme fonctionnait beaucoup mieux, alors chaque utilisateur connaĂźt un nombre fini de personnes, et aprĂšs avoir contactĂ© ses principales connaissances, l'effet de tout nouvel algorithme diminuera.
Exemple: ouverture de liens dans un nouvel onglet. Une série de trois expériences
En aoĂ»t 2008, MSN UK a menĂ© une expĂ©rience pour plus de 900 000 utilisateurs, dans laquelle le lien vers HotMail s'est ouvert dans un nouvel onglet (ou une nouvelle fenĂȘtre sur des navigateurs plus anciens). Nous avions prĂ©cĂ©demment rapportĂ© [7] que ce changement minimal (une ligne de code) avait entraĂźnĂ© une augmentation de l'implication des utilisateurs MSN. L'engagement, mesurĂ© en nombre de clics par utilisateur sur la page d'accueil, a augmentĂ© de 8,9% parmi les utilisateurs qui ont cliquĂ© sur HotMail.
En juin 2010, nous avons reproduit l'expĂ©rience sur un public de 2,7 millions d'utilisateurs MSN aux Ătats-Unis, et les rĂ©sultats Ă©taient similaires. En fait, c'est aussi un exemple de fonctionnalitĂ© avec effet de nouveautĂ©. Le premier jour de son dĂ©ploiement auprĂšs de tous les utilisateurs, 20% des avis Ă©taient nĂ©gatifs. Au cours de la deuxiĂšme semaine, la part des insatisfaits est tombĂ©e Ă 4%, et au cours des troisiĂšme et quatriĂšme semaines - Ă 2%. L'amĂ©lioration des paramĂštres clĂ©s est restĂ©e stable tout au long de cette pĂ©riode.
En avril 2011, MSN aux Ătats-Unis a menĂ© une trĂšs grande expĂ©rience avec plus de 12 millions d'utilisateurs qui ont ouvert une page avec les rĂ©sultats de la recherche dans un nouvel onglet. L'engagement, mesurĂ© en clics sur l'utilisateur, a augmentĂ© de 5%. C'Ă©tait l'une des meilleures fonctionnalitĂ©s liĂ©es Ă l'engagement des utilisateurs que MSN ait jamais implĂ©mentĂ©e, et c'Ă©tait un changement trivial dans le code.
Tous les principaux moteurs de recherche expĂ©rimentent l'ouverture de liens dans de nouveaux onglets / fenĂȘtres, mais les rĂ©sultats de la «page de rĂ©sultats de recherche» ne sont pas aussi impressionnants.
Exemple: couleur de police
En 2013, Bing a mené une série d'expériences avec les couleurs de police. L'option gagnante est illustrée à la figure 1 à droite. Voici comment les trois couleurs ont été modifiées:

Le coût d'un tel changement? Pas cher: remplacez simplement plusieurs couleurs dans le fichier CSS. Et le résultat de l'expérience a montré que les utilisateurs atteignent leurs objectifs (une définition stricte du succÚs est un secret commercial) plus rapidement, et la monétisation de cette révision a augmenté de plus de 10 millions de dollars par an. Nous étions sceptiques quant à ces résultats étonnants, nous avons donc reproduit cette expérience sur un échantillon beaucoup plus important de 32 millions d'utilisateurs, et les résultats ont été confirmés.

Exemple: la bonne offre au bon moment
En 2004, la page de démarrage d'Amazon contenait deux emplacements, dont le contenu a été testé automatiquement, de sorte que le contenu qui améliore le mieux la mesure cible s'affiche plus souvent. L'offre d'obtenir une carte de crédit Amazon a atteint la premiÚre place, ce qui était surprenant car cette offre a généré trÚs peu de clics par impression. Mais le fait est que cette application était trÚs rentable, donc, malgré le petit CTR, la valeur attendue était trÚs élevée. Mais juste si le lieu d'une telle annonce a été choisi avec succÚs? Non! En conséquence, la proposition, accompagnée d'un exemple simple de l'avantage, a été déplacée dans le panier que l'utilisateur voit aprÚs l'ajout du produit. Ainsi, l'avantage de cette proposition a été souligné sur l'exemple de chaque produit. Si l'utilisateur a ajouté des marchandises au panier, c'est une intention claire de faire un achat et il est temps pour une telle offre.

Une expérience de contrÎle a montré qu'un changement aussi simple rapportait des dizaines de millions de dollars par an.
Exemple: antivirus
La publicité est une activité rentable et le logiciel "gratuit" installé par les utilisateurs contient souvent une partie malveillante qui obstrue les pages contenant des publicités. Par exemple, la figure 2 montre à quoi ressemble la page de résultats Bing pour un utilisateur avec un programme malveillant qui a ajouté beaucoup d'annonces à la page (surligné en rouge).

Les utilisateurs ne remarquent gĂ©nĂ©ralement mĂȘme pas que tant de publicitĂ©s sont affichĂ©es non pas par le site qu'ils visitent, mais par un code malveillant qu'ils ont accidentellement installĂ©. L'expĂ©rience a Ă©tĂ© difficile Ă mettre en Ćuvre, mais idĂ©ologiquement relativement simple: changer les procĂ©dures de base qui modifient le DOM et limiter les applications capables de modifier la page. L'expĂ©rience a Ă©tĂ© menĂ©e auprĂšs de 3,8 millions d'utilisateurs dont les ordinateurs avaient un code tiers qui Ă©ditait le DOM. Dans le groupe test, ces modifications ont Ă©tĂ© bloquĂ©es. Les rĂ©sultats ont montrĂ© une amĂ©lioration de toutes les mesures clĂ©s, y compris une mesure indicative comme le nombre de sessions par utilisateur, c'est-Ă -dire les gens venaient plus souvent sur le site. De plus, les utilisateurs ont terminĂ© leurs tĂąches avec plus de succĂšs et plus rapidement, et les revenus annuels ont augmentĂ© de plusieurs millions de dollars. La vitesse de chargement des pages, dont nous parlerons dans la rĂšgle n ° 4, a diminuĂ© de centaines de millisecondes pour les pages affectĂ©es par l'expĂ©rience.
Deux autres petits changements à Bing, qui sont strictement confidentiels, ont pris des jours à se développer, et chacun a entraßné une augmentation des revenus publicitaires de prÚs de 100 millions de dollars par an. Dans un rapport trimestriel de Microsoft publié en octobre 2013, il déclarait: "Les revenus publicitaires de la recherche ont augmenté de 47% en raison de l'augmentation des bénéfices de chaque recherche et de chaque page." Ces deux changements ont contribué de maniÚre significative à la croissance des bénéfices mentionnée.
AprÚs ces exemples, vous pourriez penser que les organisations devraient se concentrer sur de nombreux petits changements. Mais ci-dessous, vous verrez que ce n'est pas du tout le cas. Oui, les éruptions se produisent sur la base de petits changements, mais elles sont trÚs rares et inattendues: dans Bing, probablement une expérience sur 500 atteint un ROI aussi élevé et un résultat positif reproductible. Nous ne prétendons pas que ces résultats seront reproductibles sur d'autres domaines, nous voulons simplement transmettre l'idée: mener des expériences simples en vaut la peine et peut finalement conduire à une percée.
Le danger rĂ©sultant de se concentrer sur de petits changements est l'incrĂ©mentalisme: une organisation qui se respecte devrait avoir un ensemble de changements avec un retour sur investissement potentiellement Ă©levĂ©, mais en mĂȘme temps, il devrait y avoir plusieurs changements majeurs afin de toucher le gros lot [23].
RÚgle numéro 2: les modifications ont rarement un impact positif important sur les mesures clés
Comme le disait Al Pacino dans le film Every Sunday, la victoire est donnée centimÚtre par centimÚtre. Des centaines et des milliers d'expériences se déroulent chaque année sur des sites comme Bing. La plupart échouent et ceux qui réussissent affectent la mesure clé de 0,1% à 1,0%, ajoutant une baisse à l'impact global. Les petits changements avec un grand effet décrits dans la rÚgle précédente se produisent, mais ils sont rares.
Il est important de noter deux choses:
- Les mĂ©triques clĂ©s ne sont pas quelque chose de spĂ©cifique se rapportant Ă une fonctionnalitĂ© individuelle qui peut ĂȘtre facilement amĂ©liorĂ©e, mais plutĂŽt une mĂ©trique importante pour toute l'organisation: par exemple, le nombre de sessions par utilisateur [18] ou le temps nĂ©cessaire pour atteindre l'objectif utilisateur [24].
Lors du dĂ©veloppement d'une fonctionnalitĂ©, il est trĂšs facile d'amĂ©liorer considĂ©rablement le nombre de clics sur cette fonctionnalitĂ© (ou toute autre mesure de fonctionnalitĂ©) en la mettant simplement en surbrillance ou en l'agrandissant. Mais pour augmenter le CTR de la page entiĂšre ou de l'expĂ©rience utilisateur entiĂšre - c'est lĂ que rĂ©side le dĂ©fi. La plupart des fonctionnalitĂ©s ne gĂ©nĂšrent que des clics sur la page, les redistribuant entre diffĂ©rentes zones. - Les mesures doivent ĂȘtre divisĂ©es en petits segments, de sorte qu'elles sont beaucoup plus faciles Ă optimiser. Par exemple, une Ă©quipe peut-elle facilement amĂ©liorer les mĂ©triques des requĂȘtes mĂ©tĂ©o sur Bing ou acheter des programmes TV sur Amazon? l'ajout d'un bon outil de comparaison. Cependant, une amĂ©lioration de 10% des mesures clĂ©s se dissoudra dans les mesures de l'ensemble du produit en raison de la taille du segment. Par exemple, une amĂ©lioration de 10% dans un segment de 1% affectera l'ensemble du projet d'environ 0,1% (environ, car si les mesures de segment sont diffĂ©rentes de la moyenne, alors l'effet peut Ă©galement ĂȘtre diffĂ©rent).
L'importance de cette rÚgle est grande car de fausses erreurs positives se produisent pendant les expériences. Ils ont deux types de raisons:
- Les premiers sont dus aux statistiques. Si nous menons mille expĂ©riences par an, alors la probabilitĂ© d'une erreur de faux positif de 0,05 conduit au fait que pour une mĂ©trique fixe, nous obtiendrons un rĂ©sultat de faux positif des centaines de fois. Et si nous utilisons plusieurs mĂ©triques qui ne sont pas corrĂ©lĂ©es entre elles, ce rĂ©sultat ne fait que se renforcer. MĂȘme les grands sites comme Bing n'ont pas suffisamment de trafic pour augmenter la sensibilitĂ© et tirer des conclusions avec une valeur de p infĂ©rieure pour les mesures telles que le nombre de sessions par utilisateur.
- , , .
[11]. [25;26]. , , p-value 0,05 - .
Ï â , ,
TPâ ,
a SS â .
:
P(TP|SS)=P(SS|TP)âP(TP)P(SS)=(1âÎČ)Ï(1âÎČ)Ï+α(1âÏ)
α=0.05 , ÎČ=0.20
si nous avons une probabilitĂ© prĂ©liminaire de succĂšs Ă©gale Ă â
(comme nous l'avons dit dans [7], c'est la valeur moyenne parmi les expériences chez Microsoft), alors la probabilité postérieure d'une expérience statistiquement significative vraiment positive est de 89%. Et si l'expérience est l'une de celles dont nous avons parlé dans la premiÚre rÚgle, lorsque seulement 1 sur 500 contient une solution révolutionnaire, la probabilité tombe à 3,1%.
Une consĂ©quence amusante de cette rĂšgle est le fait qu'il est beaucoup plus facile de s'accrocher Ă quelqu'un que de se dĂ©velopper seul. Les dĂ©cisions prises dans une entreprise qui se concentre sur la signification statistique sont plus susceptibles d'avoir un effet positif. Par exemple, si nous avons un taux de rĂ©ussite des expĂ©riences de 10 Ă 20%, alors si nous prenons les tests des fonctionnalitĂ©s qui ont rĂ©ussi et dĂ©ployĂ©es pour combattre dans d'autres moteurs de recherche, alors notre niveau de succĂšs sera plus Ă©levĂ©. L'inverse est Ă©galement vrai: les autres moteurs de recherche doivent Ă©galement tester et mettre en Ćuvre les choses que Bing a implĂ©mentĂ©es.
Avec l'expĂ©rience, nous avons appris Ă ne pas faire confiance Ă des rĂ©sultats qui semblent trop beaux pour ĂȘtre vrais. Les gens rĂ©agissent diffĂ©remment Ă diffĂ©rentes situations. Ils soupçonnent que quelque chose n'allait pas et Ă©tudient les rĂ©sultats nĂ©gatifs des expĂ©riences avec leurs nouvelles fonctionnalitĂ©s, posent des questions et plongent plus profondĂ©ment dans la recherche des raisons de ce rĂ©sultat. Mais si le rĂ©sultat est simplement positif, alors les soupçons se dissipent et les gens commencent Ă cĂ©lĂ©brer, Ă ne pas Ă©tudier plus en profondeur et Ă ne pas rechercher d'anomalies.
Lorsque les résultats sont exceptionnellement remarquables, nous sommes habitués à suivre la loi de Twyman [27]: Tout ce qui semble intéressant ou différent est généralement faux.
La loi de Twyman peut ĂȘtre expliquĂ©e par l'infĂ©rence bayĂ©sienne. D'aprĂšs notre expĂ©rience, nous savions qu'une percĂ©e est rare. Par exemple, plusieurs expĂ©riences ont considĂ©rablement amĂ©liorĂ© notre mĂ©trique de guidage, le nombre de sessions par utilisateur. Imaginez que la distribution que nous rencontrons dans les expĂ©riences soit normale, centrĂ©e au point 0 et avec un Ă©cart type de 0,25%. Si l'expĂ©rience a montrĂ© + 2% Ă la valeur de la mĂ©trique clĂ©, alors nous appelons la loi de Twyman et disons que c'est un rĂ©sultat trĂšs intĂ©ressant, qui est Ă une distance de 8 Ă©carts-types de la moyenne et a une probabilitĂ© de
10-15 , Ă l'exclusion d'autres facteurs. MĂȘme avec une signification statistique, l'attente prĂ©liminaire est si forte que nous retarderons la cĂ©lĂ©bration du succĂšs et approfondirons la recherche de la cause de l'erreur faussement positive du deuxiĂšme type. La loi de Twyman est souvent appliquĂ©e pour prouver que
=NP
. Aujourd'hui, aucun éditeur de site ne sera content s'il reçoit de telles preuves. TrÚs probablement, il répondra immédiatement par un modÚle de réponse: "dans votre preuve que P = NP, une erreur a été commise à la page X".
Exemple: métrique en ligne de Surrogate Office
Cook et son équipe [17] ont parlé d'une expérience intéressante qu'ils ont menée avec Microsoft Office Online. L'équipe a testé un nouveau design de page dans lequel un bouton se détachait fortement, appelant à payer pour le produit. La métrique clé que l'équipe a voulu mesurer: le nombre d'achats par utilisateur. Mais le suivi des achats réels nécessitait une modification du systÚme de facturation, et à l'époque c'était difficile à faire. Ensuite, l'équipe a décidé d'utiliser la métrique «clics menant à un achat» et d'appliquer la formule
( ) * =
, oĂč la conversion des clics Ă l'achat est effectuĂ©e.
à leur grande surprise, dans l'expérience, le nombre de clics a diminué de 64%. Ces résultats choquants ont forcé une analyse plus approfondie des données, et il s'est avéré que l'hypothÚse d'une conversion stable du clic à l'achat est fausse. La page expérimentale, qui montrait le coût du produit, a attiré moins de clics, mais les utilisateurs qui y ont cliqué étaient mieux qualifiés et avaient une conversion beaucoup plus importante du clic à l'achat.
Exemple: plus de clics sur une page lente
JavaScript a été ajouté à la page des résultats de recherche Bing. Ce script ralentissait généralement la page, donc tout le monde s'attendait à voir un léger impact négatif sur les mesures clés de l'engagement, telles que le nombre de clics sur un utilisateur. Mais les résultats ont montré le contraire, il y a eu plus de clics! [18] Malgré la dynamique positive, nous avons suivi la loi de Twyman et résolu l'énigme. Les outils de suivi des clics sont basés sur des balises Web et certains navigateurs n'ont pas passé d'appel si l'utilisateur quittait la page. [28] Ainsi, JavaScript affecte la précision du nombre de clics.
Exemple: Bing Edge
Pendant plusieurs mois en 2013, Bing a changĂ© son rĂ©seau de distribution de contenu d'Akamai Ă son propre Bing Edge. La commutation du trafic vers Bing Edge a Ă©tĂ© combinĂ©e avec de nombreuses autres amĂ©liorations. Plusieurs Ă©quipes ont indiquĂ© qu'elles avaient amĂ©liorĂ© les mesures clĂ©s: le CTR de la page d'accueil de Bing a augmentĂ©, les fonctionnalitĂ©s ont commencĂ© Ă ĂȘtre utilisĂ©es plus souvent et les sorties ont commencĂ© Ă dĂ©cliner. Et il s'est avĂ©rĂ© que toutes ces amĂ©liorations Ă©taient liĂ©es au nombre de clics: Bing Edge a amĂ©liorĂ© non seulement la vitesse de la page, mais Ă©galement la dĂ©livrabilitĂ© des clics. Pour Ă©valuer l'effet, nous avons lancĂ© une expĂ©rience dans laquelle l'approche phare de suivi des clics a Ă©tĂ© remplacĂ©e par une approche avec un rechargement de page. Cette technique est utilisĂ©e dans la publicitĂ© et entraĂźne une lĂ©gĂšre perte de clics, ralentissant l'effet de chaque clic. Les rĂ©sultats ont montrĂ© que le pourcentage de clics perdus a chutĂ© de plus de 60%! Et la plupart des rĂ©alisations annoncĂ©es au cours de cette pĂ©riode sont le rĂ©sultat d'une amĂ©lioration de la diffusion des clics.
Exemple: Recherche MSN Bing
La saisie semi-automatique est une liste dĂ©roulante qui offre des options pour complĂ©ter une demande pendant qu'une personne la tape. MSN prĂ©voyait d'amĂ©liorer cette fonctionnalitĂ© avec un algorithme nouveau et amĂ©liorĂ© (les Ă©quipes de dĂ©veloppement des fonctionnalitĂ©s sont toujours prĂȘtes Ă expliquer pourquoi leur nouvel algorithme est a priori meilleur que l'ancien, mais ils sont souvent frustrĂ©s lorsqu'ils voient les rĂ©sultats des expĂ©riences). L'expĂ©rience a Ă©tĂ© un grand succĂšs; le nombre de recherches effectuĂ©es sur Bing avec MSN a considĂ©rablement augmentĂ©. En suivant nos rĂšgles, nous avons commencĂ© Ă comprendre et Ă dĂ©couvrir que lorsque l'utilisateur cliquait sur l'invite, le nouveau code effectuait deux requĂȘtes de recherche (dont l'une Ă©tait immĂ©diatement fermĂ©e par le navigateur dĂšs que les rĂ©sultats de la recherche apparaissaient).
Ainsi, l'explication de nombreux rĂ©sultats positifs n'est peut-ĂȘtre pas aussi excitante. Et notre tĂąche est de trouver un impact rĂ©el sur l'utilisateur, et la rĂšgle de Twyman a vraiment aidĂ© Ă cela et Ă comprendre de nombreux rĂ©sultats expĂ©rimentaux.
RÚgle numéro 3. Votre avantage variera.
Il existe de nombreux exemples documentés d'expériences de contrÎle réussies. Par exemple, «
Quel test a gagné? » Contient des centaines d'exemples de tests A / B et la liste est mise à jour chaque semaine.
Bien que ce soit un excellent générateur d'idées, ces exemples ont plusieurs problÚmes:
- La qualité varie. Dans ces études, une personne d'une entreprise parle du résultat d'un test A / B. Y a-t-il eu une expertise? A-t-elle été effectuée correctement? Y a-t-il eu des émissions? La valeur de p était-elle suffisamment petite (nous avons vu des tests A / B publiés avec une valeur de p supérieure à 0,05, ce qui est généralement considéré comme statistiquement non significatif)? Y avait-il des écueils dont nous avons parlé plus tÎt et que les auteurs du test n'ont pas vérifiés correctement?
- Ce qui fonctionne dans un domaine peut ne pas fonctionner dans un autre. Par exemple, Neil Patel [29] recommande d'utiliser le mot «gratuit» dans les publicités proposant une version d'essai de 30 jours au lieu d'une «garantie de remboursement de 30 jours». Cela peut fonctionner avec un produit et un public, mais nous pensons que le résultat dépendra grandement du produit et du public. Joshua Porter [30] déclare que "le rouge est meilleur que le vert" pour les boutons appelant à rejoindre "Get Started Now". Mais comme nous n'avons pas vu beaucoup de sites avec un bouton d'appel à l'action rouge, alors, apparemment, ce résultat n'est pas si bien reproduit.
- L'effet de la nouveauté et de la premiÚre fois. Nous obtenons de la stabilité dans nos expériences, et de nombreuses expériences dans de nombreux exemples n'ont pas été menées assez longtemps pour vérifier de tels effets.
- InterprĂ©tation incorrecte des rĂ©sultats. Une raison cachĂ©e ou un facteur spĂ©cifique peut ne pas ĂȘtre reconnu ou mal compris. Nous donnons deux exemples. L'un d'eux est la premiĂšre expĂ©rience de contrĂŽle documentĂ©e.
Exemple 1 Le scorbut est une maladie causée par une carence en vitamine C. Il a tué plus de 100 000 personnes au cours des 16-18 siÚcles, la plupart d'entre eux des marins qui ont fait de longs voyages et qui sont restés en mer plus longtemps que les fruits et légumes ne pouvaient survivre. En 1747, le Dr James Lind a noté que le scorbut est moins affecté sur les navires en Méditerranée. Il a commencé à donner des citrons et des oranges à certains marins, laissant les autres au régime habituel. L'expérience a été trÚs réussie, mais le médecin n'a pas compris la raison. à l'HÎpital Royal Maritime au Royaume-Uni, il a traité des patients atteints de scorbut avec du jus de citron concentré, qu'il a appelé rob. Le médecin l'a concentré par chauffage, ce qui a détruit la vitamine C. Lind a perdu confiance et a souvent eu recours à la saignée. En 1793, de vrais tests ont été effectués. et le jus de citron fait désormais partie du régime alimentaire quotidien des marins. Le scorbut a rapidement disparu et les marins britanniques sont encore appelés citronnelle.
Exemple 2 Marissa Mayer a parlĂ© d'une expĂ©rience dans laquelle Google a augmentĂ© le nombre de rĂ©sultats sur une page de recherche de 10 Ă 30. Le trafic et les bĂ©nĂ©fices des utilisateurs qui ont recherchĂ© sur Google ont chutĂ© de 20%. Et comment a-t-elle expliquĂ© cela? Comme, la page avait besoin d'une demi-seconde de plus pour ĂȘtre gĂ©nĂ©rĂ©e. Bien sĂ»r, la productivitĂ© est un facteur important, mais nous soupçonnons que cela n'a affectĂ© qu'une petite fraction des pertes. Voici notre vision des causes:
- Bing a mené des expériences de ralentissement isolées [11], au cours desquelles seules les performances ont changé. Un délai de réponse du serveur de 250 millisecondes a affecté les revenus d'environ 1,5% et le CTR de 0,25%. C'est une grande influence, et on peut supposer que 500 millisecondes affecteront respectivement les revenus et le CTR de 3% et 0,5%, mais pas de 20% (supposons qu'une approximation linéaire soit applicable ici). Les anciens tests de Bing [32] ont montré un effet similaire sur les clics et moins d'impact sur les revenus avec un délai de 2 secondes.
- Jake Brutlag de Google a écrit dans un article de blog sur une expérience [12] montrant que le ralentissement des résultats de recherche de 100 millisecondes à 400 a un effet significatif sur le nombre spécifique de recherches et varie entre 0,2% et 0,6%, ce qui fonctionne trÚs bien. avec nos expériences, mais trÚs loin des résultats de Marissa Mayer.
- BIng a mené une expérience avec l'affichage de 20 résultats de recherche au lieu de 10. La perte de profit a complÚtement éliminé l'ajout de publicité supplémentaire (ce qui a rendu la page encore un peu plus lente). Nous pensons que le rapport publicité / algorithmes de recherche est beaucoup plus important que les performances.
Nous sommes sceptiques quant aux nombreux rĂ©sultats remarquables des tests A / B publiĂ©s dans diverses sources. Lors de la vĂ©rification des rĂ©sultats des expĂ©riences, demandez-vous quel niveau de confiance avez-vous en eux? Et rappelez-vous, mĂȘme si l'idĂ©e a fonctionnĂ© sur un site, il n'est pas nĂ©cessaire qu'elle fonctionne sur un autre. La meilleure chose que nous puissions faire est de parler de la reproduction des expĂ©riences et de leur succĂšs ou Ă©chec. Ce sera trĂšs bĂ©nĂ©fique pour la science.
RÚgle numéro 4: la vitesse signifie beaucoup
Les dĂ©veloppeurs Web qui testent leurs fonctionnalitĂ©s Ă l'aide d'expĂ©riences de contrĂŽle ont rapidement rĂ©alisĂ© que les performances ou la vitesse du site sont des paramĂštres critiques [13; 14; 33]. MĂȘme un lĂ©ger retard dans le fonctionnement du site peut affecter les mesures clĂ©s du groupe de test.
La meilleure façon d'évaluer les effets des performances est de mener une expérience de ralentissement isolée, c'est-à -dire juste avec un retard supplémentaire. La figure 3 présente un graphique standard de la relation entre les performances et la mesure testée (CTR, taux de réussite unitaire et revenus). Généralement, plus le site est rapide, mieux c'est (plus haut sur ce graphique). En ralentissant le travail du groupe de test par rapport au groupe de contrÎle, vous pouvez mesurer l'impact des performances sur la métrique qui vous intéresse. Il est important de noter:
- L'effet du ralentissement sur le groupe de test est mesuré ici et maintenant (ligne pointillée sur le graphique) et dépend du site et de l'audience. Si le site ou l'audience change, la dégradation des performances peut affecter différemment les mesures clés.
- L'expĂ©rience montre l'effet de la dĂ©cĂ©lĂ©ration sur les mesures clĂ©s. Cela peut ĂȘtre trĂšs utile lorsque vous essayez de mesurer l'effet d'une nouvelle fonctionnalitĂ© dont la premiĂšre implĂ©mentation n'est pas efficace. Supposons qu'il amĂ©liore la mĂ©trique de M de X% et en mĂȘme temps ralentit le site de T%. En utilisant l'expĂ©rience de dĂ©cĂ©lĂ©ration, nous pouvons Ă©valuer l'effet de la dĂ©cĂ©lĂ©ration sur la mĂ©trique M, corriger l'effet de la caractĂ©ristique et obtenir l'effet prĂ©dit X '% (il est logique de supposer que ces effets ont la propriĂ©tĂ© d'additivitĂ©). Et nous pouvons donc rĂ©pondre Ă la question: «Comment cela affectera-t-il la mĂ©trique clĂ© si elle est mise en Ćuvre efficacement?».
- Nous pouvons supposer comment le fait que le site commencera Ă fonctionner plus rapidement et aidera Ă calculer le retour sur investissement des efforts d'optimisation affectera la mĂ©trique clĂ©. En utilisant une approximation linĂ©aire (le premier terme de la sĂ©rie de Taylor), nous pouvons supposer que l'effet sur la mĂ©trique est le mĂȘme dans les deux directions. Nous supposons que le delta vertical est le mĂȘme dans les deux sens et juste diffĂ©rent en signe. Par consĂ©quent, en expĂ©rimentant la dĂ©cĂ©lĂ©ration sur diffĂ©rentes valeurs, nous pouvons approximativement imaginer comment l'accĂ©lĂ©ration affectera ces mĂȘmes valeurs. Nous avons effectuĂ© de tels tests chez Bing et notre thĂ©orie a Ă©tĂ© pleinement confirmĂ©e.
Quelle est l'importance des performances? ExtrĂȘmement important. Chez Amazon, un ralentissement de 100 millisecondes entraĂźne une baisse de 1% des ventes, comme l'a dit Greg Linded [34 p.10]. Et les intervenants de Bing et de Google [32] montrent un impact significatif des performances sur les mesures clĂ©s.
Exemple: expérience de ralentissement du serveur
Nous avons menĂ© une expĂ©rience de deux semaines dans Bing pour ralentir le service de 100 millisecondes pour 10% des utilisateurs, de 250 millisecondes pour les autres 10% des utilisateurs. Il s'est avĂ©rĂ© que toutes les 100 millisecondes d'accĂ©lĂ©ration des services augmentaient les revenus de 0,6%. Ă partir de lĂ , mĂȘme une phrase est apparue qui reflĂšte bien l'essence de notre organisation:
un ingénieur qui améliorera les performances du serveur de 10 millisecondes (1/30 de la vitesse de clignotement de nos yeux) gagnera à son entreprise plus d'un an de revenus. Chaque milliseconde compte.
Dans l'expĂ©rience dĂ©crite, nous avons ralenti le temps de rĂ©ponse du serveur, puis ralenti le temps de fonctionnement de tous les Ă©lĂ©ments de la page. Mais la page a des parties plus importantes et il y a des parties moins importantes. Par exemple, les utilisateurs peuvent ne pas savoir que les Ă©lĂ©ments hors de la portĂ©e de l'Ă©cran n'ont pas encore Ă©tĂ© chargĂ©s. Mais y a-t-il des Ă©lĂ©ments immĂ©diatement affichĂ©s qui peuvent ĂȘtre ralentis sans nuire Ă l'utilisateur? Comme vous le verrez ci-dessous, il existe de tels Ă©lĂ©ments.
Exemple: les performances du panneau droit ne sont pas si critiques
Dans Bing, certains éléments appelés instantanés sont situés dans le panneau de droite et sont chargés en retard (aprÚs l'événement window.onload). Nous avons récemment mené une expérience: les éléments du panneau droit ont ralenti de 250 millisecondes. Si cela a affecté les mesures clés, c'est si insignifiant que nous n'avons rien remarqué. Et l'expérience a impliqué prÚs de 20 millions d'utilisateurs.
Le temps de chargement de la page (PLT) est souvent calculĂ© Ă l'aide de l'Ă©vĂ©nement window.onload, comme signe de la fin d'une activitĂ© utile du navigateur. Mais aujourd'hui, cette mesure prĂ©sente un grave dĂ©faut lors de l'utilisation de navigateurs modernes. Comme l'a montrĂ© Steve Souders [32], le haut de la page Amazon s'affiche en 2 secondes, tandis que windows.onload se dĂ©clenche en 5,2 secondes. Schurman [32] a dĂ©clarĂ© qu'ils pouvaient rendre la page de maniĂšre dynamique, il Ă©tait donc important pour eux d'afficher l'en-tĂȘte trĂšs rapidement. L'inverse est Ă©galement vrai: dans Gmail, windows.onload se dĂ©clenche aprĂšs 3,3 secondes, alors qu'Ă ce moment-lĂ seule la barre de tĂ©lĂ©chargement est apparue Ă l'Ă©cran, et tout le contenu sera affichĂ© en 4,8 secondes.
Il existe des mĂ©triques liĂ©es au temps, par exemple: le temps jusqu'au premier rĂ©sultat (par exemple, le temps jusqu'au premier tweet sur Twitter, le premier rĂ©sultat de recherche sur la page des rĂ©sultats). Mais le terme «performance perçue» est toujours utilisĂ© pour dĂ©crire une telle vitesse de la page afin que l'utilisateur la perçoive suffisamment pleine. Le concept de «performance perçue» est plus facile Ă dĂ©crire intuitivement qu'Ă formuler strictement, par consĂ©quent, aucun des navigateurs n'a prĂ©vu de mettre en Ćuvre l'Ă©vĂ©nement
perception.ready()
. Pour résoudre ce problÚme, de nombreuses hypothÚses et hypothÚses sont utilisées, par exemple:
- Heure du haut de la page (AFT) [37]. MesurĂ© comme le moment oĂč tous les pixels supĂ©rieurs de la page sont affichĂ©s. L'implĂ©mentation est basĂ©e sur des heuristiques particuliĂšrement complexes lorsqu'il s'agit de vidĂ©os, de gifs, de galeries de dĂ©filement et d'autres contenus dynamiques qui modifient le haut de la page. Les seuils peuvent ĂȘtre rĂ©glĂ©s sur «pourcentage de pixels dessinĂ©s» pour Ă©viter l'influence de petits Ă©lĂ©ments insignifiants qui peuvent augmenter la mesure mesurĂ©e.
- L'indice de vitesse [38] est une généralisation de l'AFT qui fait la moyenne du temps pendant lequel les éléments de page visibles apparaissent à l'écran. La vitesse ne souffre pas des petits éléments qui apparaissent en retard, mais elle est toujours affectée par le contenu dynamique qui change le haut de la page.
- Temps de phase de page et temps de disponibilitĂ© utilisateur [39]. Page Phase Time - Le temps requis pour chaque phase de rendu de page individuelle. , . â , .
W3C- , HTML, , , . , , , .
Bing , « » (TTS) [24] . â . , 30 . â «Perceived performance». , ; , , . , , , . , . , , , , â .
â5: â , â
, Bing â , , . , â , , . , , . , , .
:
Bing . , «data mining», Bing «Examples of data mining», «Advantages of Data Mining», «definition of data mining», «Data mining companies»,«data mining software» .. . 10 . , (p-value 0,64).
:
Bing , , , , . . 17 %, (p-value 0,71).
:
Bing , 10 . , :
- , , «ebay», CTR 75 %. 10 . : 8 , , 4 . (p-value 0,92), production.
- , «» , Bing (14 ). , 3 «» , : 1,8 % , 30 , 18 % ( ), (p-value 0,93). .
:
. 10 , 12 % ( $150 , ). , (p-value 0,83)
, , . , , .
, ( Microsoft, Amazon .), CTR. , , . , . , . «» . : â , â .
â6: ,
. .. [40]: « , , . , â ». , online-, , [17;41], , , . , . LinkedIn.
: LinkedIn
LinkedIn . 2013 , , , , â LinkedIn, . , : , . , , , . . : . , , , . , , - , , - . .
: LinkedIn
LinkedIn . , . , . , . , , . , . , , , . , , , . , , . , . , .
offline- , , online, , , [4;11]. (Mullty-Variable) , MV-. ( /B/C/D) .
â Agile, MVP [15]: MVT, , . , . , , .. MV- - .
: 1 % , . Agile- Knight Capital, 2012 440 Knights 75 %.
â7:
. , , . , , . , . , [42] , , n > 30, . , . â , Neil Patel , .
, ( ) [16], , . , , .
,
355 * s^2
, , .
s
â , :
$$s = \frac{E (XE (X))^3}{\Var (X)^{3/2}}$$
, 1. , , Bing:
Métrique
| Décalage
|
|
|
Revenue/User
| 17,9
| 114 .
| 4,4 %
|
Revenue/User (capped)
| 5,2
| 9,7 .
| 10,5 %
|
Sessions/User
| 3,6
| 4,7 .
| 5,4 %
|
Time To Success
| 2.1
| 1,55 .
| 12,3 %
|
, « » 10, « » â 30. 95 % , , 0,025, 0,3 0,2. Boos Hughes-Oliver [43]. , . , 18,2, 114 . . 4 , 100 1000 , QQ. 95- , , 5 %. 100 000 , -2 2.

, - , . , « » , , 18 5, . , 30 % , .
, , . , , , , 0. , 1.
, [16]. bootstrap [44].
Conclusion
7 , , . , , , , . , Twyman' , , . , , , , . â â . , , , , â . , , (, ). , , . â , , , . , : , . , , . , . Agile. â , . , , . , â . , , , .
, , . Mujtaba Khambatti, John Psaroudakis, Sreenivas Addagatke, . Juan Lavista Ferres, Urszula Chajewska, Greben Langendijk, Lukas Vermeer, Jonas Alves. Eytan Bakshy, Brooks Bell Colin McFarland.
Littérature- Kohavi, Ron and Round, Matt. Front Line Internet Analytics at Amazon.com. [ed.] Jim Sterne. Santa Barbara, CA: sn, 2004. ai.stanford.edu/~ronnyk/emetricsAmazon.pdf .
- McKinley, Dan. Design for Continuous Experimentation: Talk and Slides. [Online] Dec 22, 2012. mcfunley.com/designfor-continuous-experimentation .
- Bakshy, Eytan and Eckles, Dean. Uncertainty in Online Experiments with Dependent Data: An Evaluation of Bootstrap Methods. KDD 2013: Proceedings of the 19th ACM SIGKDD Conference on Knowledge Discovery and Data Mining. 2013.
- Tang, Diane, et al. Overlapping Experiment Infrastructure: More, Better, Faster Experimentation. Proceedings 16th Conference on Knowledge Discovery and Data Mining. 2010.
- Moran, Mike. Multivariate Testing in Action: Quicken Loan's Regis Hadiaris on multivariate testing. Biznology Blog by Mike Moran. [Online] December 2008. www.biznology.com/2008/12/multivariate_testing_in_action .
- Posse, Christian. Key Lessons Learned Building LinkedIn Online Experimentation Platform. Slideshare. [Online] March 20, 2013. www.slideshare.net/HiveData/googlecontrolledexperimentationpanelthe-hive .
- Kohavi, Ron, Crook, Thomas and Longbotham, Roger. Online Experimentation at Microsoft. Third Workshop on Data Mining Case Studies and Practice Prize. 2009. http://expplatform.com/expMicrosoft.aspx .
- Amatriain, Xavier and Basilico, Justin. Netflix Recommendations: Beyond the 5 stars. [Online] April 2012. techblog.netflix.com/2012/04/netflix-recommendationsbeyond-5-stars.html .
- McFarland, Colin. Experiment!: Website conversion rate optimization with A/B and multivariate testing. sl: New Riders, 2012. 978-0321834607.
- Smietana, Brandon. Zynga: What is Zynga's core competency? Quora. [Online] Sept 2010. www.quora.com/Zynga/What-is-Zyngas-corecompetency/answer/Brandon-Smietana .
- Kohavi, Ron, et al. Online Controlled Experiments at Large Scale. KDD 2013: Proceedings of the 19th ACM SIGKDD international conference on Knowledge discovery and data mining. 2013. bit.ly/ExPScale .
- Brutlag, Jake. Speed Matters. Google Research blog. [Online] June 23, 2009. googleresearch.blogspot.com/2009/06/speed-matters.html .
- Sullivan, Nicole. Design Fast Websites. Slideshare. [Online] Oct 14, 2008. www.slideshare.net/stubbornella/designingfast-websites-presentation .
- Kohavi, Ron, Henne, Randal M and Sommerfield, Dan. Practical Guide to Controlled Experiments on the Web: Listen to Your Customers not to the HiPPO. The Thirteenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD 2007). August 2007, pp. 959-967. www.expplatform.com/Documents/GuideControlledExperiments.pdf .
- Ries, Eric. The Lean Startup: How Today's Entrepreneurs Use Continuous Innovation to Create Radically Successful Businesses. sl: Crown Business, 2011. 978-0307887894.
- Kohavi, Ron, et al. Controlled experiments on the web: survey and practical guide. Data Mining and Knowledge Discovery. February 2009, Vol. 18, 1, pp. 140-181. www.exp-platform.com/Pages/hippo_long.aspx .
- Crook, Thomas, et al. Seven Pitfalls to Avoid when Running Controlled Experiments on the Web. [ed.] Peter Flach and Mohammed Zaki. KDD '09: Proceedings of the 15th ACM SIGKDD international conference on Knowledge discovery and data mining. 2009, pp. 1105-1114. www.expplatform.com/Pages/ExPpitfalls.aspx .
- Kohavi, Ron, et al. Trustworthy online controlled experiments: Five puzzling outcomes explained. Proceedings of the 18th Conference on Knowledge Discovery and Data Mining. 2012, www.expplatform.com/Pages/PuzzingOutcomesExplained.aspx .
- Wikipedia contributors. Fisher's method. Wikipedia. [Online] Jan 2014. http://en.wikipedia.org/wiki/Fisher %27s_method .
- Eisenberg, Bryan. How to Increase Conversion Rate 1,000 Percent. ClickZ. [Online] Feb 28, 2003. www.clickz.com/showPage.html?page=1756031 .
- Spool, Jared. The $300 Million Button. USer Interface Engineering. [Online] 2009. www.uie.com/articles/three_hund_million_button .
- Goldstein, Noah J, Martin, Steve J and Cialdini, Robert B. Yes!: 50 Scientifically Proven Ways to Be Persuasive. sl: Free Press, 2008. 1416570969.
- Collins, Jim and Porras, Jerry I. Built to Last: Successful Habits of Visionary Companies. sl: HarperBusiness, 2004. 978- 0060566104.
- Badam, Kiran. Looking Beyond Page Load Times â How a relentless focus on Task Completion Times can benefit your users. Velocity: Web Performance and Operations. 2013. velocityconf.com/velocityny2013/public/schedule/detail/32 820.
- Why Most Published Research Findings Are False. Ioannidis, John P. 8, 2005, PLoS Medicine, Vol. 2, p. e124. www.plosmedicine.org/article/info :doi/10.1371/journal.pme d.0020124.
- Wacholder, Sholom, et al. Assessing the Probability That a Positive Report is False: An Approach for Molecular Epidemiology Studies. Journal of the National Cancer Institute. 2004, Vol. 96, 6. jnci.oxfordjournals.org/content/96/6/434.long .
- Ehrenberg, ASC The Teaching of Statistics: Corrections and Comments. Journal of the Royal Statistical Society. Series A, 1974, Vol. 138, 4.
- Ron Kohavi, David Messner,Seth Eliot, Juan Lavista Ferres, Randy Henne, Vignesh Kannappan,Justin Wang. Tracking Users' Clicks and Submits: Tradeoffs between User Experience and Data Loss. Redmond: sn, 2010.
- Patel, Neil. 11 Obvious A/B Tests You Should Try. QuickSprout. [Online] Jan 14, 2013. http://www.quicksprout.com/2013/01/14/11-obvious-ab-tests-youshould-try/ .
- Porter, Joshua. The Button Color A/B Test: Red Beats Green. Hutspot. [Online] Aug 2, 2011. blog.hubspot.com/blog/tabid/6307/bid/20566/The-ButtonColor-AB-Test-Red-Beats-Green.aspx .
- Linden, Greg. Marissa Mayer at Web 2.0. Geeking with Greg. [Online] Nov 9, 2006. glinden.blogspot.com/2006/11/marissa-mayer-at-web20.html .
- Performance Related Changes and their User Impact. Schurman, Eric and Brutlag, Jake. sl: Velocity 09: Velocity Web Performance and Operations Conference, 2009.
- Souders, Steve. High Performance Web Sites: Essential Knowledge for Front-End Engineers. sl: O'Reilly Media, 2007. 978-0596529307.
- Linden, Greg. Make Data Useful. [Online] Dec 2006. sites.google.com/site/glinden/Home/StanfordDataMining.20 06-11-28.ppt.
- Wikipedia contributors. Above the fold. Wikipedia, The Free Encyclopedia. [Online] Jan 2014. en.wikipedia.org/wiki/Above_the_fold .
- Souders, Steve. Moving beyond window.onload (). High Performance Web Sites Blog. [Online] May 13, 2013. www.stevesouders.com/blog/2013/05/13/moving-beyondwindow-onload .
- Brutlag, Jake, Abrams, Zoe and Meenan, Pat. Above the Fold Time: Measuring Web Page Performance Visually. Velocity: Web Performance and Operations Conference. 2011. en.oreilly.com/velocitymar2011/public/schedule/detail/18692 .
- Meenan, Patrick. Speed Index. WebPagetest. [Online] April 2012. sites.google.com/a/webpagetest.org/docs/usingwebpagetest/metrics/speed-index .
- Meenan, Patrick, Feng, Chao (Ray) and Petrovich, Mike. Going Beyond onload â How Fast Does It Feel? Velocity: Web Performance and Operations. 2013. velocityconf.com/velocityny2013/public/schedule/detail/31 344.
- Fisher, Ronald A. Presidential Address. SankhyÄ: The Indian Journal of Statistics. 1938, Vol. 4, 1. www.jstor.org/stable/40383882 .
- Kohavi, Ron and Longbotham, Roger. Unexpected Results in Online Controlled Experiments. SIGKDD Explorations. 2010, Vol. 12, 2. www.exp-platform.com/Documents/2010- 12 %20ExPUnexpectedSIGKDD.pdf.
- Montgomery, Douglas C. Applied Statistics and Probability for Engineers. 5th. sl: John Wiley & Sons, Inc, 2010. 978- 0470053041.
- Boos, Dennis D and Hughes-Oliver, Jacqueline M. How Large Does n Have to be for Z and t Intervals? The American Statistician. 2000, Vol. 54, 2, pp. 121-128.
- Efron, Bradley and Robert J. Tibshirani. An Introduction to the Bootstrap. New York: Chapman & Hall, 1993. 0-412-04231- 2.