- 前言
- 什么是 A/B(A/B/n) 测试?
- 为什么需要 A/B 测试?
- A/B 测试可以测什么?
- A/B 测试有哪些类型?
- 如何实施一个 A/B 测试?
- 工具对比
- Demo
- 思考
- 小结
- 参考链接
- 延伸阅读
前言
上一篇介绍了如何学习并考取谷歌分析(Google Analytics)个人资格证书。Google Analysis 在数字分析中有举足轻重的地位,提供了收集、存储、分析数据的能力。为了检验产品人们通常还会将 Google Analytics 与 A/B 测试结合。A/B 测试如今无处不在,已经成为很多人用来检验产品和方法的工具。本文将带来 A/B 测试的理论知识并以实例演示如何实践一次 A/B 测试。
什么是 A/B(A/B/n) 测试?
A/B 测试(也称为拆分测试) 是一种用户体验研究方法。
A/B 测试由一个随机实验组成,其中一个变量的两个变体 A
和 B
, 同时显示给不同网站访问者群体,以确定哪个版本的影响最大并推动业务指标。
为什么需要 A/B 测试?
实现统计上的显着改进
A/B 测试完全是数据驱动的,没有猜测、直觉或直觉的余地,可以更好地做决策。
A/B 测试可以有效避免完全靠经验做判断。因为,经验对人的依赖度太高。
解决用户痛点
试想一下,如果用户连“立即购买”按钮都找不到,用户还会买你的商品吗?
建议大家可以将 A/B 测试与热力图结合,通过热力图分析,用户是否访问了你想让他(她)访问的位置。然后,通过 A/B 测试创建不同变体进行测试,找到并解决用户的痛点。
从现有流量获取更高的 ROI(投资回报率)
获取流量的成本太高了。通过 A/B 测试,可以使用现有的流量进行测试,减少费用。
减少跳出率并提高转化
测试网站元素的多个变体,直到找到最佳版本。这不仅可以帮你找到摩擦和访问者的痛点,还有助于改善网站访问者的整体体验,使他们在你的网站上花费更多时间,甚至转化为付费客户。
做低风险的修改
微小的增量更改,减少风险;以最少的修改将资源定位为最大输出,从而提高投资回报率。常见例子:修改产品描述、加入新特性。
重新设计网站以增加未来的业务收益
小步快进,不断优化网站(敏捷思维)。
A/B 测试可以测什么?
网页中有许多元素,A/B 测试主要测试的是关键的站点元素,具体如下:
- 副本
- 设计和布局
- 导航
- 表单
- CTA(Call To Action)
值的一提的是,现在有很多 AI 自动化生成(颜色、风格、文本、话语情感等)不同的变体供实验。
A/B 测试有哪些类型?
A/B 测试是一个总称,它定义了控制(control
)与变化实验过程的基本概念,包括如下几类:
- A/B 测试(拆分测试)
- 多变量测试
- 拆分 URL 测试
- 多页面测试
- Banner 测试
- 个性化测试
A/B 测试(拆分测试)
A
是原始版本,变体 B
到 n
每个都包含一个或多个从原始元素修改而来的元素(例如,不同颜色的号召性用语按钮)。
A/B 测试(拆分测试),着重简单的页面元素的测试。
多变量测试
两个标题(原始 H1
和变体 H2
)和三个英雄图像(原始 A
和变体 B
和 C
),产生 6
种组合;
多变量测试,强调组合,分析多元素之间的最佳匹配,减少多个 A/B 测试的需求,提高效率。
拆分 URL 测试
拆分 URL 测试,非常适合在使用现有页面设计进行比较分析的同时尝试全新的设计;推荐用于运行非 UI 更改的测试,例如切换到不同的数据库、优化页面的加载时间等;更改网页工作流程,工作流会极大地影响业务转换,有助于在实施更改之前测试新路径并确定是否遗漏了任何症结点。
拆分 URL 测试,是一种更好且备受推荐的动态内容测试方法。
多页面测试
多页面测试,使你能够为目标受众创造一致的体验;可以帮助你的目标受众看到一组一致的页面,无论是控件还是其中的一个变体;使你能够在多个页面上实施相同的更改,以确保你的网站访问者在浏览网站时不会分心并在不同的变体和设计之间反弹。
多页面测试,强调页面间的交互和影响。
注:Google Optimize 暂未提供多页面测试。
Banner 测试
Banner 测试,可以快速添加横幅消息。
笔者更愿意称其为 Banner 临时测试。例如,如果你的餐厅关闭厅食并转向外卖和外送,你可以通知客户。或者,有个活动持续一段时间,使用 Banner 测试,设置好实验时间,就不需要手动去下架活动通知了。
个性化测试
与其他实验不同,个性化测试可以永远运行并且没有变体。它们是向满足定位条件的任何人提供的一组更改。
如何实施一个 A/B 测试?
A/B 测试在概念上似乎是一个简单的实验过程。然而,事实并非如此。这是一个复杂的过程,需要耐心、坚持和精确。运行 A/B 测试涉及如下几个主要阶段和多个阶段,你的研究、计划和假设发展越彻底,创建的测试就越好,获胜的可能性就越大。
进行彻底的研究
定量的网站分析工具(比如:Google Analysis),为后续步骤进行可操作的观察。
A/B 测试的评估是基于数据的,所以在做测试之前,一定要先做好数据的收集和分析,该埋点的埋点,该分析的分析。
观察并提出假设
分析和理解这些数据,绘制网站和用户画像以制定有数据支持的假设。
创建必要的变体
不填表格的人够多?表单是否有太多字段?它会要求提供个人信息吗?也许你可以通过省略要求提供个人信息的字段来尝试使用较短形式的变体或其他变体。
运行测试
开始测试并等待规定的时间以获得具有统计意义的结果。
很显然,测试时长对于 A/B 测试非常重要。测试的时长短,会话少,会严重影响测试结果的置信度。测试时长太长的话,会影响产品的迭代速度。
各个工具和平台,推荐的测试时长也有很大的不同,这里推荐一个计算测试时长的工具:https://vwo.com/tools/ab-test-duration-calculator/ 作为参考,但也仅仅作为参考,大家可以根据自己业务特征和经验进行适当调整。
分析结果并部署变更
测试的目的是为了通过测试的结果找到最佳的版本。这就涉及一个问题:如何判断实验结果是否可信任?
在行业中,有个置信度(P 值)可以作为参考,大家可以通过 https://vwo.com/tools/ab-test-significance-calculator/ 计算测试结果的 P 值,从而判断此次测试结果是否可信任。
最后,分析完结果,应该将最佳版本部署到线上。
工具对比
-
https://trends.google.com/trends/explore?geo=US&q=vwo,optimize,optimizely
- https://vwo.com/compare/optimizely/
- https://vwo.com/compare/google-optimize/
综合以上的链接资料和实际情况,笔者选择使用 Google Optimize 作为 A/B 测试工具,原因是 Optimize 与 Analysis 都是谷歌自家产品,关联性较强,使用简单,功能够用,免费。
Demo
如上图,在页面上有一个 Read More
按钮,点击的链接是 https://makeoptim.com/deep-learning/yiai。现在,想提高该连接的访问量,即 Read More
按钮的点击量。
原始版本的按钮是黑色的,现在想换成醒目的颜色,看下是否能提高点击量。因此,想做 A/B 测试,验证下哪个方案更好。
Google Marking Platform
因为,使用 Optimize 做 A/B 测试,需要与 Google Marking Platform 的其他几个产品配合。因此,有必要了解下几个产品之间的关系。
收集数据
首先,要做的是收集数据,因为必须有数据,才能验证结果。
这里,笔者利用 Google Tag Manager
设置了 Read More
按钮的点击事件,如下图所示。
提出假设
笔者假设绿色的 Read More
按钮更为醒目,更能让用户有点击的欲望,可以让更多的用户访问到点击后的网页。
创建目标
在 Google Analysis
上创建如下目标。
注:绑定的事件参数需要与 Google Tag Manager 中设置的匹配。
创建完目标后,只要用户点击 Read More
按钮,便会在目标中多一次转化。
创建体验
前往 Google Optimize
创建体验,并创建变体。
创建变体也很简单,点击编辑即可进入编辑页面。在编辑页面,用户可以直接选取需要改动的网站元素,然后修改其属性保存即可。
注:
- 这里保持默认的流量权重比
50%:50%
表示原始版本和变体版本的流量均分,大家可以根据自己的情况自行调整。- 创建变体的时候,如果默认的编辑无法满足需求,可以右键直接进行 HTML、CSS、JavaScript 的修改。
创建完变体后,需要绑定 Google Analysis
目标。
启动体验
启动体验,这里需要耐心等待,需要足够多的用户会话来验证结果。这里,建议大家不要少于两周。当然,大家可以根据 https://vwo.com/tools/ab-test-duration-calculator/ 计算较为合理的参考时间。
分析结果并部署变更
查看报告,并找出最佳版本,最后部署更新。
从报告中可以看出,亮色版本的转化高于原始版本。因此,笔者得出亮色为最佳版本,并部署更新。
注:本案例是个 Demo,测试的时长不长,结果是不可信的。大家在实际项目中,记得要先验证结果的置信度后再部署更新。
思考
一定选择转化率最高的变体吗?
笔者的答案是否定的。因为,A/B 测试的结果受很多的因素影响,比如:测试时长、用户个人喜好、季节性、广告的投放时机等。另外,转化分主要转化和辅助转化,测试的结果,不一定能反应出最佳的转化路径。因此,建议大家将 A/B 的结果当做是一个参考,而不是固定的答案,结合自身的行业经验和多渠道漏斗分析,得出综合的结果。
最经典的案例就是抖音,“抖音”在 A/B 测试的结果排名是第二的,最后字节跳动的产品根据这款 App 的调性,选择了“抖音”。
做需求的时候可以完全依赖于 A/B 测试吗?
刚落地一段时间 A/B 测试的团队(特别是尝到甜头的),经常会陷入一个误区,什么都来一次 A/B 测试校验下结果吧。这其实是不对的,须知做 A/B 测试是有成本的,特别是时间成本。如果,做什么需求都来一次 A/B 测试,那还要产品干什么,更不用说 A/B 测试的结果置信度不一定满足。
小结
本文讲解了 A/B 测试的理论知识,并通过案例讲解了如何使用 Google Analysis、Tag Manager、Optimize
进行实践。
最后,整理了如下几个重点:
- 小步快进,不断优化网站(敏捷思维)
- 数据驱动更好的决策
- AI 帮助自动化生成不同的变体供实验
- 可利用 A/B 测试的特点,做类似 banner 的临时性(时间性)需求
- A/B 测试的重点不是工具,而是合理提出假设和目标,并根据数据进行改进
注:如果大家想看 PPT 的话,笔者也整理了中英两个版本,可前往 https://github.com/CatchZeng/A-B-Testing 下载。
参考链接
- https://en.wikipedia.org/wiki/A/B_testing
- https://vwo.com/ab-testing-3/
- http://www.woshipm.com/kol/4483274.html/comment-page-1
- https://wenku.baidu.com/view/d7f46172a8ea998fcc22bcd126fff705cc175c29.html?fixfr=zs%252Bg49dYPaMDe%252FQKjI%252BMtQ%253D%253D&fr=income5-search
- https://wenku.baidu.com/view/14c50009aff8941ea76e58fafab069dc512247e5.html?fixfr=hGZ7lXgdvdCZRa8NyQRXxw%253D%253D&fr=income7-search
- https://blog.csdn.net/zhuxiao5/article/details/106132477
- https://vwo.com/tools/ab-test-duration-calculator/