当前位置: > 网络营销

信息流广告A/B测试该如何做

时间:2020-10-7 18:25:55 来源:名言网 

通过数据来优化信息流广告落地页的方法有很多,用的最多的就是A/B测试了。比如当我们不知道哪个落地页更好的时候,就会用A/B测试上线测,哪个页面数据好就用哪个。比如像这样的:

这是某信息流平台优化师提供给甲方的一组A/B测试数据:在定向、出价及入口创意都一致的前提下,虽然优化后到达落地页的流量(UV)没有优化前的多,但是实际的转化量却是原来的2倍,所以他的结论是:经他优化过的落地页转化效果比优化前的更好,建议后期用该落地页投放。那么,他的这个测法,这个结论,对吗?

先来看看啥叫A/B测试

A/B测试也叫对照试验,即为同一个转化目标(比如我们想看看哪个落地页提交表单的效果更好),制定两个或两个以上的方案(落地页),在控制其他变量不变的前提下,分别让组成成分、特征相同的访客群随机的访问这些落地页版本,根据各群组的用户数据反馈,结合统计学的工具方法,来筛选出更符合效果需求的版本。

所以,要执行一个有效的A/B测试的重点是:

N个方案并行测试;

N个方案之间只存在一个变量,排除其他因素的干扰;

以某一个标准评判结果优劣,筛出最优方案。

所以我们回过来再来看上面的这个案例,问题就显而易见了,即,该测试不符合并行测试的条件。从表格看,这个测试是分时间段(10月27日VS10月28日)做的,而分时间段测试就意味着其他相关的变量会不一致,比如访客本身访问的周期规律、媒体上内容环境的变化、竞争队友的广告影响等等,这些因素都会干扰测试结果的可信性。

为什么测试要控制变量?

归根结底是为了测试的有效性。我们都知道,影响转化的因素太多了。诸如竞争状况、流量本身的质量、消费者购买的周期规律等等都有可能影响转化,尤其是在信息流广告的场景下,消费者在看到广告之前看到的资讯内容会给消费者带来怎样的心理唤起(也可以起理解成平台方主动发起的流量塑形),我们都是无法预知的,这些都会影响广告转化效果。

我们可以用一个函数来说明,假设y是转化率,x是影响转化率y的因素,那么

y=f(x1,x2,x3,x4,x5,)
也就是说,落地页只是其中的一个x,在其他x同样也存在变化可能的情况下,我们无法得出落地页这个x就是导致y发生变化的唯一原因。所以,光凭上图这样的数据维度,无法简单的抖音漫画脸特效在哪里得出优化成功的结论。就算我们假设所有测试的前提条件都符合要求,单看数据本身也不能排除随机因素给测试结果带来的影响。正如下图这个显著性测试的结果说明,该优化师提供的两组数据之间的差异并不明显。

也就是说,不管从何角度判断,这都是一个错误的A/B测试,对应的,结论也就不可信。

关于A/B测试的几点提醒

A/B测试本身是一个比较对路的数据分析思路,使用得当可以很好的辅助优化师做投放决策。如果你日常优化的过程中需要运用A/B测试,那么以下几点需要特别注意:

1、需要大流量测试

A/B 测试的结果需要大量数据的支撑,流量越大得出结论越可信。但实操中,很多优化师因为流量成本等各种现实原因,往往在数据量有限的情况下就做AB测试(比如一天只有几百个甚至只有几十个访客到达落地页),这样得出的测试结果会存在很大的不稳定性。通常我们建议,在进行实际的投放A/B测试时,每个版本的落地页日流量要在1000个UV以上 ,测试周期至少一周,有些周期性明显的领域甚至可能需要更长的时间和更多的流量,否则样本量太少,样本测试的结果就很难代表整体水平,依此做出来的数据模型也会不稳定。

2、需要同时段测试

在不同时段做A/B测试是个非常普遍的错误。为什么错?因为不同的时间段内,影响转化效果的其他因素,如竞争情况、受众本身的行为规律,等等,是不一样的。以淘宝为例,大多时候,转化效果好的广告并不是在周末或节假日,反而工作日的时候下单转化率更高一点,也就是说:同样一个落地页,如果你选择在周五和周六去测试,你得出的结果就会不准确,随着这个不准确的结论而做的投放设计也会出问题。所以,最好不同版本同时上线测试,这样才能尽可能减少其他因素对测试本身的影响。

3、需要同地域测试

为了验证不同落地页的转化效果,不少优化师会在测试时选两到三个城市分别投放,看哪个版本表现更好就把他上线投放到更大范围。这样做其实也有问题。每个城市的受众对你产品/服务的认知基础可能都不一样,比如同样是智能家居,对于一些一线城市的用户来说,可能已经有所认知了,但可能其他的一些一线城市,或者二线城市的用户可能还是云里雾里不知所云。

对于信息流广告优化而言,用数据分析辅助投放决策是趋势,但运用的前提的是会用。正如管理大师德鲁克曾说的:你如果无法度量它,就无法管理它。如果分析方法有问题,我们非但不能更好的管理投放,甚至还会对投放起反作用,导致广告更大的浪费。