大数据带来大改变。受大数据冲击,传统收视率行业也面临前所未有的创新命题,或者说是个难题,难在如何兼顾守正与出新。
收视率的正统出身是统计,是有限样本的代表性推论,是基于概率抽样计算的推断结果,偏重于统计而非算法。大数据被认为是收视率创新的方向,但是大数据容易实现的是算法,难以解决的是统计,比如数据孤岛带来的统计上的以偏概全问题。
统计的基础规律之一是大数定律,在大数定律的作用下,收视率数值倾向于收敛和稳定;算法则不然,基于算法的结果取决于算法定义规则,规则不同结果便不同,定义规则本身有很强的主观性、诱导性。
用统计结果反观内容与营销,具有结论的概然性和归因的合理性,是先有假设再做检验;用算法结果反观内容和营销,算法本身的选择性决定内容与营销结果的呈现,算法既定假设,结果反而成必然。
基于统计的收视率让内容与受众之间具有时间轴上的因果关联,内容上的议程设置表现为收视率的统计结果;基于算法的收视率则不然,算法可以弱化甚至打破时间轴上的因果链而仅仅强调关联,算法可以通过设定内容逻辑从而成为议程设置本身。
可见对于内容与营销,基于受众的统计是收视率之本,而基于大数据的算法则不是。对收视率抱有成见而推崇以大数据算法替代收视率统计是不恰当的做法,带来的只能是更多的抱怨和混乱,这是本末倒置的结果。
不过收视率统计也并不排斥算法,如果算法能够用来补充和优化收视率数据的统计过程。但是其间需要厘清人和端的对应关系。
正统的收视率统计是基于人的,而大数据主要来自于端,尽管端所连接的仍然是人。在收视率统计中人是优先于端的,而且可以根据一人多端的行为情况进行累计计算,从而形成多端跨屏的收视率统计;在运用大数据算法时则往往端优先于人,不同端的数据可以叠加合并,但未必是真实的人的行为。正是因为有这样的区别,所以才有收视率统计中的同源样本建设的必要,以及大数据算法需要考虑的不同端数据整合过程中的行为去重难题。在人与端的数据交换中,一人一端是最容易处理的情形,多人一端和一人多端都带来大数据算法上的挑战。
收视率的计算离不开到达率和忠实度两项指标。无论以人还是端为口径计算,以时间花费测量的忠实度指标含义基本一致;但到达率指标就不是一回事了,人的到达在时间轴上是单调累加的,而端的到达,其中有一部分未必是人的行为造成,另外端的到达还可以进行跨空间的平行累计。以端的数据模拟人,就需要设定一个基础端,以这个基础端的行为确定所模拟人的主要行为,其他端的数据则以不与基础端数据产生时空冲突为前提而进行补充加总。
所以在收视率这个问题上还是飘柔广告不能迷信大数据,特别是当大数据以算法的形式施加对内容和营销的直接影响的时候,大数据收视率事实上就陷入了自我循环的纯数据逻辑,而忽视了人的非数据本性。
现在市面上一下子出现了好多打着大数据旗号的收视率报表,多数的报表已经实现内部自洽,但是相互之间仍是一片混战。越是这样的时候越要考虑清楚收视率的根本,以经得起检验而且经过检验的坐标来定位新坐标,守得正才能出得新,人云亦云的所谓大数据带来的收视率革命其实还并不存在。