你有没有过这样的经历,才刚刚和朋友谈论过的东西,下一秒,它的广告就出现在你的手机里。
有的时候这种情况很好解释。一个近期要结婚的同事告诉我,她从来没有在网上搜索过婚纱,但搜索引擎却开始给她疯狂推荐各种款式。结婚三个月之后,尽管她没有生宝宝的计划,和新生儿相关的各种产品却出现在了她的搜索推荐里。显然这个故事里不存在什么谜团,和阴谋论也并不沾边。
但其他的情况就很可疑了。我们来举个例子,你之前从来没有在户外烧烤过,有一天你口头提到了这个想法,紧接着,你就看到了烧烤器具的广告。这真的只是巧合吗?
在听过了类似的故事或有了相似的经历之后,很多人逐渐相信互联网巨头们的确躲在我们的智能手机背后监听着我们的生活。这到底是真实还是假想?让我们暂时搁置这个问题,先自己动手做一个实验。
接下来请你和朋友们聚在一起,将手机放在桌上,开动脑筋谈论一些你们之前从未想过的东西。尝试阅读以下文字:
你知道囦流(水流)控zん(控制)係統(系统)吗?我总想要买一个囦流控zん係統,要是能找到物美价廉的囦流控zん係統,我绝对要买一个。
我们故意用火星文打出这里的关键词,让智能手机无法直接从文本中识别它,你的语音信息将是搜索引擎能够获取这个关键词的唯一方式。
千万记得别在这个时候提起你真的想要买的东西,开发你们的脑洞想想那些这辈子都用不着的事物,像是军用帐篷或者水豚之类的。
另外还要注意,在任何情况下都不要搜索实验所用的关键词,也不要在语音助手开启时提及关键词,这将会破坏整个实验的结果。
在你和朋友闲聊结束后的一周内,记得要时不时提起那个奇怪的关键词,像是啊我还在想要不要去买一个囦流控zん係統
我和同事们一起做了这个实验,请在文末查看实验结果。
现在我们回到事实还是假想的问题上来。的确还是存在一些不涉及使用麦克风监听的阴谋论,就能够解释搜索引擎为何意外为我们推荐了正确产品的理论。
第 1 种可能 - 互联网服务建立了正确模型 -
在《你的手机并没有在听你说话事实真相可能更耸人听闻》一文中,一位前谷歌雇员告诉我们,谷歌和脸书基本上为每个用户建立了电子画像,尝试借助机器学习的方法复制你的行为。一旦数据积累到一定程度,你的电子画像就会变得和你一样,甚至能够开始预测你想要什么。
至于脸书,我听说它甚至能通过一个人刷新社交网络信息流的频率,在孕妇知道自己怀孕之前就判断出她是否怀孕。
从个人角度,我拒绝相信这种近乎于心电感应的预测能力,但这种解释中也包含了一定的事实。机器学习一直在不断发展,攻克技术难关,再创新高。卡巴斯基行为模型就是一种采用了类似技术的威胁探测方法。它的基本原理是,如果一个可疑文件很像已知的某种恶意软件,那很大程度上它就是恶意软件。
第 2 种可能 - 我们不小心开启了语音助手 -
另一个能够说明搜索引擎无所不知的解释是,我们不小心开启了语音助手。有的时候我们明明没有试图唤醒它们,但手机却认为它听到了AlexaOK Google嘿 Siri你好小娜等激活指令。
我们并不需要发音有多标准才能唤醒它们,很多时候相似的发音就足以开启语音助手,接下来的事情就很显然了,它们的确听到了我们说的话,并开始推荐相关的搜索内容。
在待机状态下,即使是独立的语音助手(比方说智能音响内的语音助手)也不会持续捕捉你的对话,它们总是在等待唤醒。智能设备利用小型缓冲区(能够储存几秒语音数据)、专用处理器和对某一特定词汇的语音识别算法捕捉开启指令。
语音助手大部分时间都是以低功耗且不产生网络流量的待机模式运行。只有在它探测到触发词后才会完全被唤醒,连接到服务器并传输识别语音信息。
第 3 种可能 - 划分用户族群 -
我们假设你曾和自己的朋友或家人讨论止汗露或其他的一些东西,之后你并没有搜索它,但其他人搜索了。这种情况下,你再看到止汗露广告的话,就不要觉得太过惊讶了。
原因是,如果你们经常在同一个地方,用同一个WiFi网络,甚至可能一直在同一个设备上轮流登陆账号,那么互联网服务会认为你们这两个账号之间存在一定的关联。这样的用户很有可能是共同作出购买决策的,因此会被搜索引擎分到同一个族群里,并为他们推荐相同的产品。
我们不能肯定地说这就是真实发生的情况,但这种对于互联网服务的猜测的确是符合逻辑的。
第 4 种可能 - 他们只是意外猜中了而已 -
我经常会看到一些完全不感兴趣的广告,什么桑拿设施、孕检、各种旅游目的地等等,你很可能也见过类似的广告。
每天都有数亿人在使用搜索引擎,所以从概率上来说,某一天你和朋友刚聊完汗蒸的好处就看到了相关的广告也是完全有可能的。你会把这件事发到网上说你的手机在监视你,而其他同样看到这个广告却没有谈论过汗蒸的人什么也不会说。这也算是一种由幸存者偏差造成的现象了。
这种巧合就远不如它们看起来那么令人惊讶了。我们来举个例子,如果有八支队伍一起竞争冠军,在一个赛季里有4+2+1共七场淘汰赛,每场比赛只会产生两个结果(不存在平火山视频局),那么总共也只有2^7 = 128种可能而已。
假设一栋大楼里有128户人,我们把128种预测结果分给每一户人家,那么总有一家人会收到百分百准确的预测结果。他可能会震惊于结论的准确性,但实际上,只不过是我们的样本数量够大罢了。
有一位视频博主在网上直播了他的实验过程。他不过才刚开口谈论狗玩具,就向观众展示了随之变化的谷歌推送广告。但这与我们之前做的实验仅仅只是看着相似而已,实际上完全不同。
最重要的差别在于,这个视频博主从一开始就打开了麦克风,音频数据直接传到谷歌服务器上。显然谷歌不会放过这些信息,于是作出了相应的推荐,只不过这个反应速度实在是太快太惊人了。
而我们的实验实际上是在探索另一个完全不同的基本问题:麦克风到底有没有在我们眼皮底下偷偷启用?它是不是一直在听我们的对话并将数据上传服务器?
另外需要告诉读者的一点是,真的会有人去听互联网巨头们从我们身上通过合法方式获取的音频数据!即便他们是出于优化语音识别的目的,但万一我们不小心提到了自己的名字、地址或是医疗记录呢?这就和文本搜索陷入了类似的尴尬境地:你无条件地分享你想知道的一切。
让我们回到我们的实验结果。尽管我和同事们连续一周都在讨论石膏线装饰,我们的手机上却尽是些乱七八糟的广告,和石膏线装饰没多大关系。
我们提倡大家加入到实验中来,更多实验数据才能得出有代表性的普遍结论。留言告诉我们你可能会想要买的那些稀奇古怪的玩意儿,但记得不要直接写出名称,尝试用谐音代替,别暴露了你的关键词。
最后,让我再讲一个故事。我有一个朋友,他总和同事们抱怨办公室厨房里的勺子不见了。于是大家就在发给他的工作邮件最后用白色字体写上勺子勺子勺子勺子,想要和他开个玩笑。他们的工作邮箱服务是由gmail提供的,你猜猜结果发生了什么?这位同事从此以后只能收到有关勺子的广告推送了!对他来说这是不是看起来非常可疑?
所以,不要光听信传言了,加入我们的实验一起找出答案!
当然,你也可以不做实验,只要安装卡巴斯基网络安全软件,并启用反弹窗和私密浏览功能。这两项技术不仅能够减少广告,还能阻止互联网上数千家企业的在线追踪工具。