Facebook 几位数据科学家 2015 年在 Science 上发文,
表示“用户对信息的主动筛选是导致他们接收信息单一的主要原因,网站的新鲜事算法排序对此影响较小”。文章遭到学术界的尖锐批评,被某些学者称为“洗白”论文。争议集中在该研究的样本和结论两方面。
目前我们对“算法排序是否阻碍多元信息传播”这个问题还没有统一答案。但社交媒体普及不过才几年时间,日后应该会有更多权威研究。
--
先来看 Facebook 的这项研究。研究分析了 2014/07/07 到 2015/01/07 半年来用户在个人主页上看到及点开的新闻链接。研究人员计算了每位用户和每个新闻链接的“政治倾向分数”,由此判定哪些内容和用户意见相左。(政治在这里是一个非常广泛的概念。总统竞选是政治,堕胎、转基因也是政治。)
文章的核心发现就是下面这幅图:
可以看出,如果 Facebook 随机向用户展示全网正在被分享的内容(忽略好友关系),自由和保守派看到的内容有超过 40% 都来自对方阵营。好友关系(第二列)大幅减少了这个比例,让信息变得更单一,因为保守派的朋友多是保守派,自由派的朋友多是自由派。
再看右边两列:算法排序筛掉了 5% 与保守派意见相左的内容,8% 与自由派意见相左的内容。而用户有选择性的点击进一步筛掉了与他们意见相左的内容,分别是保守派 17%,自由派 6%。
由此,研究人员得出如下结论:
我们毫无疑问地证明,在限制 Facebook 多元信息传播这个问题上,个人选择比算法的影响更大。
--
文章发表后遭到学术界的尖锐批评。主要问题如下:
1. 该研究的样本不是随机选取的,而是限定在“一周登录 4 - 7 次”且“在 Facebook 上标注了自己政治倾向”的用户。
虽然样本数量很大,但并不具代表性,样本选取极有可能对结果有影响。比如,Facebook 绝大多数用户(91%)没有标明政治倾向,对政治可能没那么关心,那么算法排序对他们的影响可能会更大。论文不该用“毫无疑问地证明 Facebook 上...”这种话来误导读者,让大家以为论文的结论适用于所有 Facebook 用户。
论文作者对此回应说,标注了政治倾向的用户一般更积极参与政治,所以研究这些人也是很有价值的。以后当然也可以研究其他群体。
2. 不能因为“算法”的影响比“个人选择”的影响小,就给算法“洗白”。学术界很早就发现“人们更可能选择浏览和自己意见相似的内容”,这点没有争议。大家想知道的只是算法排序有没有加剧这一现象。
密歇根大学一学者批评说,这篇论文就好比烟草公司选择对煤炭工人进行研究,
发现吸烟给人带来的危害不如比挖炭。正确的结论应该是“吸烟和挖炭都对人有害”,就好比 Facebook 这篇论文的结论应该是“算法和人工选择都限制了用户接触与他们意见相左的内容”。“算法排序”和“人工选择”在这里是 and(和),不是 or(或)。
3. 就算我们来比较“算法”和“个人选择”哪个影响更大,论文的结论也只在保守派这里成立。算法筛掉了 8% 与自由派用户意见相左的内容,而他们主动选择只删掉了 6%。
4. 因为只有 Facebook 内部有数据,所以其他人无法重复这个研究。如果另一组学者按照同样的方法研究,会得到相同结论吗?Facebook 的算法每天都在变,我们可以确定今年的算法和去年的算法对信息的筛选效果一样吗?
--
其实解决这些问题最简单的办法就是 Facebook 自己做一个实验,实验组的新鲜事页面经过算法排序,对照组的没有算法参与,完全逆序排列。但 Facebook 前几年因为在用户身上做实验
已经遭到社会批评且涉嫌违法,所以再次大规模做实验估计不太可能。更重要的是,Facebook 作为商业公司,对算法排序是否加剧大众意见两极化也不太感兴趣。
希望以后学者可以设计厉害的实验来回答这个问题。不管是观察还是做实验,都要牵扯到数据科学、计算机、计量、心理学/社会学/传播学/政治学理论,确实是有意思的跨学科问题。
--
相关研究:
--
其他数据话题下的回答:
「数据会说谎」的真实例子有哪些? 如果「男女同工不同酬」是事实,为什么公司不全部招聘女性,以获得同等的生产力并节约成本?