墙裂赞同 @吴海波 的回答,最难填的坑还是跟业务有关的坑。我觉得任何跟技术有关的坑都不是不可抵抗力,作为“勇攀高峰”的工程师的你,遇到技术坑那不是坑啊,那是机会啊。遇到跟业务有关的坑那就是赤裸裸的不可抵抗力,有种吃苍蝇的感觉。
举个很经典的模型上线的例子,改进模型之前技术老大,产品老大,运营老大各种老大开个会,说我们准备上线一个新模型,换了DNN架构,用了Attention,再搞个Reinforcement Learning,各种business线的老大都听不懂的名词一甩,说能把我们的CTR提高,能提高用户观看时长,最终能提高我们的revenue。好啊,大家很开心,大家皆大欢喜说要搞起啊。
你好不容易做了3个月,AB test 1个月,改进了1个月,辛辛苦苦搞上线之后,产品老大说这不是我想要的东西啊,你怎么在用户首页推恐怖情色内容啊(废话,这哥们就爱看恐怖情色片,模型不推这个推啥)?!但老大的话不听不行,咱加点penalty上去。啥,penalty不行,一个也不许出现?!行吧,直接加条rule上去。
运营老大也说话了,说我们首页是要考虑市场公关因素的,是我们公司的脸面,要尽量推最popular的内容。但是popular的内容人家都看过了啊,你不得多explore一下嘛,尝试尝试其他类型嘛?不行,一定要popular。那好,我人为提高popularity feature的权重。
Editor老大也说话了,说我们想要再搞一个活动,插到推荐内容的前面,重点突出一下。你们的个性化排序让一让位置。行,我们往后靠一靠。
这一来二去,你的模型还是那个模型吗?数据的pattern还是那样的pattern吗?你的优化目标效果还是原来测出来的效果吗?你的模型好不容易提升了2%的效果,让人家加点rules之后,还有2%没有?
原来我当老大的时候,成天跟别的部门战斗,为的就是给组员说清楚优化目标是什么,尽量给他们提供一个纯净的技术环境;现在不当老大了,感觉还是安安心心的填技术坑省心啊。
其实推荐系统是一个技术远远达不到需求的领域。今日头条已经算是国内推荐领域的相当不错的水平了,仍然颇受诟病。
在我看来,规则啊什么的都不算坑,作为系统工程,规则是架构灵活性的一部分,规则保证了系统的人工把控能力,是必不可少的一部分,相当于最强的先验,没有必要厚此薄彼。但是除此之外,问题还有很多。
一、搞不懂的评价指标
推荐系统太难了。难到工程师和产品都还没清楚自己要的是什么。“推荐”这个问题本身都不是well-defined的。按照道理来讲,推荐系统要做的事情其实是“推荐用户希望看到的东西”,但是“用户希望看到的东西”落实到指标上,可就让人头大了。
以新闻推荐为例。你说究竟要得到什么呢?
这些指标相互依赖,此消彼长,目前主流是沿用计算广告的老路,按照CTR作为最广泛使用的评价指标来优化,这个指标的劣根性是显而易见的,然而至今并没有很好地指标来指导系统。
今日头条的做法是,优化CTR同时关注其他指标的变动;也有的从CTR开始,优化到瓶颈后进行Staytime的优化等等...
Medium的做法是,优化一个f(CTR, staytime,...)的多指标加权的综合指标,但是据我所知,这个加权的系数,还是一个magic number,是人拍脑门定的。
Pornhub的做法是,优化一个-staytime的指标,用户停留时长越短,则越好,其基本假设就是“撸完嫌人丑”。很多人对这个指标拍案叫绝,但是其实这给公司的商业化部门带来很大压力,因为如果用户停留时间短,则流量变现会变得很困难。
大家都在探索, 也并没有一个定论,究竟推荐系统该优化一些什么。
相信很多人刚入行的时候对单纯优化CTR都是有疑惑的,日子久了,也就都麻木了。
二、好的算法与不那么好的效果
有的算法确实很好,好到推荐的每个我都想点,但是算法越精准,在用户体验上未必是越好的。
举个例子,我喜欢汽车,电竞和科技。
好的推荐算法真的就推荐汽车电竞和科技,都是根据我的历史记录推荐的我确实喜欢的。
但也就只有汽车电竞和科技而已。
换句话说,好的推荐算法毫无疑问地会局限你的视野。
那他还是好的推荐算法么?
这个问题听起来就有点矛和盾的意思。有的时候我甚至在想,一个稍微差一点的推荐算法,是不是反而长期看是体验更好的?因为它不仅照顾了用户的核心兴趣,也稍稍辐射了一些边缘领域,在感兴趣和不感兴趣的边缘试探着。
就像下面这个高斯分布的图,绿色的“高瘦子”毫无疑问要优于红色的“矮胖子”,因为它像一把尖刀,更精准地直插兴趣点,但是究竟“精准的高瘦子”是不是真的好呢?
说到精准和探索,又不得不提E&E了。
三、天问的E&E
E&E, exploration & exploitation,这个真的是天问。
E&E,简单说,就是保证精准推荐的同时,进行兴趣探索。
一说大家都明白了,这不就是所有推荐系统做的最差的地方吗?我看了一个东西,就使劲出一个东西,App明明很多东西,我却越用越窄。
这个问题更加玄学,更加让人无奈。
EE要不要做?肯定要做,你不能让用户只能看到一类新闻,这样久了他的feed 流只会越来越小,自己也觉得没劲,所以一定要做兴趣探索。
但是做,就势必牺牲指标,探索的过程是艰难的,大部分时间用户体验上也是负向的。
那么,
其实大家也都没有想清楚,多避而不谈。
克劳备忘录也好,凯南电报也好,有两大共同点。首先,都是以现实主义的眼光去分析双方的关系。然后,给出的建议都是阳谋,并不是什么不可告人的阴谋,执行起来需要的不是鸡鸣狗盗的小聪明,而是惊人的意志力。
而美国现在战略界现实主义被边缘化,我推测,布热津斯基,基辛格那帮人应该写过不少。不过没所谓,美国能执行大战略的时代过去了。现在这一代精英上半年能管下半年就已经很了不起了。一个需要两代人以上持之以恒去完成的大战略,搞出来他们也执行不了。
冷战时期,从杜鲁门艾森豪威尔到肯尼迪尼克松,最后到李根老布什,个人性格和政治偏好差距不要太大,但是都忠实地完成了他们历史任务,沿着围堵政策做下去。这种战略定力和延续性,世间少见。在中国领导集团上能看见一些相似的东西,但是我们离得距离太近,反而看不清。但在美国精英层身上完全看不到这一点。
个人愚见。
克劳备忘录也好,凯南电报也好,有两大共同点。首先,都是以现实主义的眼光去分析双方的关系。然后,给出的建议都是阳谋,并不是什么不可告人的阴谋,执行起来需要的不是鸡鸣狗盗的小聪明,而是惊人的意志力。
而美国现在战略界现实主义被边缘化,我推测,布热津斯基,基辛格那帮人应该写过不少。不过没所谓,美国能执行大战略的时代过去了。现在这一代精英上半年能管下半年就已经很了不起了。一个需要两代人以上持之以恒去完成的大战略,搞出来他们也执行不了。
冷战时期,从杜鲁门艾森豪威尔到肯尼迪尼克松,最后到李根老布什,个人性格和政治偏好差距不要太大,但是都忠实地完成了他们历史任务,沿着围堵政策做下去。这种战略定力和延续性,世间少见。在中国领导集团上能看见一些相似的东西,但是我们离得距离太近,反而看不清。但在美国精英层身上完全看不到这一点。
个人愚见。