百科问答小站 logo
百科问答小站 font logo



在你做推荐系统的过程中都遇到过什么坑? 第1页

  

user avatar   wang-zhe-58 网友的相关建议: 
      

墙裂赞同 @吴海波 的回答,最难填的坑还是跟业务有关的坑。我觉得任何跟技术有关的坑都不是不可抵抗力,作为“勇攀高峰”的工程师的你,遇到技术坑那不是坑啊,那是机会啊。遇到跟业务有关的坑那就是赤裸裸的不可抵抗力,有种吃苍蝇的感觉。


举个很经典的模型上线的例子,改进模型之前技术老大,产品老大,运营老大各种老大开个会,说我们准备上线一个新模型,换了DNN架构,用了Attention,再搞个Reinforcement Learning,各种business线的老大都听不懂的名词一甩,说能把我们的CTR提高,能提高用户观看时长,最终能提高我们的revenue。好啊,大家很开心,大家皆大欢喜说要搞起啊。


你好不容易做了3个月,AB test 1个月,改进了1个月,辛辛苦苦搞上线之后,产品老大说这不是我想要的东西啊,你怎么在用户首页推恐怖情色内容啊(废话,这哥们就爱看恐怖情色片,模型不推这个推啥)?!但老大的话不听不行,咱加点penalty上去。啥,penalty不行,一个也不许出现?!行吧,直接加条rule上去。


运营老大也说话了,说我们首页是要考虑市场公关因素的,是我们公司的脸面,要尽量推最popular的内容。但是popular的内容人家都看过了啊,你不得多explore一下嘛,尝试尝试其他类型嘛?不行,一定要popular。那好,我人为提高popularity feature的权重。


Editor老大也说话了,说我们想要再搞一个活动,插到推荐内容的前面,重点突出一下。你们的个性化排序让一让位置。行,我们往后靠一靠。


这一来二去,你的模型还是那个模型吗?数据的pattern还是那样的pattern吗?你的优化目标效果还是原来测出来的效果吗?你的模型好不容易提升了2%的效果,让人家加点rules之后,还有2%没有?

原来我当老大的时候,成天跟别的部门战斗,为的就是给组员说清楚优化目标是什么,尽量给他们提供一个纯净的技术环境;现在不当老大了,感觉还是安安心心的填技术坑省心啊。


user avatar   menc01 网友的相关建议: 
      

其实推荐系统是一个技术远远达不到需求的领域。今日头条已经算是国内推荐领域的相当不错的水平了,仍然颇受诟病。

在我看来,规则啊什么的都不算坑,作为系统工程,规则是架构灵活性的一部分,规则保证了系统的人工把控能力,是必不可少的一部分,相当于最强的先验,没有必要厚此薄彼。但是除此之外,问题还有很多。


一、搞不懂的评价指标

推荐系统太难了。难到工程师和产品都还没清楚自己要的是什么。“推荐”这个问题本身都不是well-defined的。按照道理来讲,推荐系统要做的事情其实是“推荐用户希望看到的东西”,但是“用户希望看到的东西”落实到指标上,可就让人头大了。

以新闻推荐为例。你说究竟要得到什么呢?

  • 高CTR?那么擦边球的软色情以及热门文章就会被选出来
  • 高Staytime?那么视频+文章feed流就成为为视频feed流和超长文章feed流
  • 高read/U?那么短文章就会被选出来

这些指标相互依赖,此消彼长,目前主流是沿用计算广告的老路,按照CTR作为最广泛使用的评价指标来优化,这个指标的劣根性是显而易见的,然而至今并没有很好地指标来指导系统。

今日头条的做法是,优化CTR同时关注其他指标的变动;也有的从CTR开始,优化到瓶颈后进行Staytime的优化等等...

Medium的做法是,优化一个f(CTR, staytime,...)的多指标加权的综合指标,但是据我所知,这个加权的系数,还是一个magic number,是人拍脑门定的。

Pornhub的做法是,优化一个-staytime的指标,用户停留时长越短,则越好,其基本假设就是“撸完嫌人丑”。很多人对这个指标拍案叫绝,但是其实这给公司的商业化部门带来很大压力,因为如果用户停留时间短,则流量变现会变得很困难。

大家都在探索, 也并没有一个定论,究竟推荐系统该优化一些什么。

相信很多人刚入行的时候对单纯优化CTR都是有疑惑的,日子久了,也就都麻木了。



、好的算法与不那么好的效果

有的算法确实很好,好到推荐的每个我都想点,但是算法越精准,在用户体验上未必是越好的。

举个例子,我喜欢汽车,电竞和科技。

好的推荐算法真的就推荐汽车电竞和科技,都是根据我的历史记录推荐的我确实喜欢的。

但也就只有汽车电竞和科技而已。

换句话说,好的推荐算法毫无疑问地会局限你的视野。

那他还是好的推荐算法么?

这个问题听起来就有点矛和盾的意思。有的时候我甚至在想,一个稍微差一点的推荐算法,是不是反而长期看是体验更好的?因为它不仅照顾了用户的核心兴趣,也稍稍辐射了一些边缘领域,在感兴趣和不感兴趣的边缘试探着。

就像下面这个高斯分布的图,绿色的“高瘦子”毫无疑问要优于红色的“矮胖子”,因为它像一把尖刀,更精准地直插兴趣点,但是究竟“精准的高瘦子”是不是真的好呢?



说到精准和探索,又不得不提E&E了。

三、天问的E&E

E&E, exploration & exploitation,这个真的是天问。

E&E,简单说,就是保证精准推荐的同时,进行兴趣探索。

一说大家都明白了,这不就是所有推荐系统做的最差的地方吗?我看了一个东西,就使劲出一个东西,App明明很多东西,我却越用越窄。

这个问题更加玄学,更加让人无奈。

EE要不要做?肯定要做,你不能让用户只能看到一类新闻,这样久了他的feed 流只会越来越小,自己也觉得没劲,所以一定要做兴趣探索。

但是做,就势必牺牲指标,探索的过程是艰难的,大部分时间用户体验上也是负向的。

那么,

  • 牺牲多少ctr来保EE才算是合适的?
  • EE的ROI什么时候算是>1的?
  • 怎么样确定EE的效果?
  • EE要E到什么程度?

其实大家也都没有想清楚,多避而不谈。



user avatar   xinjunbo 网友的相关建议: 
      

克劳备忘录也好,凯南电报也好,有两大共同点。首先,都是以现实主义的眼光去分析双方的关系。然后,给出的建议都是阳谋,并不是什么不可告人的阴谋,执行起来需要的不是鸡鸣狗盗的小聪明,而是惊人的意志力。

而美国现在战略界现实主义被边缘化,我推测,布热津斯基,基辛格那帮人应该写过不少。不过没所谓,美国能执行大战略的时代过去了。现在这一代精英上半年能管下半年就已经很了不起了。一个需要两代人以上持之以恒去完成的大战略,搞出来他们也执行不了。

冷战时期,从杜鲁门艾森豪威尔到肯尼迪尼克松,最后到李根老布什,个人性格和政治偏好差距不要太大,但是都忠实地完成了他们历史任务,沿着围堵政策做下去。这种战略定力和延续性,世间少见。在中国领导集团上能看见一些相似的东西,但是我们离得距离太近,反而看不清。但在美国精英层身上完全看不到这一点。

个人愚见。


user avatar   simonzhang1 网友的相关建议: 
      

克劳备忘录也好,凯南电报也好,有两大共同点。首先,都是以现实主义的眼光去分析双方的关系。然后,给出的建议都是阳谋,并不是什么不可告人的阴谋,执行起来需要的不是鸡鸣狗盗的小聪明,而是惊人的意志力。

而美国现在战略界现实主义被边缘化,我推测,布热津斯基,基辛格那帮人应该写过不少。不过没所谓,美国能执行大战略的时代过去了。现在这一代精英上半年能管下半年就已经很了不起了。一个需要两代人以上持之以恒去完成的大战略,搞出来他们也执行不了。

冷战时期,从杜鲁门艾森豪威尔到肯尼迪尼克松,最后到李根老布什,个人性格和政治偏好差距不要太大,但是都忠实地完成了他们历史任务,沿着围堵政策做下去。这种战略定力和延续性,世间少见。在中国领导集团上能看见一些相似的东西,但是我们离得距离太近,反而看不清。但在美国精英层身上完全看不到这一点。

个人愚见。




  

相关话题

  如果一个行业大佬向你说了一件幼稚的事情,你会觉得这话是另有玄机,还是大佬自己就没整明白呢? 
  中科院某所研一新生,小样本学习、数据融合、强化学习、图神经网络、资源受限的计算这几个方向选哪个更好? 
  主成分分析的缺点,为什么要有因子分析?谁能清楚的讲讲? 
  技术一旦被用来作恶,究竟会有多可怕? 
  如何评价中国人民大学高瓴人工智能学院教授的薪酬标准? 
  是不是机器学习的框架都偏向 Python ?如果是,为什么? 
  神经网络为什么可以(理论上)拟合任何函数? 
  马斯克旗下的脑机接口公司 Neuralink 宣布 2020 上半年将进行人体测试,将带来哪些影响? 
  中国崛起超越美国会不会成为一件无意义的事? 
  有哪些关于机器学习的真相还鲜为人知? 

前一个讨论
以个人名义请日本动画公司作动画续作是否有可行性?
下一个讨论
如何看待中国留学生的「抱团」行为?





© 2024-11-09 - tinynew.org. All Rights Reserved.
© 2024-11-09 - tinynew.org. 保留所有权利