百科问答小站 logo
百科问答小站 font logo



现在互联网公司还有做特征工程的工作吗? 第1页

  

user avatar   huangzhe 网友的相关建议: 
      

不仅有,而且这两年还Feature Store还兴起了。

Feature Store国内又翻译成特征平台,各家对Feature Store的定义不完全一样,但总体来说,这是一个完全托管的专用存储库,用于存储、更新、检索和共享机器学习特征。

可能新手并不了解,会想:Feature(特征)直接在Jupyter Notebook里定义,几行代码一写不就完了吗?对于试验来说,这么做无妨,但对于一个产品化的机器学习系统,这么做会使得特征难以维护。

所以Feature Store是干嘛的?我们最近也刚开始研究,这里不敢太贸然发表自己看法,就借助参考[1]一文中讲到的吧。这篇文章中,讲到Feature Store(特征平台)的作用从低层到高层分别为:

最底层是访问(access)的需求。这一层需求包括特征可读取、特征转换逻辑透明和特征血缘可溯。它们使得特征能被发现、分享和复用,减少重复。
其次是服务(serving)的需求。这一层的核心需求是为线上服务提供高吞吐、低延迟的特征读取能力,而无需通过 SQL 去数据仓库读取。其它需求还包括:与已有的离线特征存储集成,使得特征能够从离线特征存储同步到在线特征存储(例如 Redis);实时的特征转换等。
诸准确(integrity)需求。最常见的需求是最小化 train-serve skew,确保特征在训练和服务环境下是一致的。另一个常见需求是 point-in-time correctness(又称 time-travel),以确保历史特征和标签被用于训练和评估时不存在 data leaks。
再往上,是便利的需求。特征平台需要足够简单好入手,例如提供简单直观的接口、易交互、易 debug 等,才能让大家采纳和受益。
最后是自治(autopilot)的需求,包括自动回填特征、对特征的分布进行监控和报警等。我知道有些公司有做这一层的事情,但我没怎么读到相关材料。

大家可以看到,其实Feature Store这个东西,从技术并没有新东西,更多的是把特征的创建这个过程单独提出来,从而满足利益相关方的需求,无论是业务方还是技术方,都用同一套基础架构;同时,特征平台的离线计算,可以减少在线计算的压力。

所以总结下。现在不仅还有做特征工程的,而且还有把特征这件事真正做成工程的。

参考

  1. ^特征平台需求层次理论 https://www.infoq.cn/article/83sxswlgqvejae7f9vut



  

相关话题

  如何评价谷歌推出1.6万亿参数超级语言模型Switch Transformer? 
  没进入体制内的人真难生存,并越来越难。? 
  你们怎么度过职场迷茫期? 
  最近在知乎投广告的 Rokid 是什么来头?号称国产 AI 智能产品,技术上有这么厉害? 
  开发商推出买房送工作活动,如何评价这一营销手段?你会为了得到工作而买房吗? 
  是什么原因让原本就不富裕的农村家庭买车或者买一些高消费的东西? 
  为什么很多人很努力却还是过得不如意? 
  如何评价AlphaGo Zero? 
  你是否认同:机器人人工智能应该给人类提供便利,而不应该被资本家利用来消灭就业? 
  如果美国禁用 Tensorflow 和 Pytorch 对中国的人工智能有何影响? 

前一个讨论
为什么nn的较大问题是会陷入局部最优时,不选用凸函数作为激活函数?
下一个讨论
微软亚洲研究院 (MSRA) 的实习体验如何?





© 2025-05-06 - tinynew.org. All Rights Reserved.
© 2025-05-06 - tinynew.org. 保留所有权利