类似ScaleAI的标注公司有不少,云端有云端的算法,线下有线下的帮派,但不外乎都是需要 “成千上万名社会标记员+算法协同调参” 的方式。以及,伴随着AI应用场景的市场化,从事 “数据集-人工标注-前置调参” 的生意也越加繁荣,尤其对于自动驾驶和安防摄像这样的需要快速发现bias、快速修正并收敛模型的应用。
先看数据驱动AI的趋势,读者从中可以自行推断ScaleAI的商业逻辑如何。虽然从数学上看,AI的很多路线并不算科学突破,而是工程技术;因为理论上通过一组多项式函数即可无限的线性逼近那个光滑函数直至准确结果【泰勒公式】,至于逼近到什么程度才能拟合精确解则是未知,当下能够梯度迭代得出的仅是次优解/概率解/近似解;然而,如今很多的神经网络科学家却是认为这种线性逼近可以Stop了,所得共识是,AI计算模型就是应当需要不断反复训练+手工调参的工作才能得到最佳的次优解,这才是一项工程的常态。
但并非海量数据中的每一条都需要标注的,有些数据集只要规模足够,那么样本间的彼此依存关系和连接规律是可以被轻易发现的,这预示一种趋势:来自云计算大厂的全领域大模型训练能力和云边协同模式,会演变为AI寡头时代来临。思维发散一下:以后,拥有大规模算力集群的云计算大厂就要自己构建无标签的大规模预训练模型了,随后将模型release给下游的应用场景公司/算法开发者使用,后者再通过携带有domain-specific标签的自有的小样本模型子集再跑一遍微调和抽取,做到轻量化,再交付予应用场景中,以较低的算力/模型/参数开销做逼近式的、快速和循环迭代的,不断接近场景可用的准确结果,如此往复,就自然演进成上下游绑定的云边协同生态了…;同时,这也意味着,有监督学习的红利已经慢慢弱化了。基本上业界下一代人工智能训练的形态会是:大规模上游预训练+小规模下游微调的思路。NLP基本走通了这个思路(虽然如今GPT-3被批评只有记忆没有常识),但仍然存在由多义词导致的结果多歧义的诟病;CV也会跟随这个思路,且不存在上述NLP的问题,由此会改变CV的产业格局和开发模式,在这种开发模式下,而对于场景应用的开发者而言,适应算法并不难,要取舍的是适应这种生态。
要知道,当下的很多AI团队仍旧依赖通过算法变现的传统商业模式,但场景算法开发并不难,小型团队即可完成任务,难点在于让算法复用于、普惠于其他更多的场景;所以需要工业化的AI开发,一个算子/算法开发完成,可以泛化/通用到尽可能多的场景,让更多的使用者受益并为之消费。
而获得更好的泛化能力,当下的依赖是大数据集/大模型。比如人脑神经元就具备极强的泛化能力,就是源自人类大脑在繁衍过程中不断学习和接受的海量数据,虽不如计算机存储空间,但这些知识都是千万年基因遗传所沉淀的有效知识。因此,普惠AI需要尽可能多的数据样本,且模型需要足够强大,强大到能够从海量的无标签数据中捕捉出事物规律,捕捉个体样本彼此之间的联系,才能形成有效知识,并将所学知识应用到更多场景之中。当然,大数据、大模型就意味着大算力支撑。另外,就是参数量是重要指标,但不是绝对衡量指标,人脑神经元数量约是1千亿级别,约有100万亿参数量(或称为突触),远高于GPT-3 1750亿参数量的1000倍,但GPT-3裸模型依旧不如大脑的训练和推理灵活;因此当下的演进是,往往先训练一个大模型,再把它蒸馏/压缩到更小(甚至压缩1000倍),进而提炼小模型发布给下游场景适用(但并不能一上来就训练一个小模型)。
尤其对于小样本和长尾分布的场景,这是两个困扰很多AI用户的问题,全领域大模型更适用。通过大数据样本+大模型,即使这些海量数据没有标签,也有益于捕捉样本彼此之间的关系/规律,比如你看了太多猫的图片,但突然某天看到一张老虎图片,进而可以关联老虎的头、腿与猫的关系和相较差异,这样一来,甚至不需要看大量老虎图片去训练,便可以藉此解决小样本和长尾分布的问题。回顾工业场景的例子,假设用户提供了20万张图片数据集,且告知你其中的缺陷样本仅有200张,即1/1000,但是这200张缺陷样本是如何找出的才是关键;倘若通过云端大模型训练,虽然模型并未事先标注过图片,但它仍可以判断图片之间的关系,以及判断个体图片与其它图片的相较差异,首轮可能遴选出1000张缺陷假定,用户仅需针对这1000个类做小规模标注即可,但是这1000个缺陷假定也许并不覆盖真实的200张缺陷,假设仅覆盖160个,那么便需要第二轮再用已得到的160个缺陷样本再与大模型训练一次,再次迭代出的小模型,再次付诸小范围标注,不断迭代和逼近200张缺陷的准确结果。用户可以不断把自己的领域小样本结合大模型做训练,通过不断获得样本数据间的关系,不断的梯度迭代,逼近收敛为准确的小模型。从这一段描述的场景,也可以看到全领域大模型的实用性。
当然,大部分用户用不到最大的那个模型,也吃不下庞大的算力开销,往往会通过剪枝/蒸馏/压缩等方法尽可能缩小模型,甚至以损失精度为代价,压缩后可以相差1000倍+,进而提炼出小模型给下游场景适用;尤其比如部署到边缘,用于云边协同。但核心是,不能一上来就训练小模型,而是必须从大样本、大模型开始训练,再收敛和按需抽取为领域专精的小模型(例如基于prompt-based的调优),两者对于非标注缺陷的识别率差异是很大的;同时,这也更适用于诸如自动驾驶这种终身学习的场景,可以低开销的快速收敛一个刚刚发现的识别错误,这是云计算的优势,也是云创造普惠AI的优势,仅有云平台才具备大规模的、动态弹性分配的算力;尤其对于那些非均匀输送样本的领域用户,云算力会随着样本输送规模而弹性扩缩。
另外,当下CV和NLP面临的共同困难,都是标注信息的不完善,人工输入的标签已经不能更优指导学习过程,越来越多的基于DL的机器视觉已经到了足以质疑人工标签的程度,这些标签的价值也即将被榨干了;因为人工标注永远无法模拟人脑的推理过程,也仅能提供一些间接、可量化的信息。
要知道无标签数据的增长是超线性(甚至指数级)的,但是受到人力成本约束,有标签的训练数据的增长只能是线性的。这也就意味着,随着时间的推移,将来的学习算法必然会面临无标签数据远多于有标签数据的情况。此时,利用海量无标签数据的最佳方式,就是把训练过程分为两段:先在上游任务中利用大量通用无标签数据对模型进行预训练,再在下游任务中利用少量有标签的领域内数据对模型进行微调。在NLP中这套思路已经趋于成熟,而CV领域也在跟随这一模式,但因为视觉的domain太多太杂,给实际应用带来不少麻烦。
但上述论点显然不是终极答案,长期发展和护城河的关节还在于大厂自己的无/自监督学习水平,以及对于无标签学习后的评价指标是否足够准确和被认可。另外国内的大厂暂时还不具备这种能力,这样的能力是模型创新和奠基的能力,当下也主要就是Google和FB…等。
Hinton也曾说过【未来AI系统主要是无监督的;无监督学习可以从未标记、未分类的测试数据中提取知识——在学习共性和对共性是否存在做出反应的能力方面,无监督学习的能力几乎达到人类水平。比如在人类视觉皮层寻找启发:人类的视觉采用一种重建的方法来学习,事实证明,机器视觉系统中的重建技术增强了它们抵抗对抗性攻击的能力。然而,如果你采用一个拥有数十亿参数的系统,对某个目标函数执行随机梯度下降,它的效果会比你想象的好得多,规模越大,效果越好。这让一种说法变得更合理:即大脑计算某些目标函数的梯度,并根据梯度更新神经突触的强度。我们只需要弄清楚它是如何得到梯度的,以及目标函数是什么】。因此,无/自监督学习是未来的方向,但是现在还有很长的路要走。至少两个问题待解决:一是如何设计更好的评价指标;二是如何扩展到更大体量的训练数据上去。
如今,对于AI变现模式;BAT+HW、旷视、商汤等云计算和AI大厂都在构建全领域大模型,以及大算力中心;预示着AI寡头优势的形成。未来,工业化的普惠AI开发,行业上下游分工明确,大厂负责提供全领域大模型、大算力池以及全部开发配套和算法生态配套,小公司则无需做出端到端的实现,仅需要学习使用平台,并专注于应用场景发掘、小模型维护和算法生态即可;而对于中大型的政企用户,领域knowhow更强,领域样本也更多,同时对于成本要求也更为苛刻,常见需求是通过联邦学习的模式,联合分布于多地的模型共同训练和迭代,并最终发布于混合云或自建应用场景中,由于前期的AI后端作业受限于庞大的资源/算力开销,因此政企用户依然会选择云平台和AI大厂的资源,包括混合算力/存储/算法算子生态/调参工具链等资源。当下AI的研发成本实际比它创造的价值更高,AI的变现需要激活更多商业模式,同时活用方法,摒弃算法变现的旧传统和碎片化,驱动更多应用场景使用AI,让NN模型获得更优的泛化和普惠能力:让小公司专注于场景和产品,加快开发和产品发布效率,后端大模型训练需求则直接通过云平台供应全领域模型以及混合算力,并藉以云边协同快速落实于多种场景;AI的变现模式一定是依赖大量的边缘累积的广阔应用场景。
【总结】那么对于ScaleAI类似的模式如何看待?分别从用户视角和云计算大厂视角即可。一方面,当下的融资额不说明问题,财务VC出于基金流动性的需要也会追涨热门故事和热点项目,项目早期投资者更加乐见此景,无关于项目当期表现;二方面,作为从事AI-Labling-Service的公司,有经年累月的样本标注和调参经验,手中积累的行业knowhow和数据规模不可小觑,自己构建或是联合云厂共同运营全领域大模型,甚至推出独门的框架和工具链都是有可能的故事。
个人理解,一个AI落地场景能来钱,肯定会优先搞定数据,至少是尽可能多的数据。一个拿不到数据的场景,AI本身就是很难落地的。在实验室呆久了肯定会产生模型才是一切的思维,其实数据才是需要首先思考的那一个。前两天和实验室的老师聊也是深受启发,整个圈子在高屋建瓴地思考之外,也应当下沉到底层,思考怎么:1. 有效、高效获取数据;2. 获取“有效”数据;3. 融合形式各异的数据;4. 挖掘数据的更多信息,等等…
Model层面的进步能帮大家水Paper,Data层面的提升才能真的帮助落地吧。
和 @光喻 聊了下,很有启发分享一下。
先聊一下我在中国看到的数据标注行业。
一种是大公司自建自营的数据标注团队。直接和公司内的各个炼丹部门对接。优势呢是可以保证数据安全。这是大多数大公司选择的数据标注方式。公司的核心数据基本都是使用这种方式来标注。
另外一种呢,就是数据标注小公司。大公司建数据招标平台。在招标平台上发布任务,小公司来试标竞标。这种的一般是数据相对没那么敏感,可以暴露给第三方小公司的边缘数据。
所以中国公司把核心数据视为自己的核心资产,最有价值的数据自己搞。剩下的呢就是一些残渣剩饭,似乎不足够支撑起一个规上企业,只能养活一些小公司。
所以看到scale AI的时候,我是非常无法理解其商业模式的。居然估值可以做到500亿,融资可以做到20亿。
@光喻 猜测scale ai的本质是在印度或者南美开办数据外包工厂。虽然只是推测,但是我们觉得已经很接近真相了。
这种模式中国为什么搞不起来?
第一,中国的人口红利使得中国的数据标注成本显著低于北美。中国公司并没有很强的动力去使用海外的人口红利。
第二,中国不像英美拥有历史悠久的海外殖民史。并没有海外大量使用中文作为母语的人口(马来西亚新加坡等南洋华人人口规模不大,谈不上人口红利)。相比,印度及东南亚很多国家拥有丰富的英语人口,可以提供大量的人口红利为美国所用。
再说点题外话,前几天央行的工作论文中提到,可以开放移民转化为中国的人口红利。我觉得思路还是不够开阔。现在中国企业往往只把海外人口当做消费者,可以学学老牌帝国主义国家嘛,把海外人口转化为中国可用的劳动者,不也是一种路子?还不会有引进移民带来的种种社会问题[狗头]