先说结论:未来10年,中国在基础研究上仍将处于追赶地位,但是在产业应用上很可能赶上甚至反超美国。
很多答案对中国的AI水平不屑一顾,甚至还有人说不如英国。但实际上真的有这么差吗?
必须承认,中国人工智能的学术能力仍然落后于欧美。尤其是有影响力的,突破性的研究远少于美国。但是这个劣势的影响并没有看起来的那么大。
第一,人工智能的技术壁垒相对来说很低,追赶较容易。美国有的硬件(显卡)我们也有,美国人能看到的最先进研究成果我们也能看到,甚至这些成果的代码都是公开在Github上的。
第二,两国人员流动频繁。很多美国的先进研究,是由(一代)华人科学家做出的。虽然这些人在美国工作,但是一方面他们在中国人圈子活跃,从而带动中国科研发展,另一方面,随着中国的发展和美国华人的生存环境持续恶化,越来越多的人会选择回国(美国华人面临左派种族配额政策和右派排外主义两方面的压迫)。另外华人在美国公司遇到玻璃天花板,也是很多高端人才回国的原因。
第三,个人认为这一波人工智能的科研爆发已经进入瓶颈期,接下来进展将会减缓,产业应用将会成为重点。这个是我的主观判断,不一定对,但是CV,Speech等主力方向进展缓慢,学术界转向GAN,RL等应用前景不明朗的方向是目前的趋势。
产业应用方面,我判断中国可以赶上甚至超越美国,主要依据是以下几点:
第一,中国有14亿人口的统一市场,同时产生了海量的数据。资本和数据是人工智能产业的重要推动力。欧洲由于语言和国家碎片化,导致市场和数据碎片化,进而导致互联网产业没有竞争力,几乎没有拿的出手的互联网巨头。而且这一问题目前看不到解决的希望。
第二,中国有多家互联网巨头,培养了大批人才。很多人崇拜google、facebook,看不起BAT。但是中国互联网公司和google、facebook一样能为10亿级的用户提供服务,技术水平是很强的。
第三,中国官方大力支持人工智能发展,大众对人工智能技术应用的阻力小。中国把人工智能发展提到国家战略的层面,将来自动驾驶、智能城市、智能医疗等技术的落地必然一路绿灯。
反观美国,近年政府对互联网和人工智能态度暧昧。一方面facebook等公司被指责在2016年大选中起了负面作用(右派认为他们压制右派言论,左派认为他们对极端右派言论太宽容),深陷舆论漩涡。另一方面美国人极端注重保护隐私,并对公权力不信任,医疗数据获取困难,安防更是想都不要想。还有美国各行业工会势力强大,它们害怕人工智能抢人的工作,将会大力阻挠技术落地。例如美国卡车司机工会已经在游说禁止自动驾驶卡车上路。
实际上,在一些领域已经可以看到中国产业赶超的苗头。
例如在人脸识别/安防领域,中国人工智能技术应用已经领先。一些公司的技术可以在上亿的人脸库中检索每个人。而美国政府在棱镜门后根本就不敢提智能安防这茬。
中国人工智能芯片产业的进展也很快。例如中国2000万安防摄像头提供了庞大的人工智能芯片市场。现在这些摄像头采集的视频需要上传到服务器处理,如果加装人工智能芯片,可以大幅节约带宽,提高性能。一些公司已经在进行相关研发。
另外,借着比特币的东风,比特大陆的利润已经超过NVidia。通过销售矿机,比特大陆积累了大量资本和ASIC芯片设计经验,进军AI芯片后进展值得期待。
PS:这种话题都能碰到你国党,也是服。为了避免招惹小管家,相关评论都删了。
学术研究和市场应用是两回事。
市场应用可以短时间内推广,学术研究则需要时间积累。
中国的学术水平肯定是不如美国的,短期内难以赶上。能做的就是争取在技术应用上超过美国,学术方面紧跟就可以。AI不只是学术,更是经济发展的催化剂。比如人脸识别,我们可以到处都是摄像头,美国这点就办不到。从论文到应用,也是一段很长的路。
二战前美国的科学远远落后于西欧,甚至落后于俄罗斯/苏联,但人家紧跟西欧科技发展的步伐,抓住二战移民潮的历史机遇,一下子反超。我们未必有这么好的机遇,但起码紧跟是可以做到的。
只要经济不断发展,当国内的生活水平接近发达国家时,我们引进人才最大的劣势就没有了。(如果美国在二战时不是发达国家,而是一个生活水平和西欧差距很大的国家,那些欧洲的科学家也不会去美国。)这个时候只要有政策和资金支持,我们一定可以有资本在人才上和最顶尖的西方发达国家直接竞争。
在我回答之前,绝大部分的回答讲得都是美国在AI领域处于领先地位,并且嘲讽中国竟然在AI领域同美国进行对比的自大,还有指出中国在AI领域尚且不如英日等国云云。
然而几乎所有的回答者都没有认真仔细阅读提问者的问题。中国和美国谁能成人工智能领域的领军者?这里问的是将来谁最有可能成为领军者,而不是现在已经成为了领军者。打个比方,老板问某个项目你能不呢做好,其含义并不是这个项目你已经做好了,很显然这么问的潜台词是项目还没有做完。所有,如果就提问者的问题来说,几乎所有的回答全部不合格。
那么话说回来,既然提问者已经提出了问题是关于未来的,各位回答者回答是关于现在的和过去的,那么描述好中美两国在AI领域的过去,现在和未来的前景就成了一个很值得回答的问题了。
闲话不多说,AI领域范围比较广,即使作为从业者也很难简单根据自己的经历来回答这么一个庞大的问题。那么使用一些权威的数据进行分析就很有必要了。以下分析数据均来自
为了方便理解,我将1996-2016年的部分数据进行了整理汇总成表格
这其中比较重要的几组数据是论文数量、他引数量、论文平均他引及这些数据的中美数量对比值。
首先看论文数量
从图上看中国的数据第13、14、15、16年存在异常,对应到数据表格中表明08-11年这四年数据异常增高,这极有可能意味着存在着论文灌水的情况。为了排除论文灌水对分析的影响,对这四年的数据进行线性拟合处理。为了简化分析,我们认为这些灌水论文水平较差,虽然会影响引用数量,但是主要是自我引用,对他引数量影响不大。则处理后的数据见下表
一、论文数量分析
论文数量情况如下图所示:
其中虚线是进行多项式拟合的曲线。
而中美论文数量的比值情况见下图:
很显然,从以上两图的情况来看,中国在AI领域的SCI论文数量不仅已经超过了美国,而且未来领先的优势会越来越大。
二、论文质量分析
文章被引用的数量往往能够反映文章质量的好坏,而为了避免自我引用造成的误差,我们选取他国引用数量作为衡量标准。由于文章的引用数量随着时间增加而增加,简单看被引用数量会不利于最近发表的优秀文章,而AI领域又是非常注重时效性的领域。因此,为了更好得衡量文章整体质量的好坏,我们选取了中美两国论文被引数量和单位论文平均被引数量的比值进行分析。
从中美总的被引数量比值来看,美国的他引数量依然领先于中国,但是中国正快速迎头赶上。而反应论文质量的论文平均被引数量比值来看,中国的论文在进入21世纪后的头5-6年在论文质量上有所下降,而在随后的10年时间里整体论文数量有明显上升。
综上所述,仅从1996-1016年的数据可以分析得到以下几个事实和推论:
1、美国在AI领域整体领先中国,但领先优势并没有许多人想象的那么大;
2、中国在AI领域正快速追赶美国,从他国引用数量上看已经非常接近美国;
3、从中国在AI领域整体快速追赶并接近美国的情况看,在AI领域的某些细分专业可能已经与美国并驾齐驱甚至超过美国;
4、从发展趋势上看,中国在AI领域的发展速度和潜力远非美国所能比拟。
总结一下,在AI领域,美国拥有过去,中美共享现在,而中国拥有未来。目前的AI领域可以说刚刚进入快速发展期,离瓶颈期还早得很。
因此,现在可以正式回答提问者的问题,以目前中国在AI领域的发展态势来看,中国迟早会成为AI领域的领军者。
最后插点题外话,很多关于人工智能的文章说,中国在人工智能领域处于领先位置,可为什么在学习过程中找到的资料都是国外的?这个问题下面 @罗浩.ZJU 的回答很具有代表性。事实上仅看顶级会议的最佳论文,CVPR和ICLR已经连续两年的best paper出现中国人的身影。
至于AI产业的产业化,我想看下图(CVPR2017的赞助企业)能认识哪些中国企业或许就能回答。
(@Higerra 引用一下你的图,如有冒犯请联系我即刻撤除。)
回复里面提出了不少质疑,尤其是 @刘垚。他提出了一些质疑,我简要将他的质疑总结一下:中国CS领域绝大多数SCI都是灌水,而美国则没有,因此用SCI数量衡量AI水平高低不具有可信度。
这里我必须澄清一下,我的回复里一开始就提到了论文数量,他国引用数量(排除小圈子相互引用的弊病),中美篇均他引数量的比值(用以衡量论文质量),并不是纯粹只拿论文数量说事。我想 @刘垚 既然你自称都已经读到CS的博士了,这点理解力就不要我过多解释了吧。
@刘垚 在回复里提到了AI领域的顶级会议,强调绝大多数SCI达不到顶级会议论文的水平,提到了一些顶级会议比如ICML/NIPS/ICLR/COLT水平以及CV/NLP/Robotics等应用领域顶会。同时他还指出中国的顶级faculty水平只相当于美国的普通faculty,其意思是表明中国的顶级研究者或者研究机构只相当于美国普通水平。
然而事实情况是什么?
ICML2016、ICML2017的best paper都有中国人身影,CV领域的顶会CVPR 2016、2017两年的best paper也都有中国人的身影。既然很多人质疑SCI论文的水平,那么顶会的best paper总不会全是垃圾吧?
我可以再举一个例子——何凯明,CVPR2016 best paper获得者,ICCV2017拿下双 Best paper,拿各种best paper拿得手软,曾供职于MSRA(微软中国研究院),后供职于FAIR(facebook人工智能研究院),这水平放美国怎么也不能算是普普通通吧?MSRA、FAIR也算得上是顶级的研究机构了吧?然后在 COCO + Places 2017 中,何凯明所在的FAIR同各路豪杰们展开对垒,比赛的结果如下:
这里说明下,比赛的大赢家megvii是一家来自中国的公司北京旷视科技有限公司 ̄□ ̄||
这里补充一些国内AI领域产业化取得的成绩和整体技术水平,这里着重关注计算机视觉和深度学习(根据柏格(Berger)的研究,人类由眼睛所获取的资讯占80%,所以CV+DL的组合也是未来前景最大的),主要的应用范围包括但不限于:自动驾驶、人脸识别、语音识别等等。
1、上文提到了的,旷视科技在ICCV2017的最后一天的 COCO + Places 2017 中力压MSRA和FAIR,取得六个单项中的3项第一和1项第二。
2、科大讯飞在2017 Blizzard Challenge国际语音合成评测中连续12年获得第一(BC是国际上规模最大、最具影响力的语音合成评测活动,历届活动吸引了美国卡耐基-梅隆大学、英国爱丁堡大学、日本名古屋工业大学、IBM研究院、微软亚洲研究院等世界一流研究机构与企业参加。)。
3、2016年9月19日,国内计算机视觉与人工智能创业企业图森互联宣布,图森互联研发的计算机视觉与深度学习算法在全球最权威、最具影响力的自动驾驶算法公开排行榜KITTI和Cityscapes评测数据集上均获得世界第一。仅KITTI数据集中,图森互联就横扫目标检测三个单项、目标追踪两个单项、道路分割四个单项,共计九个单项的全部世界第一。据悉,参加KITTI和Cityscapes评测的不乏百度、三星研究院、英伟达、UCSD、斯坦福、中科院等名企名校及科研机构。
4、2017年9月15日,在国际权威的医疗影像大赛LUNA的排行榜上,复星星际大数据(FONOVA)以平均召回率0.966的分数刷新“假阳性筛查”成绩,荣登世界首位。LUNA (LUng Nodule Analysis) 评测是肺结节检测领域权威的国际评测,也是医学影像领域最具代表性、最受关注的评测任务之一。其采用的数据来自美国多家医疗机构,并且由多名专家医生共同标注完成。该评测从2016年开始,吸引了大批国内外学术界和产业界团队的参与,包括香港中文大学、北京大学、浙江大学、奈梅亨大学、阿里巴巴、Mevis以及诸多新兴创业公司。
LUNA16的冠军争夺异常激烈,成绩不断地被刷新。今年年初,来自中国的杭州健培科技荣登榜首,并将此记录保持了6个月,7月13日该记录被阿里iDST打破,但6天后健培科技重新夺回冠军。8月3日,该成绩又被科大讯飞团队刷新,11天后,健培科技再次夺回第一,8月17日,讯飞以0.941的召回率再次刷新纪录,随后不久又被复星星际大数据(FONOVA)刷新纪录。
5、2017年11月7日,中国科学院计算技术研究所发布的全球首个能够“深度学习”的“神经网络”处理器芯片“寒武纪”。关于这款芯片, @杨军 和 @metaseq 都做了经常的回答,下面给出问题链接知乎用户:寒武纪神经网络处理器效能如何 ?。为方便观看,摘抄部分章节
寒武纪芯片由陈云霁、陈天石团队完成,从08年到16年的这八年里,陈老师课题组针对神经网络处理器做了一系列的出色研究:
12年国际首个神经网络硬件测试集
13年国际首个深度学习处理器
DianNao(电脑):ASPLOS'14最佳论文 亚洲首获计算机硬件A类会议最佳论文
14年国际首个深度学习多核处理器
DaDianNao(大电脑):MICRO'14最佳论文
15年国际首个通用机器学习处理器
PuDianNao(普电脑):ASPLOS'15
15年摄像头上的智能识别IP
ShiDianNao(视电脑) ISCA'15
16年国际首个神经网络通用指令集
DianNaoYu(电脑语)ISCA2016接收,分数第一
另外我个人觉得 @杨军 的观点非常有趣:
陈老师ISCA 2016的文章《Cambricon: An Instruction Set Architecture for Neural Networks》,从体系结构设计的角度来看,这篇文章并没有提出多少突破性的东西,在文章中作者也专门提到了这一点(在文章的section IV.里讲到并没有使用到一些新兴的技术,比如最近在最新款的Nvidia GPU里用到的3d stacking技术[16]),恰恰相反,从体系结构设计的角度来看,文章中提到的技术都可以说是一些“大路货”的技术,无论是指令集的设计,还是微结构设计使用的大体上都是10年以前的技术方法。真正有创新性的东西,还是在于这篇文章找到了一种开创性解决问题的方式,横跨了多个domain,使用传统的经典技术,针对日益popular的神经网络应用,提出了一种在能耗比、灵活性、性能上获得极佳trade-off的解决方案。这是一种框架性的贡献。在这个框架下,实际上可以在每个局部模块不断细化,加入更为复杂,新兴的技术。比如存储部分为了获取更好的访存性能,就可以将新近的存储技术引入。另外,在指令集设计上,可以加入对workload里更多类型逻辑的支持,比如受限的计算精度支持。在微体系结构上,是否可以结合特定的计算任务类型,在指令的调度部分做更多的考究,来更为高效地支持更为复杂的网络连接(比如Relay Back-propagation[17]这样的多路连接的网络结构)。
这可能才是这篇文章能够获得ISCA 2016最高peer review score的原因。
最后再次强调下观点:在AI领域,美国拥有过去,中美共享现在,而中国拥有未来。目前的AI领域可以说刚刚进入快速发展期,离瓶颈期还早得很。因此,现在可以正式回答提问者的问题,以目前中国在AI领域的发展态势来看,中国迟早会成为AI领域的领军者。
淘宝流量那么多,李佳琦和薇娅作为头部中的头部,成交额高不意外,但是实际成交额还是有不少水分的。
首先,淘宝直播排行榜上的成交额与我们平时所说的销售额及销售利润完全不同的概念。
淘宝直播上的成交额的数据,指的是定金锁定的GMV的总数据。
我从阿里巴巴的官网上找到了其披露的2019年财报[1]。在财报中,阿里对其GMV的定义是:GMV是包含了运费在内的所有已经拍下的订单价值(包含未付款订单)。
“ GMV”或“商品总价值”是指我们市场上已确认的产品和服务订单的价值,无论买卖双方如何或是否结算交易; 除非另有说明,否则GMV涉及我们的市场仅包括通过我们的中国零售市场交易的GMV; 我们针对中国零售市场的GMV计算包括买方支付给卖方的运费; 为谨慎起见,目的是消除对潜在欺诈交易对我们的GMV的任何影响,我们在计算某些产品类别中超过一定金额的GMV交易以及每天购买特定产品类别中的某些产品类别的买方的交易时排除在计算之外。
简单来说,GMV计算的不是实际交易数据,而是“销售额+取消订单金额+拒收订单金额+退货订单金额”的一个总和。
举个极端点的例子,我在淘宝上下单了100台iPhone 12 Pro,每台单价1万元,但是我没付款,但是按照GMV的角度,我这么一个操作,直接搞了100万。
这样做的直接后果就是,GMV可能远远超过实际成交金额,这也为啥电商都愿意公布GMV的原因之一。因为数据好看啊!
更何况,双十一李佳琦的销售额计算的是预售销售额,也就是定金锁定的GMV,这个水分就更大了,我就问问在座的各位,你们预售有不退款的吗?
其次,就是一晚上100多亿的销售额确实过于恐怖了。
有人可能对一百亿没有啥概念····
就拿我来说,我一个月2000块的工资,要不吃不喝41.5万年才能挣到这个数···
换算到公司上,李佳琦和薇娅一晚上的营业额,几乎等同于半家中国五百强企业一年的总营收···
如果最后全部都是实际成交的话,那阿里的地位就不会受到另外两家的威胁了。
以上,我是 @Puddle ,我们都有美好的未来
淘宝流量那么多,李佳琦和薇娅作为头部中的头部,成交额高不意外,但是实际成交额还是有不少水分的。
首先,淘宝直播排行榜上的成交额与我们平时所说的销售额及销售利润完全不同的概念。
淘宝直播上的成交额的数据,指的是定金锁定的GMV的总数据。
我从阿里巴巴的官网上找到了其披露的2019年财报[1]。在财报中,阿里对其GMV的定义是:GMV是包含了运费在内的所有已经拍下的订单价值(包含未付款订单)。
“ GMV”或“商品总价值”是指我们市场上已确认的产品和服务订单的价值,无论买卖双方如何或是否结算交易; 除非另有说明,否则GMV涉及我们的市场仅包括通过我们的中国零售市场交易的GMV; 我们针对中国零售市场的GMV计算包括买方支付给卖方的运费; 为谨慎起见,目的是消除对潜在欺诈交易对我们的GMV的任何影响,我们在计算某些产品类别中超过一定金额的GMV交易以及每天购买特定产品类别中的某些产品类别的买方的交易时排除在计算之外。
简单来说,GMV计算的不是实际交易数据,而是“销售额+取消订单金额+拒收订单金额+退货订单金额”的一个总和。
举个极端点的例子,我在淘宝上下单了100台iPhone 12 Pro,每台单价1万元,但是我没付款,但是按照GMV的角度,我这么一个操作,直接搞了100万。
这样做的直接后果就是,GMV可能远远超过实际成交金额,这也为啥电商都愿意公布GMV的原因之一。因为数据好看啊!
更何况,双十一李佳琦的销售额计算的是预售销售额,也就是定金锁定的GMV,这个水分就更大了,我就问问在座的各位,你们预售有不退款的吗?
其次,就是一晚上100多亿的销售额确实过于恐怖了。
有人可能对一百亿没有啥概念····
就拿我来说,我一个月2000块的工资,要不吃不喝41.5万年才能挣到这个数···
换算到公司上,李佳琦和薇娅一晚上的营业额,几乎等同于半家中国五百强企业一年的总营收···
如果最后全部都是实际成交的话,那阿里的地位就不会受到另外两家的威胁了。
以上,我是 @Puddle ,我们都有美好的未来
利益相关,狗家云员工,谈谈我的看法,权当抛砖引玉。
云服务的特点是,当开始大量使用的某个云服务商的话,如果要迁移到另一个,就会有巨大的成本。因为公司内部已经写了大量的代码,工具,以及培训了大量员工,去适配云本身。到了这种程度,除非该服务商作死,天天数据库丢数据,或者搞site down,正常公司不可能大规模切换,最多使用混合云的思路。
从这个角度来看,Amazon现有的地位在短期内是不可撼动的,除非它的自己作死。它签下的公司不太可能流失,同时那些公司也会进一步增长。
谷歌云能拼的就是增量,也就是新的公司,新的领域,或者新的流行技术。
新的领域,例如机器学习,各家云都在发力,谷歌靠的是tensorflow, TPU和AI Service.
新的流行技术,比如k8s搞微服务架构,谷歌就搞了云上k8s服务。
新的公司,一是提高普及率,让创业公司习惯是使用,万一创业公司像Airbnb 那样变成独角兽,而且整个基础设施都在云上,那就爽了;二是去抢Amazon的已有客户,或者银行这种想用用云的。
谷歌云的发展,要看中长期的竞争和市场容量。
我不太赞成其它答案的吐槽,谷歌太高冷了,谷歌一线工程师不oncall,Amazon服务好等等,作为一个在前东家做基础设施,饱受AWS摧残的工程师,我这就不吐槽了AWS怎么坑人的了。
早年AWS最重视云计算,大量推广,在学校赞助云计算课程,大量中小公司使用,特别是一些变成了独家兽,这是AWS的成功。但是从我的角度,AWS产品也不是都成功的。AWS提供的关系型数据库产品,S3,EC2,是非常好的,其它一般。我前东家,比如数据仓库用的是Hive, 日志/消息队列用的是Kafka,大数据处理用Spark,微服务架构上K8S。对于这些问题,AWS曾经并没有一锤定音的解决方案,或者说AWS在这些领域曾经没有足够的积累?虽然AWS现在也在提供这些产品,但谷歌云的产品设计对我来说更合理,pubsub搞消息队列,dataflow做数据处理,bigquery搞数据仓库,gcs对标s3,计算引擎和k8s服务也有,AI相关的也不差。从我对基础设施的需求理解,谷歌云给的解决方案很全面了。