自动驾驶不会凉,但是目前这种试图在自然道路上像人类一样驾驶,还要求近乎绝对安全是不太可能实现的。
自动驾驶会遇到无数 corner case,这个是无法穷举的,目前的机器学习是经验主义的,没见过的事情就学不会,吃一堑都未必长一智,要吃好多堑才行。
比较好的方法是 降低道路环境的复杂性,把能引起自动驾驶事故的意外因素排除掉。
城市里有轨电车开得特别慢,还是会出事故,高铁跑那么快也是安全的,因为有轨电车没办法把意外因素排除掉,而高铁的路线基本是封闭的。如果允许你随便往高铁铁轨上放点什么,也是很危险的。
如果城市道路可以全封闭起来,把行人自行车排除掉,道路即使检修施工也是假定路上的车是自动驾驶的,给与明显的标识。那么自动驾驶的车辆只需要应对简单路况就可以了。这就需要整个城市和道路系统都以自动驾驶为前提来设计施工。自动驾驶不是个单纯技术问题,是个社会治理的政治问题。
自动驾驶不会凉凉,相反,2022年,是自动驾驶元年
先说什么是智联汽车。
而我又为什么说2022是元年,不能是2021,2023吗?
由上图可知,智能座舱+自动驾驶+其它组成了智联汽车的核心
所以,华为问界M5就是智能座舱的新顶。这也是苹果小米做汽车的优势理由。
无论是传统汽车厂还是造车新势力,都做不到。
但可以有一点是。p7所采用的硬件与M5所采用的硬件,均是能量产化。无论是高通骁龙的 820A还是海思麒麟990A(也可能是710A)都没有任何困难。
换而言之,就是智能座舱已经没有技术问题。只有价格问题了。随着市场量产,价格降低是必然事件。
同理,即使是辅助驾驶。也分为准辅助驾驶平台+辅助驾驶系统。
而在这情况下。华为极狐Hi版使用了准自动驾驶平台的硬件。并且传将于6月交付。同样蔚来ET7,ET5将于22Q4交付。这代表两套硬件的量产。
除了硬件的不同,双方还有芯片不同。华为为MDC610平台,单组算力为200TOPS,最高四组800TOPS。
同样还有威马M7,理想X01……。
当然,之前最关注的激光雷达是妨碍自动驾驶进程的核心之一。要知道当初美国Velodyne,售价达到8W美元。
这样,准自动驾驶(准自动驾驶平台+准自动驾驶系统)就能量产了。
至于其它的,联网,车联网。云端,云计算。厂端,后台数据系统推送。目前来看,并不影响智联汽车发布销售。
不是说不重要,像车联网与云端,可是实现智慧交通的核心功能。
但如同5G手机一样。虽然5G并没有建好,但并不影响5G手机先开售。
总结。2022年,将是智联汽车元年。我们即将迎接一个新的出行时代。
能问出这种问题说明是个内行人,目前自动驾驶的难点主要在于感知和决策规划,纯视觉的路线基本上game over了,虽然以后,算力会越来越大,越来越便宜可以实时跑更复杂的神经网络模型,但是,这些模型,或者视觉这种手段本身就很有局限性,并且,训练成本也高,受环境影响大,造成基本不可能达到商用级别的鲁棒性;而现实道路的复杂性,和真实世界近乎无穷无尽的变化,是很难利用有限的数学模型(神经网络模型)完全拟合出来的。一个典型的场景,红绿灯或者交通标致相对老说是很简单有限的一些图形,但是放在香港,东京那种狭窄的充满花花绿绿广告牌的街道目前来看也很难准确鲁棒的识别出来。当然可以通过一些技术手段,比如锁定搜索区域,借助V2X 5g车联网等帮助,但是这已经不是一个纯视觉的问题了;
另外,决策规划这一块,我个人感觉这属于深水区了,已知的可能只有google开始触及这个深度。人在驾车的时候,会实时的做出很多决策和预测,很多经验判断,做一些潜意识逻辑思考,目前深度学习也好,传统的方案也好,都没办法做到人类思考,推理,类比,联想的思考能力,举个简单的路上一个风吹上去的塑料袋,或者一大堆飘落的树叶,雷达,或者视觉看来就是一个障碍物,可能要停车或者做紧急避让,但是,人就会认识这个东西,直接开过去,或者,目前经常会遇到的,一个小水洼,或者阴影,视觉可能错误认为是障碍物,当然,这个时候可能雷达告诉你这里能通行,这个时候,你的环境融合建模逻辑怎么写呢?是更相信雷达,还是视觉?是走是停?当然这也涉及感知的问题,你说我感知都认出来了,我就开过去,这个基本是不切实际的,你的决策规划模块很难为每一种特殊场景都去写一个if - else判断,这样的情况在现实中几乎无穷无尽;此外还有,看到路边的小动物是否减速,听到警车或者救护车的警笛是否停车避让,跟渣土车保持距离,甚至车上的乘客有异样,是自动驾驶到最近的医院还是派出所等等,难道全部写成if-else判断么?
稍微懂点技术,就能马上意识到,上面提到的这些问题目前几乎看不到存在能够良好的,彻底的解决的工程化方法。
当然你说,以后我们这些都可以依赖大数据啊,我们可以收集非常非常多的驾驶的经验数据,通过云端大数据来进行判断,这相当于我们拥有一个全世界优秀司机的经验池,自动驾驶汽车完全不必理解这些行为的原因,只需根据场景进行最合理的引用;
实际上这也是目前自动驾驶的一个主要发展方向,就是车路协同,可能做自动驾驶的人是现在全世界最渴望5g,云计算早点铺开的一批人,目前纯车端智能遇到的各种瓶颈,我靠智慧的道路去突破,车端智能的局限靠智慧的城市智慧的道路去弥补,比如,目前到处存在的监控摄像头,以及可以畅享的未来可能出现的更加多种多样的布设在道路,城市的传感器,可以帮车辆提前并且更大范围,更加准确的感知周围的环境,通过更加实时的网络将信息发送到车端;路上车辆相互之间可以自组网,互相告知大家自己位置和行驶状态,相互协同,前车为后车分享经验,比如前面可能出现的拥堵,或者避开维修的路段等;数据中心将协调车流,这样像目前过十字路口,环岛等难题也会变得非常简单;
当然这是一个非常美好的憧憬;那么你可能也意识到了,要做到这个程度可能比目前最乐观的自动驾驶落地时间还要久远的多,所需要的投入也是天量的,毕竟这意味着,我们几乎要翻新整个城市交通的基础设施,变更整个城市的设计建造思路;中间可能还会遇到目前难以想像的技术和工程难题,全都需要时间和巨大的投入去解决;
那么,你说,为什么要搞这么复杂?难道不能让汽车像个街上的小老鼠一样,钻来钻去,见人就躲,见缝插针的行驶么?我确实很认真的思考过这个问题,因为,目前依靠多种雷达的组合,利用目前已知的技术手段,基本上是可以做到检测出车辆周围几乎所有可能构成危险的障碍物的,那么,我只用最简单的逻辑判断,不管是树叶,还是行人,车辆全都无脑躲开,利用算力强大的计算机,做到天下武功为快不破,就想街上逃命的小老鼠一样可以么?当然其中还涉及很多动力学的建模,并非一定是可以躲开所有障碍物,比如,躲开侧面的车,但是由于机动能力的限制可能会撞前面的车或者护栏;
事实上这种设计应该是已经存在了,用来躲避潜在的外来撞击,以及不去主动撞击别人。但是无人驾驶上路终究还是需要与其他车辆存在一定的互动,并且这种互动必须是遵循交通规则的,比如,跟车要保持距离和一定速度,转弯让直行,比如不能随意变道,红绿灯,环岛,十字路口通过,都有相应的规则需要遵守;无人驾驶系统的开发者必须去实现这些规则;而具体到规则实现,规则遵守运用,就又回到上面的提出的行为决策的问题了。对应到目前一直的情况,实际上装配有多个激光雷达,毫米波雷达的google和baidu的L4无人驾驶方案是基本上没怎么听说有撞车发生的,但是,经常会表现的很傻,尤其是通过路口的时候,经常有体验者提出反应比较迟钝,或者过于谨慎;(特斯拉的设计非常激进,不用激光雷达,只有一个毫米波和一些摄像头,并且看上去决策规划模块的驾驶策略设计也比较激进,感觉就是上面提到的小老鼠逻辑,所以总是撞);
所以,总结下来就是感知能力有限,不具有真正意义上的思考和判断能力;
其实这也是目前所有人工智能的局限所在,推荐UCLA朱松纯教授的一篇很火的探讨目前人工智能发展现状的文章给大家参考https://www.sohu.com/a/227854954_297710;
那么回到题主的问题,无人驾驶什么时候凉,如果认真看完上面分析的无人驾驶面临的困境,和朱松纯教授的文章,那么是有可能得到这样一个结论的:
真正能大规模应用的,能让人完全放开手脚的无人驾驶在目前这个阶段很可能并不是一个很好的商业尝试。
或者说通用无人驾驶技术(注意是排除了限定场景的通用无人驾驶)现阶段不适合工程化和商业化;
根据以往的经验,能够大规模铺开,大规模商用的东西,必然能够较为容易的利用现有的技术和工业基础,首先进行工程化,然后,通过大规模的工业化生产压低成本,进而广泛应用,并且创造利润。
而能够工业化生产的前提是,技术本身已经完整的走完了三个准备阶段:1.理论突破,就是一件事情,科学家很早的就从理论上预见,并且证明了其可行性。2.技术突破,这一阶段基本上相当于在研究机构以非常精英化专业化的团队突破了技术实现上的壁垒,做出来达到或者接近理论预期的Demo,样品;3.工程化,主要解决产品设计,方案优化,功能完备,性能提升,良品率,鲁棒性,可用性提升,大规模复制的技术准备,成本降低等工程问题。
比如手机,无线通信相关的理论和尝试大概100年前就开始了,然后,三元电池大概80年代做出目前的原型,低功耗芯片也基本在90年代就出现了,其他的射频,组网之类理论和技术储备也都有好几十年的历史。从理论到概念设想到成品经历了相当漫长的时间。
事实上,目前能看到的工业化,工程化的高科技产品,大规模集成电路,OLED,量子点,其对应的理论和技术储备从实验室走向实用通常都会经历20年甚至更长的时间;毕竟企业里的工程师一般都是踩在科研人员的肩膀上干活的,首先是科学家,大研究员们给我们把方向指名,把路铺好了,我们才去做成一件事情。我想在任何其他领域的工程师熟练的运用着成熟的方法进行着产品开发的时候,只有无人驾驶工程师们成天紧紧盯着行业顶会,知名期刊上发表的所谓最新进展在干活,我甚至看到某大厂招聘无人驾驶相关工程师明确要求要熟知各种state of the art的研究最好发过顶刊,投过顶会,简直有点可笑。可见都是一帮学生(博士研究生)在做着自娱自乐的开发。也可见目前这一领域还多么的不成熟。正常来说,工程领域更倾向于成熟稳健经过实践,经过产品检验的方案,而这些在无人驾驶恰恰是不存在的。
最关键的,人家的理论从最开始就能清楚的证明,这些产品要达到一个什么样的性能,在技术上是一定可以实现的;
而通用无人驾驶,实际上,在第一,第二阶段都还没有完全走完的情况下,就在资本的驱动下直接进入了第三阶段;
目前没有理论证明,我前面提到的问题是能够完备的解决的,这涉及回答目前的人工智能,机器学习技术(包括但不限于深度神经网络)所能达到的能力极限;至少孤陋寡闻的我目前还不知道有任何能够回答能力边界的研究。或者更明确的,能够证明通用无人驾驶所需要的智能程度是在目前已知技术的能力边界内的。
显然,当时参加darpa竞赛的科研团队做出的无人驾驶Demo,包括目前又经过这么多年,这么多投入各个大大小小的公司做的Demo也没有能够从技术上验证这一可行性。(这里特指通用无人驾驶所需要的在各种真实世界复杂场景下,全面超过人类的驾驶能力和行为能力。低速跑个园区,跑个仓库这种限定场景目前很多方案都是可以的);
所以,其实我个人认为,通用无人驾驶最好还是老老实实待在大学或者研究机构里面,进行基础性工作的探索,当基本理论,技术,能力积累到一定程度的时候,工程化,商业化落地就是自然而然的事情了。
投资无人驾驶的人,目前其实都是在赌博,都在赌目前欠缺的这一点理论,技术的突破在近期就能突然冒出来,当然存在这种可能性,但是,这种突破也可能姗姗来迟到几十年之后,这都是未知的。
我个人的观点,甚至都用不了10年,最多5年之内,如果还是突破不了目前的瓶颈,投资就会大规模撤出这一个领域,也就是楼主说的无人驾驶凉凉的那一天。其实目前这个趋势已经很明显了,新的投资已经很少进来。但是,这个技术本身不会消失,还是会继续存在于各种限定场景的应用(市场规模很小,承受不了大规模投资),同时,退而求其次的方案,无人驾驶技术衍生出的智能辅助驾驶将获得极大应用和推广,用来提升司机的驾驶体验和行车安全。
而当终于有一天,我们的城市,我们的道路都变得更加智能,或许期望中的无人驾驶就将到来。
引用一篇比较新的文章支持一下观点
------------------------过千赞了,感谢各位大佬抬举--------------------------
统一对评论中的一些争议跟疑点做个解释:
首先再次说明一下上面的主要观点,感知能力有限,驾驶行为决策的实现上目前业界主流还是人为的写各种规则(可以是基于状态机,基于各种参数判断,或者一些相对来说比较简单粗暴的自适应逻辑,上面简单用if-else这种比较不严谨的说法,大家知道啥意思就行了),其实就是根据测试发现的一些badcase,cornercase去用一些trick规避掉,要表达的就是目前这些规则的实现还是程序员告诉车(电脑)去怎么干,车本身是不具备智能的,不具备推理,类比,联想的能力,本质上这些规则的实现跟实现一个淘宝下单,外卖点餐的业务逻辑没有太大区别。
你针对某个特定场景,你实现什么规则车就怎么开(比较理想,假设没有其他bug),你不实现或者环境稍微有变化,车就不知道怎么办,表现的很傻,或者出现一些危险的行为。这就是业内通常说的泛化能力,目前的现状是,这种搞法泛化能力很弱,甚至没有泛化能力,泛化就是去堆砌规则,或者,对于感知,就是重新训练新的模型。
评论里面还有提到waymo,cruise等发布的视频看上去很美好,我一点不怀疑这些视频全都是真的(当然也有厂商的是假的,比如我就明确知道国内某厂某次发布会上的视频是花了很多钱找拍电影的人一小段一小段拍完然后剪辑出来的,曾经还有创业公司找风投忽悠的时候,背地里实际上是让人拿笔记本遥控的车辆,这个国内国外都有,不是啥秘密)。
业内人士可能会比较容易理解一些,waymo,cruise等发布的视频看上去很美好的原因是他们发布的视频里面那些场景,绝大多数视频,本身就是相对来说比较理想的测试环境,晴天丽日,道路开阔,车不是很多,行人车辆也都很遵守交通规则,车流,人流都相对稳定,需要通过的路口,岔口视野也比较开阔。
而实际上目前无人驾驶工程师大部分工作都是在想办法cover一些测试中遇到的badcase,或者是做泛化;也就是常说的无人驾驶做到60分70分80分不是特别难,github上各个业务模块的开源方案简单改吧改吧,拿来拼都可以拼个五十分甚至六十分能让你简单场景下,上路跑起来的方案,做到85分,90分难的上天,如果要商用要求你做到99分以上。
上面是原来曾经遇到的一个case,一个通道两边是墙,墙中间开个岔口,有车辆行人进出,在岔口前后的车辆根本看不到岔口里面,不管是上多少雷达,多好的传感器,就是视野盲区,然后有次正好有车要出来,幸好提前减速,车速不快,不到10km,如果安全司机不接管可能就直接撞了。你说我实现策略,见到路口就减速,确实是这样,减速了,减速不够我停车,看清楚再走,好了,这就到上面提到的问题,有报道(网上可以搜到)体验waymo,baidu的有反应车辆过路口,或者车多的时候,无人驾驶就表现的很迟钝,车少的时候你迟钝就迟钝了,你可以想像上下班高峰,你后面跟一屁股车,还有性急加塞的,明明就可以走,你在那里趴窝不动了,后面车喇叭能按翻天;事实上,有路测经验的多少都遇到过,刚开始做的不太好的时候,无人驾驶莫名其妙就来个急刹,或者好好的停下来趴着不动了,你不干预就不走,你能回去查日志,回放包,看看啥情况。你说上面的情况人也处理不好,我可以明确的告诉你,人高明多了,绝大多数情况下人类司机都是很安全顺滑(注意顺滑这个词)通过,人类可以听声音(waymo 现在已经上道路声音检查,貌似报道出来的是检测警笛之类的,这种比较模糊复杂判断不知道有没有),或者看通道有没有车灯打出来,或者看前面不远有车通过,就能推理出岔口没车或者岔口里的车提前让了,然后紧跟着开过去,根据经验估计会不会突然有个美团,饿了么小电驴窜出来,总之老司机可以根据各种蛛丝马迹,还有经验来动态的做出最优的决策。目前已知的手段,你很难通过人工智能也好,或者别的什么办法也好去模拟人类的这种能力。
还有与其他车辆,行人的互动,中间可能是有个相互试探的,比如超车,狭窄道路对向错车,最终形成一致的策略,无人驾驶就很傻,你要超车我就让,你要错车我就停,因为这个实现起来最简单。但是在某些目前还没测试到的地方,这种可能也会造成一些不可知的问题。比如对向错车,要是两个都是无人驾驶,都主动停下让对方,执行这种简单的策略,可能两个车全趴着不动等对方先过,就堵死了。当然肯定可以有办法设计一个复杂一点的策略避免这种情况。还有高峰期,一堆人,一堆车过十字路口,我就想看这些的视频,这些waymo,cruise怎么都不放啊?当然高峰期,十字路可能也不允许他们去测就是了。
更不用说下大雨,下雪,下雾,路面积水,长隧道,天黑满大街霓虹灯各种闪。反正没听说哪家工程师找刺激(给自己挖坑找加班)去测这些的,但是你商用的话,cover这些是最基本的,因为这些环境人都能开,我印象中很多年前我上学的时候,当时请一个日本老头给我们讲无人驾驶,老头举个例子我至今印象深刻,就是他们日本北海道,一到冬天就大雪一片白,连树都是白的,做视觉的知道一片白就是缺少纹理,目前的视觉手段大概率要吃瘪。人也不好开,但是可以开,可以通过起伏,绿化带之类的判断车道,可以跟前面的车辙,视觉怎么搞,烧香求祖师爷显灵,让自己辛辛苦苦训练的交通标志模型,正正好好的把车辙识别成车道线吗?当然你说我靠RTK,靠高精地图,靠激光保持定位,OK,先不说RTK某些时候会失败,激光这个问题我们原来也是遇到过的,不考虑成本,不考虑数量什么都认为非常理想,我们原来夏天采的激光地图,到秋天不好使了,为啥呢?树叶子秋天都掉了,点云配不上了,你说你更新快,好的,上面下雪的情况,你前天没下雪,光秃秃树枝采的地图,下一场雪可能也就几个小时,树枝挂满雪了,我估计相当大概率你点云还是配不上。配不上还好,就怕配歪了,雪地打滑你轮速积分也可能是错的,配歪了可以把你的kalman滤波也好,sliding window优化也好给拉歪了,用卡方检测,上联邦滤波,用各种冗余核验可以干掉绝大部分拉歪的情况。毕竟还有IMU是好使的,如果无遮挡GPS/RTK也是好使的。那么有没有可能就是给你拉歪定位到沟里的情况呢?很有可能,概率问题,这种情况车就很傻,一定是闷头往沟里冲,人就不会,人可以根据环境做非常综合的判断,这种综合判断的能力,目前很难用程序实现。
最后说泛化的问题,无论感知,定位,规控做到目前最头疼的就是泛化。泛化能力才是人工智能的深水区,人类的智能强就强在能推理,归纳,类比,联想举一反三。感知,规控的日常各种调参,调参干嘛呢?就是去适配各种场景,各种badcase,但是缺少泛化能力。常见的一个现象就是费力吧啦的调了一套参数,写了一个规则把一个badcase覆盖过去了,场景一小变,又不好使了,甚至,动一个参数这个badcase 混过去了,另外一个曾经已经pass的场景又挂了,跟打地鼠一样,按住这个洞,另外一个洞又露头了。
评论区有个貌似做控制出身的大佬说,其实万变不离其宗,车辆控制就只有那几个变量,那些个状态,这句话说的非常对。但是,现实场景是千变万化的,针对某个具体的场景你需要去调整这些状态,然后形成一个最优的行为,那么怎么让车辆自己在无人干预的情况下做出这种调整是最难。现在主流还是开发人员去识别这些场景,然后,编程教车去怎么干,车没有这个自主的智能。或者仅仅具有非常非常有限的泛化能力。有提到什么模糊控制,智能控制,自适应之类的,我也不懂,也只是听说,评论区有控制专业的大佬,可以解释一下在实际工程中这些高端玩意儿到底有多实用?应用范围多广?反正我自己见到的情况目前普遍还是PID为主,加各种针对特定case 的rule或者少量的自适应逻辑。其实这就是我上面说的加if-else的意思。
再次注明一下,上面讨论的车端实现,文章前面也提到过,评论区也有说明,配合云端大数据可以为这些问题提供一些解决思路,并且特斯拉,mobileye已经在做这方面的探索,甚至业内有怀疑特斯拉的无人驾驶能力近两三年突飞猛进就是因为他们有海量的第一手的人类司机实际路况的驾驶数据,方便他们后台训练模型或者优化算法。但是具体怎么做的,都是各厂的机密不会公开出来的。
——————————————再次更新——————————————————
针对某些评论:
重申一下我对『凉凉』这个词的观点,不是无人驾驶就消失掉了,不发展了,而是商业化落地受阻,资本大规模退出将会在可预见的较短时期内出现,产业界无人驾驶投资和研发热潮会冷掉。
我只说我了解到的基本情况,做的好的waymo,mobileye,他们具体怎么去实现,都是机密,我不可能了解到,从公开的资料看即便他们依然在努力突破瓶颈,做的时间最长的Google差不多做10年了吧,依然没突破,Google有钱,再养10年也能养,也还是为了财报好看把这块业务单独剥离出去融资成立了waymo,其他靠风投吃饭,今天搞个大新闻,明天拉个大项目的创业公司呢?注意看我的回答,我不是说这个技术会消失,而是追求短期回报的资本不可能一直耗下去。
有评论要求对5g,以及云端智能做补充说明,这里补充一些观点:
5G标准很庞大的,有关工业物联网的那块标准有个局域的概念,比如50米100米范围内车辆局部组网,这个局域网内延迟很小,就好像你自己家WIFI,假如ipad连你电脑需要经过某个应用厂家数据中心的服务端再回来就很慢,但是局域网内部仅经过WIFI路由器直接互相访问就很快。这个可以解决需要快速反应的车间互动问题,数据中心那边延迟大,且不说数据中心处理延迟,就是从基站通过若干个路由器,经历各个不通网段走到数据中心,然后再返回车端,这段的时延以我粗浅的理解5g跟现在不会有太大区别的。云端解决大范围,时效性要求不高的宏观性问题,以及收集海量数据做某些后处理的形式的分析,优化。比如,局域网内通讯的汽车互相沟通相互间位置,速度,自己局部行驶路径,云端调度整个车流的状态,比较大的区域内,道路传感器节点观测信息,通过海量数据分析训练出更好的驾驶策略下发车端等。
有个问题必须明确:上5g也好,上云端也好不是为了取代车端智能,而是简化车端系统的设计,降低对车端智能系统实现上各种指标的需求,来帮助突破目前车端智能无法突破的瓶颈性问题。
如果通过联网知道其他车辆的状态是不是相当于多了一个非常可靠的观测数据源,并且实际上其他车辆还可以把他们观测到并且经过处理的周围环境,周围其他车辆检测到的障碍物,道路状况实时发送给你,是不是相当于单辆车的感知能力成倍增长,很多还在你的盲区之内,比如前车遮挡住的你的视线,或者,经常遇到的,某些漏检,误检,但是其他车辆在它所处的观测角度能够更好观测更准确检查出来,算上路上其他传感器,比如监控摄像头,路边测速仪等,对于做感知的是不是发现突然生活就变得美好许多了。如果车辆信息互通,超车,过十字路口,对向错车,提前给周围车辆发请求告知,然后通过统一的策略协调是不是可以大大简化规划控制的设计逻辑,提高安全性和效率,是不是比目前要靠猜测去预测其他车辆的行为安全靠谱?车端你自己去识别,然后设计逻辑回避破损需要维修的道路,或者你之前某处突发交通事故,然而,你前面的车辆正好挡住你视线,它突然急刹车,你要跟着做出反应,先不讨论车端怎么实现,能实现多好,这个问题方车端是不是又困难,又不可靠,如果你之前的车辆给你共享了这些信息,你只需要最简单的规避逻辑是不是就可以,你前方车辆的突然行为比如马路上突然穿出一条狗,它要紧急刹车或者猛打方向盘避让,通过数据链共享给你,你甚至能在它发生可观测的运动状态变化之前做出反应,毕竟数据传输速度远快于车辆制动速度。超车,过路口,错车提前告知周围车辆获得确认,是不是比你设计一个无比复杂行为逻辑或者人工智能模型简单靠谱的多?再加上云端能力的加持,是不是整个系统的能力又可以有巨大提升?
当然,正像我上面段落里说的,整个基础设施的改造投入巨大,且旷日持久,但是不可否认有些事情一定会去做,并且做成之后就可以实现一定的效果,个人觉得期待基础设施的更新换代,然后,推动整体交通系统能力的提升,远比在已经榨不出什么油水的技术路径里抓瞎靠谱得多。
而且通讯端的改造成本摊薄之后真的没多少钱,5g基站总是要架起来的至少国内已经列入规划了,这个不需要无人驾驶的人操心,花钱。不给无人驾驶用也是要架的,这是通讯网络改造的钱,天量的,具体到车端,成本非常少,相当于加了个5g上网卡而已,这个通信模组是5g手机里都有的东西,以后肯定是集成到车载电脑上的,批量生产之后会很便宜。跟现在随便一个传感器比简直忽略不计的。当然考虑到交互问题,很多目前的设计思路都要改,然后,由于这些改进对车端智能复杂度要就的降低从而带来的研发成本降低也非常显著。
---------------20.7.26再次更新------------------------------
主要驳斥一下那些说我技术悲观主义,充满挫败感的评论!
理工屌丝,从小语文不好,可能我的行文,或者表达方式上让读者产生了这种想法。
但是,仔细读过的读者应该不难得出结论,我的主要观点和论证都是基于目前的已知事实和客观的分析得出的。我个人的态度是很客观,甚至很乐观的(对于限定场景无人驾驶,智能辅助驾驶,以及基础设施升级之后可能带来的种种新的改变)。
比如,你不能说我不认为我会突然基因突变,明天就能长出一对可以飞的翅膀,就是悲观主义挫败感。就算有这种突变,并且我还没有因为剧烈的基因改变猝死,以细胞分裂的速度,我每天摄取的新物质,还有转化比看,我也不太可能明天就能长好。这是基于基本事实基本规律得出的。
同样,你也不能说,孙中山死前说:革命尚未成功,同志还需努力;老毛写《论持久战》是悲观主义,挫败感。我们知道这反而是革了一辈子命,对形势有了全面,理性,深刻的认识,彻底想明白了才能得出的结论。一腔热血小年轻,期望革命速成的想法反而是非常危险,并且多数白白送了人头。
事实上,根据之前的分析,一个读者中的专业人士基本上是有一个共识的,突破目前的瓶颈需要需要新的技术出现。已有的路子已经没有太多油水可榨了。具体来说最好这个突破是更加深度的智能,更加类似人类的智能。
通常进行科学探索,工程研发,先观察现象,总结规律,再运用规律解决问题。一个典型的例子,现在的人工神经网就是受了神经科学领域对神经系统结构和基本工作原理的研究的启发。
那你现在需要搞高端智能,推理,联想,类比等等,更具体的你要基于现在的冯诺依曼架构的计算机去编程实现,模拟这些能力(先不说可能不可能)。你起码要大概知道这些到底是怎么回事儿吧,要基本了解它的形成机制,运作原理吧?
然而一个事实是,不管认知科学也好,神经科学也好,生物也好,医学生理学也好,甚至不那么涉及基础科学研究的心理学领域也好。目前对这些问题的研究基本上都还停留在一些很表观的现象上,对深层次的机制上,全都知之甚少。
事实上,在这类问题上,任何一项基本的发现都会被整个科学界视为极为重要的突破,一定是会被放到新闻联播里面吹的。比如,左右脑分工的研究就被颁发了诺贝尔奖。不说你能搞出或者模拟生物体的这类高端智能,哪怕你把人类对此类问题的认识向前推进一小步,炸药奖或者同等份量的科学认可一定是要给你的。
所以,我认为,就算有什么突破,也必然是那帮搞认知,生理,神经等基础学科的先去突破了。我自始自终都不能理解为啥总有一大帮EECS的屌丝码农能够有如此狂妄自大的优越感,自己能够凌驾于所有其他学科之上。还是自己过于无知或者目光狭隘?
再重新回到人工智能的问题上,哪怕你搞不出更牛逼的技术,更吊的方法去模拟高端智能。如果能回答我上面的提到的问题,目前深度学习也好,强化学习也好能力边界在哪里?或者问题范围继续缩小,目前你们口口声声的说要实现的L4是否在目前已知技术的能力边界范围内,或者再进一步,L4还需要做哪些突破就圆满了,不用你去给具体解决方案,只把方向指出来?
这个问题无论是理论上,还是工程上都有巨大价值吧。要是能回答出来,多的不说,给评个院士,或者再不济,各种顶级杰出人才的头衔要给你一个的吧。自己可以掂量一下上面的问题哪个是自己有希望能在可预见的未来搞定的,要是真的是认识清楚还有这个自信的旷世奇才,干嘛还窝在小创业公司里面996当搬砖狗呢?
上面关于能力边界的问题连我这种狗屎水平的都能提出来,热血小年轻,大忽悠老中青们最喜欢拜业内大神,祖师爷,祖师奶奶们会想不到?会看不到这类问题的价值?只不过人家水平足够看出这类问题的深度和复杂度,大概率是故意很鸡贼的回避掉不去碰这个钉子罢了。
所以,很多热血小年轻的乐观就是什么都没想明白盲目乐观?
至于不少老中青的盲目乐观成分可能就比较复杂了。可能有些是真的不懂,没琢磨透,有些就是忽悠牟利,给无知小年轻们画大饼,打鸡血。比如我曾经的某位领导,某大专家,虽然本人并非相关专业出身,也没搞过相关领域的工作。至少表现上对无人驾驶落地是极其乐观,我就非常不确定他表现的如此乐观,是真的无知,还是纯粹为了找上头把项目,经费,人员忽悠到手,以及给我们下面这些小兵打鸡血。因为哪怕从最初的接触,我就强烈的感觉到这个人无比的鸡贼,并且有相当的技术领悟力。毕竟这个社会上能混的好,爬的高的多多少少都有其过人之处。
那些对人工智能前景,L4中短期内落地前景依然乐观的朋友们,我个人这里来说就很简单。我就盯着每年的诺贝尔奖,图灵奖,院士增选。你们要真能搞出什么革命性的东西,这些都少不了你们的。我期待在新闻联播,各大头条上看到你们的身影。
对了还要插一段关于这个行业的***专家***:
不用奇怪,只用稍微想一下,10年前全世界都没几个人搞的东西,google最早开始搞产业落地,满打满算也就10年,怎么就这么短短几年时间突然冒出来这么多从业人员,甚至大专家呢?专家这么多,这么容易混的么?其实很多都是从其他领域转过来的,有些是相关领域,有些连相关领域都算不上。对了还有一个有意思的现象,越是成熟的领域,你见到能称为业界公认专家少说都是领域内深更20年往上的,再不行10年也是有的,人家是真专家,一般情况下,自己领域内没有搞不定的工程问题。你看搞无人驾驶的,尤其是那些近些年才冒出来的创业公司的专家,半路转行来的专家,各种不知道什么会议水过几篇文章的小年轻博士各个都是专家,连关注这个问题,给过回答和评论的人里,貌似就有口口声声要落地L4,研究L5的行业大佬,业内专家。整个行业连个靠谱的商用解决方案都没有一个,结果全他妈是专家,请问这是什么专家?
------------------------20.8.1再次更新-------------------
评论区有很多评论在问法律问题,伦理问题怎么解决。出了事故怎么处理纠纷之类的,是否有这方面的进展。
首先,我对这方面不了解,我个人觉得目前无人驾驶应该还远远没进展到这个地步。毕竟现在能商用的东西都没做出来,目前都还在研发阶段,而且似乎都还远远不是研发收尾阶段。法律,伦理都是以后的事情了,是要做产品工业化量产,商业推广才需要考虑的事情。
不过我个人认为,这些问题其实都好说的,只要东西做出来,并且有利可图,自然会有资本争先恐后的会去推动这些事情的(尤其是那些早期投入巨大研发资金的,马上就能收获了,谁不兴奋呢?)。
当然肯定会有新老资本的博弈,不会一帆风顺,就好像现在国内的高铁,基建,互联网,5G领先了,可以去全世界割韭菜了,国内的资本和政治力量就会去推动这个事情。美国佬,欧洲人看你要赚他的钱,割它的韭菜,就会用各种,伦理,法律,政治上的问题跟你搞事情。比如最近炒的比较火的封禁华为,逼字节跳动把tiktoc卖给美国公司之类的。比如以后无人驾驶先被谷歌之类的互联网公司搞出来了,那么传统车厂一定会用你说的问题攻击无人驾驶,直到做出利益上的妥协,比如让他们合资入股,搞技术转让,或者别的什么办法能够让大家都能分到肉吃。
哪怕你是先进生产力,代表未来的发展方向,你也不能把那些比你落后的全都一棒子打死,不然作为脆弱的新生事务,被干死的可能性反而更大。正常的社会发展进程都是在新旧力量的博弈斗争中曲折前进的。
总之一个原则就是没有人能把所有好处占完,不然全世界都会来反对你,这也是人类社会永远的法则。伦理也好,法律也罢,不过是协调利益冲突的工具。而我个人的观点最大的利益冲突来源于资本的博弈,具体到终端用户那里,反而,不是主要的矛盾了。最终胜利的一方资本力量,一定会定一个对他们有利的规则来解决这个问题的,并且通过强大的宣传机器来取得全社会对这个规则,或者某些伦理观念的广泛认同,至于少数头铁的,从来都不足以造成实质性的障碍。
~~~~~~~~~~~~~~20.8.10再次更新~~~~~~~~~~~~~~~~~~~
很多人说法律问题,其实仔细分析,根本不存在所谓的法律问题。
只要能做出来,法律问题,理赔什么的很好解决。
刚上市的头两年,车厂,或者无人驾驶运营商为了打消公众疑虑,必然大幅度补贴,大包大揽,把事故的理赔揽下来。其实这个也花不了太多钱,因为,如果能够商用,那么那个时候,无人驾驶的安全性一定是远好于正常人类司机,甚至你碰瓷都不太容易碰。
分析如下,无人驾驶会上各种摄像头,传感器,相当于360度的行车记录仪,包括,行车过程中会把传感器数据,和程序处理过程日志全部录下来。那么出了事故,谁的责任拿数据或者日志一分析就行了。
大概率是,行人或者人类司机的全责,因为如果程序或者传感器没有错误或者故障,无人驾驶是绝对不会违反交通规则的,因为程序就是按照交规写的。
如果分析发现是设备故障,或者程序bug造成的问题,那么,车厂,或者无人驾驶运营商的责任,这种责任判定是非常清楚容易的,出事故相当于帮车厂或者运营商测出来一个bug,他们赔钱也不冤枉。因为,如果不修复可能大量出现,那么他们赔的更多。
这个相当于你买手机,电视,厂家给你的保修条例,保修期内没有不正常使用出了问题,一定是要厂家负责维保的。厂家为了少赔钱必须努力把质量,这里是安全性做高,良品率提高。
其中还有一种情况,就是,一般车厂把车卖给用户,会有一些使用规范,包括车上本身会设计故障检测预警。比如开几万公里你要去检修一下,传感器不好使了,自检系统给个报警,这个车你不要用了要去修,这个时候,如果用户强行使用出了问题,根据免责协议,车厂不负责,用户全责也是很清楚的。而且这个也很容易从车上记录的数据分析出来,责任判定会比较容易。
最后,如果无人驾驶事故率选低于人类司机,那么,保险公司会非常愿意来赚这个钱,并且可以想象,这个保费,是会低于目前的费率的。可以想象,车厂为了推他们的产品,甚至你购买无人驾驶车,送你两年三年保险这种促销活动,不过羊毛出在羊身上,这个成本完全可以加在售价里面,转移到用户身上。
车厂可以通过定期维保协议,和保险降低自身的风险,甚至可能还可以通过这种方式赚钱,他们一定是有这个动力来做这件事的。
以上分析是针对L4及以上等级无人驾驶的,其实也适用L3及以下。因为L3及以下的适用条件更加严苛,那么对应的用户使用协议也会规定的更加严格。比如,全神贯注,手不能离开方向盘之类的鬼东西,那么你用户违反了,不好意思,哪怕是车辆本身的问题,我厂家不认账的。打官司也打不赢,毕竟我当时用户协议说的清清楚楚。这也是为啥L3及以下的自动驾驶不实用的原因,无良厂家拿这些东西吹逼自己有多高科技,有不把风险说清楚,以便自己卖车,简直就是无耻。
所以,你看分析下来,其实根本不存在所谓的法律问题。
+++++++++++++++21.0418更新++++++++++++
华为发了个视频,又有不少网友在本帖下留言。那么,我的看法请看这里:
华为整了一套L4的装备,给的是L2辅助驾驶的定位,不正好映证了上面的说法么?
另外再贴个网上看到的截图,我也不知真伪,请各位网友自己琢磨。
转一个热贴下的评论,大家可以去看看。
我认为自动驾驶已经凉凉了。
其实自动驾驶从一开始就是一个鸡同鸭讲的事情。
首先什么叫人工智能。英语叫artificial intelligence。啥叫artificial呢???
made or produced by human beings rather than occurring naturally, especially as a copy of something natural.
因此上,这里的工字其实是创造的意思。就是Human-made Intelligence。就是人类创造出来的一个算法。这个算法带有一点智能。
但是自动驾驶的要求是Human-Like Intelligence,是类人智能。因为是自动驾驶的目标是取代司机。做到和司机这种人类一样。
但是你说这些学术界的大佬们知不知道呢。他们其实知道,但是一方面有钱不赚是傻子啊!!另一方面深度学习需要的大数据,只有企业有啊!!
如果非要说自动驾驶什么时候能实现,只有一种情况。就是首先把世界上所有的汽车全部取缔。之后不许人开车,大家都只能做乘客。让电脑开车。但是其实就和电轨车一样。
因为这是一个不要你高兴,而要我高兴的问题,这是目前市场落地最大的障碍。
如果自动驾驶比人好,或者考驾照能过,我们就允许上街,现在就可以了。
如果自动驾驶要能足够安全(目前大多认为要比人高20倍以上),那么还有5-10年吧。
如果某地的新道路设计一开始就考虑自动驾驶,比如道边/道上传感器,安全10倍,估计很容易。
自动驾驶是芯片硬件+数据驱动,这两者在未来5-10年都至少提高10-100倍,没有任何理由凉凉的。看得远才能看得到趋势。物理学第一性原理简单应用。
现在的计算机水平解决不了自动驾驶的问题。我说的计算机水平,不是说四核升级成八核那种水平,而是说现在的计算机,从根本原理上是无法达到能瞬间智能识别世间万物的那种水平。你把CUP性能提高一千倍,也只是量变,达不到质变。至于怎么才能达到质变?我要能说出来我就成国宝了。总之是一种类似于传统化学能源与核能之间的革命性变革才行,而不是靠堆砌材料。
现在的自动驾驶,基本上就是一种噱头,吹牛水平以特斯拉为最。这里不是说特斯拉吹出来的性能最强,而是说特斯拉以比较低端的解决方案吹出了这么大一个市场,居然有很多人因此相信依靠视觉来实现自动驾驶是一种很高端的技术。
很显然,要达到自动驾驶,各种各样不同的传感器是先决条件,我们人类有五感,如果去掉其中一感,生活就会变得非常不方便。如果只剩视觉,你走路都走不稳。现在的传感技术本来就有极大的弊端,再加上特斯拉这种企业为了多赚钱少投入而故意扭曲技术路线,把一种早就被证明失败的技术吹成高端技术,结果必定是草菅人命的。
传感器要提高精度很难,主要是成本方面。即便是能解决传感器的问题,管理系统也很难瞬间理清那么多信息。举个例子,现在的所谓人脸识别,在付款的时候会让你眨眨眼,这其实是为了判断你是个真人。换句话说,仅仅依靠摄像头的话,连你是不是个真人都很难分辨清楚。他们又如何能在瞬间判断道路上的状况呢?前面说的计算机技术革命,主要是指需要一种更强的AI技术来处理各类传感信息,这样才可能实现可靠的自动化。
要实现自动驾驶,从计算机的层面上看,我觉得至少得先达到以下水平才行:
1、能轻易的识别各种花式验证码,无论验证码模式怎么改变,只要人能认得出,计算机无需任何新增代码即可智能识别,其他比如把狮子狗化妆成熊猫也能正确识别。
2、能轻易听懂各种语音信号。识别率达到人类之间相互交谈的程度,甚至能通过交流的上下文、肢体语言、眼神态度等预判出对方的意图,从而实现类似“抢答”的功能。而不是现在这种你用标准普通话缓慢说出,还经常给你“请再说一遍”。
3、在复杂的声光条件下,比如“夜间的酒吧”能正确进行某些任务,比如从拥挤的人群中通过,尽量不撞击或阻碍他人,也不会“寸步难行”。
4、在遭遇不明外来物体攻击时能智能选择较为安全的处理方式,不危害周边,也能有效保护自己。而不是简单的停车。
5、其他能力,比如能识别真实场景和视频的区别,能识别白人和黑人的区别,能识别纸人和真人的区别等。嗯,知乎上有一个人特别热衷于在道路上画坑什么的,也得有处理办法。
真正的自动驾驶,不能预设条件,不能挑选道路,所以必须是从最复杂,最困难的场景出发去解决问题,而不是把道路情况简化以削足适履。
不过,虽然短期内无法实现大家认知意义上的自动驾驶,但是不等于完全无法实现自动驾驶。某些路线也是可行的。比如送快递那种,通过降低速度等方式来降低风险的路线,慢慢开,不撞人,撞也撞不死。还有比如修建专用轨道,将道路状况固化成一个简单的通道,然后实现自动驾驶。
还有一种更庞大的解决方式,那就是统一车辆管控平台。每一台车的信息都标准化,在统一的信息平台进行处理。我这台车知道我前后车辆的情况,不只是我自己传感器探测出来的,而是前后车辆都是统一信息平台,他们直接发送他们自身的状态数据给我就行了。
最后一种方式的运作模式最接近我们理解的自动驾驶,但是这种解决方案恐怕只有社会主义国家才可能实现了。因为其难度大致相当于腾讯开放其数据库,允许全国所有通信软件都可以自由从QQ和微信中接收和发送信息,并且主动帮助各种通信软件实现定制改造。
至于题主说的自动驾驶什么时候会凉凉。其实自动驾驶技术一直有人研究,但这个技术大量出现在大众的视野之中,还是近几年资本推动的结果。其实如果你留意过每年的技术新闻就会发现,资本几乎每年都会推动一些所谓的新技术,把大量未经实践,或者明明不堪大用的技术吹得好像马上就要造成技术革命了一般。这种吹嘘氛围要凉凉,要么就是资本发现赚不了钱转移战场,要么就是更多更新的“新技术”话题占据了舆论战场。而从大众的角度来看,即便是某些技术早就该凉凉了,但是在特定人群之中还是会有大量拥趸,这就需要大家都学习知识提高见识了。如果像特斯拉这种草菅人命的无良资本随便吹出一个牛来都有大量信众,那么自动驾驶恐怕会成为下一个“神迹”,即便大家都没有看见过,但人们坚信它的存在。
自动驾驶本身就是个伪命题。发展到最后只能是辅助驾驶,不可能脱离人员的。
和很多人想的并不一样,无人驾驶汽车并不是技术问题。而是管理和安全问题。
管理上最重要一点是一旦某公司无人汽车的系统出现问题,黑客,漏洞等风险,该公司的所有在途汽车都将变成隐患。
想象一下一个国家同一时间忽然有十万甚至百万辆汽车同时出现事故是什么样的画面。难道要求一辆汽车一套系统相互不互联吗?
其次,当无人驾驶汽车真出现事故的时候,事故责任是谁的?
汽车所有人?压根不是他操作的啊。冤不冤?
汽车公司?我怎么知道汽车所有人如何保养的自己的汽车?他都把传感器碰歪了二度了(二度对于人来说误差不大,对于传感器来说就会有一个扇面死角)。
保险公司?这会是一个解决方向,但就像上面说的,一旦出现系统性问题几十万车辆同时出现事故,保险公司破产也赔付不起的情况会大大增加。
安全问题。
输入地址汽车自动到达意味一个恐怖分子可以同时袭击一个城市的所有管理部门!!
一个恐怖分子!
一架无人机也就带个手雷,想带一个煤气罐无人机的个头也是不小的。而且在到达目标前是很显眼的。
一辆无人驾驶汽车?十个煤气罐走起,一个人设定十辆汽车。同时袭击。警局,消防,医疗,教育。怎么防止?
当然这种袭击没有无人驾驶技术也会发生,但是成本会大大加强,而且必须是多人的,人多袭击的暴露和失败几率就会高。但是如果是一个人可以做那么就是没门槛了。即压根不需要组织度只需要想法。
所以无论无人驾驶技术如何。在以上两个漏洞没有办法填补的情况下,不用畅想真正的无人驾驶。
当然该技术作为辅助驾驶还是没问题的。
先说结论 : 短期落地L4自动驾驶相当困难 , 但不会凉, 还会经历多次低谷, 估计还是十年为周期的科研抗战。
自动驾驶核心难点:
看了大佬们的回答, 大部分高赞还是针对过去的一些经验进行总结,最终还是归因到感知, 规划, 高精地图量产上, 就从这三个技术方向展开说一说。
当前业界普遍认为可行的感知落地方案为 = > 监督式学习 + 数据闭环
根据田大佬与zhzz大佬所述, 确实, 真实世界中我们有无穷无尽的corner case, 大部分一线感知从业人员会在工作不久后体悟到一个事实, 就是这些corner case根本解不了, 如在路上爬的人、会飞的障碍物, 等等极度稀缺的样本。
即便数据闭环能尽可能的自动化corner case的学习, 但这世界的复杂度在大规模量产车上路之后, 还是会有一个非常困难的学习过程, 简单提及一下这阶段会遇到核心问题
事实上, 以当前学术界才刚刚进入这个阶段, 工业落地接触到这部份问题, 估计还得2~3年才会踩到深水区, 当然tesla例外(当学习数据达到PB级别, 量产车几千台在路上跑, corner case库上万集)
而更长远的科研路线肯定还是走向自监督路线, 其中最有可能取得较大突破的方向在于时序的自监督学习。设想, 人在做轨迹规划时, 并不是先识别物体及其位置, 才得出此物体未来轨迹的, 而是直接感知到物体动向及其在未来特定空间存在的概率, 我们如果能够直接以自监督的方法, 得知未来空间中存在的物体的概率, 我们就能够将当前的监督式学习转化成自监督学习。
如此一来, 我们能将感知任务从目标检测、追踪、预测, 改成建模时序空间中网格被占据的概率
整体方案也就转型成 => 自监督 + 数据闭环 + 少量的监督(用于人为定义的特殊场景, 如救护车、消防车)
cvpr2021 这篇工作提供了一个很好的开端。
当技术真的转向这个方向发展时, 依然会发现真实场景落地困难, 但此时相比于早期的监督式学习方案已经有非常大的进展。
然而我们很快会发现, 成也激光雷达, 败也激光雷达
激光雷达在特殊场景下的自监督方案几乎是不可行的, 一旦下雨, 监督学习可以, 但自监督方案依然会崩溃。
除非我们能写出一个学习可碰撞点、不可碰撞点的模型, 我们才可能再次突破这个难关
我认为, 在这个时间节点, 仿真的意义会真正的体现上来, 如果我们打破了仿真跟真实世界的隔阂, 仿真技术会进行大规模的降为打击, 若没有走通这道隔阂, 行业会再次陷入困境, 只能做L3+的辅助驾驶。
为什么elon musk会说, 纯视觉方案才是走向自动驾驶的终局, 也是因为道路是设计给人类视觉开的, 其他传感器必然会有先天的缺陷, 最终我们还是会走向以图像为主的时空预测模型, 人类学习物体距离, 本质是透过触觉进行强化学习, 而工程师没办法在真实世界中进行空间碰撞, 来学习物体深度距离, tesla透过radar巧妙的把触觉强化学习转换为深度估计, 进行建模。
走向L4的自动驾驶方案, 必然是弱感知+ 强智能 (这里所谓的弱感知, 也是吊打当前所有落地方案的, 所谓弱感知, 是不精确要求物体的绝对位置, 更多的是空间状态概率传给下游, 让下游对各种概率进行轨迹优化)
2. 规划
规划的进展相对更慢一些, 为什么发展会这么慢, 本质原因还是因为学界业界都没有很好的优化函数。
在绝对安全的情况下, 保证体感、时间上最优
大部分情况下, 我们可以将这个过程转换成凸优化问题求解。
然而深水区在于规划问题最终会卡在博奕问题上, 而真实世界下的博奕解空间之巨大, 正常solver根本无法解出, 如果别人激进, 自车就必须保守, 别人保守, 我们就必须激进, 然而所谓的激进与保守的策略, 在轨迹规划中无穷无尽, 优化问题如果不用learning方案进行建模, 最终就会死在博奕问题上。
但一旦使用learing方案进行建模, 我们就陷入困难debug的工程问题。
德州扑克是博奕研究中近期较有突破的一个方向, 德州扑克是四轮的策略, 展开的决策树节点就已经比世界的原子还多了, 这部份的难度可想而知。
这部份要不是工业界最终就是接受现实, 舍弃rule-base, 做learning-base方案, 把learning-base推到极致, 看能不能低于人类驾驶意外里程数一个量级, 要不L4最终还是会被博奕的corner case压死
3. 高精地图
高精地图也正处于两个派系分裂的状态。
如果弱感知+强智能方案真的走通, 业界技术路线大概率会走向实时建图, tesla可能是一个典范
若走不通的话, 大图商会好好把握这个商业机会海薛这些自动驾驶公司一波, 就跟标注商目前海薛自动驾驶公司一样, 我不管你做不做的出来, 但你得买来试, 自建高精地图对于自动驾驶公司的成本实在太大, 根本不可能进行运维。
最后,
17世纪的人不懂未来有一个交通工具会取代马车。
19世纪的人也不懂未来会有一个交通工具会在天上飞。
甚至到20世纪, 我们才知道原本人类可以去月球。
身为一个人类, 我们要做的事并不是唱衰一个科技的可能性,
而是在一次又一次的失败中, 发现实现他的路径。
致敬所有愿意在这浪潮中, 经历一次次失败的每个工程师!
现在的深度学习的研究者圈子,有点落伍了。很多研究者、包括国家战略级别的专家,都认为深度学习不可解释。我来说一下,我自己到了什么程度,不但解释深度学习不费力气,而且还可以重新发明比整个深度学习加在一起多5倍以上新模型和知识,其中不少正是现在深度学习面临的瓶颈。我如果不把这些深度学习圈子尚未了解的算法公布,自动驾驶是一点机会都没有的。我的要求就是从动辄上亿的无谓投资中,拿出一个零头支持我的基础研究,整个产业就有希望。这个投资是无偿的,我不打算为了几百万美元给任何股份。因为总值无法估计。
2013-14年的时候做过一阵子无人驾驶,之后就不做了。
这里主要讨论一下要实现完全无人的全自动驾驶,在机器学习基本原理上的困难之处。
自动驾驶是个很有趣的问题,它不像传统的有监督学习,不在固定数据集上算性能,它的数据集是on-policy的,就是说会随着当前驾驶策略的变化而变化。另外,并不是所有的数据都有用,对自动驾驶来说,大量数据都是单调重复的(比如说天气晴好,周围无车也没有行人),对改进行驶策略没有太大帮助。
假定一开始驾驶策略性能很差,每隔一公里就需要人工干预一次,那每一公里我们就会收集到一些重要数据,比如说事故发生前几秒的视频和雷达数据,然后我们可以用这些数据训练现在的模型,并学到更好的策略以避免事故。有了更好的策略,我们可以做到每隔十公里人工干预一次,然后把每次人工干预前的数据拿过来训练,等等。
说到这里,大家就会发现一个循环:行车策略质量越好,人工干预的频率越低,得到的有效训练数据就越少,继续改进就越难。这样就产生了如下的曲线(横轴是所花的代价,纵轴是自动驾驶的性能):
我们甚至可以算出来它的性能增长会有多慢。令人工干预率随时间的函数是。我们能获得的有效累计样本数是 ,这样我们可以得到:
这里, 和 之间的关系我们先假设为负的正比关系: ,也即是有效数据量变大,人工干预率变小。另一方面,根据上面的分析我们知道 ,把它们都代进去并解微分方程,我们得到的是
这是指数衰减曲线。它的意思是每降低一半的人工干预率,所需的时间是固定的。比如说从每100公里干预一次到每200公里干预一次需要一年的工作量,那再降到每400公里干预一次又需要一年的工作量。
看起来好像还行?但其实 和 的关系没有那么简单,如果我们参照机器学习里面,样本数和错误率之间的关系,并且考虑到确实大部分时间都在修理各种奇奇怪怪的corner case,我们就有著名的维数灾难: ,其中d是问题的维数。对自动驾驶这种复杂问题来说,d不会太低。如果按照这个关系,人工干预率的降速就不一样了:
所以人工干预率的衰减(或者性能的提升)是非常慢的。比如说就算d=1,如果我们达到每100公里干预一次需要一年的累计工作量。那在这基础上再降低一半的人工干预率,就需要再用三年的工作量,降低成原来的四分之一就再需要十五年的工作量,等等。使用更多的车和更多的人力,可以通过加常数的方式一下子增加样本数,但趋势是不变的,更不用说增加的硬件成本和人力成本。
这样最关键的问题在于,在这条曲线拉平之前,它是否能超越真人司机的水准?以现在的趋势看起来,可能还是比较困难的。只要(1)机器学习算法还需要吃大量数据,(2)现实场景永远有各种稀奇古怪的情况,那总会有一些corner case是算法从未见过的,碰到这种情况自动驾驶系统会出什么幺蛾子,谁也不知道。像Tesla自动驾驶最近出的事故(比如说不减速撞上横停在高速上的白色货车),都是一些匪夷所思的情况,或许这种特别组合能让整个系统的感知判断出问题?目前真的不知道要怎么处理。
有人可能会说,是不是多加几个传感器就能解决问题了?我觉得很难,传感器多了有点像饮鸩止渴,一开始信号来源多了效果一下子提上去了很兴奋,但接下来部署、维护还有组内部相互间的协调成本会大幅上升,最终还是会受限于机器学习的本质问题。
像协调问题很常见,出了个人工干预的案例,每个部分都工作尚可,但就是每个地方都差一点点,最后累计的误差导致要撞人。对此,雷达组认为是视觉组的问题,视觉组认为路径规划组的问题,路径规划组认为是硬件的问题,等等,谁来负责?大家都不想动自家已经打满补丁摇摇欲坠一碰就散架的代码……还有下游实在是达不到精度要求,于是就想要改上游组的OKR,让他们的API提供更多的信息,比如说除了检测结果还要提供置信度,有了Bounding box还要segmenation,等等。这些必需的沟通会进一步拖慢整个进度。
还有很多AI上的难题,之前就有人担忧”如果有个人穿着画着stop sign的t-shirt在路上走要怎么办?“,更不用说对抗样本问题,比如说stop-sign上贴几张便签让它被识别为yield sign这种攻击[1],或者在衣服上打印几个特别的图案就能隐身[2]之类。这些还算是视觉层面上的对抗样本。目前的驾驶环境还是比较平和的,如果等自动驾驶车变多了,会不会有策略层面上的对抗样本和策略,还很难说。
在AI能有下一步的理论突破之前,这些都是悬在大家头上的达摩克利斯之剑,随时要掉下来的。