其实北京冬奥和夏奥上,最大的差别就是科技差距。
夏奥真的就是靠人堆。幸亏08年中西方关系还算融洽,社交媒体又不发达,要是今天还是那个搞法只怕在外网口碑要崩。
而这次,可能国内社交媒体发展了这么多年,政府对舆论和传播有了非常清醒的认识。最起码知道这玩意应该怎么玩。
奥运会的大科技,其实从传播来说没啥用。比如什么温室气体利用、氢动力汽车这些,这些东西是给政客们看的,大家发报告发通稿时好看。国际奥委会也能说,你看奥运会节能减排多少多少,是多么绿色又环保。但是普通人并不太关心这些。
普通人更多的资讯是来自社交媒体。就拿媒体中心那个机器人做饭来说,纯粹就属于炫技。假设你是一个外国人你在媒体上看到的都是中国强迫劳动,你现在看到的是机器做饭、机器人送饭、机器人调酒、机器人做汉堡、机器人扫地、机器人送餐。。你心里会不会对中国强迫劳动这件事产生动摇?
唯一遗憾的就是,可能是出于奥运村再利用的考虑。个人是觉得奥运村科技感差了很多。奥运村其实可以做的更加智能化。
其实这是一个非常好的机会,冬奥会规模不大,成本其实还是可控的。有的地方确实可以炫技。就说个最简单,你每天凌晨弄一组机器人去室外公共区域扫地,绝对要在社交媒体上爆。
而且,这并不是个什么为了面子的问题。你奥运会弄的越科技范高,你小米OV比亚迪蔚来小鹏都能在海外多卖几部。
这两天在央视《体坛英豪》节目上,我看到个数字人,叫冬冬,是冬奥会的宣推官。
打开微博一看,在冬奥会还没有开始的时候,就已经有好几条动态了。从微博上看,人设倒是英姿飒爽,说话也非常流利。
总觉得《体坛英豪》里面冬冬和其他的主持人、运动员交流的非常自然;在淘宝直播里面,每晚2小时的即时互动直播,也跟用户聊天聊得火热,『黑科技』感觉出来了。
数字人算是去年开始爆红的元宇宙概念下的一个小风口。最近这段时间不少大大小小的互联网公司,包括一些创业公司,都在做数字人。
一方面数字人是目前大众能看到的,最接近元宇宙的表现形式之一,看上去如此的真实,而又是实实在在由数字化技术所构建的;另一方面,目前的AI技术经过了这些年的发展,也足以支持数字人的开发。
市场对数字人的回应还是热烈的。比如通过化妆笔来捉妖的虚拟美妆达人柳叶熙,上传了第一条三分钟的短视频之后,就已经吸粉数十万;
中央美院的研究生数字人夏语冰,也在去年举办了自己的艺术展,收到了很好的效果。
就数字人的开发而言,目前主流的技术是动作捕捉。需要真人穿上相应的动捕专业设备,设备里面布满了传感器,和真人肢体动作相绑定,可实时传递到虚拟数字人身上。通过这种方式,来让数字人学会人的行为举止。
动作捕捉可谓是数字人开发的标准技术了。但是感觉依然不是完全的虚拟化——因为毕竟动作捕捉的对象是真人,那么必然虚拟人的行为方式,音容笑貌,都会带上真人的影子。
阿里数字人业务在冬冬的研发上做出了突破,摆脱了动作捕捉,做到了AI实时驱动,这一点是目前比较鲜见。简单的说,动作捕捉生产出来的虚拟人,是模仿出来的,而AI实时驱动的数字人,一举一动,一颦一笑是算法计算出来的。比如说在说话和播报时候,通过AI的实时演算,算出应该口型是什么样的,与此同时面部表情和肢体动作也会和说话内容相符合,达到自然、类人的效果。
此外,说话的内容是拟真的重点。如果是拍好的短视频、排练好的嘉宾互动,预先写好的脚本,那么这个没什么好说的,主要是功夫活。但要做到实时互动就比较有考验了。看冬冬在《体坛英豪》里面作为阿里冬奥会的宣推官和运动员互动的,且每天2小时的淘宝直播间直播实时互动,自动脚本生成,这样的呈现是比较抢眼的。
而冬奥会的项目本来也比较有距离感,很多对观众来说也不是太熟悉。
观众们更依赖于解说、播报来拉近距离,了解冬奥会的项目、选手等等背景资料,这些工作都靠人来做,是不可想象的。自动剧本生成的技术。赋予了冬冬实时抓取信息,生成剧本解说的能力。
如果这个技术的应用太广泛了。以后公司开会,都可以请一位数字人助手,真人员工们想要什么资料,直接用自然语言说给数字人听,数字人就可以自动的从信息库中抓取、提炼然后生成人类可以理解的文字说出来。可以极大的提高效率。
自动播报背后的技术已经比较先进了,但是冬冬居然还会淘宝直播,和用户互动并且推荐冬奥会产品?!
直播可不容易,因为直播需要实时的根据弹幕的互动调整自己,并且和搭档互动的过程不可避免的偶尔会抢话、打断对方。在这个方面,冬冬已经可以做到介绍商品的同时,与用户互动,先回答完用户的问题,再回去继续介绍这个商品。可见,冬冬在互动交互层面,已经非常贴近真人了。
很多的技术上的整合,都是由事件驱动的。刚才已经说了,冬冬在冬奥会期间,不但会参加电视节目,还会直播,其实还有一个活动,那就是在淘宝直播间做一个实时互动的『冬奥会脱口秀』的小栏目,虚拟人说脱口秀,这如果自动剧本技术成熟了,李诞还能开心的起来么?
大家可以有时间一到时候一起去看看,数字人冬冬的直播间脱口秀首秀到底是什么样的!
谢谢邀请。
北京冬奥会开幕好几天了,精彩绝伦的开幕式还时常浮现在我的脑海中……
大家心里都清楚,奥运会这种国际盛会,意义远远超出体育比赛本身。举办一次奥运会,本质上是大国综合实力的全方位体现,其中很重要的一部分就是科技实力。本次北京冬奥会确实出现了不少有趣的新技术,我感兴趣的则是云上全息通信技术让光学相关的“黑科技”得以更好发挥,比如昨天一个叫做Cloud ME(云聚)的“全息显示仓”,让国际奥委会主席巴赫出现在了2022北京新闻中心给全国观众拜年。
这个“全息显示仓”要实现的目标非常简单:让远隔千山万水(国际奥委会主席巴赫在北京、阿里巴巴CEO张勇在上海)的两个(或多个)人仿佛处于同一空间中进行交流。而且从实际的观看、拍摄与交流方面来看,对记者们来说,虽然两人都不在眼前,但效果上与他们俩站在面前几乎别无二致。
当然了,虽然新闻中名称叫“全息显示仓”,但实际上这是生活中广义上的全息,并不是物理意义上的。物理意义上狭义的“全息”是衍射成像的技术,但目前的技术还远远做不到理想的动态全息显示,这是整个光学领域圣杯级别的高难度挑战。
此次堪称黑科技的“全息显示仓”虽然不是严格的物理全息,但在立体感与真实感方面远远超出了目前普通显示屏所能呈现的显示效果。可能还有小伙伴没看现场的视频,可以看一下:
https://www.zhihu.com/video/1473958962386739200明明这是一个显示技术,官方的名称为什么叫“阿里云聚”呢?其实这是因为,之所以能取得如此惊艳的效果,最重要的核心技术不仅仅是我们看得见的面前的这款显示屏本身,还包括我们看不到的、尤其是云端的大量黑科技。
要能够实现我们看到的这么棒的发布会效果,至少有三个方面的“黑科技”:
(1)拍摄与显示的硬件设备
从现场的情况来看,发布会现场的“全息显示仓”是一块一人多高的高清大屏幕,用于显示参加新闻发布会的两位嘉宾的实时影像,仿佛两个人都同时站在大家面前。
从官方透露的消息来看,拍摄端的硬件布置大概是这样的:
拍摄端在摄影棚内,有常规的灯光、交互提示用的电视屏。除此之外,还有一块不太常规的屏幕,那就是用于显示另外一个人的“显示仓”。而且这个显示仓的位置和角度是特意设计过的,使得望向屏幕中的人时,拍摄出来的视线恰好符合两人站在一起时的视线。如此一来,物品的交接才会显得如此自然。
(2)符合广播级稳定要求的实时通信网络
很多小伙伴可能会觉得,本质上这不就是个复杂一些的视频会议嘛,只不过级别更高、屏幕更大、清晰度更高、稳定性要求更高。非要这么说倒也没错,但是要注意的是,无论是什么技术,随着从量变到质变的过程,要解决的技术问题的数量和难度可都是非线性陡增的。要想实现类似高规格发布会的万无一失,网络传输环节要实现的保障度是远远超出大多数时候的。
比如为了能够实现发丝级的“全息复刻”,拍摄的原始画面清晰度是非常高的,如果按照传统方式传输,将挤占大量带宽,极有可能遇到网络拥堵问题。阿里云聚这次采用了一种叫作“窄带高清”的技术,能够在节省50%带宽的情况下,仍然保障画面的清晰度。
另外,即便我们使用的是运营商最高带宽的宽带套餐,日常生活中还是难免会遇到网络信号不好的情况,造成视频会议时的画面卡顿。平时会议稍微等一等倒也问题不大,但是对新闻发布会这种高级别会议,卡顿显然是无法接受的。为了能够在网络信号不好的情况下依然保持画面流程,阿里云聚开发了“弱网抗丢包”技术,能够在80% 丢包下可提供流畅通话,同等丢包环境弱网传输效率提升65%,实现良好的实施传输效果。
(3)强大的云端算法与算力
不知道大家有没有注意到,记者会现场的全息显示仓中,张勇与巴赫所处的似乎是一个封闭的空间,两个人的身后似乎有一定的纵深,墙上也有很自然的阴影效果,使得图像出现了较强的空间感。其实这种光影效果是计算机实时渲染出来的,起到了以假乱真的效果。这是需要强大的算法与计算力的。
其实需要算法与算力的远不止视频的实时渲染。比如音频的处理,我们都有过在嘈杂环境下开会的经历,要想听清对方讲话是非常困难的。阿里云聚通过亿次通话数据验证和海量历史数据回归,实现了持续进步的多场景智能降噪能力。而这同样需要算法与算力的加持。
根据研究,要想实现流畅舒适的交互效果,延时必须控制在200ms以内。
也就是说,端到端的实时传输和处理,比如音视频转码、光影渲染、音频智能降噪等等功能,都需要在200ms以内实现,这需要高效的算法与强大的算力,靠拍摄或发布会现场的端侧计算机是无法做到的。阿里云聚解决这个问题的方法是“云处理+端渲染”技术,即通过实时通信与云上处理的技术结合,解决因端侧算力受限的难题。
其实可以看得出,这次的高级别新闻发布会算是阿里云聚的一次“亮剑”:连如此高要求的场景都能hold住,其他的应用场景更不在话下。很明显,这种“宛若就在面前”的显示与交互技术,还可以应用在很多其他的应用场合,比如远程教育、虚拟社交、远程VR操控等等。而在新冠疫情的大背景下,甚至只用它来开个远程视频会,都让会议显得更温暖了呢……
我能理解XanxoGaming发布一个古墓丽影:暗影的720P低画质结果,来凸显CPU性能差异的想法;也理解为了尽快向读者提供新产品信息,仅仅测试一个非常具有代表性游戏的做法。
测试多个游戏,取决于测试方式,也许每个游戏的下载、安装、初始化都需要消耗不少时间,赶活的话的确可能来不及;但都已经下载安装好可以跑720P了,与其把CapFrameX上的一大段说明(原文只有英语和德语页面)[1]翻译成西班牙语来解释,真不如再花十来二十分钟,改一下分辨率再跑几遍,把1080P的结果也跑一遍放出来给大家看。
然后就是游戏评测,诚然如 @尤娜Yuna 所说,附带的基准Benchmark仅仅是个回放,并不能代表实际游戏体验,但是这样的回放方式,很好的回避了不同测试中用户输入的差异导致的实际负载不同,不能完全代表实际游戏体验但很合适用来对比硬件性能。
很显然,XanxoGaming的这一段测试并非使用古墓丽影:暗影自带的基准测试。这个测试我自己跑过N次,我可以肯定没有附图上面这样的界面:
根据TechPowerUp的测试结果[2],12900K/12900KS在720P全高画质下跑古墓丽影:暗影,平均帧数350+FPS,即使在1080P下也有250+FPS。而且显卡还是3080,比XanxoGaming用的3080 Ti性能还低一点。
就我自己来说,如果一个CPU评测,想靠近实际游戏体验,那么即便想用低分辨率去凸显CPU性能差异也应该起码在1080P分辨率下进行测试;如果想尽量避免干扰凸显不同硬件的性能差异,那么应该尽可能用游戏自带的Benchmark而非自行/脚本操作然后用第三方监控软件记录的方式——因为脚本、监控软件本身会占用CPU资源,对游戏或多或少造成一定的干扰,影响测试结果。