百科问答小站 logo
百科问答小站 font logo



2021 CCF 全国高性能计算学术年会(CCF HPC China 2021)有哪些值得期待的地方? 第1页

  

user avatar   huo-hua-de-41 网友的相关建议: 
      

一年一度的全国高性能计算学术年会 (CCF HPC China 2021) 就要来了!作为 CCF 的付费会员,我的内心非常激动。一般计算机科研领域从业者应该对这个大会并不陌生。CCF HPC China 创办于 2005 年,是高性能计算(High Performance Computing,简称 HPC)领域全球最具影响力的三大盛会之一,与德国 ISC 超算盛会、美国 SC 超算盛会并驾齐驱。

看了一下这次合作单位有华为、英特尔、AMD、联想、亚马逊等各路科技大牛公司。可想而知,这个大会的阵容还是不可小觑的。要说这次大会有什么值得期待的亮点,当然是各路科技大牛带来的各种前沿科技和新的解决方案。但要说为啥 HPC 领域这么广受关注,我想说的是这个领域可能关系到一个国家的命运。

当今世界各个国家都在超级计算机领域你追我赶。不知道大家是否知道,其实早在二战时期,算力的提升就成了扭转整个战争格局的关键因素。这时不得不提的一个人就是图灵,他被誉为计算机科学与人工智能之父。当时整个欧洲笼罩在德国法西斯的阴影下。此时的德国平常是通过密报来发送指令,告诉前线军队去袭击某个城市,还有接下来的军事部署。如果能拦截并破译德国密报,掌握了对手的情报,那么英国就能提前做出准备。当时德国用的是恩尼格玛密码机加密文件。恩尼格玛密码机非常复杂,可以配置 158,962,555,217,826,360,000 种不同的方式。在当时看来这是一个根本不可能被破译的加密方式。图灵凭借着他的天才设想设计出一种破译机。这台机器主要由继电器构成,还用了 80 个电子管,由光电阅读器直接读入密码,每秒可读字符 2000 个,被称为“图灵炸弹 (Bombes),它有一吨重,可以模拟 30 台并行运行的恩尼格玛密码机。世界上第一台电子可编程计算机 (The electronic programmable computer) 就这样诞生了,可以说这是最早 HPC 的雏形。通过利用“图灵炸弹”,英军在之后的战争里破获了德军 90% 的情报。据说正是这台电脑的发明使得二战提早了两年结束[1]。

随着时代的发展,一代又一代电脑的迭代,算力已经有了巨幅的提升。当然这期间基本上都是各个科技大牛之间的不断竞争。正是因为一代又一代的 CPU 的进步,让我从暴力摩托玩上了吃鸡。

21 世纪可以说是算力的世纪(施一公可能不同意)。随着算力的提升,除了给个体用户生活上带来更好的体验外,对其他商业、工业领域也是影响巨大,比如金融服务、科研等领域。下面我就和大家说说 HPC 潜在的巨大价值。

首先,就说说大家日常都关心的事情,赚钱。21 世纪做什么最赚钱呀?金融。金融领域里离咱们老百姓最近的就是炒股了,但炒股很难——难就难在心态,难就难在人性。人骨子里追涨杀跌的天性,最难克服。当然,你也可以反其道而行之,“别人贪婪我恐惧,别人恐惧我加仓”,但最后还是发现自己是个韭菜。

那要怎么克服人性的弱点呢?那就是用计算机来投资,用算法代替人来决策,即所谓的量化投资。量化投资这个名字很迷惑人,第一次听到的时候我还以为和量子力学有关,但其实说白了就是用计算机来炒股。

我来输出点干货,具体怎么做呢?今天介绍日间和日内两种策略。

  • 日间策略:用一段时间的 K 线图 + 各种信息,预测后几天的涨跌。后天的真实涨跌我们是知道的,就可以用作标注数据,用机器学习模型挖掘过去时间内的特征。使用的时候呢,也是用模型把当前的日线图 + 各种信息作为输入模型,预测未来几天后的涨跌,如果预测结果为涨,那就可以买入,等过几天再预测要跌了,就卖出。
  • 日内策略:根据每天开盘后的 10 分钟到 30 分钟的 K 线图,用模型把它加工成特征,然后检索 A 股上过去 10 年的相似 K 线图,再根据相似 K 线图后市的走势判断今天是涨还是跌,如果是涨就马上买入。

是不是感觉不难?用自己的小笔记本就可以尝试一下。但这里面有个门槛,那就是算力。对于日间策略,算力越强大,模型参数就可以越多,拟合能力就越强,就能挖掘出更好的特征。对于日内策略,算力越强大,检索速度和质量就越好,能找出更好的相似 K 线图。所以对专业机构,他们做量化炒股都是用超级计算机。听我的一个小伙伴说,他们国内顶尖量化团队,去年就用上超级计算机了,现在还在不断扩容,准备用算力征服 A 股市场,而他们超级计算机里的 CPU 选用的是第三代英特尔®至强® 可扩展处理器。一方面,至强® 处理器支持 AVX-512 技术,在矢量化计算方面优势巨大。另一方面,英特尔还能提供专门的底层优化,包括 MKL 通用矩阵计算优化、深度学习加速技术,及 oneAPI 工具套件,开发人员可以更加轻松地针对各自的 HPC 环境优化高性能金融代码[2]。

除此之外,HPC 也广泛应用在科研领域。比如基础科研,像化学、生命科学的研究,早已不是围绕瓶瓶罐罐的手工艺学。尖端的生化突破,往往要借力于高端的计算能力。基因组学方兴未艾,蛋白组学后来居上;代谢组学希望平分秋色,暴露组学也崭露头角。大数据,高算力,能够极大提高组学水平的生化问题研究能力,为人类健康问题的解决做出重大贡献。

算力的提升,还可以让科学家们更高效地积累、处理、应用大数据。以蛋白组学为例,现在的主流做法是服务器储存数据(如 protein data bank, PDB 等),然后用户下载数据,在单机上进行数据处理(主要是结合实验数据解析蛋白序列、后修饰、定量变化情况等)。这种方法效率不算高,且需要较多人力。与之相比,以英特尔-博德基因组数据工程中心为例,面向基因组学分析打造的英特尔® 精选解决方案将 GATK 4.0 整体运行性能提高了 5 倍,并缩短了基础设施的部署时间,加快了基因组学工作流程 [1]。高算力与大数据结合在一起,可以让大数据真的“插上翅膀飞起来”。数据工程中心的模式,改变了单打独斗模式的零散性,能够起到更好的集聚效应,赋能高效率的数据读存和科学计算。

该服务器平台存储了海量的蛋白结构数据。实际使用时,还是以下载序列,用单机平台运行的软件(如 PEAKS 等)来处理数据居多。真实的计算能力还是取决于单机的算力。实际算力提升空间依然很大。

再说说分子动力学模拟,它是现代基于结构的药物发现的重要手段之一。分子动力学模拟对算力可是有很大的胃口。从基础上来说,分子动力学模拟的时间步长一般为 ps 级别(10^-12 秒),一步计算约需要 1~10 秒的时间(取决于体系大小),可想而知要计算秒级别的宏观过程,大约需要 3 万年(所以现在科学家们一般不计算到秒级别,学术论文里一般算到 ns~us 量级)。值得注意的是,为了在现有算力条件下达到目前的计算时间尺度,在使用中,科学家们往往要做简化,例如忽略溶剂效应、忽略次级相互作用以及采用更小的蛋白区域 (protein domain) 等。这些简化是不得已而为之。算力的增加当然可以有望让这些妥协变得不再必须。面对这些极具挑战性的需求,英特尔® 至强® 铂金处理器,英特尔® HPC 网络协议规范等一揽子解决方案,可以作为一线担当来试试身手。随着算力的不断提高,总有一天,“AI-人工智能搭反应,MC-蒙特卡洛算过程,DL-深度学习析机理”将会实现。算力的提升,让我们有如下美梦:生化学家将脱下白大褂,点起鼠标喝着茶,指点分子江山,激扬原子文字,何其伟哉。

举一个文献例子 [3],该文研究了抗体与新冠病毒蛋白的蛋白-蛋白相互作用。分子动力学模拟的时间尺度在 ~100ns。可以想象,算力的进一步提高,可以有望计算更长时间尺度的分子动力学过程,使得计算结果更加接近“真实”,能够进一步加速人类新药的研发,造福大众。

英特尔在HPC领域还有更多有趣的应用场景,感兴趣的可以戳下面的卡片:

在今年的 CCF HPC China 2021 大会上,期待各大公司和科研院校八仙过海,各显神通,拿出惊艳的产品和解决方案,已经激动地搓手手了~


Reference:

[1] en.wikipedia.org/wiki/B

[2] intel.com/content/www/u

[3] RSC Adv., 2021,11, 33438-33446;10.1039/D1RA04134G




  

相关话题

  谁能帮我讲一下计算机的「前世今生」? 
  为什么不开发 Linux 上的傻瓜式桌面? 
  元宇宙和数字孪生的异同是什么? 
  清华计算机毕业去约翰霍普金斯大学学金融丢人吗? 
  高性能计算中心对建设世界一流大学来说重要吗? 
  固态硬盘适不适合Linux呀? 
  为什么国内用户倾向于认为 Windows 是廉价的? 
  如何评价3月30号解禁的11代英特尔实测性能? 
  计算机科学与技术专业的学生要怎样做才能避免成为低级的码农? 
  CPU 是怎么认识代码的? 

前一个讨论
如何评价昆明理工大学的计算机科学与技术专业?
下一个讨论
如何看待timm作者发布ResNet新基准:ResNet50提至80.4,这对后续研究会带来哪些影响?





© 2024-11-24 - tinynew.org. All Rights Reserved.
© 2024-11-24 - tinynew.org. 保留所有权利