百科问答小站 logo
百科问答小站 font logo



如何看待中国天眼用AI发现银河系边缘数万光年外的暗弱脉冲星,解决世界级难题,对人类意味着什么? 第1页

  

user avatar   cppgx 网友的相关建议: 
      

脉冲星的概念和观测研究意义,大家都说了很多了。我只对 @刘博洋 的回答

zhihu.com/question/4709

作一些针对性更正。本人是业余射电天文爱好者,叙述有误之处请刘博洋博士及各位观众补充。

  1. 数据错误:“FAST每天可以产生500TB的数据,算下来每周都会产生三千万张脉冲星候选体的分析图表。”

    首先,FAST作脉冲星观测时,数据记录速率通常为:4096[频谱分辨率]*38[个接收机]*20345[次/秒]=3.167[GB/s]. 观测24小时获得数据:274TB/249TiB.

    众所周知,大型射望远镜需要大量维护时间(曾经第二大的望远镜Arecibo因缺乏维护已停止运行)。排除维护时间,望远镜运行的时间就要打个六折。

    科学研究就像赛跑,“各就位——预备——”的时间不计入成绩。换句话说,望远镜运行时间还不是完全用来记录天文信号。

    进一步地,天文研究的对象不止是脉冲星。根据FAST官方网站的公开信息:
    2020年度FAST自由观测申请项目评审结果 - FAST
    不少观测时间分配给了非脉冲星项目,因此脉冲星数据量还要再打个折,也就是说,仅根据公开信息来看,脉冲星观测数据不会超过:274TB/天*0.6=164TB天,约为500TB的1/3, 可以认为刘博洋对科学家需要处理的脉冲星数据量的估计有数量级上的误差

  2. 方法错误:“每周都会产生三千万张脉冲星候选体的分析图表。你想想如果你导师让你这个小博士生一周看三千万张图,100个你不吃不喝啥也不干也看不过来呀。”

    注意看presto输出的图像:(图片来源:Scott Ransom)

脉冲星信号特征显示为简单的几何图形。脉冲星信号的识别可以使用传统(非人工智能)的信号处理方法,并不一定都要人工识别。试想科学家真的需要每星期人工识别1000万张图片,那就相当于50个人每人每秒钟识别一张图片。以脉冲星搜寻领域的从业人数,这是不存在的。那么,在腾讯介入之前,科学家发表的文章是怎么回事呢 ——

3. “有趣”的AI性能宣传:“在腾讯的AI算法和GPU算力加持下,3000万张图,只需要3天时间就可以分析完成,确保了FAST脉冲星巡天数据可以得到及时有效的处理。”

我们看一下一个主要的FAST脉冲星搜寻项目的数据处理方法:(Han et al. 2021

可见“人工智能”的作用是区分脉冲星信号和人为干扰信号。那么这个加速效率是多少呢?上文引用的 Zhu et al. (2014) 给出了估计:

采用2014年的计算机硬件,不使用GPU,每个CPU核心平均0.7秒处理一组图像。假设CPU单核性能在过去7年间没有变化,那么现在用一台128核的AMD服务器,或者一台112核的Intel服务器,每秒钟大约可以鉴定170张图,鉴定1000万张图需要16个小时,约0.7天。

另据 Zhu et al. (2014) 估计,经过AI鉴定分类,可以“提高人工分类效率100倍左右”。也就是说,假如人眼每2秒识别1张图,那么处理1000万张图需要:1000万[张]/0.5[图/s]/100[倍AI加速]/86400[秒/天]=2.3天。

按照每人每天有1/3的时间在工作,只需要3位科学家处理数据,AI预选+人工复查的总时间即可达到:
0.7天∪2.3天 = 2.3天 < 3天。

也就是说,只用1台计算机,纯CPU计算,采用7年前的算法,也比现在腾讯的GPU集群速度快。那么,腾讯的GPU AI性能就很有趣了。如果刘博洋有兴趣,可以再次对腾讯做一下“独家专访”。

4. AI的意义

不可否认AI在脉冲星观测研究中的贡献。但是,本人作为一个业余射电天文爱好者,以我粗浅的认识,科学研究还是要知其然又知其所以然。人工智能可以排除99%的无效数据,那么排除的理由是什么?这些无效数据或者假信号的来源是什么?从电子工程和数字信号处理的角度来看,假信号产生的原理是什么?如何从原理角度对其进行鉴别,以避免错误排除真实的天文信号?这些是弱人工智能不能回答的,却是科学研究的关键议题。

综上,希望“公众科学家”们在科普宣传中多给出一些靠谱的数据,偶尔能有严肃的思考。至于互联网大公司的话术,我当然不能公开地说“一个标点符号都不能信”,但站稳自己的立场才能对科研,对科普都有更大的贡献呀!


彩蛋:“如何看待中国天眼用AI发现银河系边缘数万光年外的暗弱脉冲星...

—— 猜猜银河系的半径有多大?“数万光年”在银河系里是个什么概念 LOL

.编辑:感谢 @刘博洋 提示!这个数万光年外看来应该理解为太阳系数万光年外,此前我理解为距离银河系边缘数万光年外,怪不得感觉这措辞挺神经。


user avatar   spto 网友的相关建议: 
      

刚从国家天文台的老同学处听来一个小道消息,说他们跟腾讯合作,使用腾讯的人工智能算法和GPU算力,提升了在FAST望远镜(中国天眼)数据中搜寻脉冲星的效率,并且已经藉此发现了新的脉冲星

腾讯使用的具体方法目前还没有公布,具体发现的是什么样的脉冲星也要等论文发了才知道,不过这不妨碍我们根据已经历年来已经公开的材料,做一番猜测。

在此之前,我会先简单回顾脉冲星研究的意义,以及简单介绍脉冲星的搜索方法。如果对这些背景已经有所了解,就可以直接跳到第三部分,看看人工智能是如何应用在脉冲星搜索中的

脉冲星研究的意义

脉冲星是1967年,当时正在剑桥大学读研究生的约瑟琳·贝尔女士发现的。虽然已经过去了50多年,脉冲星仍然是一个不断给人惊喜的研究领域。

它一被发现,首先就证实了一个遥远的猜测:1934年,巴德和兹维基在中子刚刚发现两年之际,提出可能存在一种完全由中子构成的天体——中子星

而发出极短周期(通常小于1秒)脉冲的这种新天体,提示我们它就是「中子星」这种此前仅仅是猜想的致密物体。

中子星的质量比太阳还重,而直径只有十几公里。相当于在北京三环以内集中了几十万个地球质量。于是一个首当其冲的问题就是,这么致密的物质组成的天体,其上物质的状态和性质是怎样的

这个问题的答案就藏在脉冲星的“心电图”中。长期监测我们会发现,随着转动能量的消耗,脉冲星的自转周期逐渐减慢。但是偶尔,它的自转会突然有一个小幅加速(“glitch”)——这种脉冲星“心率”的突变,应当起源于脉冲星地质结构的突变,也就是脉冲星上的“地震”。

就像地球物理学家可以通过地震波的传播摸清地球核、幔、壳的结构,天文学家也可以通过监测脉冲星上的地震,研究极端致密物态组成的中子星的结构

除了glitch的时候以外,脉冲星的周期非常稳定,堪比原子钟。于是脉冲星研究的另一个用途,是利用这种宇宙中天然存在的精密时钟,对广义相对论进行验证。

天文学家对一对儿在1974年发现的毫秒脉冲星进行长期监测,发现其相互绕转周期加速的趋势,完全符合广义相对论的预言——它们之间不断相互接近,正是由于两个致密天体绕转时搅动时空,发出引力波,不断带走转动能量。这是人类第一次获得引力波存在的间接证据

将来,脉冲星还将以另一种方式为引力波研究做出贡献:当宇宙中某个地方发生双黑洞并合之类的引力波事件,引力波如海啸般向外扩散、扫过若干脉冲星,我们原则上可以通过监测这些脉冲星的周期变化,探知这次引力波事件的存在——这一方法,叫做“脉冲星计时阵列”。

脉冲星阵列还有另一个用途:在未来的星际旅行中,脉冲星可以充当“星际GPS”,为星际飞船提供导航所需的参考信号

脉冲星的搜索方法

脉冲星用处很多,但总要先找到它们,才谈得上如何利用。

对于早期发现的那些亮脉冲星,它们辐射强度的周期性变化,用肉眼就能直接看出:

但对于大部分脉冲星而言,单个脉冲的强度很弱,几乎完全埋没在噪声中,只有通过按照周期折叠,让噪声彼此抵消,才能增强信噪比,把脉冲形状“露出来”。

但是问题来了,对于尚未发现的脉冲星,怎么知道它周期是多少、又该按什么周期折叠呢?

有一个办法,就是傅立叶变换。通过变换,可以计算出数据有哪些周期性信号。

对于射电天文观测,还有另外一个复杂性。脉冲星跟我们之间,可能充斥着非常复杂的电离态星云。

脉冲星的信号经过这些星云时,会跟其中的自由电子发生相互作用。不同频段的信号受到的影响不同:比较低频的,会受到比较强的“阻滞”,晚一些到达观测者;比较高频的,会早一些到达观测者。

就像光通过棱镜时,由于不同颜色的光在玻璃中光速不同、折射率不同,会产生的色散现象一样,电磁波通过星际介质时的这种效应,也被称作“色散”。

对于未知的脉冲星,我们是无法预知其色散的。我们只能大致估计出银河系内脉冲星的色散的数值范围,然后在这个范围内以一定间隔取值,对数据进行“盲”消色散。盲消色散之后的结果,才能进行傅立叶变换及按周期折叠。

显然,在取值范围内众多可能的色散中,正确的那个色散可以给出最好的信噪比;而越离谱的盲猜值,信噪比就越差:

使用脉冲星搜寻程序PRESTO,我们可以对脉冲星巡天的原始数据进行盲消色散和折叠处理,得到一系列(大量)这样的脉冲星候选体分析图表:

原则上观察这样的脉冲星候选体分析图表,天文学家就可以判断出一组信号是否来自脉冲星;以及如果是脉冲星的话,它的周期、色散量等各项参数是多少。

人工智能在脉冲星搜索中的应用

下面问题来了。PRESTO产生了一大堆这样的图,天文学家就算再熟练,一秒看一张,也看不过来呀!

毕竟脉冲星巡天是FAST望远镜的重要任务之一,而FAST在漂移扫描模式下每天可以产生32TB的脉冲星数据,算下来每周都会产生三千万张脉冲星候选体的分析图表。

你想想如果你导师让你这个小博士生一周看三千万张图,100个你不吃不喝啥也不干也看不过来呀。

咋办呢?笨办法,雇一帮热爱科学的高中生代劳,美名其曰公众科学:

美国 Pulsar Search Collaboratory 项目就是这么干的。

这样做不是不行,顺便搞搞中学生天文教育也是好事。但人一多,标准就不好把控。而且人眼的特征识别能力虽然强,对于特别弱的信号,仍然会有遗漏和误判。

于是天文学家开始求助于人工智能。

大而化之,人工智能在脉冲星搜索中的应用又分两种[1]

一种,是天文学家先用PRESTO等软件把脉冲星候选体的特征数据提取好,诸如周期、色散量、信噪比,再如脉冲在整个周期中占的比例(占空比)、脉冲的数量和形状、是否由于身处双星系统而有周期性多普勒效应,等等。

接下来,把这些参数组合喂给神经网络:给机器提供一些已知脉冲星的参数进行深度学习,然后用训练好的模型去分析海量未知数据。

由于前一种方法中,提取参数这一步可能引入误差,还有一种更“懒惰”而有效的方法:直接把PRESTO产生的那几张图(前一节末图中几个红框标记的)喂给AI,让AI自己进行画面特征提取

这次跟国家天文台中国天眼团队合作的是腾讯优图实验室,这是一个聚焦计算机视觉、专注图像处理的团队,因此我有理由相信,他们采用的是后一种方案。

另外据本人独家采访参与该工作的研究人员,腾讯云还提供了强大的GPU算力,有效加速了消色散和折叠过程。面对FAST的海量数据,强大的算力显然也是天文学家必不可少的重要工具。

在腾讯的AI算法和GPU算力加持下,3000万张图,只需要3天时间就可以分析完成,确保了FAST脉冲星巡天数据可以得到及时有效的处理。

有这样的工业界先进技术加持,天文学家再也不怕数据处理不完啦。

参考

  1. ^脉冲星候选样本分类方法综述 http://jdse.bit.edu.cn/sktcxb/html/sktcxbcn/2018/3/20180301.htm

user avatar   tuo-qia-ma-ke-zhi-guan 网友的相关建议: 
      

其实人工智能识图技术相比较天文探索,感觉更适合用于地理信息研究,仅仅只用于天文探索,未免有些大材小用了。

实际上卫星投入地理信息研究比很多人想的要早,效果也比很多人想象的要强,美国在1972年发射了第一颗陆地遥感卫星,1978年发射了第一颗海洋遥感卫星,随后就展开了对遥感卫星实际运用的探索

最显著的成果是美国在80年代对世界各国的农业生产情况通过遥感卫星进行了宏观分析,最后通过对获取的资料进行归纳汇总,针对性调整了美国的农业生产情况,极大强化了美国农业的优势地位,美国的农业生产一直冠绝全球,但真正确立起在交易和产业层面的绝对优势地位,特别是对农业生产的宏观指导,归根到底还是沾了80年代农业遥感的光。

美国对苏联农业生产状况的卫星估产甚至成了冷战的关键胜负手,在通过遥感探测掌握了苏联农业生产的实际情况后,才开始放手对苏施压的。

美国在农业领域的霸权,固然和其得天独厚的农业条件有关,但在农业遥感领域先行一步,也是重要原因。

中国在遥感卫星的农业运用领域一直非常上心,从1999年发射了中巴地球资源一号卫星之后,又陆续发射了一大堆遥感卫星,其中包括从2006年起发射的著名的“遥感”系列遥感卫星,迄今已经发射了30多颗,最近的一颗是2021年5月7日发射的遥感30号08组卫星。

这么上心的原因,也是因为看到了遥感卫星在国土资源勘查、环境监测与保护、城市规划、农作物估产、防灾减灾和空间科学试验等领域的巨大作用,比如农村地区屡禁不止的私占基本农田现象,很大程度上就是遥感卫星铺开使用后才获得解决的。

现代遥感卫星在地理信息领域的应用已经很成熟了,一颗卫星只需要很短的时间就能对地表的信息进行大范围的收集,光学遥感卫星的分辨率和雷达遥感卫星的精度这些年也逐渐不再是问题,分辨率达到米级精度已不少见,数据通信更不是问题,美国在80年代发射的长曲棍球卫星已经拥有百兆级的无线通信带宽。

数据的获取,传输,都不是问题,因此制约卫星信息在地理信息层面应用的,主要是数据的处理能力。

在以往,数据的处理主要依赖技术分析人员从图像中进行人工识别,但人工识别最大的问题就是效率低下、无法应对大量数据,哪怕是像NASA的陆地观测卫星这种老卫星,也能以每天185平方公里的速度拍摄500多张图像,单个像素点至少为30平方米左右,一个足球场也就几个像素点。

哪怕是这种信息量相对较低的数据,人工处理起来也是效率极低,非常费劲的,而更先进,精度更高的卫星,数据量更大,人工处理起来更费时。

技术分析人员必须把天量图片拿来,一张张放大,观察,分析,还要把旧图片拿来比对,甚至可以这么说,卫星信息的处理工作,很大程度上曾是一个依赖人海战术的劳动密集型工作,是一种手工业。

当年NASA在文章里就说过,卫星图片识别就像一堆人趴在桌子上要把面粉里的砂子一颗一颗挑出来。

这也导致了早年卫星信息的时效性很差,空间位置固定的信息还好说,对移动目标的观测和追踪极为困难,对于那些较高的目标则几乎百无一用,另外还容易受到自然条件的干扰。

所以早年对卫星遥感信息的获取主要以固定设施、气象水文、宏观规律等为主,运动类信息的获取非常困难,就算获取了,时效性也很差,几乎不可用。

随着以深度学习为代表的人工智能技术的逐渐成熟,把人工智能技术引入卫星情报的数据分析处理,特别是引入到光学遥感卫星的图像识别中成为了大趋势,它可以大大提升卫星信息处理的效率,对于人工的节约都算是小事了,主要是时效性大幅提升之后,对于移动类信息的跟踪难度大幅降低,特别是对于至关重要的高的信息,实时跟踪的难题会被逐步解决。

按照美国方面的公开文献的说法,利用人工智能解决遥感卫星的图像处理问题,能更好地从海量卫星图像中挖掘高价值信息,分析人员的工作量能减少75%,时效性更是有了根本改观,这还是几年前的说法了。

现在最先进的卫星图像识别能力已经发展到可以区分相同机型的飞机究竟是货机还是民航飞机的水平了。

利用人工智能对卫星情报进行数据处理和图像识别也有一些问题。遥感卫星的图像构成更加复杂,识别算法的复杂程度不是我们的手机自拍美颜特效能比的,另外遥感卫星容易受到天气、成像角度、传感器类型、伪装隐蔽手段等因素的影响,卫星因为运行轨迹固定,还容易受到干扰。

深度学习算法的成熟,还需要依赖大量卫星图片数据和足够的时间进行积累,因此,要想强化通过卫星获取地理信息,特别是对重要信息的实时处理,不仅需要对卫星的传感器、数据通信、组网、补发等能力进行强化,用于处理数据和图像识别的人工智能也要进一步改进强化。

这次腾讯的算法和贵州的大锅盖分工合作,能够在遥远距离外发现大批以往极难被发现的暗弱脉冲星,这说明腾讯的相关算法至少已经具备相当程度的水准,特别是复杂光谱条件下的数据处理和图像识别能力,相关技术储备完全可以运用于地理信息和卫星遥感领域,就像通过AI和云计算帮助中国天眼以较高的效率处理深空图像,这些技术同样也可以有效提升利用遥感卫星获取并处理信息的效率,特别是对时敏类信息的处理效率,在复杂气象条件和复杂电磁环境下准确获取信息的能力也会大幅提升,这对于指导农业工作和地理信息类工作是极为有利的。

仅仅用于天文学研究,感觉甚至都有点局限了它的用途了,完全可以用在其它那些对时敏性有较高要求的工作上。

我向来不怎么批评企鹅的一个很大的原因,是因为企鹅在涉及一些关键性领域时还算是有所作为的,比如国内第一台能够踩不等距不等高的梅花桩的机器狗也是企鹅搞出来的,距离美国企业搞出类似的东西也就一年多的时间,效率非常之高,这种办事能力是一种宝贵而稀缺的战略资源。

企鹅在很多事情上也算是心里有数,至少外滩炸弹演说这种事情它不会去做,能够做到心里明白自己吃的是哪碗饭,这也算是一种本事。


user avatar   asura-3-28 网友的相关建议: 
      

做为同价位的两款竞争车型,各有各的优势,选择起来确实有一定难度,于我而言,可能我会毫不犹豫的选择小鹏,不为别的,因为我讨厌特斯拉,就算特斯拉的各项性能指标都不错、价格也合适,但是出了那么多事故,特斯拉的态度一直令人失望,汽车安全这一点我不信,而且据说特斯拉有窃听功能,很多公务员单位禁止购买。

小鹏p7的外观就很惊艳,车身尺寸达到了4880/1896/1450mm,轴距为2998mm,全景天窗、无框车门?隐藏把手,这一切都充满了科技感和科幻感,令人心潮澎湃。

动力上,更极具优势,后驱超长续航版可达到706km,百公里4.3秒加速度,这些都是优于特斯拉model3的。

具体选择,仁者见仁 智者见智吧,反正我肯定选择小鹏p7!


user avatar   Threelemontree 网友的相关建议: 
      

做为同价位的两款竞争车型,各有各的优势,选择起来确实有一定难度,于我而言,可能我会毫不犹豫的选择小鹏,不为别的,因为我讨厌特斯拉,就算特斯拉的各项性能指标都不错、价格也合适,但是出了那么多事故,特斯拉的态度一直令人失望,汽车安全这一点我不信,而且据说特斯拉有窃听功能,很多公务员单位禁止购买。

小鹏p7的外观就很惊艳,车身尺寸达到了4880/1896/1450mm,轴距为2998mm,全景天窗、无框车门?隐藏把手,这一切都充满了科技感和科幻感,令人心潮澎湃。

动力上,更极具优势,后驱超长续航版可达到706km,百公里4.3秒加速度,这些都是优于特斯拉model3的。

具体选择,仁者见仁 智者见智吧,反正我肯定选择小鹏p7!


user avatar   xing-kong-18-32 网友的相关建议: 
      

AP被黑得最惨的一次

性能差?

那就来领教领教什么叫做性能!

内置16天线,10750M速率(你没看错,万兆),有线侧是2个万兆电口,1个万兆SFP+光口

当然价格嘛,那不是AP的缺点,是你的缺点。

==============================================

说正事,AP+AC指的是转发与控制分离的架构,MESH本意是指在AP之间采用网格状、自组网、自恢复的无线接力回传。企业级的APAC产品也可以采用MESH组网,就是调试比较麻烦,很少这么用而已。家用级别的支持MESH的套装路由器产品本质上来说就是一套预先调试好的低配版AC+AP,只不过没有单独的AC,而是根据启动顺序、优先级、网络中的位置等选举出一台设备执行AC的管理功能。

所以你是要怎么结合?用企业APAC做MESH?算了吧,你先要明白的是,网络的根本目的是服务终端设备,其自身采用什么方案应该根据你的现场实际情况,需求, 以及预算做一个综合考量。切勿本末倒置,一上来就考虑哪个方案好那个方案不好,还想着怎么结合。殊不知你的那点知识很多都是错的。


user avatar   teng-xun-70 网友的相关建议: 
      

AP被黑得最惨的一次

性能差?

那就来领教领教什么叫做性能!

内置16天线,10750M速率(你没看错,万兆),有线侧是2个万兆电口,1个万兆SFP+光口

当然价格嘛,那不是AP的缺点,是你的缺点。

==============================================

说正事,AP+AC指的是转发与控制分离的架构,MESH本意是指在AP之间采用网格状、自组网、自恢复的无线接力回传。企业级的APAC产品也可以采用MESH组网,就是调试比较麻烦,很少这么用而已。家用级别的支持MESH的套装路由器产品本质上来说就是一套预先调试好的低配版AC+AP,只不过没有单独的AC,而是根据启动顺序、优先级、网络中的位置等选举出一台设备执行AC的管理功能。

所以你是要怎么结合?用企业APAC做MESH?算了吧,你先要明白的是,网络的根本目的是服务终端设备,其自身采用什么方案应该根据你的现场实际情况,需求, 以及预算做一个综合考量。切勿本末倒置,一上来就考虑哪个方案好那个方案不好,还想着怎么结合。殊不知你的那点知识很多都是错的。




  

相关话题

  因员工阳性上海最大家用氧企业停产,当前该怎么解决市民急需家用氧气瓶的问题? 
  以人类现有的科技,研究一光年以外的东西有用吗? 
  美国武装部队防御准备状态已达 3 级,与 911 事件同级,这意味着什么? 
  以人类目前科技水平,100 年内能否可以发射人造物体进入冥王星轨道? 
  为什么现在的文盲少了人们受教育程度越来越高,网友表现出来的思考能力却很弱?一些言论简直无脑无常识? 
  塞尔维亚华人称失联女孩还活着,「在萨拉热窝,已发照片联系其父母」,去塞尔维亚旅游应该注意些什么? 
  河北寻亲男孩再遭遗弃后轻生,有过原生家庭创伤的人,该如何自我调节?这给家庭教育带来哪些反思? 
  你怎么看待刘慈欣的观点:提倡环保而不考虑开发太阳系是件很不理智的事? 
  广东一对姐弟走失超 10 小时后父母才报警,他们原以为失踪 24 小时才能报警,关于报警还有哪些误区? 
  近半双一流博士生对专业课不满,研究生专业课真的「没必要」吗?研究生真正需要怎样的课程? 

前一个讨论
有没有什么可以对楼上噪音免疫的方法?
下一个讨论
如何实现stm32运行sd卡里的程序?





© 2024-11-08 - tinynew.org. All Rights Reserved.
© 2024-11-08 - tinynew.org. 保留所有权利