地球自转一圈需要24小时,那么你知道脉冲星(不断发出脉冲信号的中子星)自转一周需要多久吗?
答案是:按秒计算。
即便是目前发现转速“最慢”的脉冲星(编号J0250+5854),它自转一周可能也只需要23秒。而转速快的脉冲星,它可能在你一眨眼的功夫就已经偷偷跑了几十个转了。
因而,我们人类用肉眼是很难直观感受到脉冲星的频率。约定俗成的手段是,利用射电天文望远镜对脉冲星发出的射电信号特征进行提取,然后将这部分特征通过二维空间的方式表达出来。科学家通过对这些数据进行相应的追踪观测,才能够发现脉冲星的痕迹。
但这一切带来的工作量都太大了。
2021世界人工智能大会期间,马化腾宣布了腾讯与国家天文台的合作,双方合作的项目,主要是借助腾讯云的计算、存储能力与腾讯优图实验室AI算法的能力,为中国天眼FAST寻找脉冲星提速。
一家是互联网公司里的实验室,一家是从事基础科研的天文台,如何开启探星业务?
找星星的人
中国科学院国家天文台研究院、FAST首席科学家李菂向雷锋网透露,双方合作期间已经被验证的新脉冲星已经有5颗了。
让人兴奋的数字。
实际上,这场兴奋最初源于1967年和1993年的两次脉冲星观测发现,其意义引发了全世界天文学家对脉冲星探索的强烈热情。
而在中国天眼落成之前,中国的望远镜和中国工作的科学家从来没有发现过新的脉冲星。
2016年9月,全球最大的500米单口径球面射电望远镜FAST落成,也就是我们如今常说的“中国天眼”。
过去几年,仅中国天眼FAST一家就已经观测到近350颗脉冲星,占全球已发现脉冲星总数(近3000颗)的十分之一。
可以说,中国科学家在利用天眼作为天体设备搜寻脉冲星方面,已经具备一定的领先性和成熟经验。
而这一领先性有望被再度提升。
2021年,腾讯优图实验室主动找到李菂老师团队,希望能利用腾讯自身在AI算法、计算资源调度等方面的优势,为航天探星做出一些努力。
经过前期的一系列交流和探索后,双方很快就在春节后正式确立了项目:即利用 AI 帮助中国天眼 FAST 处理每天接收到的庞大数据量,并通过视觉 AI 分析找到脉冲星线索。
李菂老师告诉雷锋网:
“首先,科学家捕捉到的脉冲星发出的射电信号,其实是一个对电磁场的高速采样。通过信号处理和频谱分析,得到的是一个视频流,也就是动态谱。衡量的一个维度是时间,另一个维度是频率。不过,这种频率非常快,通常人眼和人脑是没有办法处理的,实际上包括计算机视觉,如今处理的绝大多数情况是静态的照片。
从70年代脉冲星首次被验证时,大家就在沿用类似的方式,将视频流一段一段截取出来,但截出来的采样量还是太大了。因此,我们需要再做进一步的信息提取,最终会形成各种类型的特征图,给科研工作者进行判断。”
复杂的图像数据
优图实验室在这个过程中做的,其实就是将交给科研工作者判断的特征图,交给机器来处理判断。当然这部分特征图也是经过处理后的适合计算机视觉领域处理的图像数据。
腾讯优图实验室副总经理黄飞跃向雷锋网指出:
“一般来讲不管是人眼还是机器视觉都有可能漏掉(星星)。但首先漏掉了可能我们也没有办法知道;其次我们现在更多关注的是准确率,毕竟要处理的数据量太大了,存量数据都还没有处理完。现在首要是先把容易找的先找到,漏掉一些没有关系,之后再进行进一步的细筛。”
这个过程就好比是粗筛和预处理,利用AI的方式解决掉(如针对缺少标注数据问题,采用了小样本学习、迁移学习方法),然后留下的少部分样本,再经过人工再次比对确认。从整个流程的效率和识别的准确率上都有比较高的提升。
从结果来看,FAST一周产生的数据,大约相当于3000 万张信号图。如果以人工肉眼按照 1 张/秒速度,在不吃不喝不休息的条件下,需要用一年的时间。如果通过 AI 处理,只需要 3 天时间就可以处理 FAST 的 1 个月数据,极大的节省了人工时间成本。
从磨合到共同促进
在与优图实验室合作之前,并不代表天眼FAST没有尝试过与机器学习等交叉学科的探究。
“虽然我们是基础学科,但它与工业界能够做到的技术是息息相关的。实际上,有一小部分关键技术是从基础研究的需求里提出的,这是一个相互促进的过程。”李菂说道。
例如,FAST团队就已经普遍在尝试使用AI技术,FAST团队中的一位研究员,在2014年就已经利用深度学习模型找到了脉冲星。但问题就在于团队一般只能获得到一些公共的工具,他们缺乏的正是具备底层开发的专业研发人员和能力。
而与之磨合的优图实验室其实也不乏有天文爱好者,甚至有研究员此前曾针对天文信号分析做过研究。再后来,团队愈加意识到计算机视觉等AI技术对天文台探星工作的可能性。
在黄飞跃看来,“在腾讯内部有很多的项目是自下而上进行的,很多很小的团队其实是因为兴趣而产生。如果说之前我们解决的是生存问题,现在我们解决的是情怀问题。”
腾讯优图实验室定位于应用与研究两步走:一是在计算机视觉技术的产业落地;二是有更多科研性的探索。出于这样的初衷,实验室内部会不定期挖掘、探索新的方向。
或许,正是因为这样的机缘为双方接下来的合作做了良好铺垫。
实验室也要理解用户
此次大会,我们明显还看到一个信号:优图实验室在AI的规模化方面开始形成自己的节奏。
过去很长一段时间里,互联网大厂的AI实验室更强调对前沿技术的探索,单纯拼科研成果,而不是经济效益。
大会现场,腾讯云副总裁、腾讯优图实验室总经理吴运声宣布推出TI ONE、TI Matrix、TI DataTruth三大AI底层平台,包括算法开发、模型训练、数据标注和数据处理等一系列开发能力。目前腾讯云已经开放超过300项人工智能的能力,超过50个人工智能解决方案。
据腾讯官方介绍,TI ONE提供了一套从数据处理、算法开发、模型训练、模型自动调优到模型在线推理服务、离线批量预测发布的一站式 AI 开发平台;TI Matrix灵活组合多项AI关键能力,打通了AI从模型到业务落地“最后一公里”;TI DataTruth是一款数据标注平台,可提升数据采集和数据标注能力。
从列举的一些案例中,不难发现:从过去的消费互联网领域,到如今工业、金融、传媒等产业互联网领域,都已经有了腾讯优图落地的身影。
在吴运声看来,过去几年腾讯优图在落地产业的改造上更像是“打了一些钉子,这是必要的,但也都是单点,想要形成规模化还是有一定难度的。”
这说明:实验室更加从用户视角开始理解问题。
在会后的媒体对话中,吴运声提到,
“目前技术落地到行业的一个很大挑战就是行业知识的不了解。在过去,很多AI科研人员如果不了解行业,做出来的东西跟行业的需求始终有一个隔阂在。比如我们内部实验室评测的各项指标都很好,但就是很难落地到行业。因此,我们需要跟随行业专家进行非常深入的迭代性交流和技术解决,才能让实验的结果变得真正可用。”
当科研与应用不再冲突
与之相呼应的是,与上述天眼FAST项目的合作,其实是腾讯科技向善的一个标杆案例。
这与我们所在乎的AI助力行业究竟是不是一种矛盾?
吴运声表示,“腾讯做每一件事情不一定都是要考虑短期的经济价值,还要考虑对社会价值的长远影响。实际上,与天文台的交流与合作中,我们也会发现,利用多模态技术解决探星问题是一个比较好的思路。实际上这对我们自身的底层技术得到打磨也会带来良好的影响。”
其实,观察腾讯各大科技实验室近段时间的表现,你会发现:它们开始主动出击,频繁与云业务等各部门联动起来,作为整体解决方案打包出去的同时,也会为了落地要行业、要场景,为了规模化要公有云能力的支撑。
仰望星空,但同时也要脚踏实地。实打实地看到些效果、成果,才是激励这群科研工作者的最强动力。