雷锋网 AI 科技评论按:在生物和医学领域,研究员们常运用显微镜来观察肉眼无法获得的细胞细节信息。虽然运用透射光显微镜(对生物样本单侧照射生成像),观察起来相对简单且活体培养样本具有良好耐受性,但是其生成的图像难以正确评估。荧光显微技术中会用荧光分子染色需要观察的目标(比如细胞核),这种做法能简化分析过程,但其仍需要复杂的样品制备。随着包括图像质量自动评估算法和协助病理医师诊断癌组织在内的机器学习技术在显微镜领域的应用越来越广泛,谷歌因此考虑是否可以结合透射光显微镜和荧光显微镜这两种显微镜技术来开发一种深度学习系统,从而最大限度降低两者的不足之处。
4 月 12 日,谷歌发表了结合透射光显微镜和荧光显微镜这两种显微镜技术,并利用深度学习来对显微镜细胞图像进行分色荧光标记的研究博文,雷锋网 AI 科技评论将其研究内容编译如下:
4 月 12 日出版的《Cell》 杂志上刊登了谷歌的论文《In Silico Labeling: Predicting Fluorescent Labels in Unlabeled Images》,其中展示了深层神经网络能够通过透视光图像来预测其荧光图像,无需修改细胞就可以生成有标签的、有用的图像,这将使得对未修改的细胞做长期追踪分析、在细胞治疗中最大程度减少侵入性的细胞检查、以及同时运用大量标签进行分析成为可能。对于这项研究,谷歌开源了网络设计、完整的训练数据和测试数据、经过训练后的模型检查点以及示例代码。
透射光显微镜技术虽然易用,但是其也会生成难以分辨的图像。例如,下图就是一张相衬显微镜得到的图像,其中像素的颜色深度表示了光线穿过样本时相位变化的程度。
在上图中,很难分辨出示例图 1 的细胞群中的单元数量,或者示例图 4 中细胞的位置和状态(提示:上部中间位置有一个几乎不可见的扁平细胞)。同时也很难始终让精细结构保持在对焦范围内,比如示例图 3 中的神经树突。
我们可以通过采集不同 z 高度的图像来获取透射光显微镜下的更多信息:一组关于(x,y)位置的图像,控制其中的 z(距离摄像机的距离)系统地变化。这导致细胞的不同部分对焦或者脱焦,从而提供了样本细胞的 3D 结构信息。不幸的是,通常只有有经验的分析人员才能看懂这不同高度的图像,如何分析这样的不同高度图像也是自动化分析过程的巨大挑战。下面即为一个 z 堆栈示例图。
相比上图的透视光图像,下方用荧光显微镜观察到的图像就容易分析多了,因为研究人员将想观察的内容容用荧光进行了精心标记。例如,绝大多数人类细胞只有一个细胞核,因此可以进行细胞核标记(如下图的蓝色标记),这也就使利用简单工具统计图像中的细胞数量成为可能。
同时,荧光显微镜也存在明显的硬伤。首先,样本的制备和对其进行荧光标记本身就带来了复杂性和可变性。其次,当样本中存在许多且不同的荧光标记时,光谱的重叠会导致难以分辨哪种颜色对应哪种标记。所以通常会限制研究人员在同一样本中同时使用三或四个标记,以免造成混淆。第三,荧光标记可能对样本细胞产生毒性,有时还会致其死亡,这个缺陷也使荧光标记在需要长时间观察细胞的纵向研究中难以得到。
在谷歌的这篇论文中,作者们展示了深度神经网络可以根据透射光 z 堆栈来预测其分色荧光图像。为此,我们创建了投射光 z 堆栈与分色荧光图像匹配的数据集,并训练神经网络根据投射光 z 堆栈来预测其分色荧光图像。下面就是这一训练过程的图示介绍。
该研究过程中,谷歌由 Inception 的模块化设计获得灵感,开发了一种由三种基本构建块组成的新型神经网络:第一种,保持比例的模块配置,它不会改变特征的空间尺度大小;第二种,缩小比例的模块配置,它会把空间比例缩放为 2 倍;第三种,放大比例,它会把空间比例缩放为一半。这使得将网络架构设计难题设计成两个更为简单的问题:构建块(宏架构)的安排部分和构建块本身(微架构)的设计部分。谷歌使用本文前面讨论的设计原则解决掉了第一个问题,第二个问题则是利用 Google Hypertune 的自动搜索来实现。
为了保证本研究方法合理,谷歌使用了来自 Alphabet 实验室以及两个外部合作伙伴的数据对模型进行了验证:Gladstone 研究所 Steve Finkbeiner 实验室和哈佛 Rubin 实验室。这些数据涵盖了三种透射光成像模式(明场,相差和微分干涉对比)和三种培养类型(来自诱导多能干细胞的人体运动神经元,大鼠皮质培养物和人体乳腺癌细胞)。谷歌发现,该方法可以准确预测包括细胞核,细胞类型(如神经)和细胞状态(如细胞死亡)在内的几种荧光标记。下图显示了该模型在将神经元示例的透射光输入后,得出的分色荧光标记预测结果。
谷歌已经开源了该模型、完整数据集、训练、推理代码以及一个示例。谷歌还声称,只需借助最少的额外数据训练就能生成新标注/标签:在相关论文和示例代码中,谷歌展示了根据单张图像就可学会生成荧光标记。这要归功于迁移学习:如果模型已经掌握了类似任务,那么模型就可以更快地学习新任务,并使用更少的训练数据。
谷歌希望能够在不修改细胞的情况下生成标记的,有用的图像,这也将为生物学和医学研究开创全新的实验类型。如果你希望在自己的研究中尝试这项技术,可以请阅读《In Silico Labeling: Predicting Fluorescent Labels in Unlabeled Images》论文或者前往 github 页面查看模型代码!
via Google Research Blog,雷锋网AI科技评论报道。