联合编译:章敏,陈杨英杰
本论文提出了一种可以将发育障碍进行细粒度分类的系统,它通过使用多模态视觉数据测量个人的眼睛-运动(eye-movements)。虽然设计该系统的目的是解决精神问题,但我们相信它的基本原则和一般方法不仅可以吸引精神科医生,还可以吸引医疗机器视觉方面的研究人员和工程师。其想法是从不同的视觉来源(捕获的信息不包含在任何一种方式中)中建立未来。通过使用一个眼睛追踪器(eye-tracker)和一个监视两个人说话过程的摄像头,我们建立了时间注意力特征以描述一个人的语义位置(专注于相对于对方的脸)。在我们的临床背景下,这些时间注意力特征,描述了病人在就诊医生面部的精细离散区域的目光,并用于分类病人特殊的发育障碍。
自闭症谱系障碍(ASD)是增加患病率和实质性社会影响的重大发展障碍。在早期的诊断中做出最大努力,是正确治疗的关键。此外,ASD也是一种高度异质性的疾病,这使诊断过程特别的麻烦。目前,鉴定ASD需要一套认知测试和几个小时的临床评估,其中了包括广泛的测试参与者,并且需要观察他们的行为模式(例如,他们与他人的社会交往)。用计算机辅助技术识别自闭症是重要的目标之一,它有可能降低诊断成本和提高标准。
在本次工作中,我们致力于脆性X综合征(FXS)。FXS是最普遍的由于遗传造成的自闭症,在美国大概有100,000人受到了它的影响。个人FXS具有一系列的发育和认知障碍,包括执行功能障碍,视觉记忆和知觉障碍、躲避社交,沟通障碍和重复行为。尤其是,在ASD比较一般行为中,社交时回避他人的视线是个人FXS最突出的行为特征。FXS是学习ASD最重要的因素之一,因为一个单一的基因突变时很容易就可以诊断出来。为了达到我们的目的,集中于FXS意味着真实的诊断是可用的,并且感染组中症状异质性也减少了。
对于语言发展,情感识别,社会参与,和通过分享注意力的一般学习等方面,保持适当的社会凝视是关键所在。以前的研究表明,凝视波动在个体自闭症的特征方面起着重要作用。在这项工作中,我们研究了在二元相互作用期间视觉注视的基本模式。特别的是,我们使用了这些模式描述不同的发育障碍。
我们解决两个问题。第一个挑战是,建立新的特征来描述有着发展性障碍的参与者的优良行为。我们利用计算机视觉和多模态数据,来捕捉在二元相互作用时详细的视觉注视。第二个挑战是,使用这些特征来建立一个可以鉴别不同发育障碍的系统。剩下的文章结构如下:在第2节中,我们讨论了以前的工作。在第3节中,我们描述了原始数据:它的收集和传感器的使用。在第4节中,我们描述了内置的功能,并且进行了分析。在第5节中,我们描述了自己的分类技术,实验和结果。在第6节中,我们对于结果进行讨论。
图1.(a)我们使用来自一个远程的眼睛跟踪器和相机的多模态数据,研究有着精神障碍的参与一个采访者者之间的社会交往。该系统的目标是利用这些数据实现发育障碍的细粒度分类。(b)一个参与者视角的视频框架(在底部的框架中参与者的头部是可见的)。用一个远程眼球跟踪器跟踪眼球运动,并将其映射到这个视频的空间坐标系中。
Rehg等人的开创性工作显示出了采用粗凝视信息测量ASD儿童相关行为的潜力。然而,这项工作没有以自动化的方式,解决ASD和其他疾病之间的细粒度分类问题。因此,我们通过多模态数据,扩展了一种障碍分级的方法。此外,一些之前在发展障碍方面的努力如癫痫和精神分裂症,依赖于使用脑电图(EEG)进行记录。这种方法非常精准,但它要求进行长时间的记录;此外,利用脑电探针定位参与者的头皮和面部会,会限制发育人群的适用性。同时,眼动跟踪一直被用来研究自闭症,但我们没有意识到,用一个自动化系统使用眼动跟踪进行跨障碍的评估(如这里提出的一样)。
我们的数据集包括70个临床医生访谈参与者的视频,覆盖了参与者的视线(作为通过一个远程眼睛跟踪器的测量),首次在[ 6 ]进行了报道。
参与者被诊断为特发性发育障碍(DD)或脆性X综合征(FXS)。患有DD的参与者显示出了与患有FXS参与者相同水平的自闭症症状,但没有一个诊断出有FXS或任何其他已知的遗传综合征。已知FXS的参与者之间存在性别相关的行为差异,所以我们进一步细分这一群体的性别为男性(FXS-M)和女性(FXS-F)。在DD组没有性别相关的行为差异,而基因测试证实DD参与者没有FXS。
参与者的年龄都是在12到28之间,有51个FXS参与者(32个男人,19个女人)和19个DD参与者。这两组在时间和发育年龄上进行了很好的匹配,它们在文兰适应行为量表(VABS)上有着类似的平均得分,一个发展功能行之有效的措施。患有FXS的人平均得分是58.5,而控制的人是57.7(SD=16.78),折表明这两个群体的认知功能水平比典型平均值为低2-3 SDs
参与者会被临床培训的实验者一一采访。在我们的设置中,相机被放置在病人的后面,面对采访者。图1描述了采访的配置,和物理环境。眼球运动使用Tobii X120远程角膜反射的眼睛跟踪进行记录,从场景摄像机时间同步输入。通过病人看着已知采访者之前的一组位置,眼睛跟踪被空间校准到远程摄像机。
我们的工作目标是设计一个特征,它可以同时洞察这些障碍,并可以在他们之间进行精准的分类。这些特征是我们系统的构建块,而关键的挑战是从原来的眼动追踪器和录像中,恰当地将他们最有意义的部分提取出来。我们捕捉到参与者的目光和它在采访中脸部的分布,在整个面试中5次/秒。有6个相关的地区:鼻子,左眼,右眼,嘴巴,下颌,外表。这些细粒度特征的精确检测,可以确保我们在更小规模的变化中研究参与者的注视。对于每一个视频帧,使用基于部分模型,我们在发现了一组69个采访者脸上的标志。图1显示了具有里程碑意义的检测实例。我们总共处理了14414790个标志。分别计算了DD,FXF-女人,FXS-男人组 59K,56K和156k的帧。我们评估了1K随机选择的帧样本,其中只有一个单一的帧被注释错误了。我们用一个线性转换器,将眼睛跟踪坐标映射到面部的标志坐标。我们的特征采取的标签的集群(例如颚)是最接近于参与者凝视的标志。接下来,我们提出了一些关于这些数据的描述性分析。
图2.注意脸部的时间分析。X轴代表帧中的时间(增量为0.2秒)。Y轴代表每一个参与者。黑点代表参与者看着采访者脸部时的时间点。白色的空间意味着他们不是。
特征粒度.我们想分析我们的细粒度注意力特征的相关性。参与者(尤其是那些患有FXS的人)只花了一小部分的时间看着采访者的脸。分析个人看着采访者的脸时的时间序列数据(见图2),我们观察到了高组间参与者的差异,例如大多数FSX-F个体序列可以很容易与其他组混淆。
临床医生往往认为注视的分布,不只是纯粹的缺乏脸部注视——似乎和一般的自闭症症状[ 8相关。图3中的分布支持了该观点:DD和FXS-F很相似,而FXS-M是不同的。FXS-M主要集中在嘴(4)和鼻子(1)区域。
图片3.各种障碍的视觉注视直方图。X轴代表注视,从左至右:鼻(1),左眼(2),眼右(3),口腔(4),颌(5)。直方图计算了所有参与者的数据。为了方便的可视性我们移除了非脸部的注视。
注意转换.除了注视的分布,临床医生也认为,注视的顺序描述了基本的行为。特别是,FXS参与者经常快速浏览脸部,然后移开,或扫描非眼睛的区域。图4以热量的形式显示了区域之间的转换。两个不同的障碍之间有着标志性的不同:患DD的人做出更多的转变,而那些患FXS的人表现明显更少——与临床直觉相一致。脸部区域之间的转换,相比于从非脸部到脸部区域的转换可以更好地识别三个组。FXS-M的参与者倾向于在嘴和鼻子之间频繁的交换目光,而其他两个则不会。DD的参与者在面部区域之间表现出更多的运动,没有明显的偏好。FXS-F的模式类似的DD,虽然模式不太明显。
图4 矩阵的感知转换障碍。每个方块[i j]代表每组参与者的注意力从状态i转移到状态j的聚合次数。坐标轴代表不同的状态: 非人脸区域(0),鼻子(1),左眼(2),右眼(3),嘴(4),下巴(5)。
近似熵.我们接下来预估近似熵(ApEn)的分析结果,来提供一种可以预测序列的手段。信号中的低熵值表示高度规律性。对于每个类别(DD,FXS-Female,FXS-Male),我们挑选15组随机的参与者序列。我们通过不同的w (滑动窗口长度) 计算ApEn。图5描述了这一分析。我们可以看到人与人之间有巨大的差异,许多都与其他组别的参与者有类似的熵。数据序列的高可变性使他们难以进行分类。
图5 (a)-(c) 对每个不同的数据窗口长度参数w对应数据的ApEn分析。Y轴代表ApEn,X轴代表参数w。每一行代表一位参与者的数据。我们观察到个体间的巨大差异性。
这项工作的目标就是创造一个用来从原始图像信息对发育障碍进行分类的端对端系统。目前为止,我们已经介绍了捕捉社会感知信息和分析它们瞬时结构的特性。接下来我们需要构造能够优化这些特性的方法,用来预测病人的具体发育障碍。
Model (RNN). 递归神经网络(RNN)是一种前反馈神经网络对顺序的概括。我们的深度学习模型是由Hinton等人提出的感知增强型递归神经网络结构的自适应模型。(LSTM+A). 这个模型已经在其他领域得到了非常瞩目的成果,必入语言模型和语音处理。我们的特征序列非常符合数据模型。另外,一个加密解密递归神经网络结构能让我们有效地试验变化长度的序列。我们的实际模型与LSTM+A有两种不同。第一,我们用GRU细胞代替了LSTM细胞,他们可以节省内存并更佳符合我们的数据。第二,我们的解码器产生一个单独的输出值(例如类)。解码器是一个有soft-max输出层的单元多层递归神经网络(未展开)。一般来说它可以被视作多对一的递归神经网络,但我们常把它表示成基于距离并采用感知机制的结构。
在我们的实验中,我们使用三种递归神经网络结构:RNN_128: 3层128单元;RNN_256: 3层256单元;RNN_512: 3层512单元。这些参数基于我们的GPU内存分配限制被选出来。
我们模型的训练总数达到一千次,对系列结果进行分批处理,使用了动量最陡梯度下降法(SGD)和最大斜率(0.5)
其他分类器.我们也训练浅基准分类器,利用卷积神经网络(CNN)的方式,可以发挥出我们数据的local-temporal关系。它是一个有6个卷积单位逐点非线性卷曲构成的隐藏层。特征向量交叉计算串联单位,并产生由另一个串联功能近似转换得来的输出层。我们也训练支持向量机(SVMs),朴素贝叶斯(NB)分类器,和隐马尔科夫模型(HMMs)。
通过改变在第五节中描述的分类方法,我们对系统整体进行了定量评价。我们假设病人的性别已知,并选择临床相关的组合对比分类试验DD vs FXS-F和DD vs FXS-M。实验中,我们使用32 FXS-male,19 FXS-female和19位DD参与者。为了在训练和测试中保持平等的数据分布,我们构建了Strain 和Stest 来随机打乱每组的参与者,以确保两个参与者类别按50% / 50%分布。在每一个新训练/测试子集中,这个过程不断重复,这样平均的分类结果就可以代表整组参与者。我们给定个体的时间序列特性数据p,对有发育障碍的参与者进行分类,来评估我们的系统的精度。对N而言,所有的参与者,我们创建一个80% / 20% 培训/测试数据集,这样就不会有参与者的数据的会被两个数据集同时共享。对于每个实验,我们执行10级交叉验证,这里每级被定义为一个新的随机子集,参与者按80/20分隔—每个实验大约有80位参与者被测试。
表1 本系统与其他分类器的精度对比。列表示参与者对于DD vs FXS-female和DD vs FXS-male二进类分类精度。分类器分别以3秒、10秒和50秒的时间窗口运行。我们将系统分类器,RNN和CNN,SVM,NB,HMM算法进行对比。
指标.我们把一个未知参与者的二进制分类器视作DD or FXS。我们采用一种投票策略,这里给定一个病人数据 p = [f1,f2,....fT],我们通过时间窗口的方式,对所有修正长度w的p的子序列s进行分类。在我们的实验中,w对应3秒、10秒和50秒的视频步长。为了预测参与者的障碍,我们对每种类别采用一种max-voting体系。参与者的预测类C定义为:
其中C1,C2 ∈ {DD,FXS-F,FXS-M},Class(s) 是给定输入s时分类器的输出。我们使用十个交叉认证元来计算分类器平均精度。
结果显示在表1中。我们发现,在50秒的时间窗口下使用RNN_512模型可得到最高的平均精度。我们怀疑RNN_512产生的瞩目结果与高容纳能力和表示复杂瞬时结构的能力有关。
我们阐释了在一个高成本效益系统中,使用计算机视觉和机器学习技术来辅助诊断发育障碍,在社交中表现出的视觉表型表达。观察有发育障碍的试验者,通过录像或近距离的眼球捕捉来收集实验数据。我们建立起颗粒感知对应的视觉特征,并利用其发展出分类模型来FXS和先天发育障碍。尽管在使用的信号中发现了很高的方差和噪声,我们的高精度意味着数据中瞬时结构的存在。
这项工作在概念上证明了现代计算机视觉系统在辅助诊断发育障碍的能力。我们能够基于短距离眼动记录,对具体的发育障碍诊断提供一个高概率性预测。这个系统,以及其它类似的,可以显著加快个体筛查。未来的工作将考虑此功能扩展到更大的疾病范围,并提高分类精度。
via:斯坦福视觉实验室
PS : 本文由雷锋网独家编译,未经许可拒绝转载!