雷锋网 AI 科技评论按:近日,由卢志武博士领导的中国人民大学信息学院机器学习研究组开发了一套 AI 读心师系统,该系统可以通过分析一段短视频,来进行心理健康分析、个人信用评估、五重性格测试等,可应用于银行面签、法庭庭审、公司面试等多个场景。
AI 读心师系统
中国人民大学信息学院机器学习研究组由卢志武博士,以及 10 余名博士生与硕士生组成,属于文继荣教授的大数据分析团队。该研究组在 TPAMI、IJCV、NIPS、CVPR 等顶级期刊/会议上发表 40 余篇论文,主持了国家自然科学基金、军委科技委等多个国家项目,还曾获人工智能国际权威评测 ImageNet 2015 视频检测任务亚军。
据卢志武博士的介绍,AI 读心师系统作为一套能够进行心理健康以及信用分析的系统,主要基于该研究组在精神疾病诊断、视频测谎两个方向上的研究成果。下面我们进行一一介绍:
将人工智能技术应用到精神疾病诊断这一领域,是研究组的一个重要尝试,其相关的研究成果也发表在了计算机视觉权威会议 BMVC 2018(全称为 British Machine Vision Conference,为次于 CVPR、ICCV、ECCV 的第四大计算机视觉会议)。他们在论文(下载地址:http://bmvc2018.org/contents/papers/0406.pdf)中,提出了一种新的深度学习模型——DeepInsight,该模型可用于快速检测自闭症谱系障碍(ASD)和重度抑郁障碍(MDD)。
据之前的医学研究表明,患有自闭症的儿童与正常发育的儿童在面部特征上存在明显差异。基于这一发现,研究组初步考虑利用深度学习方法提取对自闭症诊断有辨别力的面部特征。然而,由于现有的标记数据(真实患者数据)远远不能满足对自闭症诊断深度模型的训练,因而他们尝试通过同时考虑两种典型的精神障碍(ASD 和 MDD)来完成相关的任务,并提出了一个多任务多尺度深度学习模型 DeepInsight,以便对每个诊断任务的标记数据进行扩充,提升深度学习模型的性能。
图 1 多任务多尺度深度学习模型 DeepInsight
本文通过从医院收集真实患者数据以及从微博等社交媒体收集患者数据,首次创建了公开的自闭症和抑郁症人脸数据集。基于这一数据集,DeepInsight 模型最终取得非常出色的成绩——自闭诊与抑郁症的诊断准确率均接近 90%(如图 2),验证了该诊断模型的有效性。
图 2 自闭诊与抑郁症诊断模型的结果比较
研究组还将人工智能技术应用于视频测谎 (deception detection from videos)[2],其相关论文的网址为:http://arxiv.org/abs/1812.04429。目前,视频测谎问题面临两大挑战:(1) 如何有效地融合面部和动作信息来判断视频中个体是否说谎;(2) 真实视频数据集规模很小,如何将深度学习应用在数量有限的训练数据上。为了解决这些问题,本文提出了 face-focused cross-stream network(FFCSN)模型(如图 3)。
图 3 视频测谎深度学习模型 FFCSN
不同于常见的双流网络模型(two-stream network),FFCSN 模型考虑将人脸检测用于空间流来捕捉面部特征,并在整个网络中利用相关学习来融合时空特征进行联合训练。此外,FFCSN 模型还引入了元学习(meta learning)和对抗学习(adversarial learning)来解决训练数据量小的问题。
FFCSN 模型在公开的真实庭审视频数据集上取得了当前最好的结果,同时,该模型在考虑音频与文本信息后实现了 97% 的识别准确率(如图 4),验证了该模型在视频测谎中非常有效。
图 4 视频测谎模型的结果比较
得益于上述研究成果,AI 读心师系统应运而生。基于人脸识别技术,该系统主要有三个功能模块:1. 心理健康测评;2. 个人信用分析;3. 五重性格评估。具体实现方式上,输入被测试者的面部表情短视频后,系统会输出心理健康分析、个人信用评估、五重性格测试三个维度的分析结果。
其分析流程及采用的主要算法和模型描述如下:
1. 人脸检测:被试人面部表情视频流输入,经过 opencv 和 ffmpeg 工具进行视频抽帧,由人脸检测模型(多任务级联卷积神经网络 MTCNN)对每帧中的人脸进行检测、裁剪、矫正后得到标准人脸图像,并作为后续三个分析模块的输入数据;
2. 心理健康测评:人脸检测部分得到的标准人脸图像根据是否正脸 、是否清晰、裁剪尺寸适当的原则经过筛后得到一张关键人脸图像,将该关键人脸图像输入预训练好的心理健康测评模型(InceptionV3 使用心理健康人脸图像数据集进行预训练)中进行特征提取,并将提取出的人脸特征输入 SVM 分类器中进行分类,最终得到该模块输出,即心理健康程度评分;
3. 个人信用分析:人脸检测部分得到的标准人脸序列输入到预训练好的个人信用分析模型中(ResNet34 使用个人信用人脸图像序列数据集进行预训练)进行特征提取并分类,该模块不提取关键帧,即对被试人员面部表情视频流中出现的所有人脸图像进行分析,将每一帧人脸图像分析结果进行加权汇总后给出该模块最终分析结果,即个人信用评分;
4. 五重性格评估:人脸检测部分得到的标准人脸序列输入到预训练好的五重性格评估模型(ResNet34 使用五重性格人脸图像序列数据集进行预训练)中进行特征提取及分类,该模块也不提取关键帧,即对被试人员面部表情视频流中出现的所有人脸图像进行分析,将每一帧人脸图像分析结果进行加权汇总后给出该模块最终分析结果,即被试人员五重性格各维度的评分。
目前,该系统已有实体店智慧零售、高中生心理健康测试等成功案例。例如在心理健康测试方面,AI 读心师系统通过分析某高中一年级 1200 余名学生的信息,将 AI 得到的结果与调查问卷的结果相互验证,最终发现 17 疑似例抑郁症样本。
资料自来于:卢志武博士,雷锋网 AI 科技评论报道
参考文献:
[1] Mingyu Ding, Yuqi Huo, Jun Hu, and Zhiwu Lu, DeepInsight: Multi-Task Multi-Scale Deep Learning for Mental Disorder Diagnosis, BMVC 2018.
[2] Mingyu Ding, An Zhao, Zhiwu Lu, Tao Xiang, and Ji-Rong Wen, Face-Focused Cross-Stream Network for Deception Detection in Videos, CoRR abs/1812.04429, 2018. 雷锋网