「小样本+AutoML」，改变算法生产的「核武器」？

中科智云小样本学习机器学习 AutoML

作者：高秀松

2022/01/25 18:16

数据、算法、算力，被称为AI的三驾马车。

其中，数据对于算法模型的效果至关重要：以深度学习为核心的AI，为了避免发生过拟合或欠拟合的情况，需要使用大量数据来进行模型训练，从而使模型达到更好的拟合优度，这对于解决场景问题无疑大有裨益。

不过，通过大量数据来训练算法，从理论上看无懈可击，但当AI走向落地场景，就不那么容易了。

以数据问题为例：

对于碎片化场景，数据成了老大难。

1、很多场景不具备数据采集的条件，或者说采集数据成本太高；
2、数据是否有效，无效的数据除了百无一用之外，还会形成噪声干扰，处理起来也费时；
3、一些场景数据量不够大，很难做到大样本。

没有足够量的数据，就难以训练出好的算法模型，解决场景问题也就无从谈起。

这实际上是产业数字化转型面临的重大难题之一：以人工智能为核心的数字化转型，在实际场景落地时，由于技术使用的先决条件存在短板，很难释放对产业转型的推力。

"从成本收益上看，在一些场景下，AI形如鸡肋，无法解决实际问题，更无法降本增效。"

中科智云CEO兼首席科学家魏宏峰告诉AI掘金志，数字化转型趋势下，隔行如隔山，整个市场需求都是碎片化的，这对AI而言提出了两大挑战：要么做场景定制化；要么改变现在的算法生产模式。

但这两种方式都逃不开前面提到的数据问题。

对于一些封闭场景，比如园区物流，通过场景定制化方案可以实现全自动化流程，然而这并不适用于碎片化的开放场景；此外，定制化成本过高，单独开发算法则会面对投入产出比严重不匹配的问题。

因而，比较合适的解决方法，是改变现有的算法生产模式。

这也是小样本学习（FSL）和AutoML（自动机器学习）火热的根本原因。

FSL与AutoML

小样本学习属于机器学习下的一个分支，诞生于碎片化场景很难获取足够有效的数据这一背景下，旨在通过较少的数据量或样本，来训练算法模型。

与传统机器学习相比，小样本学习的优势在于，不需要大量数据支撑，但这同样也带来问题：数据量太少导致经验风险最小化不可靠。

所谓经验风险，是指模型关于训练样本集的平均损失。通常情况下，样本容量足够大（传统机器学习），经验风险最小化能保证有很好的学习效果；反之，样本量太小，经验风险最小化学习的效果就难以保证。

举个例子：

假设以小孩子为算法模型，汉字为样本数据，目标任务是认识汉字"我"。当小孩子抄写"我"的次数足够多，那么小孩子的学习效果就更好；反之，如果只抄写了数次，那么小孩子可能认识"我"，也可能不认识，经验风险是不可靠的。（案例并不严谨，仅供参考）

目前行业内已经开始通过数据增强、模型约束空间、搜索算法等方式来解决小样本学习存在的问题。

"如果模型能力足够强，对样本的需求并不一定要非常大。"魏宏峰表示，一个好的模型，可通过小样本学习来形成自我训练，从而提高算法精度与适应性。

而建立好的算法模型，与AutoML（自动机器学习）密切相关。

在传统AI算法开发流程中，从业务和问题定义，到数据采集和标注、存储管理、数据分析和可视化，再到模型结构设计、优化......最后到应用开发，需要经历大概十三个环节，其时间成本、开发成本处于高位。

对于没有算法开发能力，但有算法应用需求的企业而言，这个流程非常"复杂"，且成本较高，难以承受。

因而只专注于算法选取和神经网络架构搜索的传统AutoML是无法满足现实需求的，涵盖算法研发全流程的AutoML应运而生，从特征工程、模型构建、超参选择，优化方法四方面实现自动化，其优势在于：既减少了算法生产成本，又提高效率，并且降低了算法生产门槛。

比如，传统AI算法生产流程中，需要对数据进行人工标注，并且花大量时间处理数据；可以通过自动标注，结合人工复检，来提高数据标注效率。

在业界，已经有许多较为成熟的AutoML平台，国外如FeatureLab（自动进行特征工程）、Google Cloud Vertex AI NAS；国内则有第四范式的AI Prophet AutoML等等。

除此之外，还有一些AI公司，比如中科智云，也在做相应的类似的平台（X-Brain）。

作为一家聚焦安全治理的AI公司，中科智云主要以X-Brain AI主动学习平台，融合小样本学习框架、多源融合感知计算等技术，为行业提供AI 安全治理服务。

"X-Brain 的核心是一套主动学习算法框架，应用自研的主动学习（Active Learning）技术，改变了监督学习的被动接受人工标注样本的模式。"

魏宏峰告诉AI掘金志，该平台可通过AI主动判断样本是否需要算法工程师的参与，通过只让算法工程师参与部分困难样本的确认，形成人在回路（Human-in-the-Loop）模式，主动训练模型，形成模型自动迭代。

前面提到，小样本学习是为了解决碎片化场景无法获取大量数据训练模型的问题，而AutoML是在传统算法模式下，通过主动学习来提高算法生产效率，解放人力成本。

换句话说，小样本学习解决数据难题，AutoML则是提高算法生产效率的新方法，两者互相结合，或能解决小样本学习存在的算法精度问题。

不可能三角？

"小样本是低成本的基础，因为样本量小，训练模型不需要高算力硬件设备。"魏宏峰表示，如何让小样本学习达到商用精度，是一个巨大挑战。

因为，小样本学习存在经验风险最小化不可靠这一问题，也就是学习效果不确定，可通俗理解为算法精度可能高，也可能低。

"在一些场景中，小样本训练出来的精度，在初期很难达到商用水平。但可以通过AutoML来缩短从初期模型到商用这个过程。"

魏宏峰介绍道，X-Brain在采集样本之后，通过特征提取自动标注，并自动训练模型，由具体的业务人员来进行评价，查看是否发生误报，并调整参数。

基于这些调整，该平台的自动训练机制，将已标注完的数据放入重新训练......通过这种循环训练，来提高算法精度。

在这个过程中，样本量小，模型也不大，通过主动训练来提高精度，从而实现低成本使用。

所以，小样本、低成本和高精度之间，并非存在一个"不可能三角"。

仍以之前的小孩子识字为例：小孩子只抄写数次"我"，其结果是可能认识"我"，也可能不认识。如果引入老师进行引导、校正，那么即便抄写次数较少，其认识汉字"我"的可能更大。

这个案例中，老师扮演了业务人员的角色，小孩子就是算法模型。算法（小孩子）在自动学习过程中，需要由业务人员（老师）来调整参数（引导），学习效果也就更好。

其优势在于，给小孩子减负（减少抄写次数）的同时，提高学习效率（算法精度）；从整个学习过程看，老师（业务人员）也无需全程监督，从而减少成本。

这实际上改变了以往的算法生产模式，将算法生产带入"平民化""低成本"时代。

AI与场景融合

AI从上半场进入下半场，实际上是从拼技术到拼场景的转变：AI只有在实际场景中落地才能产生价值。

在产业数字化转型中，各种碎片化场景，对算法的精度要求也比较高。如果按照传统的算法生产模式，成本降不下来，加上中小企业购买力弱，传统企业数字化转型必然难产。

而多样化场景中，也很难以通用算法来"一口多吃"。

"不同的场景需要不同的数据样本，训练出来的模型也不一样，通用算法模型并不适用，精度会大打折扣。"

魏宏峰表示，小样本学习和AutoML从技术上解决算法生产难题，但如何让技术更好地服务于企业，解决实际场景问题，就需要把具体场景痛点拆解之后，融入到整个算法生产过程中，从业务和问题定义开始，到模型调优，最后到算法交付，都要"让懂业务的人参与"。

这主要体现在两个方面：一是让企业在平台上进行实验，也就是业务试错；二是与企业加强交互，让懂业务的人员参与到算法训练中来。

"客户并不追求百分百的精度，能够接受误报，但不能接受试错成本太高，带来总成本上升。"魏宏峰认为，AI下半场由场景驱动，其实也是客户驱动，核心是解决客户（企业）在生产过程中遇到的问题。而AI公司要做好场景，最好的方式是直接与熟悉场景的业务人员交互，而不是AI公司本身去理解行业，否则成本会很高。

对于企业而言，考虑成本收益是其购买技术服务的出发点，成本（包括试错、时间、人力等多个方面）则是第一要素，其次才考虑技术带来的收益问题。

魏宏峰表示，企业购买技术服务之后，只有在降本增效方面取得实际效果，复购率才会提高，AI公司才能形成正向的业务闭环。

"AI只有靠业务，而不是资本推动，才能走出困局，改变行业。"而做好业务的首要前提是：结合场景。

不论是小样本学习还是机器学习，都只是生产算法的"术"，结合场景解决产业数字化转型过程中的痛点，才是AI的"康庄大道"。雷峰网(公众号：雷峰网)雷峰网