安防进入大模型时代，依图「求索」新十年

依图天问多模态大模型安防

作者：刘路遥

2023/12/21 09:49

自2016年始，中国的AI视觉创业俯拾皆是。

他们因AI而齐聚，从最顶尖的学术象牙塔中走出，希望用AI之钥，革新传统产业尘封已久的商业模式。

然而，回看这场探梦之旅，绝大部分高调入场者，最终都黯然收场，只有寥寥数家企业冲破封锁，其中佼佼者成为人们口中的“AI四小龙”。

最初的高光过后，外界对AI公司高融资、高研发、高亏损的质疑不断升温。

在有关四小龙失速的讨论中，技术光环褪去，资本热情消散，政策风险提高，是最人尽皆知的原因。

从同一CV战线，到分头走向不同道路，事到如今又面对同样一个问题——哪里才有新的生机？

市场的转机，往往发生在技术演进的刹那。

在被定义为中国“大模型元年”的2023年，命运的齿轮又开始重新转动。

藉由AIGC的风口，AI赛道一改颓势，重新占据各类热门话题的榜首。

在重新拉开的新赛事中，AI的老玩家们必然不会缺席。

说“安防+AI”过时，言之尚早

2016年，当阿尔法狗在棋盘游戏上夺走人类最后的荣光，AI赛道的投融资开始热得发烫。

起初几年，初创公司们备受风险投资的宠爱，资本争抢着上前买单，企业只需醉心实验室研发，便能坐看估值升高。

然而几年过去，眼看着企业在融资、研发、亏损的泥沼中没完没了，商业化落地又迟迟难以大规模铺开，资本逐渐板起面孔，不再愿意听着故事为亏损买单。

理想中，技术带来的馈赠之下，这是一场“众人拾柴火焰高”的合作共赢，但事实上，大家合力助推的不仅仅是浪涌，同时还有盛大的泡沫。

随之而来的，是市场关于AI商业模式的探讨，能否验证自身商业化能力，成为评判一家AI企业新的考核标准。

短短几年，风向急速扭转，原因在于AI这一极具颠覆性技术带来的畅想，掩盖了新技术在价值转化过程中会遇到的困难。

安防是AI最早落地的场景之一，通过人脸识别、行为分析等技术，监控系统得以提高效能。但同时，安防行业的碎片化特点，让标准化、通用化难以实现，导致AI企业在追求算法和精度的过程中，陷入高度定制化的盈利困局。

尤其随着雪亮工程建设尾期结束，安防行业也遇到发展瓶颈，于是有人问，问题是不是出在安防行业，换一个行业，问题是不是会迎刃而解？

一个事实是：AI确实遇到了商业化落地难题，但安防是AI应用落地的起点，大模型时代的开启，安防仍然是一个不错的起点。

在智能化的视角下，智能本质上解决机器学习人类的认知、视觉、运动、意识、记忆五个方面。人工智能的核心技术包括语言智能、视觉智能、运动智能。

而视觉智能最大的应用场景就在公安，也即狭义的安防市场。

一直以来，AI视觉的落地都在经历同一个过程，从公安起步，到政府，再到企业，大模型的落地也不会例外。

在依图科技副总裁许焰看来，智能化的每一次进展，都脱离不了以安防为起点，“在政府各部门中，公安部门的信息化一直做得非常超前，对视频数据的利用在业务上存在刚需，对技术理解最深刻，最愿意用新技术解决面临的问题。”

以往问题的症结在于，AI原有技术路线始终难以突破成本瓶颈；如今以大模型为代表的新一轮AI风口的出现，相当于为价值和成本的兼顾难题提供一个极佳的解法。

大模型的到来，也为处在转型迷茫期，重新思考自身价值和出路的AI企业，带来了新的生机。

早期成立的AI公司有客户基础，拿依图来说，公安行业大部分都是其老客户，一旦依图有新技术，落地转化将非常快。

更重要的，上一波AI公司在商业化上吃过苦，早已不再只谈技术领先，他们明白，只有将领先的技术与业务场景相结合，并做到低成本，才是真正解决用户痛点。

大模型时代，安防行业做好准备了吗？

大模型时代到来，安防行业做好准备了吗？

如果用一句话总结，可以说是：安防市场的需求与技术浪潮撞了个满怀。

在这一轮新的AI风口上，四小龙都纷纷赶考多模态大模型：商汤发布了“日日新大模型”，云从发布了“从容大模型”，旷视也发布了轻量级LLM模型推理框架...今天，依图的“天问”多模态大模型虽正式发布较晚，但事实上已经得到了客户的积极认可，目前在已在30多个项目中部署应用，落地进程更进一步。

这些AI的老玩家们，从上一轮厮杀中，顽强活了下来，如今藉由此前积累的数据和行业认知，从视觉切入多模态大模型，是一次水到渠成的向外拓展。

近两年，安防行业发展进入瓶颈期，增长乏力，放眼安防行业的主要参与者们，无人不渴望变化，纷纷在广度、深度两个方向寻求破局之道。

广度上，狭义上的安防市场，从以抓逃布控为主体的公共安全业务，走向更综合的城市治理类业务；与此同时，泛安防市场借助视觉智能化技术，向前进入更大的ToB企业市场，同时增加非视频投入，通过扩充产品线，寻求更大的增长空间。

深度上，企业仍以视频为核心，在智能技术上进一步投入感知智能、认知智能，部属大模型能力。

这两个方向的开掘，都与视频的智能化紧密结合。

从早期“看得见"，到“看得清"，再到今天大模型赋能下的“看得懂"，视频智能化经历了L1-L5五个阶段的进化：

从图片的结构化标签到视频的语义理解；
从众多的判别式任务模型到视觉为基础的多模态大模型；
从端侧摄像头AI算力到云边侧集中式服务器AI算力；
从人、车的识别到长尾物体的识别；
从标签式筛选交互到基于语义的人机多模态交互。

在L5阶段，大家基本达成一个重要共识：以Transformer为基础的大模型统一了视频和大数据的底层框架，也开启了视频智能化情境理解的新时代。

意味着面对同一个指令，整个流程将从割裂的两个步骤简化成一个步骤，并且由于省略了中间过程，预测准确性将极大提升。

以统计A路口过去十天的拥堵状况为例，以往的做法是，先通过摄像头做解析产生大量结构化数据，再到数据库环节匹配结果；而视觉和大数据的融合，将非结构化的视频和结构化的数据库做了融合，变成用一个模型统一解决，具体到操作，只需语音指挥即可，“过去10天A路口特别拥堵，请将该路口的摄像头调取出来”。

换言之，大模型时代，当数据从一端流入，结果就会从另一端直接流出。

于公安行业，将是一场警务信息化系统的大改造。

首先，大模型将带来视频智能化建设的重大转变。

视频智能化建设分两种模式：一是图片流，前端相机直接做智能化，然后把图片回传后端做进一步分析，缺点是大量信息被丢失；一是视频流，前端摄像头负责捕捉，后端进行视频分析，虽然保留了视频中的所有语义，行为能被完整刻画，但由于没有大模型的加持，视频完整语义的价值并没有被完全挖掘和使用。

走视频流的智能化路线，是对客户更加负责的选择，“图片流只能做人脸识别，随着业务需求增长，图片流建设模式就会变成断头路，只能换新相机；而视频流对前端建设有利旧保护，只需后端升级算法即可。”

考虑到大模型只能部署在后端，未来视频流智能化或将成为主流。

其次，是IT基础设施的重大变化。

前面已经提到，传统的信息化技术，通过前端摄像机会产生大量结构化数据，结构化数据存在数据库里，数据库则存在硬盘里。

大模型时代，所有数据经过模型处理，会生成蕴含对视频语义完整理解的特征向量，特征向量存在向量数据库里，向量数据库存在显存里。

在从传统数据库变到向量数据库的过程中，基础设施层面，也将从过去建CPU为主的数据库系统，到建设GPU为主的向量搜索系统。

基于这一认知，依图在2022年发布了求实服务器。

对于这款服务器的诞生，许焰如此解释：“进入到向量时代，超融合架构的服务器威力非常大，依图求实服务器有一个最大的特点，内存即显存，因为即便英伟达的A100也只有40G的显存，但求实服务器内存可以到512G，甚至1T。”

再者，从生产过程讲，有了预训练大模型，用户需求端到端的时间以及成本会被极大压缩。

一方面，用大模型技术替代过去小模型，可以极大压缩生产过程周期，降低算法研发成本，让客户更快享受到技术的红利。

比如，当用户要做一个“骑电瓶车不戴头盔”的需求时，AI公司需要先收集数据做训练，需求提出到满足，至少一到两个月。

有了预训练大模型后，只需输入“骑电瓶车不带头盔”的指令，就能生成算法，一周时间即可达到之前一两个月才有的效果，并且时间越长，模型精度越高。

另一方面，通过算法和算力的端到端的整合，也会带来成本最小化。

许焰对雷峰网(公众号：雷峰网)举例，“过去做1万路视频智能化，得用16个机柜，现在算法和算力实现端到端整合后，只用一个机柜就可以解决所有问题，但整体成本下降了80%。”

最后，从业务层面讲，传统的指挥中心、移动警务、侦查破案等都会发生重大变化。

比如指挥中心可以直接通过语音调取摄像头，如“帮我调取所有公园的视频”、“帮我调取所有现在拥堵路段的视频”；移动警务也将变成，民警在路上巡逻上时，不再需要在执法仪上打字，而可以高效率地通过语音输入指令，如“请查询前方戴黑色帽子的人的身份。”

“新安防、真智能”，安防的下一个十年属于智能

“依图一直坚信安防市场会从监控走向智能。”

如果说依图有什么明显区别于其他公司的地方，就在于其始终认可安防市场的价值，并用十年时间坚守安防市场。

谈到依图对安防市场的贡献，许焰满是自豪：

“自2012年成立至今，在安防智能化发展的各个阶段，依图都代表业界最前沿水平。依图之所以坚信安防是个好市场，一个原因也在于依图在安防市场做到了盈利，持续为客户创造价值。”

这种价值具体表现为，时至今日，依图是安防行业第一个推出可实战可商用的多模态大模型的公司。

“第一个”写起来虽然简单，但对于依图而言，背后是沉甸甸的付出。

2018年，依图提出“新安防，真智能”的口号，至今未变。

彼时，视觉智能化快速发展，人脸识别开始进入规模化落地阶段。依图的“新安防”口号，为公安业务流程的变革而发；“真智能”口号的提出，则强调了“真正的智能”给安防行业带来的差异化的用户价值。

进入大模型时代，公安的业务流程、智能化程度跃迁到了新的阶段，但依图这句口号的内核依然没有变化。

真正让人动容之处在于，依图并没有沦为“口号专家”，而是将口号挂在了实际行动上。

一直以来，客户看似不合理的追求六个字：高价值、低成本。

满足这个需求并不容易，尤其在AI这一有着极高技术和渠道门槛的赛道。

但依图对这句话的信奉和践行，是AI公司中难得一见的扎实。

支撑依图“安防是好市场”背后的商业逻辑正是，追求价值最大化、成本最小化。

依图2017年开始布局芯片板块，2019年5月9日发布首款云端AI芯片“求索”，用于视觉推理领域。

当时的发布会现场，依图通过四块“求索”芯片，实时比对现场观众，演示十分钟内，无一起误报。

依图之所以向上做芯片，在于看到了算法性能高速发展和机器算力提升缓慢的矛盾，这一矛盾导致AI公司们要么牺牲算法性能，削足适履；要么没有先进算法，空耗资源。

而随着中美科技竞争的加剧，美国对中国芯片的封锁制裁力度持续升级，国产化具有高性价比的芯片产品在此刻显得尤为重要，依图的选择似乎又更具有前瞻性：做硬件和算法的端到端的整合，可以给用户最高性价比的后端智能化产品。

如果说，以前因为缺乏统一的模型结构导致芯片和算法公司难以匹配，在一定程度上说明人工智能芯片还不太成立，那么到今天，这个阻碍已经消失了。

2019年，依图开始投入以Transformer为基础的大模型技术，如今回看这一决定，其意义在于，选对了公司未来几年的发展路径。

当企业选择的方向更准确，研发的效率就会更高效，成本更低，对客户而言就是更高的性价比，最终实现双赢。

“到今天，依图的多模态大模型已经在全国30多个项目中部署应用。”据许焰向雷峰网介绍，依图“天问”多模态大模型，有以下三大特点：

其一，视频语义搜索能力，支持用自然语言搜索各类视频。

类似“堵塞消防通道的车”、”积水的路面“、”无人看管的红色行李箱“等表达都可以快速找出对应的视频。

其二，零样本、冷启动。

比如要创建一个骑车不戴头盔的算法，只需输入“骑车不戴头盔”，就能生成算法，并且算法一旦上线，便能在线上做分钟级的训练，越用精度越高。

其三，内置了大量凝结依图对行业认知的算法。

通过针对性的将特定数据放入训练模型中，如大客流、重点区域防控等典型算法，来提高模型性能。

今年以来，依图的天问大模型收到不少令许焰印象深刻的反馈。

某城市交通事故频发，该市客户找到依图做城市路口的常规违章和不文明行为判定，要求用天问大模型赋能利旧的前端摄像头。

依图做了闯红灯、超速、不礼让行人、骑车不戴安全帽、违法掉头、压实线等各种各样的算法，系统上线第一天，准确度只有60%-70%，一周结束后精度基本达到100%，并且成本比以往的建设成本下降了 60% - 70%。

在许焰的回忆中，“当时这个客户特别兴奋，因为依图用一周时间，解决了该城市交通治理极大的痛点。”

除了大型项目，多模态大模型的意义还在于解锁长尾算法。

以往，大量中小型客户，由于支付能力不强，此前对AI没有刚需，未来借助大模型的迁移和通用能力，可以降低成本门槛，这些用户也能用上用好大模型。

结语

路漫漫其修远兮，吾将上下而求索。

2019年，依图发布第一款AI芯片，从屈原的《楚辞》中找到“求索”一名，表达了对人工智能技术、人工智能产业落地探索的热情。

与此同时，依图也开启了将Transformer技术用于视觉领域的研究，并同样从《楚辞》中找到“天问”一名，赋予彼时还尚出世的视觉多模态大模型。

时至今日，依图在国产化算力上有了“求索”和“求实”，在大模型算法上有了“天问”。十年AI路，依图所打造的“全栈AI技术”和"一站式AI解决方案提供商“的形象也越发清晰，完整。

在大模型时代，依图对安防智能化依然信心满满，秉持着为”价值最大化，成本最低化“的运营理念，投入坚决。随着视觉多模态大模型产品的商用推出和规模化部署，依图又一次站在了AI新时代的浪尖。

大模型时代必然会产生新的商业模式和应用场景，在依图的第二个十年，我们期待它能再一次引领行业，再一次把“新安防，真智能”的口号变成现实。