当你走入一家刚数字化升级过的商场,可能会发现比以前更容易逛到喜欢的店铺。
你也可能完全没发现,刚离开的面包店买起来比上次来顺手是因为货柜转了90度。
还有可能,到了饭点你跟随着人流就找到了新的美食。
这些变化的背后,是曾经只会统计人流、监测危险行为的AI摄像头,已经智能到会“算计”商业综合体。
摄像头的智能升级,又源于视觉AI进入了全新的视频大模型时代。
视频大模型,让AI的能力从小学生级别,跃升为教授级,零售、智能制造、城市管理、环境监测这些已经用上视觉AI的场景,将进入全新的视频大模型AI时代。
那个最被人熟知的英特尔酷睿CPU和锐炫GPU组合而成的的英特尔视频AI计算盒,就是进入全新视频AI时代最容易获取的钥匙。
被AI「算计」的店铺布局和货架
传统商业综合体的布局和管理,依靠的是经验。比如地下一层是超市餐饮,一层是化妆品、珠宝,二层是女装、童装,三层是男装。
可消费者的习惯在变化,不同地区的消费者的消费偏好也不相同,经验能发挥的作用在减小,AI的价值越来越明显。
已经广泛应用的AI摄像头,能够统计人流,也可以帮商场的顾客更快找回遗失的物品,但在吸引顾客和提升商场运营方面的效果还不显著。
生成式AI时代的视频大模型,让零售行业的数字化再上一层楼。
北京枫蓝国际购物中心副总陈铁生颇有心得,拥有17年历史的枫蓝国际购物中心,经过了两次转型,第二次转型引入了开域集团的数字化系统,能够统计商场各个电梯和楼层的客流量,不同楼层的客流特点和消费需求,深入了解购物中心消费者对餐饮、零售的偏好程度。
有了更丰富的数据洞察,优化商铺布局,调整商品种类和营销策略就更加容易。
引入开域集团的数字化系统,枫蓝国际购物中心从经验管理向精细化管理转变,也带来了业绩的增长,商场活动的到店量增长了两成,销售额增长了近三成。购物中心就这样被生成式AI“算计”了。
能“算计”大型购物中心,视频大模型也能“算计”店铺、货架。
连锁烘焙品牌多乐之日的北京盈科店,也用上开域集团的数字化系统,借助新一代的视频AI生成的顾客到店动线图,发现约6成顾客在经过面包柜后会直接走向紧邻的收银台,这导致了三明治柜台的顾客相对较少。
运营团队做了一个简单的调整,把三明治展柜转了90度,顺应顾客的动线,持续数天的数据显示光顾三明治柜台的顾客有所增加。
这两个案例都充分说明,开域集团数字化系统所使用的视频大模型,与2018年后的新零售所使用的AI,已经发生了革命性改变,视频大模型有更大的商业价值。
从传统视觉AI到视频大模型的全新时代
传统的视觉AI算法之所以不能像视频大模型一样为包括零售在内的应用提供更具价值的数据和建议,主要还是技术存在局限性。
集成在传统AI摄像头里的算法CNN和RNN,一个能表征视频内容,比如地点,人物;另一个能捕捉动态,比如视频中人物的运动方向、轨迹,难以同时记住一个人以及其运动轨迹。
这就让传统AI视觉算法很难给商场或者面包店提供特定顾客的消费特点,帮助做出运营决策。
视频大模型的Transformer架构,平衡了内容表征和视频的动态,既能记住视频中特定的人,还能记住这个人运动的轨迹。
这是算法的革新,传统的CNN、RNN、LSTM算法就像是一个还不能触类旁通的小学生,老师用大量的图文教小学生知识,比如认识猫,但小学生辨别的时候,只要和老师教过的有明显不同,就可能识别失败。
并且传统的AI算法的信息传递必须按顺序进行,如果传输过程很长,信息会失真或丢失。
所以传统的AI算法泛化性差,部署时要配备专业的AI团队,面向不同场景分别进行训练和部署,不仅耗费资源和时间,建设周期也极为漫长。
还有一个问题,传统视频AI方案要集中式部署,视频流数据需要借助网络传输至后端处理,海量的数据传输和数据安全面临巨大挑战。
泛化性差和需要集中部署都限制了传统视觉AI的大规模应用以及商业价值的挖掘。
比传统AI更进一步的生成式AI,就像是会自监督学习,且触类旁通的大学生。
与小学生的学习过程截然不同,大学生不依赖老师的经验进行自主学习,通过学习优质的资料(具有代表性的视频,配有准确的自然语言描述),比如描述恰当的一只白色的猫躺在客厅沙发上,和大量质量不那么好的资料,比如一只灰色的猫在奔跑的视频,对应描述是房间,大量学习之后,这个大学生能判断出是一只灰色的猫在房间里奔跑。
Transformer不仅能自监督学习,得益于信息不需要按顺序传递,还能根据上下文理解,这打开了视觉AI的新世界,能在更多场景里完成更多复杂的任务。
比如在购物中心,传统AI的视频搜索局限于限定关键词,基于视频大模型的解决方案,直接搜“找出穿白衣服的小男孩”等,很快就能完成搜索和定位。得到结果的时间和准确性,很大程度取决于底层的软硬件。
视频大模型时代最触手可及的软硬件底座
相比一维的文字,二维的图像,处理三维的视频对于处理器有更高的要求,并且视频大模型出现不久,非常考验硬件对算法的快速适配。
全球范围内广泛应用的英特尔酷睿CPU和锐炫GPU构建的英特尔视频AI计算盒,是当下部署视频大模型不二的选择。
其中的酷睿CPU处理器在视频流读取、数据分析等环节,能够满足视频大模型方案在高速数据处理、计算机视觉和低时延确定性计算上的需求。针对复杂的工作环境,英特尔也对处理器的稳定性和可靠性进行了专门优化,保障24小时不间断工作。
英特尔锐炫显卡为视频大模型中大量的推理任务提供算力支持。微架构中的Xe内核集成高带宽矩阵引擎XMX,能够对AI推理中常见的矩阵乘法和累加计算提供基于硬件的性能加速。
算力强大的硬件还不够,OpenVINO工具套件保证了英特尔视频AI计算盒能够快速适配视频大模型算法,并实现部署。
OpenVINO工具套件中基于 x86 内核指令集的推理引擎,能使用硬件指令集来加速AI推理。OpenVINO 工具套件还可对计算图结构进行进一步优化,通过提升算子计算并行性等方式,提升视频大模型方案的推理效率。
开域集团就是借助英特尔视频AI计算盒的强劲算力,以及OpenVINO工具套件提供AI加速,构建视频大模型的数字化商场解决方案,将视频大模型能力有效下沉至包括视觉终端、数字工牌等在内的商场中的各类终端产品。
开域集团CTO赵宇迪说,“使用了锐炫GPU,通过OpenVINO和英特尔oneAPI工具包等工作套件,充分发挥了英特尔锐炫GPU在AI模型推理方面的潜力,使得模型迁移和部署更加简单快捷,同时大幅提升了模型的推理速度。”
当然,开域集团也会借助英特尔视频AI计算盒之外更多英特尔强大的软硬件,充分发挥生成式AI的优势,为零售、地产、园区等领域提供先进数字化解决方案,帮助用户解锁数字化转型新密码。
英特尔视频AI计算盒还有一个非常显著的优势——兼容现有安防监控系统。
得益于英特尔视频AI计算盒更具兼容性的设计,新方案可以便捷地接入大多数现有的安防监控系统,并快速完成部署和调试,比如摄像头只需要一根网线即可完成数据传输和电力供给,大幅降低安装维护难度。
在此基础上,英特尔视频AI计算盒的泛化性能实现更丰富的AI功能,支持更广泛的场景。
视频大模型落地的巨大商业价值
开域集团的解决方案是“云-边-端”的架构设计,基于边缘部署的视频大模型让系统避免了海量的网络数据传输,使AI反应速度更快。
数据在边缘测的英特尔视频AI计算盒处理不上传云端,也能够保障数据安全和隐私。
加上开域集团在零售数字化领域的技术积累与丰富经验,自研的算法与大模型相结合,不仅能帮助商户优化门店布局,创新营销策略,也能显著提升商场和人员管理的效率。
比如可实现跨镜完整识别“人”在空间内的行为轨迹,在保障个人隐私安全的前提下,实现客流人数/人次的精准统计,还可以无感分离导购、保安等非顾客行为对客流数据的影响。
不仅能实现流量统计、店铺导览等常见功能,还能实现店铺吸引力、客流偏好、消费者分析、轨迹与热力、停留时长、爬楼率等更多维度的数据洞察,从而实现更为精细化的商业运营和管理。
也能通过对消防通道占用、跌倒识别、非营业时间闯入、员工空岗、玩手机监控以及车流统计等多种情况进行自动化巡检,帮助商场管理者和商户降本增效。
视频大模型拥有强大的泛化能力和自动处理能力,降低在商业综合体中部署AI的工作量和成本,提高用户处理突发事件能力,也能在地产零售、生产物流、园区管理以及城市管理等多个行业应用。
仓储物流园可以通过摄像头、传感器等设备实时掌握车辆动态,优化物流效率消除安全隐患。
智能制造产线可以用视频大模型方案自动识别设备故障的早期迹象,提前预警和维护。
解决城市管理中的交通拥堵,视频大模型也能发挥更大价值,通过对历史交通视频数据的学习,掌握交通流量的变化规律并预测未来一段时间内的拥堵情况。
冻结的预训练大模型就已经能够实现如此强大的AI功能,接下来视频大模型仍然会继续演进,朝着理解更长视频,适配更丰富的场景的方向发展。
无论算法如何演进,演进的速度多快,基于强大酷睿处理器以及锐炫处理器的英特尔视频AI计算盒,以及OpenVINO和英特尔oneAPI工具包的生态,都是落地视频大模型的基石。
更详细的信息请查阅:https://www.intel.cn/content/www/cn/zh/internet-of-things/unlocking-new-password-for-digital-transformation.html 雷峰网(公众号:雷峰网)