雷锋网按:2018 全球人工智能与机器人峰会(CCF-GAIR)在深圳召开,峰会由中国计算机学会(CCF)主办,雷锋网、香港中文大学(深圳)承办,得到了宝安区政府的大力指导,是国内人工智能和机器人学术界、工业界及投资界三大领域的顶级交流盛会,旨在打造国内人工智能领域最具实力的跨界交流合作平台。
雷锋网CCF-GAIR 2018 延续前两届的“顶尖”阵容,提供 1 个主会场和 11 个专场(仿生机器人专场,机器人行业应用专场,计算机视觉专场,智能安全专场,金融科技专场,智能驾驶专场,NLP 专场,AI+ 专场,AI 芯片专场,IoT 专场,投资人专场)的丰富平台,意欲给三界参会者从产学研多个维度,呈现出更富前瞻性与落地性相结合的会议内容与现场体验。
大会第二天的计算机视觉专场大咖云集,ICCV 2011与CVPR 2022主席权龙、微软亚洲研究院副院长张益肇、飞利浦中国CTO王熙、旷视科技首席科学家孙剑、中科院分子影像重点实验室主任田捷、国际顶级医学影像分析大会MICCAI 2019联合主席沈定刚等重磅嘉宾纷纷发表精彩演讲。
嘉宾演讲后是备受期待的圆桌讨论环节,五位来自计算机视觉不同细分领域的重磅嘉宾:
汇医慧影创始人兼CEO柴象飞(医疗)
图普科技创始人兼CEO李明强(零售与图像审核)
睿视智觉CEO龚纯斌(工业)
中国科学院计算所副研究员赵地(医疗)
中科院深圳先进技术研究院副研究员王鲁佳(驾驶)
在大数金融CTO兼首席科学家、IEEE Fellow王强的穿针引线下,围绕技术、产品、资本、竞争等话题展开跨界思想交锋。
以下是圆桌讨论的全部精彩内容,雷锋网做了不改变原意的整理与编辑:
王强:首先我想问下,各位用1-2分钟介绍自己在各自领域中遇到了哪些技术或非技术层面的瓶颈。
汇医慧影CEO柴象飞:影像领域最大的技术难点在于:一、数据量不够;二、数据不全。这意味着我们要在小数据底下建模。刚才沈老师(沈定刚)提到,有3000例数据就很震惊了,有的疾病只有几百例数据。这给我们提出了巨大挑战。
另外还有数据质量问题。医疗影像AI中有一个很关键的环节——标注,工程人员都不懂。这里边如何做质控,把流程标准化、统一化,也是一个很重要的问题。
中科院赵地:我觉得还有计算力的问题。刚才我在报告里也提到,要做三维、四维甚至五维影像处理,参数量随着维数直线上升。以三维病理影像为例,一个GPU内存只有12G,连一张病理影像都放不下。我们有很多好的想法和设计,但现有的计算能力和硬件设备无法支撑,这是影像行业面临的一个非常现实的问题。
汇医慧影CEO柴象飞:我补充一句。医学影像方面,我们用过英特尔的产品,英特尔共享内存的方式对三维神经网络还是比较有用的,它突破了显存的限制,可以达到256G内存。它在二维领域优势可能不明显,但在三维领域还是有所突破的。
图普科技CEO李明强:我们耕耘的是互联网和新零售行业。我觉得这个行业最大的挑战在于没有标准答案。医疗领域,一个人有没有病是有标准的。互联网内容审核领域也有一些标准,但标准在不断变化,我们需要不断用新技术解决人的复杂行为和低俗的识别问题,这是非常困难的。有时候我们会感到茫然,客户提出一个问题,需求很明确,但我们发现这不是某一个现成技术可以解决的。
我们在新零售领域走的路前人没有走过。如何用计算机视觉分析门店中的视频从而获取数据?可以获取哪些数据?客户需要什么样的数据?这些数据对他有怎样的价值?
除了技术的边界,还有产品和成本的边界。假如不计成本地做一件事,也许可以做到;但现实中我们不仅要考虑成本还要考虑稳定性。我觉得很多难点都源于这种平衡。
中科院王鲁佳:从自主驾驶的落地来看,主要瓶颈在于计算机视觉对计算力的要求。系统的稳定性和功耗等问题,在实验室做研究的人是体会不到的。如果让自主物流车或园区车连续在真实场景运行,尤其是在深圳这种天气炎热的地方,功耗就会成为一大挑战,而功耗又会带来稳定性、散热等实际问题。
睿视智觉CEO龚纯斌:我们遇到的挑战是技术落地后的产品化。我们不可能把每一个项目做成保姆式服务,所以我们一直在探索产品的交付问题。
我们也在缩小应用范围,先在某个动态体系内形成智能大脑部署后,再将算法、算力标准化。下一步我们计划把IP做到英特尔的S10上,形成超强算力部署。未来AI一定是中心和边缘同步部署,在小环境内形成产品化部署后,比较容易带来好的商务回报。
主持人王强:那么我再把技术上的瓶颈再往深挖一下。大家都知道,计算机视觉领域,分类器的设计特别麻烦。清晰图像和不清晰图像的分类器设计不同,哪位嘉宾有兴趣谈谈图像上的多层次分类器设计?这个分类器不仅要能定位到人,还要能分割出脸、眼睛、睫毛等细节。
睿视智觉CEO龚纯斌:睿视的核心算法是图片测量理解,我们先提取图片中的标签,再进行理解。但在工业应用中,它不是标准模型,不一定非得设计到1000层。比如,去年我们解决一个工业问题,发现到7层的时候就已经够用了。产品落地的时候不一定要追求深层次,而是看怎么实用。当然,在学术领域,各位专家可以做更深层次的研究。
主持人王强:龚总很实际,你的分类器不一定要做得多深,而是更追求实用性。下面我想请王博士谈谈,为什么设计分类器时神经网络层次更多的算法更好。
中科院王鲁佳:我认为未来分类器的应用主要在决策层。我们现在做的是园区内的产品,对障碍物的分类还不太细,基本是从动态物体和静态物体的角度来分类,从实用角度出发。我认为后续可以从决策者——比如驾驶员的角度来分,看他更关注哪一类东西。
中科院赵地:在医学影像领域我经常遇到一个问题,大家会问什么样的模型是最好的。在我看来,一个模型好不好,不是看层数有多少,也不是看网络有多复杂,而是看它的结构是否和这个领域的专业知识结合得最好。所以,并没有唯一的答案。
沈老师(沈定刚)刚刚的报告中提到很多多通道模型。以肺结节识别模型的设计为例,设计模型前我们会先看一下片子,有一个整体印象。如果数据量足够大,且有足够强的算力,使用深层次模型肯定能表达更丰富的信息。但它终归是有极限的,所以医生和软件设计者还要考虑其他因素,包括结节的外形等。我们需要使用其他通道,结合前处理算法,去识别相应的结构特征。
总而言之,能体现专业知识的模型才是最好的。
汇医慧影CEO柴象飞:赵老师说得对。医学影像领域受限于数据量,不可能迅速把网络层级做得很深。通常只有几十层,最多可能只有150层。多维度联合模型也不是特别合适,比较可行的做法是,独立选择多个不同尺度的分类器并行执行,最后再做总的决策。这种做法也有弊端,就是几个模型需要跑了一遍又一遍,不过也可以解决。另外一种做法是,在全连接层的最后一层把额外信息加进来做整体判断,不光是图像信息。
图普科技CEO李明强:分类问题是内容审核领域的基础。里面有很多玄学般的东西,但总的来说,数据量肯定是越大越好,特别是有价值、有难度、能扩充品类的数据。所以我们会找到那些有难度的数据,同样是1亿张(图片),这1亿张跟另外1亿张肯定是不同的。
再一个,你还要分析模型的作用。分类有很多方法,你做出一个模型后,要看看它是否有价值。如果模型有效,说明它观察到了有价值的部分,虽然我们不知道它是怎么观察到的。然后我们可以用它进行其他方向的尝试,虽然固定的方法不一定好,但我们可以通过这种方法尝试。
主持人王强:希望通过几位大咖的介绍,大家能对分类器和神经网络层次的选择有所了解。面对不同问题需要选择不同的算法。有些神经网络算法对搜索层次要求很深,比如下围棋,它是在优先规则内进行多层次搜索、聚焦,找到分类的层次,因此需要多层次,甚至需要高达150层。但对医学影像来说,癌细胞跟普通细胞形态不同,很好判别,没必要再把癌细胞分离成不同类型的癌细胞。这个领域的问题在于医生无法准确测量肿瘤的大小,但AI可以。将AI测量出的肿瘤直径和医生的临床诊断结合,就可以判断病人的病情属于中期还是晚期。当年我离开沃森时,它已经能够正确判断癌症是否属于晚期了。
十几年前在CMU读博期间,我导师(图灵奖得主罗杰·瑞迪)告诉我,当你发现改变一件事情很难时,不要尝试一下改变所有,只要改变一点就好了。所以我想请教各位,你们在研发过程中遇到问题时,试图去改变一点和去做大量改变,分别意味着什么?
睿视智觉CEO龚纯斌:我觉得可以从两个维度来看:一是技术维度,二是产品维度。从技术维度来说,产品应用是结合实际应用场景通过多个技术模块来共同运行的,每一个模块进行优化后,才能形成产品竞争力的极大突破。从产品维度来说,站在实际应用的角度,都是从项目走向产品。尤其是在我们集中部署的工业制造领域,需求都是业务倒灌,都是产线的实际需求,一个点一个点的凸显,一个点一个点的去落地。当需求达到一定数量、覆盖面达到一定范围的时候,一个适用于企业的算法平台就成形了,产品也就出来了。这个由点及面、从项目到产品的过程肯定是艰难的,但是我们也不能盲目的去加速、去大幅改变,因为事务的发展本身需要一定的周期,而且AI的真正落地最终也一定是数据、算法、算力的合力提升,而不是单点的改变,这都是我们要遵循的规则。
主持人王强:龚总不愧是一个企业家,跟我们思考的方式不同。下面我想请教各位,你们在To B领域,畏惧BAT这些巨头吗?
汇医慧影CEO柴象飞:我们并不畏惧。百度搞过医疗,但他们去年已经撤销了医疗事业部。百度也搞过医疗影像,成立了一个小团队,现在他们的首席科学家已经回美国去了。阿里健康也搞过一段时间,后来也转型了。现在唯一还在布局的是腾讯觅影,我不知道它还能做多久。但不管怎样,它和我们的角度是不一样的,它有更大的战略和更多元化的需求。
对于初创公司来说,最重要的是深入临床问题,而医疗临床恰恰是非常分散的,不是靠资金或某些技术就能通吃的。它需要在场景中持续打磨,不断迭代,这样一件事情非常适合能深入行业的创业公司来做。因为它对速度、人才等方面的要求和BAT是不一致的。所以具体到医疗这个细分行业,我们并不畏惧BAT。它们入局这个行业也很好,大家可以一同推进行业发展,并不会立刻对我们造成巨大竞争。
主持人王强:但是BAT有钱。
汇医慧影CEO柴象飞:它们虽然有钱,但人才稀缺,不是花钱就能迅速弥补的。另外,病种非常丰富,也不是它们能迅速覆盖的。除此之外,也要看它们在医疗业务上愿意投入多少,这是本质。
中科院赵地:具体到医疗领域,我同意柴总的观点。中国市场的需求实在太大了,可研究的课题实在太多,我不认为任何一家企业有能力把所有课题都做完。甚至所有互联网企业联合起来也未必能做完。包括医疗的很多特殊领域还需要大量基础研究,这不是互联网公司愿意花大精力去做的。总而言之,大家要各司其职,各有所长。
图普科技CEO李明强:我想把“害怕”这个词换成“重视”,因为害怕也没用,我们已经跳进了这个行业。我觉得我们应该像毛主席说的那样,在战术上重视,在战略上藐视它们。
我之前在腾讯待过很多年,2005年加入腾讯,2013年底才离开。我离开腾讯时已经是T4级专家,当时腾讯总共只有几十位T4级专家。
我害不害怕这些巨头?我当然知道一个有资源团队以创业公司的方式做起事情来很可怕。但如果金钱可以等价转化成任何东西——激情、时间、效率,那世上就不会有创业公司了。
中科院王鲁佳:从学术界的角度来看,从这一点来说,企业确实钱多,资源整合能力更强,但学校也有它的优势,更加自由。
这跟市场环境也有关,现在有一些行业出现了“过热”,受到资本和社会的过度关注。这促使一些学术专家和技术大牛决定去尝试更多的领域。但就像前面几位嘉宾说的,每个行业都有它的特点。工业界偏实用和产品化,学术界研究的是更“遥远”的东西,二者还是有差别的。我认为随着热度退去,大家最终都会回归。
创业公司和BAT也是一样,各有特点。大企业的优势在于资源丰富、整合能力强,但因为“大”,转型能力较差;发现新的挑战点后,深入做下去的灵活度小一些。这方面创业公司比较有优势。另外,创业公司也可以提供一些钱以外的东西。
睿视智觉CEO龚纯斌:我觉得可以从两方面来看:一是壁垒,二是生态。
我一直认为,技术壁垒不是壁垒,只有形成了产品和对应的商务市场,才是真正的壁垒。我不太赞成“赋能百业”的说法,你能把一业做好,肯定就能在BAT之外有一席之地。
再来说生态。BAT有自己的生态系统,睿视也是亚马逊、英特尔、华为在AI图像解析领域的技术合作伙伴。华为去年提出“5朵云计划”,也就是说未来只有谷歌、微软、亚马逊、阿里、华为这5朵云。
我认为,只要存在生态,就有我们的立足之地。我不认为BAT对我们是完全碾压,相反,我们有很多互利共赢的地方。他们需要我们提供服务体系,我们也能把英特尔的板卡和实际产品结合。我们可以从生态中找到利益点。
另外,我们也不要把BAT看成一个整体,我们只是在跟其中一个团队作战。我可以集中睿视所有的资源做同一件事,但BAT可能只有一个20-50人的小团队,我们面对的就只是这个小团队。
总的来说,从壁垒和生态这两个维度来说,我们是可以跟BAT共存的。
主持人王强:没错,小公司是能够与大象共舞的。最后我们再谈谈融资的问题,我想请三位企业家谈谈,你们未来融了资想做什么?现在好融资吗?
汇医慧影CEO柴象飞:我感觉今年在收紧,融资越来越难了。我的投资人朋友告诉我,下半年还会持续收紧。这个信号已经很明确了,大家无论从汇率变化还是民间借贷都可以感觉到,全球的银根都在收紧。
融了钱想做什么呢?我觉得还是应该用在落地和商业化方面。资金越紧张,越是考验产品化和自我造血能力。对于AI企业——无论头部玩家还是其他企业,商业化都是一个重要问题。
主持人王强:如果能融到钱,你还想融吗?融到了钱准备干什么?
汇医慧影CEO柴象飞:我前面提到,医疗产品面临的不单是技术问题。我们目前在申请国内的CFDA认证、欧洲的CE认证,以及美国的FDA认证,这一块是非常大的花销。另外是病种的扩充,任何一家公司扩充任何一个病种,它的逻辑、执行和合作单位都是比较独立的。扩充病种一方面要自己研究,一方面要对外合作,都挺花钱的。
中科院赵地:我来自科研单位和学校,就不谈融资的问题了,我谈谈拿项目。不管融资还是拿项目,都是拿投资方的钱,我们的投资方是科委、自然基金。
主持人王强:有没有横向拿企业的钱?
中科院赵地:也有一些,但不多。科研单位和学校有它的评价体系,钱不是白拿的,拿了钱要做事,有考核指标,要完成项目。在我看来,项目也不是越多越好,因为你的工作和业务能力不一定能完全满足投资方的需求。而且,工作以外也要抽出时间来生活。我觉得如果能在自己熟悉的领域做深、做好,经费或投资都不会是大问题。
图普科技CEO李明强:我们目前也正在准备下一轮融资,主要会用于研发和人才引入。很多业内的创业者会说融资不像之前那么容易了,其实,融资并不是变难了,而是人工智能技术现在不是一个只讲概念的时期,投资人更在意的是能否应用、能否落地,所以投资人会更谨慎一些。如果你想套投资人,可能会越来越难。如果你想把青菜卖出水果的价钱,甚至把烂菜叶包装成新鲜大白菜卖,肯定越来越困难,因为大家对AI已经看得越来越明白了。这对于行业而言是好事,用心钻研的好项目会更容易获得青睐。总体上来说,我们已经实现盈利,目前的经营状况和收入状况都挺不错,还是持乐观态度的
中科院王鲁佳:我们合作了一个科大出来的团队,他们最近刚刚完成融资,所以我也分享一点看法。
我感觉现在经济形势确实不太好,会影响到投资。另外,AI领域已经火了好几年,已经过了拿一个ppt就能融到钱的阶段。不过,投资人越谨慎,好的项目反而更容易出来。所以融资对我们合作的团队来说不算难。
睿视智觉CEO龚纯斌:我们上半年也有一些融资。我认为,贴近应用,把营收做起来,对创业公司特别重要。
我们拿了钱想做什么呢?目前的想法是项目产品化以及加速FPGA研发。我们早期没有投入硬件,用的是亚马逊的F1,能省则省。上半年的融资就是为了扩大对下半年产品化和技术化的支撑。
王强:今天的讨论到此结束,非常感谢5位嘉宾。
大数金融CTO兼首席科学家,PAMI和TIP编委,IEEE Fellow:王强
王强,大数金融CTO兼首席科学家。1998年-2009年,王强任IBM GBS美国设计合作部门总裁、IBM Thomas. J Waston研究院主任研究员。回国后,先后出任建设银行信息技术部门核心与智能交易系统首席专家兼西安银博副总经理(建行全资子公司)、美国Fiserv公司东亚及东南亚董事总经理兼总裁、TCS中国高级副总裁兼首席研究员。
学术研究层面,王强自2009年起任UC Berkeley 机器人与工程实验室讲座教授,在国际Top期刊发表90余篇论文,同时是4届CVPR论文评委和两大国际顶刊PAMI、TIP的编委。2006年获卡内基梅隆大学机器人博士学位,师从图灵奖得主罗杰·瑞迪教授。
王强于2017年当选IEEE Fellow。
汇医慧影创始人兼CEO:柴象飞
斯坦福大学博士后、荷兰阿姆斯特丹大学医学物理学博士。师从美国科学院院士候选人邢磊、世界顶级图像引导科学家Marcel van Herk、CT重组算法奠基人之一Paul Suetens,曾于美国斯坦福大学癌症中心、荷兰癌症研究所和比利时鲁汶大学放射科等世界顶尖的医学影像机构工作学习。在人工智能、图像处理以及数据分析领域拥有超过10年的跨学科科研和工程经验,掌握影像的分割、识别、分析以及深度学习的核心技术。
图普科技创始人兼CEO:李明强
人工智能产品专家。原腾讯广研张小龙团队核心成员、腾讯T4技术专家,QQ邮箱技术负责人,微信创始团队成员之一。
2014年初创办图普科技,为企业提供图像识别云服务,涵盖了图像审核、商业智能、安防监控、增强现实等多个领域,现日均处理图像数据近10亿次,是互联网最大的图像识别云服务平台。李明强带领团队运用先进的人工智能和计算机视觉技术,赋能线上线下,让图普科技成为国内人工智能领域最具影响力的创业公司之一。
睿视智觉CEO:龚纯斌
龚纯斌曾任职联想集团和美图秀秀,多年大型自研项目全程开发管理工作经历,具有极强的技术产品化能力和丰富的团队管理经验。2014年进入计算机视觉领域,凭借对技术、资源、市场的敏锐判断完成了初步资源储备和全球化事业培养。2015年创办睿视智觉,2017年个人被评为“深圳罗湖菁英人才”。现已带领团队进入AWS、英特尔、华为人工智能生态合作体系,并与国内外多家制造业巨头达成深度战略合作。
中国科学院计算所副研究员:赵地
美国路易斯安娜理工大学计算机与应用数学专业博士。赵地曾在美国哥伦比亚大学医学中心和美国俄亥俄州立大学医学中心从事博士后研究工作。主持北京市自然科学基金重点项目一项,参与国家重点研发计划一项和北京市科委“脑科学研究”专项二项。
赵博士在“深度学习与医学影像分析”方面具有深厚的研究经验,发表多篇学术杂志论文与学术会议论文,并担任国际杂志《Annals of Multicore and GPU Programming》编委。
中国科学院深圳先进技术研究院副研究员:王鲁佳
香港中文大学机器人方向博士,新加坡南洋理工大学博士后、瑞士苏黎世联邦理工大学(ETHZ) 访问学者。深圳市孔雀人才计划。主持多项国家自然基金、科技部、广东省及深圳市基础研究学科布局项目。四次获得IEEE 国际会议最佳论文奖及提名奖次获最佳论文提名奖。主要研究方向为多感知融合的自主系统、大数据驱动的智能、多机器人协作以及云机器人等。