作者 | 李扬霞
编辑 | 陈彩娴
他们的大脑掌握着复杂的逻辑和算法。
他们的眼睛审视着一行行的代码。
他们的手指是精准的输入工具。
给他们一台电脑,他们就能改变世界……
最近,中国首档以程序员为中心的真人综艺节目《燃烧吧!天才程序员》第三季热映,再次将掌握国内顶尖科技的程序员展现在大众眼前。
节目中,他们的手指在键盘上飞速敲击,如同舞者在舞台上热烈地舞动着,技巧和热情均展露地淋漓尽致。每一次敲击,都是程序员与计算机的一次互动,一行行代码也在他们的指下流出。而这些代码所组成的世界,都有一个共同的野心:用技术改变世界。
这 16 位燃烧的程序员选手都是独特的。他们对技术拥有不同的认知和思考,同时也有各自的优势和劣势,以及偏好和厌恶。
他们从千人的线上赛一路披荆斩棘,进入到线下总决赛。
他们或奔着100万奖金的诱惑而来、或为了增加自己实践履历、或为了在接近真实的工业场景下激发自己的创造力和想象力。
但无论如何,他们在这里都会有所收获。
《燃烧吧!天才程序员3·科技助实》是基于第三届ATEC科技精英赛(ATEC2022)录制的节目。
在这里,“技术的力量被看见,程序员的声音被听见。”
1
“实践经验”比获奖更有价值
在21世纪的今天,科技的力量日益显现,而实践,才是解决问题的“金钥匙”。
拧螺丝是大家都知道的事情,但拧得熟练不熟练却有着很大的差别,平时看似很简单的拧螺丝,在飞行器上就成了不简单,因为小小螺丝钉的脱落很可能酿成大事故。
数字化时代,程序员的工作就是构筑一座座赛博朋克大厦,如果出现Bug,那么整座大厦系统就会崩溃。
程序员需要掌握各种编程语言和技术,而理论并不能代替实践。正如古人云:“纸上得来终觉浅,绝知此事要躬行。”
而比赛正是学生从学校走向社会的一个重要的练武场。ATEC科技精英赛到今年已经举办到第三届,吸引了无数的学子以及爱好技术的程序员们。
周远哲就是参加ATEC比赛的选手之一,他来参加比赛的目的很简单,除了百万奖金的诱惑,就是可以学习到新的技术。
在他看来,比赛是一个很好的通过实战学习的途径,在比赛中很多知识都需要现学,这个过程让他感觉很兴奋。作为线上赛“数字化安全”第二赛道,AB榜均为第一名的选手,谁能想到能获得这么好的成绩竟然都是现学的。他告诉AI科技评论,包括分布式学习和联邦学习的知识和经验都是在这次比赛中学到的。
而且他还是第二赛道唯一一个以个人身份参赛的选手。在周围都是团队作战,强敌环伺的情况下,他选择单打独斗,而且还一举拿下线上赛第一名,这是何等的孤勇。
而此前,他还做了一件更酷的事情,就是从物理转到计算机。为了更好的就业,他自学AI,并在短短两年时间就进⼊知名⼤⼚⼯作。
而他把这些成果归结于自己主动学习的动机更强。一来受比赛的影响,学习效率相对高一些;二来想赢,所以就会更加积极。
在他看来攒经验值,比获得奖项更为重要。
赛道二“数字化安全”考验的是选手利用隐私计算(联邦学习/协作学习)、半监督学习、图学习等技术能力识别风险商户。这是周远哲从来没有遇到过的场景,通过一步步的学习、验证以及构建模型,他对于联邦学习、分布式的整个架构以及流程都有了一定的了解。
只有亲身实践,才能更深入的理解知识,只有将抽象的理论知识和具体的情况相结合,知识才会更加生动。
目前高校教育更多“从定义出发“,缺乏实践操作环节,学生难以接触和了解实际项目操作流程,导致学生难以学以致用,创新能力和解决问题的能力得不到充分锻炼,
参加比赛的选手有很大一部分是学生,而ATEC社区的价值弥补了学生从学校走向社会,实践能力不足的这一段鸿沟。
而通过比赛,不仅让选手接触到了一些前沿的技术,也可以吸引更多具有创新精神和实际操作能力的人才参与其中,为解决现实问题贡献力量。
2
真实工业场景引领创新
“以往的比赛,大家更关注提高模型的准确度以及性能,没有考虑到隐私保护,而现实中更需要做好模型的隐私泄漏防范,”李金膛如是说。
在实验室模型的精度提高的再好,仅仅体现在冰冷的数字和机械中,也感受不到科技对于现实世界带来的变化。
没有真实的场景是很难驱动人们去思考技术真正的价值。
从赛题来看,今年线上赛道的设置一如去年,都是实际业务中遇到的场景。数字化运营赛道,主要聚焦在消费券发放,考察选手如何利用多种非结构化数据,如用户历史行为序列、用户间关系图、消费券知识图谱等,来帮助提高数字消费券的分发精度。数字化安全赛道,就是围绕数字生态中风险商户的识别问题,考察选手如何利用隐私计算技术来联合来自多方的交易信息,在隐私保护的前提下,提高对风险商户的识别精度。
面对实实在在的业务场景,选手们也感受到了实验室和工业场景之间的差距。
李金膛告诉AI科技评论,一方面实验室和真实工业场景下的数据不同,实验室使用的数据都是经过精心处理好的理想化的数据,然而在现实会遇到噪声数据、数据缺失或者数据错误等等很多问题;另一方面实验室的数据规模很小,在真实的工业场景下,几千万、几亿的规模都是很常见的,因此就会导致实验室做出来的方案并不能够扩展到大规模的数据场景,而组委会提供的真实工业场景下的数据,会促使选手更好的优化自己的方案。
让李金膛感受最深的就是线下赛从60小时变为48小时,赛程变短,而赛题并没有减少。其实这样设置也是为了模拟真实的工业场景中,需要在有限的时间内完成工作任务的环境。这不仅可以考验参赛者的专业技能,也锻炼了他们在压力下进行决策的能力。
1000个程序员解决问题的方法有1000种。而在比赛中,李金膛认为最有意思的就是加入隐私保护的模块。
在线上赛数字化安全赛道,李金膛共用了三种技术,包括联邦学习、知识蒸馏、模型集成。据李金膛所述,在联邦学习的环境下进行比赛,模型的准确性一定会有影响。选手们能做的就是尽可能降低其对模型的影响。
为了提高准确度而他选择用知识蒸馏的方法解决各个本地数据较少,模型容易产生过拟合的问题。最后将多个模型集成到一起解决单一模型的泛化性问题。
而这一赛道获胜的关键是数据特征的构建。“行业内有一句话,数据构建的特征是决定整体模型最终上限,怎么去设计模型,是去不断逼近这个上限,”李金膛如是说。
蚂蚁举办的ATEC比赛是就是基于他们业务场景的真实的工业场景的一些数据,往往这些数据会涉及到一些领域内比较新的一些技术,选手通过去接触这些数据,然后提出解决方案。同时也有机会去学习和掌握一些新的技术工具以及一些方法,并有助于扩展他们的一些技能包,保持对整个行业发展的敏感性,有助于其后续的职业发展。
人工智能发展到了一定程度,才去关注其他一些问题。比如说模型的可靠程度、模型的隐私保护能力等,这些相对模型精度相对没那么重要,但是这对于整个人工智能领域有更好更健康的发展,是不可或缺的一部分,ATEC引发了比赛的一个新方向。
李金膛说:“参加了两届比赛,第一个最直接的收获就是接触到一些真实的工业场景数据,增加了我在相关方面的实践经验。另一方面就是培养了解决问题的能力,锻炼了在高压环境下的创造性思维。”
AI不能只待在实验室,实践能力的训练更需要真实的场景。
3
赛博世界的“手艺人”
经济社会发展对科技的需求,从来没有像今天这样重要而迫切。
数字化智能化正在深入各行各业,实体企业正处在艰难的爬坡阶段。
程序员就是改造这座赛博大厦手艺人,他们和作曲家、建筑师、画家和作家一样,都试图创作出优秀的作品。
而程序员是利用手中的代码构建模型从而解决现实问题。
ATEC每一年命题的设置都踩在时代的脉搏上,第一年的野生动物保护,第二年的科技反诈,第三年的科技助实,最终目的都是解决现实问题。
ATEC 2022线下赛设置的第二道赛题就是利用计算机视觉、卫星遥感等技术来识别农作物类别。让人们真实的感受到了科技不仅能够真正解决生活中遇到一些的问题,同时还让人们了解到科技还能够预测田地的价值。
唐静作为为数不多的女程序员选手,在赛场上可以说是独特的存在。
谁说女生不能是个好的算法工程师呢?唐静参加比赛是被老公包恒达拉来的,没想到最后轻轻松松拿下了线上赛数字化运营赛道第三名。
当然选择这一赛道也是因为她从事推荐算法的工作,而消费券预测的赛题有些异曲同工。
她告诉AI科技评论:“在比赛中,靠谱的线下验证十分关键,因为线上提交一般都有限制,只有保证线上线下一致才能快速尝试更多思路。”
就比赛对于唐静本人的意义而言,最大的收获是有机会尝试和学习最新的技术。在算法的工作环境当中,由于试错成本高,更加追求稳定,所以没法尝试特别多前沿技术,但是比赛场景下能更灵活快速迭代模型,学习更前沿的技术。
在她看来,今年的主题比较“接地气”,可以实实在在帮助到中小企业,比如线下赛的第三个赛题,就是关于预测小微企业经营风险的,这是现实中确实存在的问题,如果这块内容做好了,是一件非常有意义的事情。
在科技助实这条路上,注定不是一朝一夕就能够完成的,需要一代代人不断努力创新迭代,从而构筑一个新的赛博世界。
回想中世纪在欧洲建造的大教堂,每一座都需要数千人年的努力,时间跨度长达几十年。从中吸取的经验教训被传递给下一代的建造者,最终一代代累积的造诣推动了结构工程的发展。而木匠、石匠、雕刻师和玻璃工人都是手工艺人。
当今时代,这座以科技为基座的高楼大厦,需要更多的手艺人去支撑,他们就是程序员。现代科技高楼也需要一代代的程序员去不断构建。
本文作者:李扬霞,微信Dec9102。长期聚焦网络安全、数字安全领域,同时关注AIGC、大模型等内容,对以上领域感兴趣的读者欢迎添加作者微信。雷峰网雷峰网(公众号:雷峰网)