随着互联网的兴起,人工智能和大数据成为了热门领域,越来越多的企业开始通过对数据的挖掘分析来为商业决策提供建议,在国内市场,人工智能和大数据领域人才出现巨大的缺口。而数据分析师入行需要的技术能力较易,转行/自学性价比极高,成为大数据领域的热门职业。
近日,在雷锋网 AI 研习社第 5 期职播间上,杉数科技算法工程师赵珂珍进行了「从大厂到初创企业的决策之路」的求职分享,并进行了招聘宣讲。公开课回放视频网址:http://www.mooc.ai/open/course/567?=zhaokezhen
赵珂珍:杉数科技算法工程师,本科毕业于天津大学建筑工程学院,研究生毕业于斯坦福大学工学院,从传统工程学科跨领域成为算法工程师,曾在国内头部大厂担任数据分析师,现就职于杉数科技,从事与大数据相关的工作。
分享主题:大数据分析工程师的求职分享—从大厂到初创企业的决策之路
分享提纲:
1. 个人经历及为何选择杉数科技;
2. 大数据分析工程师职业内容;
3. 大数据分析工业场景应用实例;
4. 大数据分析/挖掘的自学建议;
5. 杉数科技招聘内容及内推通道。
雷锋网 AI 研习社将其分享内容整理如下:
大家好,欢迎来到 AI 研习社职播间,我是分享嘉宾赵珂珍,这次的分享内容更针对初入职场或者有志于跨领域转入大数据分析相关岗位的求职者。本次分享包括:
第一,简单介绍个人经历以及最终选择杉数科技公司的原因;
第二,简单介绍大数据分析师是做什么的,在行业内有怎样的分类,以及工作中具体需要用到哪些技能等等;
第三,结合我在大厂和杉数科技的经验,根据具体的工业场景应用实例,让大家了解大数据分析师的工作内容;
第四,结合自己求学、求职和工作的经验,为大家提供一些大数据分析师所需要的学习建议和资源(其中包括我在斯坦福学习的优质课程资源);
第五,详细介绍一下杉数科技的业务和公司情况,为大家讲解算法工程师类的招聘需求,并提供简历投放通道。
首先,做一个简单的自我介绍。我本科毕业于天津大学工学院,主要学习建筑工程的水利工程,它和土木工程比较类似。在校期间,我学习了大量力学和数学相关知识,并在南开大学获得金融双学位,主要学习数学、经济学和金融学相关的基本理论。研究生毕业于斯坦福工学院,专业是环境流体力学,这个专业要求很扎实的线性代数知识和编程技能。另外,因为研究生采用自由选课制度,跟本科差别不大,学生可以选修学院的其他课程,因此我修完本专业学分后,还选修了一些热门课程,例如吴恩达的机器学习课程 CS229,李飞飞的深度学习与图像识别 CS231n。
后来在课程学习过程中,我有了跨行业就业的想法。当时考虑到目前业内大多数博士生在做 AI 设计,而研究生阶段的课程和数据挖掘的衔接更为自然,因此我开始找数据相关的实习。研一暑假,我在国内头部大厂总部新成立的大数据分析部担任数据分析工程师,两个多月后拿到了 return offer。研二第一学期,我又接触到斯坦福校友组建的创业公司——杉数科技,并且拿到 offer 回国入职。目前我正式在杉数科技工作,担任算法工程师,主攻机器学习方向。
结合我个人的经历来看,我今天的分享主要回答三个问题:为什么选择跨专业进入大数据领域?为什么选择回国就业?大厂和初创企业有什么差异,为什么我最终选择了创业公司?这三个问题也是大多数求职者或多或少会面临的问题。
第一个是职业方向的选择。比起我本专业的方向,大数据领域有着显而易见的几点优势:人才缺口非常大,薪资的相对水平比较高,成长速度比较快。
从互联网开始普及,我们每天都会产生大量的数据,并且数据存储技术也在进一步发展,所以大数据背后的价值越来越被大家所重视。实际上,银行、电商等领域中,数据分析已经有完整的职业生态了,但是信息技术的发展,给数据分析带来了更多的应用场景,目前单电商领域的发展就带来了采销、仓储、运送等环节的数据应用,甚至传统工业也都对数据挖掘提出要求,而在未来几十年里,这个需求都不会衰退,大数据的用人缺口极大。
目前,高校针对大数据分析和人工智能领域设置的对口专业非常少,很多专业人才都是计算机、金融或者统计出身,而用人市场又存在极大的需求,因而工资也水涨船高。
至于成长速度,一方面,大数据面对的工业场景在不断更新和扩展,目前比较热门的可能是互联网电商行业,而很多传统工业也在尝试用大数据做决策优化;另一方面,很多数据挖掘理论也在与时俱进,因此数据挖掘算法相关从业者需要保持项目的实践推进能力,并持续进行理论学习,这类从业者的淘汰率大,压力也大,不过成长速度也快。
第二个问题是为什么回国。一个原因是根据自身情况所做出的选择,在这里不多说,有借鉴意义的是中美在大数据行业的差异性。
美国作为一个发达国家,很多应用场景下的数据采集、管理分析流程已经比较成熟了。除了前沿的技术研究进展,从工业应用领域来看,中美大体差异不大,甚至中国在未来的发展空间还更广阔,但是涉及到一些传统工业或电商、物流这类的新型产业,中国整体的大数据应用水平还是比较迟滞的。
中国在数据这一领域的发展空间会给大家更多的机会,因此在大数据行业发光发热,其实是一个非常好的选择。现在进入这一行业的人,在某种程度上会成为第一批接触并且解决该行业问题的人才。
第三个问题是创业公司和大厂有哪些区别。实际上,二者有各自的优势。大厂具有稳定、体系分明、接触业务层面较深、细分领域深耕、晋升通道明确等优势,而初创公司的优势表现在:管理扁平、任人唯能、接触项目广泛、直接对接客户,并对业界的不同领域均能涉猎,成长曲线陡峭。
在劣势上,大厂可能存在视野过窄、不跳槽难以晋升、工作内容及模式固定化、成为一颗「螺丝钉」等问题。而初创公司相对来说比较不稳定,并且团队靠谱与否会影响上述优势能否保证。
我个人倾向去创业公司或者大厂刚刚成立的重点部门,因为二者都具备一个特质,就是都能接触到大量工作和项目,而不是在一些细分的领域做「螺丝钉」。在我看来,入行初期比较重要的是行业视野——大面看得全,才能够在深耕领域做出最优的选择。因此我的第一份正式工作就选择了创业公司。另外我实习大厂的大数据部门,也有同样优势,它刚刚成立,能够很快对接到业务层面,并且其内部也是采取扁平化的管理方式,能给我很多的锻炼机会。
其他原因还包括团队和成长机会。我曾在硅谷机缘巧合地接触到了杉数科技的 CTO 王子卓老师,便立志加入杉数团队。由于杉数科技目前还在成长阶段,能够让我接触大量项目,而每一个项目就是行业或工业的解决方案。此外,除了技术和理论研究实力非常强大的创始人团队,杉数科技更有一批行业非常顶尖的科学家,这些都是行业内的超优质资源。因此对个人而言,杉数科技的工作不仅仅意味着能与这些优秀科学家共事,大量的项目也非常锻炼人。
杉数科技是一家基于大数据的咨询公司,主要客户是中国工业界的大中型企业,其基于大数据的精细化运算和行业解决方案,能够帮助企业提高决策水平。
之所以说杉数科技的前景非常好,一方面是因为大环境下越来越多的工业企业开始重视数据,但它们未必有足够的资金像 BAT 一样去养数据团队,并且即便是 BAT 这样的大型企业,针对特定的、非常态的复杂问题也需要搞外包服务,这也是杉数科技存在的价值。另一方面,杉数科技创始人团队都是斯坦福高学历人才,并且配备丰富的行业经验和学术经验,并兼有强劲的技术实力和前沿的理论研究实力,曾为 Google、IBM、波音、美国能源部、中国电网等机构解决运营决策优化问题。
下面我讲一下大数据分析师的工作内容,公司的岗位需求以及职业发展路径。
数据分析这个概念,其实大家都不陌生,基本上就是针对一些数据源,去探索它们的特点,得出相应的结论或者追溯一些商业现象的原因。不同于传统的数据分析,大数据分析不仅仅是基于自身的数据统计,有时也需要考虑一些外部因素,对其他需要的数据源进行采集、整理和合并,并且它的数据规模比较大,从业人员需要掌握一定的运行并行工具和算法,而不仅局限于基于统计学的分析。
但是就我的从业经历来看,大部分数据分析师的末端工作内容还是基于一些常用的统计学理论和传统的数据分析方法,只是在这一步前增加了很多大型数据集整理、合并和运算的过程,而这些过程需要一些新的技能和理论。
从一个维度来说,目前大数据分析有两个大体的方向:
一个是偏业务方向,这个方向要求从业者对业务有着比较深的理解,并且有比较强的统计学理论知识,能够对大型数据集做简单的处理,然后得到所需维度的数据,而最重要的一项能力是,要能够结合商用市场和业务提出的要求,去定位问题和发现结论。一般来说,工作中所需外部数据源越少,前期的物理逻辑就越简单,也越接近传统的商业分析。
比如拿到某个企业某个部门这一季度的所有订单后,需要对订单的来源去向分区域、分时段进行统计,然后要输出结果、监控异常、定位来源,并根据数据表现提出解决方案,这一整个过程就是商业分析。而当数据量达到一定的规模,没有办法用 Excel 这些工具直接进行分析的时候,就需要使用一些大数据平台对数据进行预处理和预运算,比如维度扩大到整个企业某季度的所有订单。其中,当我们在分析产品类型、客户类型等多个维度的结果输出的时候,涉及到的就是某些初级大数据分析师的工作内容,一直到这一步,相关的数据分析都是跟业务结合得非常紧密的。
目前很多领域的大数据分析师的基本工作内容,就是在大数据平台用 SQL 等工具来整理和取数,做一些初步运算,然后再用 Excel 进行分析和操作。而精细到不同场景,这个岗位会有一些不同的发展方向:有做数据产品的,需要具备一定的需求把控能力和项目管理能力;有做决策支持的,需要一些商业敏感度—在一些业务开展之前,要能够利用市场数据的各个维度进行分析,以确定某项业务是否要开展,有哪些方案,以及哪些方案能最大程度地争取利润和减少风险等等;有做数据运营的,包括客户运营和产品增长运营等,要结合一些历史数据和数据规律,找到其增长点,推行并迭代数据。
我们可以从这些工作内容看到,其实偏业务方向的大数据分析师结合市场、产品或者运营,可以有多种发展方向,他们可以紧贴着业务、运营和产品等跟市场结合比较紧密的部分不断成长,直到进入决策层,前景十分光明。
这种业务型大数据分析师的岗位需求,在技能方面的门槛不是非常高。基本上学会用 SQL 取数,可以使用大数据平台对一些数据进行处理,会用 Excel 的高端操作进行数据分析、汇报撰写以及拥有基本的可视化技术,就可以尝试找这方面的工作了。另外,这个岗位的核心能力在于你的商业敏感度以及对业务的了解深度,而这些都是需要在实际工作中积累的软实力。
另一个是偏技术方向,其基础仍然是做数据分析,但是工作的侧重点有所变化。除了监控数据、锁定异常、查找原因等工作内容,数据挖掘方向的大数据分析师面临多一层的需求——给定解决方案。比如某个网站想要将广告投放收入最大化,你要考虑怎样根据网站的流量分布采取适当的投放方案和收费方案,甚至针对不同客户进行定向投放等,这其中就涉及一些推荐问题。一套合理的投放模型,向上要考虑广告投放方案的利润最大化,向下要考虑向客户推荐广告能够最大化地带来真实流量,这一系列的逻辑,不仅要基于大量的数据采集来分析结论,也要基于业务逻辑、算法理论和基于经验的假设提出解决方案—实际上到这个阶段,大数据分析师已经进阶为大数据工程师和科学家。同时,这个过程中还会用到一些基于大数据工具下的数据挖掘算法、传统机器算法,甚至深度学习算法知识。严格意义上讲,这已经是算法工程师的工作了。
不过实际上在很多应用场景下,大数据分析师不需要解决这样系统、庞大的类如推荐、识别等问题,而只需要在具体工作场景下针对一些小的问题,建立简单的机器学习模型,比如随机回归、逻辑分类器等。以一个小的应用场景为例,在给定了客户数据后,需要训练一个分类器能够最大程度地识别倾向于某个产品子类的客户,从而对这个客户进行筛选,然后提供针对性的服务。这是一个比较简单的分类问题,需要根据不同的情况采用不同的方法进行建模。
总之,偏技术这个方向的大数据分析师,无论是利用传统机器学习方法还是深度学习方法,都需要采用一定的数据挖掘算法,去尝试建立模型解决问题,迭代、更新数据以及不断调整参数,这一整套过程就是大多数数据挖掘师的工作逻辑。
这个方向下也细分出很多不同的发展方向,比如定价、推荐、语音识别、NLP 等等,但这个方向因为门槛比较高,要求掌握扎实的数学、线性代数、计算机算法理论基础,以及较强的代码能力。另外,机器学习和深度学习算法还在不断更新中,基本上会随着论文更新出现新的算法,因此这个方面需要大家不断学习,保持阅读论文,随时更新个人知识。
在工业界,偏技术方向的人一般会沿着技术专家、数据科学家的路线发展,或者在积累经验后产学结合进行算法方面的革新等等。对于想要跨专业往这个领域发展的求职者,我建议大家先进入一些技能较低的大数据分析岗位,在工业界积累一定问题处理能力后,再在特定领域通过深造努力向数据挖掘方向靠拢。
目前,大数据分析师和数据挖掘师的行业主要集中在数据采集和管理比较成熟和体系化的金融、政务等领域,其中,金融行业的大数据分析师会相对偏量化一点,并且侧重商业分析,要求较高的金融理论知识。不过,互联网企业可能会是未来大数据人才缺口最大的行业,比如电商、物流行业的整个链条的智能管理和决策优化都要基于一定大数据算法实现;而政务领域往往是基于互联网+平台,并且采取一些外包的方式实现智能化管理。此外,像今日头条这类资讯型的互联网公司也会有广告推荐、用户增长等大数据分析相关的热门岗位。
除了本身搭载移动互联网信息化的成熟企业,工业界企业对大数据应用上的诉求基本上集中在仓配优化、成本控制、定量预测等很多细分领域。大数据比较成熟的企业,比较重视在深耕领域的精细化模型的搭建,比如我们前面提到的推荐算法等等,但是对于大数据初具规模的企业和传统企业来说,基于成本控制和利润提升的简单算法的全局性优化方案是更为重要的。
数据分析和数据科学也是有差异的。基本上,数据分析的技术栈有三个:数据库处理、脚本细处理(有一些公司会对这个技能有一定要求)、维度分析+可视化。而数据科学是基于数据分析的技能,要求比较强的编程能力、数学能力和算法能力,门槛相对较高。
简单举个实例来介绍一下我在工业界中所做的与大数据分析相关的工作。由于大多数数据分析岗位也要求一定的基本建模能力,所以我把涉及到数据分析的工作内容简单归类为三个大场景:
第一个,数据监控。这一类场景下基本是固定取数逻辑,只需根据业务市场或数据模型的需求,从数据库中提取元代数据,再通过逻辑合并和运算处理输出结果。数据监控工作具有重复性的特点,需要周期性生成固定口径的数据,以及监控一段时间内的数据分布,锁定数据异常,并且发现异常时,还需要在数据库中结合业务进行诊断,最后生成分析报告。我一般会用 SQL 取数、Excel 统计,最后做 PPT 进行汇报。
第二个,数据分析。这个场景跟数据监控相似,不同的是,它是不固定取数逻辑,可能会涉及多次取数以及不同的分析方法,因为其最终目的是在数据层面找到一些现象的原因、结论,而在分析之前,我们很难从成百上千个工业维度的数据直接定位到造成某个影响的维度。另外这一场景最终的呈现形式也是汇报,需要用到一些前端知识和便利的可视化软件。
第三个,数据建模。这个场景需要在分析的基础上,根据业务需求抽象模型方案并进行数据集探索,建模完成相应需求。
除了这三个场景,还有一些其他场景,它们不属于大数据分析师的岗位,但需要密切依靠大数据的相关工作,例如工业定价、工业销量预测、仓储管理、供应链优化等,这些工作都需结合运筹学和其他算法知识进行数据挖掘、建模及优化工作。
下面是我的一个具体工作案例,让大家了解这三个场景在实际工作中的具体应用。这是我们公司做的一个定价项目下的子环节:
(关于该定价项目的具体工作案例讲解,请请回看视频 00:26:30 处,http://www.mooc.ai/open/course/567?=zhaokezhen)
针对大数据分析和初步数据挖掘自学,我会提供一些建议,也会给大家提供一些资料。
现在,大数据分析岗位所需的技能包括:
第一个,数据获取的技能,需要处理哪些数据/哪些维度/如何界定待分析等问题,大部分公司要求使用 SQL+R/Python 等软件进行预处理。
第二个,数据处理的技能,需要掌握 R/Python 等工具,能帮助大家比较灵活地进行数据清洗工作。不过针对数据量比较小的数据,可以直接使用 Excel 处理,这就需要掌握 Excel 高端技能。
第三个,数据分析的技能,其中的软技能包括商业敏锐度、业务理解以及统计学知识。
第四个,数据展示的技能,要求大家具备优秀的可视化和良好的表达能力。
标配就是 SQL+Excel,依靠这些能力基本上就能帮助你找到一些工作或者实习机会。
针对 SQL,我建议大家去菜鸟教程上进行学习,主要掌握比较简单的应用型语法,可以一边操作一边学习,遇到不懂的则要学会使用搜索引擎进行查询。另外,我建议直接上 Leecode 网站,刷一下数据结构这几道题,网站上按照从易到难的顺序会有不同的解法,大家可以尝试用不同方法去解决一个问题。掌握 SQL,基本上可以应付工业界的取数任务了。
Excel 方面,基础操作无法满足要求,要求至少熟练使用常用的统计工具,如简单的表格数据处理、查询、排序等,vlookup 等高级函数,多维引用数值公式,可视化图表(需要掌握图表展示、美化、高级图表、图标插件等)以及非常常用的数据透视。另外,有的数据处理也涉及 VBA 开发,大家如果对这方面有兴趣也可以自学一下。
大家如果掌握了 SQL+ Excel+PPT 这三个工具,基本上就可以尝试去找大数据相关的工作,之后可以根据个人发展方向和岗位需求确定自己的技能加强方向。
另外,针对想要学习一些脚本语言的同学,我比较推荐 Python,这款软件比较好用,且容易入门。大家可以上廖雪峰的官网上了解一下基本的 Python 语法、数据存储方式等内容。关于数据处理的学习,则可以直接看 pandas 手册(http://pandas.pydata.org/pandas-docs/stable/pandas.pdf)——从 500 页开始基本上都在介绍常用的语法指令。目前数据处理方面的工作,一般都是使用 SQL+pandas 指令完成的。
如果需要掌握结构化处理,大家可以学习一下 numpy 这个数据包,并在在工作中边学边用。在机器学习和深度学习中,该数据包的应用比较多。
基于数据分析的数据挖掘,则要求自学者有较好的线性代数基础,并进行机器学习和深度学习相关的学习。关于传统的机器学习理论,比较完备的课程是吴恩达的 CS229,工业界中常见的分类和回归问题所涉及到的,比如随机分离以及朴素贝叶斯等理论,CS229 基本都涵盖到了,不过这门课程偏理论一点,因此对数学理论的要求非常高。大家之后在工作中可能遇到各种「疑难杂症」,可以去阅读相关论文或者技术博客(寻找相应的解决方法和思路)。而实用性较强的课程中,我比较推荐 Stanford CS246 这门课程,包括基于 Spark 平台去操作完成一些简单的推荐算法、直线聚类等与工业界结合非常紧密的实践和课程。
此外,针对一些数据挖掘细分领域的偏理论的课程,我在资料(http://sendanywhe.re/900QEJJZ)中附上了著名的黄皮书,大家可以参考。
传统机器学习相关工作,将这些理论掌握就可以说是做好比较充分的准备了。需要注意的是,工业界跟学术界存在的一个比较显著的差别就是,工业界的工业数据是非常「脏」的,当遇到很多棘手的问题,我们无法获得理想数据进行模型训练,比如分类中常见的分类不平衡等问题,这就需要我们结合工业场景尝试不同的算法和工业应用理解去找到合适解决方法。另外,不同公司的数据分析岗位的具体工作内容会有区别。因此,我认为行业经验以及学习和理解能力非常重要。
接下来介绍一下杉数科技,并给大家讲一些岗位的招聘需求。
杉数科技于 2016 年 7 月份成立,总部在北京东城区,并在上海杨浦区设立有子公司——上海杉数网络科技有限公司。创立的同年 8 月,杉数科技便获得真格基金与北极光创投的联合投资,天使轮融资高达 210 万美金,创下 2016 年中国大数据领域天使轮融资额度新高。2017 年 7 月,杉数科技完成 A 轮融资,融资额约 4000 万元,由高达投资(Pagoda Investment)领投,将门创投、联想创投跟投。
公司由五位斯坦福的教授及博士联合创立,汇聚了海内外一流科学家团队,目标是希望利用优秀的人工智能决策技术,让中国每个企业都拥有定制最优化决策的能力,并通过创新地结合一些机器学习和深度学习技术以及运筹优化技术,为企业服务。目前的合作方包括京东、顺丰、德邦、万达、滴滴、永辉等各个行业的巨头企业。
下面是我们公司最初的几个创始人:
杉数科技创立以来也获得了大大小小数十个奖项,比如「国家高新技术企业」、「中关村技术企业」、黑马新零售 Top 50 等。相比于传统的咨询公司,我们公司有一些优势:较强的优化求解技术、从数据到决策的闭环服务能力、顶尖的数据决策科学家团队等等。除此之外,我们还有许多与大企业的合作经验,目前仍与大企业保持深度合作。
我们的业务项目包括为电商、零售等行业提供智能预测、库存优化、仓储自动化、收益管理、智慧选址等一系列的解决方案。
其中,我介绍一下智能选址、仓储管理等杉数科技的成功案例,而在这些项目的实施过程中,我们也可以看到杉数科技需要哪些方面的人才。
案例一:智能选址。在零售行业相关项目中,我们做了门店选址项目。传统的选址一般会根据行业经验粗略地划一片目标区域,派遣人员进行实地走访并最终确认。而在这个项目中,我们颠覆了传统的选址方式,将选址问题变成了一个优化问题,这个问题主要目的是:增加营收,进行品牌营销,以及提高人口覆盖率、便利程度。
营收方面,已知大量门店的流水数据,再结合一定业务经验,我们挖掘了店面营收相关的若干个大特征(大范围内共享的特征,比如人口覆盖、最近地铁站的距离等)和小特征(更精细的特征,包括店面的台阶高度,门前是否有栏杆等),对特征进行量化后,采取了多种预测模型,最终使得每月的营收准确度高达 90% 以上。覆盖率方面,我们将上海的大特征打到各个网格中,以找到全局营收和人口覆盖最优的函数为选址目标,通过整数规划获得最优网格后,再结合业务人员的实地考察,找到符合营收最高的小特征的地址,并确定下来。这个过程中,要求数据分析师对业务有较深理解。
其中,在店面的特征对营收造成影响上,我们将现实问题抽象成一个模型,并采用目标、约束以及机器学习预测相关的方法。这就要求需要大数据分析师有很强的数据搜索、处理能力以及逻辑思维、取数、建模能力等。
案例二:智能仓储管理。这个项目中,我们将整个仓储问题分解为很多子问题,从问题流程的角度将其划分为补货问题、摆放问题、订单波次问题以及拣货路径问题,这四个问题的联合最优解才是补货和拣货成本最低的最优方案。
补货问题是一个经典的仓储问题。我们首先将库存 SKU 按照销量热度分组,对于高销量的产品,我们的策略是单独为其开辟空间,这种产品一般处于促销状态;而低销量的产品的存放量则会比较少,这些数量可以应付一段时间的需求。
摆放问题同样涉及产品销量热度问题,此外还需要考虑产品间的关联度。首先,热销产品要摆放在距离拣货出发点最近的位置(如果出发点与终点分开,则需要离终点最近)。关联度上,一个订单同时出现两款产品的可能性越高,产品的关联度也就越高,拣货员需要尽可能减少拣货距离。另外,由于同一种货物可能出现在不同的货架上,这使得摆放问题的复杂性也更高。
订单波次生成问题,是指一个拣货员在单个拣货路径上可能进行多个拣货任务,多次生成是为了在将同一个路径上的拣货任务生成到一个任务单上。仓储管理中出现的多个订单,会进入订单池,之后订单池中的订单会实现最优的订单合并。这个问题中,我们也会考虑时效性来保证订单波次的可靠性,例如合作态度比较低的订单、订单合并效果一般但是进入订单池很久的订单要求及时打捞。
拣货路径规划问题,不是简单最短路径算法就能够解决的问题,同一个 SKU 可能会摆放在不同货架上,因此只有确定任务单上所有 SKU 的货架位置,才能进一步进行路径规划。上面所说情况比较复杂,但仍属于传统仓储管理的范畴。
此外,我们还有无人仓调度管理方法。相比传统的仓储调度,我们的规模更大,实施性也更好。
由于我们公司的项目往往会分解成很多子项目,因此我们需要的人才是综合能力比较强、思维比较活跃,能迅速深入理解业务的本质,并在数据挖掘、运筹方面有一定想法的人。
另外,我总结了杉数科技的一些大项目所存在的共同点:
第一个是基于项目的预测引擎,这是很多项目的前置工作,我们需要识别、挖掘数据的特征,以防止过拟合,并对突发事件进行比较精准的预测等。而这些数据的维度比较高,往往存在缺失、噪音、原始信息的表达比较困难等常见问题。
第二个是全渠道的预测补货方案,其基于库存管理对当前的补货进行优化,从而提高库存管理的准确度。
第三个是数据驱动的定价问题。我们会基于企业自有数据特有的类型和特点,结合外源数据,根据不同的定价驱动因素,来自动输入定价、利润等关键指标的变动趋势,此外还会结合不同目标灵活地调整定价策略,来解决动态定价、促销定价、大客户定价、捆绑定价等问题。
除此之外,对于多维度、多场景的智能配送物流运输的规划解决方案,在考虑多种业务的约束条件的同时,还要统筹规划所有的资源,这是非常难的。此外,我们还需要在保证服务水平的前提下,尽可能减少运输成本,并提升资源利用率,提高物流响应速度。这个过程中,需要比较强的算法来支持。而我们的车辆调度优化算法能显著提高运输效率,解决装箱问题、资源匹配不合理、城市分区等现实中存在的业务约束问题,从而解放手工调度的人力成本。
在基于业务场景的选址方案方面,我们前面所举的例子商超零售商业选址是基于全局的选址方案中的一种,我们会结合机器学习、深度学习以及运筹规划的模型,去赋予新零售、新餐饮下的企业挖掘商圈和商机的机会,让它们迅速科学地布局店铺。此外我们还积累了很多城市数据等外源数据,这些数据可以用来刻画区域特点和激活商圈活力。
很多制造业也有相对应地解决方案,例如基于业务的工业排程、生产周期排班方案以及用户分析、风险控制、产品设计等等。
除了这些项目产品,我们从中将项目经验沉淀下来,转化为杉数的无形资产,打造杉数智慧链。例如:
我们第一个产品 PonyPlus,也叫小马驾驾,是一个运输优化系统,通过特有的车辆调度优化算法,在考虑时间窗、门店优先级等多种业务约束条件的同时,统筹规划所有资源,确保满足客户的服务要求,提供配送的最优路径、装卸时间窗、司机排班以及箱内装载等等业务的智能优化解决方案,进而减少企业的用车数量、行驶距离和配送时间,从而降低总体运输成本。目前,小马驾驾还支持多种提送模式,涵盖多种车辆的限行约束政策,支持运输途中路线的实时再优化,实用性很广。
第二个是 StockGo,它是一个库存管理系统,也是我们从项目中沉淀下来的一个比较好的产品。考虑全维度的数据,比如流量、转化数据、库存数据、采购数据、订单数据、促销数据等等,基本会考虑到商业场景中的所有落地信息,并采取多种预测算法,比如时间序列分析、机器学习预测、循环神经网络预测等等,能够预测企业真实的动态销量,从而针对不同的流量渠道和复杂的业务场景来提出智能、精准的库存决策建议。
此外,我们还有一些实时定价系统。
这是我们公司之前合作过以及现在依旧保持合作的大型企业。创业两年以来,杉数已积累了来自多个国内行业的标杆企业背书。
下面是公司对员工提供的福利:
下面是我们公司正在招聘的一些岗位:
其中算法工程师分为运筹优化和机器学习两个方向,今天我们分享的涉及大数据层面的基本上属于机器学习这个方向。另外一些开发岗位,我们也有一些人才需求的缺口。
大家可以通过我们的公众号了解更多相关信息,另外,通过邮箱 job@shanshu.ai 可投递简历。
大家有问题也可以整理好发到我的邮箱 kezhen@shanshu.ai,我都会为大家解答。
赵珂珍老师分享结束后还对同学们提出的问题进行了回答,大家可以移步社区(http://ai.yanxishe.com/page/questionDetail/9077)进行详细了解。
以上就是本期嘉宾的全部分享内容。更多公开课视频请到雷锋网 AI 研习社社区观看。关注微信公众号:AI 研习社(okweiwu),可获取最新公开课直播时间预告。
1. 请问招应届生吗?
招应届生。虽然我们的招聘要求上写着要求 2 年以上工作经验,但我们也鼓励硕士、博士应届生加入,我们这边也有很多员工本科阶段过来实习,最后留在公司。我们实习岗位,比正式员工要求也低一些。基于我的求职经验,我建议大家尝试找一些实习,因为实习能让你了解到这个行业大概做什么内容,并且有机会接触到工业界的大数据,这些都会对正式求职加分不少。
2. 老师在斯坦福读的什么专业?
我读的是环境流体力学。
3. 请问工业界积存的原始数据来源收集方法。
这个要结合工业界的具体场景来说,目前一些数据部分来自于爬虫,所以公司也会有一个跟爬虫相关的岗位。
4. 数据分析实习职位只会 SQL 和 Python 能申请吗,还需要其他的技能吗?我是纯理工生,老师讲的业务不太懂。
如果你会 SQL 和 Python,有很多加分,但也要求较强的 Excel 技能,因为在工作中需要将数据调到 Excel 中进行数据维度的处理。另外,业务方面的知识,对现在掌握多少没有太大要求,但是你在具体工业场景中要有对业务的理解和学习能力,如果有必要的话,可以到业务一线去实习一段时间。
现在很多大公司都有这类岗位的培训机制。大家掌握一些技能就可以大胆去找工作,并在工作中不断进行业务层面的积累和沉淀。
5. 数据怎么来的?
很多工业数据都是自己建立数据库,再进行不断维护更新。现在之所以说工业界处于扩宽的阶段,就是因为很多数据不是那么完备,在维护上还有很多缺口,处理的任务会非常繁重。
而互联网上的数据,需要使用数据搜索能力,使用爬虫技术来获得外部数据源。大型互联网公司相关岗位的工作,会基于内部的大数据平台取数,并基于 spark 这样的平台存储数据,按照具体场景取数使用。
6.CS229 是啥?
CS229 是斯坦福的一门机器学习课程,非常有名,其涵盖了传统机器学习的大多数内容。大家可以搜索一下课程课号,网上有详细的介绍,公开学习平台都有这些课程,但可能有一些删减,大家可以参考一下我提供的资料(http://sendanywhe.re/900QEJJZ)。