整个人类似乎发展地很好:互联网经济、奥林匹克运动会、火箭发射、太空漫游......
然而这样繁荣的图景并不是人类的全部,世界上还依然充满了贫困和战乱。就像这个在叙利亚战乱刚刚遭遇空袭的5岁小男孩Omran Daqneesh,出人意料地安静、麻木和茫然,不哭不闹地擦掉自己脸上的血,而谁又知道他经历了怎样的残酷!
人们乐于分享幸福与富裕,而战乱和贫困地区人的日常和生活水平,我们很难得知。尽管有那么多国际机构声称要去要去帮助,去改变,然而由于无法了解基本信息,很难对症下药。
长久以来,研究人员会有一个评估某一地区的发展程度的指标:夜晚灯光的亮度和密度。但是这个方法有个局限,那就是它只能看到亮着的地区,而对于那些夜晚的黑暗之地,我们只能判断它们大致是贫困的,而究竟贫困到什么程度,就不得而知。
“非洲最穷的地方,是我们最关心的。但在晚上,那里几乎全部都是黑暗之地。”斯坦福大学的电子工程与计算机科学博士Neal Jean说道。
两个村庄,一个靠近湖边,一个靠近森林,在灯光分布图里都可能是全暗的,但是它们临近不同的自然资源,富裕程度不一样。
而且,一般来说,了解一个地区的经济水平,需要进行调研,而这一方法在战乱和冲突地区是无法展开的,而恰巧这些地区就是世上最穷之地。
国际组织和当地政府决策者最在乎这些数据。比如,一个公益性国际组织要对不发达地区进行资金援助,资金是有限的,他们就需要确切知道哪些地区的需求最恳切,所谓“把钱花在刀刃上”。
对于政策制定者而言,了解本国个地区的经济发展状况是一项必须进行的工作,因为这样才能制定出针对性的发展方案。但事实是什么呢?世界银行数据显示,在2000-20010年的十年时间里,59个非洲国家中,有39个国家只进行了不到2次的贫困水平调查。
斯坦福大学的这拨以Jean为领导的研究人员,他们采取的是现在很流行的卷积神经网络的机器学习算法,所用的数据分白天的和晚上的,白天的数据来自卫星拍摄的地球高清图像,夜晚的数据就是灯光分布图。
整个的算法分两步。第一步叫做“迁移学习”(Transfer Learning),研究人员把五个国家的白天和夜晚的数据“喂给"系统,包括尼日利亚、坦桑尼亚、乌干达、马拉维、卢旺达这五个非洲国家。计算机需要学习卫星照片上的物体与夜晚灯光亮度的关系。
比如系统可以学习到:一片湖区和一片森林,他们在晚上应当是黑暗的,这与该地区是否贫困并无关联;但是,一个房屋聚集的村庄,理应夜晚亮度比较高,如果这片区域是黑暗的,那么极有可能就是贫困地区。
通过这样的学习,系统将贫困地区的数据都提取出来。接下来,就进行第二步,叫做“岭回归模型”(Ridge Regression Model)。研究人员将经过真实调查的数据指标再次“喂给”系统,比如世界银行生活水平测量研究等。
这次,系统会把未经过调查统计的地区的大致贫困程度预测出来。比如,系统已经知道一个10户房屋的村庄A的夜晚大致灯光亮度,而调查报告里有一个与A村地理位置相近,而且灯光亮度相似的10户村庄B的信息,报告显示B村的家庭收入水平是1.9美元/天。那么系统通过交叉对比,就可以判断出A村与B村有着相似的经济水平。
这个分两步走的算法系统比单一的依靠灯光预测的方法更为准确,在具体的实验里,其准确率达到81%-99%。
另外,由于该系统使用的数据都是来自公共机构,比如卫星图像和灯光分布图就是来自NASA,而调查报告来自于美国政府和国际组织,所以整个系统的花费并不昂贵,可供有需要的公众和机构免费使用。
Jean表示,系统目前数据只是来自非洲的五个国家,下一步的工作就是用其他国家的数据来训练,以绘制出全球贫困地图,帮助政府和机构更好地减轻世界贫困。
Via Spectrum
延伸阅读: