成果
阅读量 950

腌do鲜 第六锅|鲜肉说:SODA冠军来袭——一块颜值高、算法强、口才好的小鲜肉长什么样?

成果简介:

鲜肉说 | 第六锅 | 叶超

 

-叶超:数据分析与应用达人,上海交通大学电子信息与电气工程学院复杂网络与控制实验室学生,曾任上海交大辩论队队长,拿过全国冠军。

-上海市开放数据创新应用大赛(SODA)冠军队CNC成员。团队其他成员名单:邓闯、施舒阳、张亚飞、祁新宇。

 



基于动态网络与社会激励的新能源汽车租赁系统

-租车和新能源汽车市场的联接,就是我们所做的题目

-有节点、个体和联系就可以构成一张网络

-让网络结构依偎在物理学或者社会学当中,将两者进行有机的、完整的结合

-我们的定位不是一个产品,而是联接政府运营调度和联系每个人的手中的工具

-共享和拼车会导致停车场的流动频率提升六倍,如果纽约市的出租车全部进行共享和拼车,行驶里程和行驶时间都会大幅度下降

 

叶超:大家好,我来自上海交通大学的CNC团队。作为鲜肉团队,我们是一块五花肉,因为我最瘦,他们把瘦肉抠出来,让我跟大家做一个介绍。我们的比赛内容是基于动态网络和社会激励的新能源汽车租赁系统。我将从选题背景、核心理念、数据分析和系统搭建四个方面来为大家介绍,希望能够让大家具体的了解到,刚刚魏老师介绍的很多案例在真正运行中是怎么样的。

 


我们先来看选题的背景,选题的时候,其实我们非常纠结,因为面对一个TB的数据,我们在很多时候往往不知如何下手,于是我们用了一个简单的方法——百度,我们当时百度了一个上海最难解决的交通问题,它是什么我们就解决什么。然后我们发现新能源汽车租赁,对满足上海市政府、包括国家很多方面的政策需求,如环保需求、出行需求、政策推广、智慧城市方面的需求,都起着举足轻重的作用。

 


那我们再回归自身来看,我们来想一想身边常用的一些案例,比如说滴滴,神舟,UBER等等,我们常用的两个功能,一个是打车,一个是拼车和合租,这说明在我们的日常生活中,移动端的订车是一个非常重要的作用,同时我们在租车、平摊路费包括在社交满足方面,都具有非常强烈的诉求。通过一定的数据调查,我们可以看出,这是一个非常宝贵的市场,而租车和新能源汽车市场的联接,就是我们所做的题目。

 


但是在实际情况当中,主要有两点问题,第一是在布局层面上,数量非常少且偏僻,大部分主要集中在嘉定地区;第二是在使用情况上,使用的站点冷热不均,就是说有的站点的车永远都挤不到,而有一些站点的车很冷门,放在那里没有人去租。所以面对这两个主要的问题,我们一定要找到相对应的解决方案,所以如图所示,有什么墙壁的痛点,我们就要把这个墙壁打破。


下面谈一下我们的核心理念,首先介绍一下我们实验室主要做的科研方向是研究与网络科学相关的东西。什么叫网络科学?就是有节点、个体和联系就可以构成一张网络。在大数据时代,这样的东西构成一个整体,就会成为一个非常复杂的结构,那么让这个结构依偎在物理学或者社会学当中,将两者进行有机的完整的结合,就是我们现在做的事情。


我们接到这个赛题之后我们也有同样的分析思路。具体来看,我们首先运用物理学的方式,大家都会理解,理工科对于数字、数学、算法等各个方面的处理是非常好的,我们主要将它运用在选址、布局和科学的应用规划上面,换句话说,我们要提供一个关于选址算法的考虑和一个新能源汽车租赁方面的考虑。在社会学中,我们主要讲的是政府在对社会资源进行调度的时候,怎么样的方法更加有效。





这是一个数据分析的展示,在这张图上,大家可以看到有不同的节点进行分散,这是我们构建的上海市市民出行意愿的网络图。就是说,如果一个人想从A地前往B地,我们就认为A节点和B节点存在一个连边。在不同的时候,我们的意愿存在变化,而对整个上海人口而言,就是网络形状的变化。所以这一张可视化图就能展现出上海所有的地点。

 

我们上海借鉴了网络科学界的前辈、匈牙利科学家巴拉巴斯在信息人类动力学上的一个算法,将上海各个地区、主要地区画为各个区域点,并把这些区域点周围的部分都视为一个节点,比如说人民广场附近到徐家汇附近,我们都认为是人民广场到徐家汇,构建了这么一个关于上海市具体地标的出行意愿网络,而其中我们将一天通过一定的聚类方法分为不同的时刻来进行分析。

 


考虑完网络搭建之后,我们来看一下算法。我们想一下,如果一个地方要建一个新能源汽车租赁点,它需要满足哪些要求?我们认为主要有两个,第一个,从宏观上讲,一定是大家非常乐意去或者非常乐意离开的地方;第二点,它一定是可以建立新能源汽车租赁点的地方,比如说希尔顿酒店就是不可能建立一个租赁点的。

 


那综合考虑来看,我们将算法分为两个部分,第一个是用来分析上海市民出行意愿中每一个区域的重要性,学计算机的同学对这个算法都应该非常熟悉,我们常用的谷歌搜索,就是用的这个算法,它的排序说明一个地方的重要性,不仅与它自身的重要性有关,而且与它周围区域的重要性也有关系,所以必须通过对网络结构的整体分析,我们才可以找到上海市民真正的出行意愿当中,最科学的排序是什么。第二个是一个选址评价算法,这个算法可以容纳各种各样的指标,比如说这个地方的地价、天气、大小,但是受数据所限,我们主要考虑两点,第一是有多少停车场,第二个是停车场有多少车位,第三个,就是一些附加的条件,比如说到区域中心点的距离,进行一定的权重调整。

 


通过这样的调整,我们就可以给出一个现在通用的新能源汽车改造的方法,这是一个改造的结果,图中的蓝色点非常密集,在我们拿到的数据当中,凡是可供改造的土地资源都可以标记在这一点。那黄色的圈则是我们的区域中心,等于半径为一千米的选址区域,好像我们小时候玩的街头套圈游戏,凡是被圈套中的点,我们认为都是有潜力或者说有可能成为新能源汽车租赁点的使用材料。

 




考虑了这个节点的位置之后,每一个点的容量大小也是要考虑的,这就是我们工程当中有名的思想,根据这个表我们可以看到选址规模前二十的排名,即什么地方建的大、什么地方建的小,通过分时网络,在不同时刻的出度——想离开的人、和入度——想进入的人中选取最大值,作为一个相对比例。我们给了一个相对比例的结果,因为我们并没有数据的调查可以证明多少意愿对应有多少车。

 



下面我们考虑一个实际的算法,就是我们的算法究竟在现实生活当中是不是可行,我们看一个嘉定区的例子,这是嘉定区现有的一个新能源布局,我们通过将它的数据进行整理,画了这样一张图,绿色点为现有租赁点,蓝色圈表示租赁点稀疏区域,就是说这个区域里面,绿色的点越少新能源汽车租赁点越少;红色的圈内绿色的点多,所以用红圈表示,这个分别表示站点多和站点少的区域。

 



通过我们的算法,你会发现,南翔地区和嘉定新城,在优先建造新能源汽车租赁点的排名非常靠前,可是其中占有的车非常少;而嘉定西北地区非常热,这一点情况,是不是真的对我们嘉定区新能源汽车租赁点使用不均的现实状况,我们认为,是有可进一步探讨的空间。所以我们通过这个初步的矫正,认为我们的算法是有效的。

 



这是关于一定的运营方法。我们将一天分为了早高峰、晚高峰和两次调度期,其中早高峰的车辆储备是根据前一天的第二次调度时间进行准备;第一个调度时间则是为晚高峰进行准备。我们会发现,根据我们的市民出行意愿网络,甚至如果真正这个项目落地之后达到的新能源汽车运营的网络,我们会将他早高峰的车辆——会使用的高峰密集,和车辆调度——你需要调度多少车辆,形成一个有效的数据结构,来进行认知,进行精确匹配。

 


那在每一次调度的时间,我们会运用社会激励的方法,这种方法是麻省理工学院人类媒体实验室的彭特兰教授提出的,他做过很多的实验证明,这是一个非常高效、能够促进大家自发优化社会行为的一个激励方式,主要利用的原理就是我们讲的同伴压力,他通过对你的同伴进行奖励,从而达到社会行为的优化。

 


下面主要是我们的一个网站的原型,简单为大家介绍一下。只要通过简单的点选操作,再加上选择一定的日期,确定一定的出发点、起始点、乘车人数,一个人是否有驾照、驾车资质等等,还有你拼车的意愿,我们可以完成一次简单的租车,而如何完成这种租车的行为,我们不再过多的介绍,因为它跟现在看到的滴滴之类的都长得很像。

 


我们的重点是拼车推荐和好友推荐。我们这个网站的定位不是一个产品,而是联接政府运营调度和联系每个人的手中的工具,我们的定位就是服从调度方案的工具,所以必须拿到各位的社交关系和拼车关系,而在拼车推荐系统当中,我们写成了专业的学术文章进行投稿,我们会记录一个人长期出行的模式,通过固定通勤的匹配,一方面挖掘社会关系,另一方面甚至可以产生社交关系,在得到这些社交关系之后,我们可以通过发放优惠券的方式,来具体实施我们的社会激励。具体来说,如果从A地向B地需要有车辆调度,那么会发放A地到B地的有效优惠券,并且向这些使用者的好友再次发放优惠券。这样的话,通过同伴压力,会将这种优化行为不停的扩散出去,而且关于这个东西在网络上结构的研究,我也将写成专业学术文章进行投稿,所以我们是一个非常学理性的学生团队,谢谢各位。

 

 

互动问答摘录

 

「 吃货提问 」数据处理的问题我可能不是很懂,但是比如说我想做一个充电桩,比如说在静安区,我肯定要考虑交通拥堵的问题,就算我的需求量很大,用户量很大,但如果这个决策会增大交通拥堵的话,我想作为这种项目,可能会有一些不太好的感觉。所以我想问一下,在做这个项目的时候,有没有考虑这种数据交叉的问题?就是说我可能要解决的是这样一个问题,但是如果你解决好了的话,我可能会增大另外一个问题,有没有这样多方面的考虑?

「 鲜肉放招 」 其实我们是考虑过的,讲一个事实,就在我们比赛准备一半的时候,你刚刚讲的静安区,已经建了租赁点了,这是为什么呢?因为他们汽车的流转,与不做新能源汽车是一样的,所以我们更多强调的是共享和拼车,共享和拼车会导致停车场的流动频率提升六倍,根据我们之前看到paper,如果纽约市的出租车全部进行共享和拼车,那么整个行驶历程和行驶时间都会大幅度下降,这一点我们已经考虑到了。

「 吃货提问 」因为我是来自政府部门的,也主要在做数据的部分,所以我很感兴趣的是我们的小鲜肉在参加SODA的时候是怎么看我们政府的一些数据?比如说可能是比较专业的,也有可能是比较滞后的。包括现在百度、高德也会发布一些数据,在我们看来有些是不够专业的,但市民往往比较相信,也包括刚刚看到百度的一些有关春节回乡的信息,大家都很感兴趣。我想请你谈一谈,你对我们政府和互联网的数据有什么评价?或者说你认为有什么区别?

「 鲜肉放招 」我们团队在使用的时候,对政府的数据还是比较满意的,官方数据是比较权威的。但有一点不是特别满意,具体来说是没有任何具体的信息,比如说你们发布的道路拥堵指数的信息,政府写的是徐家汇,但是我完全不知道是徐家汇的哪里,所以在所有需要涉及各种参数的时候,都是没有具体信息。徐家汇的哪里?精确到哪里?这个是没有的。

「 吃货补充 」我再补充一下,这些具体信息我们内部是有的,而且我们所有的数据都是建立在具体信息上面的,可能是这次大赛没有完全开放,我们也是出于一些安全的考虑,同时我们也期望社会公众可以对我们政府的数据提出一些更具体的要求,谢谢!

 

88

1188