成果
阅读量 620

腌do鲜 第二锅|鲜肉说:交大男生都上过哪些网站,我们知道!

成果简介:

“腌do鲜”是什么?

腌笃鲜,一道江南的家常美食。将咸肉、鲜肉和春笋,先用烈火猛攻,再加小火慢炖,你中有我,我中有你,荤素咸鲜的冲突熬成了一锅活色生香的和谐。“互联网+”赋予了传统美食全新的味道。70后咸肉+80后春笋+90后小鲜肉,三款食材,跨界混搭,经过120分钟的dododo,知行合一,兼容众包,熬出一锅不知道是什么鬼的“腌do鲜”!

 

123法则

每人10分钟

20页PPT

30秒自动翻页

 

本锅鲜肉:盈虚有数组合(岑凯、李昊、田原)

– 中科院数据三剑客:中科院上海分院三名研究生

– 交大举办的校园开放数据大赛冠军


我叫田原,两年前毕业于哈尔滨工业大学计算机科学与技术学院,现在就读于中科院计算生物学研究所,我5月份参加这个比赛的时候并没有想的太多,当时的想法就是在科研之余感觉有一点时间,正好李昊找我,说有一个比赛可以参加,他需要程序员组队。比赛过程中,发现大家做的太丧心病狂了,当然我们也有点丧心病狂,另外发现背后宏图很大,包括第一次了解到了上海市的智慧校园计划。

 

这次比赛其实说简单也简单,说复杂也复杂,简单是因为根本没有任何的题目,它给了所有人两点数据校园WIFI数据和做隐私化处理的校园一卡通数据,没有指定方向,你可以挖任何东西。但是复杂就在于,因为没有“命题”没有“需求”,我们需要竞争的不仅仅是技术,还有想法和创造力。

我们主要选取WIFI的数据,包含了每一个人每一天在每个时间上什么网站,上了多长时间。交大将这批数据的所有学号处理之后,我们惊讶地发现交大没有任何一个男生上过不健康网站。但这是不可能的啊!

 

我们第一个结果就是上海交大一天之中的WIFI变化图,通过观察食堂的原点颜色和大小变化,就会发现食堂在两个就餐点之间有一个低谷。这个图简单直观,发现的意义就要见仁见智了。比如说:校长可能发现到这个食堂吃饭的人不是很多,因此可以把更多的资金投入到扩大另外一个食堂上。

这张图有另外两个作用:首先,目前交大的WIFI覆盖率还不够大,如果WIFI可以覆盖到每个教室,每个楼层,大家选自习室的时候会容易很多。另外一个作用就是,一些特殊场合比如说诺贝尔获得者来访交大,某些教室会非常拥挤,可能会发生踩踏事故,这样的热力图可以进行有效的预防。

 

第二个图的圆盘上的每一个小牙代表了一个小时,顺时针是零点,一点,两点……一个圆盘代表了一天不同地点的WIFI使用情况。我们提取了其中的四个地点,可以发现教学楼和食堂是差不多的,到了22点的时候就没有太多人上网了。但是宿舍到零点左右还有人上网,这在大学中是比较正常的。

 

下面我们把所有人处理成平均值,绘制成这条灰色的线,可以看出一个比较正常的作息值。

我们绘制了一个女生一天中的WIFI流量图,就是图中的粉色曲线。从中可以看出她早上八点多起床,下午一点有个午睡,晚上十点钟睡觉,这个女生作息很好。

 

后来我又找了和我的作息很像的人,将他的作息绘制成蓝色曲线。这个男生早上十点左右起床,晚上一直到两点左右。通过这样的比较,我们就可以精确到每一个个体的生活起居,而不仅仅是给校方提出宽泛的建议。

 

下面我们想分析周末用网与平时有什么差别。

如果我们直接看一年之中的每天WIFI的柱状图,看不出任何的差别。但是,从第二个图里,我们可以发现周末人少了很多。既然总量没有变化,人数少了很多,得到的结论就是周末在校人的WIFI用量是大大增加的。周末一般会是什么人在校?肯定是单身的没有恋爱的,也不爱出去玩的宅男宅女了。

 

下面,我们想看一下不同软件一周之中的使用情况变化。我们发现有的软件在周末被用的更多,比如迅雷。美团网很有意思,周一到周四都用的不多,周六周天也不多,唯独周五增多。

我们的结论就是:同学们到了周五就开始用美团定电影票、景点票。周末他们就去消费,并且他们消费不在学校内,校方WIFI的数据就采集不到了。另外我们发现与学习有关的软件数据基本上都下降了,说明周末根本就不适合学习。

 

下面是一个很有意思的图,展示的是大一到博五所有年级的WIFI用量图。

我们首先考虑了它的中位数,因为这个数据不是正态的,所以用中位数更适合反映数据的差异。伴随着中位数的下降,我们却发现均值在上升。然后我们计算了一下基尼系数,它表现的是一组数据分布不均匀的程度。我们可以发现从大学到博五基尼系数在不断的变高。所以伴随年龄的增长,学历的增高,收入和时间差异会越来越大。

 

下面的图是男女生之间使用WIFI访问类别的差异。

板块的区域越大,代表它的流量占比越大。板块越蓝代表男生访问越多,板块越红代表女生访问越多。从这个图我们可以看出数码科技、游戏、新闻等板块更受男生关注,而网购、音乐、旅游等板块更受女生青睐。

 

然后我们使用了同样的Wilcox.test检测了男女双方使用的软件差异。

从954个软件中,我们展示了男女生有显著差异的几十款软件。几乎所有的网购软件和网站都集中在女生部分,除了男生更喜欢访问京东。有道和沪江这两个学习相关的软件同样集中在女生的图中,男生的图片则云集了各种游戏。

 

下一张图是我们重点研究不同年级的男女学生使用特定软件的情况。

在这里我们用QQ空间和人人网的使用流量和人数说明。如果单纯看QQ空间和人人网的流量变化,我们可能会觉得随着时间变化,大家放弃了人人网而转向了QQ空间,因为QQ空间在博士阶段流量更高。但我们观察人数变化发现,伴随着年龄增长,QQ空间和人人网使用人数都在下降,与流量不符合。

我们最后发现真正的原因是,那些使用QQ空间的博士,在他们读大学的时候,还没有微信这样的工具存在,所以QQ空间就是他们用来联络旧友的工具,用户黏度较大。而大一大二的同学之所以QQ空间访问流量少,是因为他们的好友基本都在微信上。因此按照年级顺序,QQ空间虽然访问人数减少,但访问流量却增加。然而人人网访问得人数和流量都在下降,说明大家毕业以后,就停止使用人人网。

 

下面我们做了一个很有意思的研究,我们想通过数据找一下有没有人特别宅,有没有人特别爱玩。首先我们通过费雪精确检验,找出了两批在周末用网有明显差别的人,其中一批是周末和平时没有太多差别的,另一批是周末WIFI用量显著减少的。

我们从中筛选出周末即使在校,使用量也不高的同学,标记为“游侠党”。另外找出周末比平时反而增多的同学,标记为“深度宅”。我们发现,游侠党和深度宅都是男生居多,而且宅男比率明显多于宅女。另外通过比较两批人使用的软件流量,发现游侠党喜欢旅游、运动等软件,而深度宅们喜欢网购、视频。

 

下面我们分析了某一些特殊软件在交大各年龄的使用差异,比如相亲用的世纪佳缘。

我们本以为女博士会比较焦虑,但是数据显示她们很淡定。但是在博士的高年级,deadline迫近的时候,女博士们就开始着急了。

 

汽车之家的曲线很奇怪,研一和博一有两个高峰,我本人现在是研二,我的研一师弟问我有什么好车推荐一下,我当时就惊呆了,我说是不是你们考上研究生博士生,觉得应该买辆车鼓励一下自己?

 

安居客的情况基本上和预想是一样的,毕业的时候,无论是男女都开始关注,学期中与世纪佳缘的情况一致,女生不如男生那么着急,买房子好像确实是男生的问题。

 

最后是应届招聘网的年级曲线。

这个和我们的预期相符,因为在博士阶段我们没有看到招聘的一个高峰出现,这可能意味着读博真的是有助于解决就业的。当然,也有可能是博士的就业并不依赖这样的网站,有其他的各种渠道。

 

下面我们做了一个关联分析,相信大家都听过这样尿布和啤酒的营销案例,我用同样的方法做出了所有软件之间的关联图谱。

现在很多人打广告在所有平台上推销,其实是没有必要的。看一下关联度最高的大众平台,然后再推销上去,效果就会好很多。比如说与政策相关的软件,在凤凰网推销可能比在网易好一点。

此外,我们使用了两种方法构建了两套推荐系统,并且比较了他们之间的差别。ItemCF是经典的协同过滤算法,而LFM是隐语义模型算法,前者基于统计,后者基于迭代收敛训练。

经过我们的比较,在目前的数据情况下,ItemCF算法的准确度是更高一些的,但是我们写的LFM模型还比较粗糙,有很多可以调整的参数,如果数据量有变动,更好的准备成参数和训练数据,假以时日,我觉得LFM隐语义模型会更适合用来做软件的推荐。

 

最后我们做了一个设想。前面的分析一部分涉及到学校的整体构架,也有一部分是针对个人进行分析。我们希望做的是每个人都可以通过手机访问到的、并且能够切实改善自己生活的一个软件。通过登录,每一位同学都可以看到自己的行为,从而规划调整自己的作息安排。比如我们设计的24小时WIFI用量图,用灰色曲线代表标准的作息,蓝色曲线代表使用者自己的作息,那么这位同学可以清楚他自己是不是一个作息不规律的人。

其他的功能,比如通过热力图,可以看出哪里比较容易选到教室。

此外,还可以用来推荐软件,预定食堂餐点等……

相信大家可以看出,同样一批数据,不同数据分析师的分析结果大相径庭。此外,鉴于数据一般是不同的,而且用户需要、分析目的也是不同的,做一个完备的分析系统不大现实。可以说,想要挖掘出深度的问题,分析者自身的灵感非常重要,一个分析模型可能只能用来解决一个重要问题。

(以上内容由复旦大学数字与移动治理实验室根据现场录音整理发布,未经授权请勿转载!)