成果
阅读量 830

腌do鲜 第四锅|鲜肉说:听说过机器人写新闻,你听说过众包写文章吗?

成果简介:

春笋说 | 第四锅 | 胡辟砾

 

-端传媒「Initium Media」任数据科学家「Data Scientist」,专攻「数据新闻」

-北漂、深漂、港漂

-在百度做过「大数据」,在香港中文大学捣腾过「去中心化社交网络」,在端传媒组建 Initium Lab

-专业路过Open Source Hong KongOpen Data Hong Kong,联合发起过Open Innovation LabCODE4HK等社区




开放数据

-公民创新:公民可以利用技术去改进一些社会问题,而不是都靠政府来解决‍

-开放源码、开放数据、开放文化

-用众包的方式写文章,历时3周、8位贡献者、1万字

-究竟我们要不要开放?开放有哪些问题?

 

 

大家好!非常高兴能够来到腌do鲜来给大家分享!我叫胡辟砾,是今天的鲜肉。我是InitiumLab的发起者。我们是端传媒旗下的一个实验室,是随着媒体创新的这种组织。我们会关注数据新闻,或者新闻的一些新技术。所以说,这个媒体创新,也不仅仅是做新闻的,而且是有很多互联网的东西在里面。

 

那么今天我会先跟大家介绍一下我个人的经历,然后从这些经历中呢,大家会看到一些开放的元素。最后,我会介绍我们怎么把这些开放的元素用在这个Initium Lab中。

 

之前我在百度做过一年的大数据,后来就去了中大读研,研究的是社交网络。再后面就发起了这三个开放社区。在今年加入端传媒之后,我发现,现在媒体都在改革、在创新,我们要注入一些新的活力,所以就成立了这个Initium Lab,去做这个当地创新的推动。

 

牛刀初试 / CODE4HK

 

所以,首先我会从这个CODE4HK(为香港编程)讲起。相信之前大家已经听过这个概念,叫公民创新(Civic Hacking)。前面两位嘉宾也分享过一些类似的案例。简单来说是这样的,就是我们发现生活中有很多的问题,这些问题平常是靠我们的官员、政府去解决。但实际上,人们发现我们可以利用手上的科技做一些简单的改进就可以解决问题。所以CODE4这个系列,就形成了一个全球的网络。大家看它有很多据点。包括子涵老师的g0vCode for Tomorrow也在这边,那CODE4HK也在下面。

我们的一些作品会关注到各方面,这是一个香港立法会议员的分析。举个简单的例子,如果我们能够得到所有的立法会议员的投票记录,它是一种开放数据的形式,我们就可以把这个巨大的投票表格做一个简单的降维处理。那么,我们就能把这些人,根据这个值从左到右排序,这个时候你就可以看到他的政治倾向是左还是右。这是客观的,不同于我们以往通过口头的这样一种argument(辩论)去说,这个人他好像比较左、比较右,这样处理之后就会很清楚。

 

 

经过这样一种处理之后,我们发现,我们提取了一种叫做公民创新的范式。首先我们需要有开发者和设计师,把这个产品做出来,像我这次做的数据分析。第二就是需要有记者参与,因为前一步做的图表会比较复杂,一般人都不太懂,而记者就可以把它转化成一种带有故事性的一般人可以读懂的模式。

 

最后就是公众参与,我们会发现在这个过程当中,其实公众会提供很多的反馈。只有在那种开放的情况下,他们才会指出一些问题。有一些数据上的问题,我们甚至还会反馈给政府,告诉你,这个数据错了,那他们就会去改进。

 

 

所以CODE4HK其实是一个面非常广的组织,我们唯一的核心就是利用科技去改进社会的一些问题。

 

我们的选题是非常多方多面的,比如说我们有关注政府财政预算,关注人口普查的数据。比如去年在新界东北做这个开发的时候,我们也会做这样一些页面,帮大家了解这个故事的全貌,从头到尾的一些信息。其他时候我们可能就会跟NGO合作,帮助他们比如说做一些网站或者信息化他们整个的workflow(工作流)。

 

再接再厉/Open Innovation LabOIL


那么在CODE4HK之后,就是另外一个组织,叫做Open Innovation LabOIL)。为什么做这个呢?其实我发现香港方面有这么多很好的社区,但是这些中大的学生不是很积极的去。我就在想可能是因为中大太偏远了,因为我们在郊区嘛。还有就是可能是这些学生年纪比较小,不熟悉这个思路。所以我想那为什么不在学校里去做一个,就形成了这个叫所谓的 Open Innovation Lab

 

我们的关键词有三个:开放源码、开放数据和开放文化。开放源码和开放数据我想大家已经听过很多了,天天都在听到。开放文化我可以简单举一个例子,比如说有一门语言叫Lojban,它是一个数学家和程序员发明的语言。它的这个词库、词根的更新方式是一种社区的方式。一旦你觉得有什么词你想造,你就造,造了你就去用,一旦有社区成员来follow你,那么这个词就可以成为一种事实标准,所以他的这个运作模式是非常开放社区化的。

 

那它的全球用户有多少我们不知道,我们只知道在香港好像有两名。所以当时我们就请到了这两名用户过来给我们介绍这门语言是怎么回事。然后我们去学、去想、去写给他们讲到一些他们的背景。  

大家可以看到这个Open Innovation Lab它的主题是非常非常多的。下图左上方是一个词云。比如说,有一些包含这种web开发,app开发,游戏开发之类的,甚至还包括一些还有非常硬核的技术,像SDR就是。甚至还有像UnblockYouku,大家可以看到,其实这个插件在海外应用的是很多的。我们有请到它背后的制作者,这些人平时都是在社区中匿名的,你从来不会见到这些人。但是我们都能请到我们的活动来,与大家分享这些东西。

 

 

我们一周一个活动,并且这些讲者是各种不同的背景的,怎么能保持这样的频率和质量?其实很简单,我们这个议题都是开放的。有这样一张表,所有人都可以去读或者写,包括在座的各位,一旦你有什么东西想分享就可以写上去,一旦你有什么东西想听你就写上去,然后管理员curator就会去帮助大家组织这些活动。当社区中没有人的时候,管理员curator自己就会上去讲,这样就可以让这个社区保持活跃。

 

港漂情怀 / 港漂IT


然后我们又发现一个问题,作为一个做IT的港漂,我就在想,有这么多社区,它们大部分是英文的或者粤语的。对于这些新港漂,他们就非常不熟悉这种情况。到底怎么才能让他们融入这边呢,然后我想到就做一个港漂IT圈吧。

 

港漂IT圈很简单,我们就做两件事情。第一件事情是推送这些活动的信息,我们会精选很多优质的活动,并通过公众号介绍给他们,这样他们就知道哪里可以去,哪里比较好玩,然后我们有的时候就带他们去玩。

 

在玩之中我们会用这种众包的模式去写文章。这样即使你没有跟我们去玩,你也能知道这个活动发生了什么,也许下次你就想去玩了。比如Beyond SmartCity。这就是当时MITInternet Web给我做的报道,那边是一个众包的截图,然后这个是google docs的历史记录。

 


大家可以看到非常的疯狂,有这么多的人在这边进行修改,我们就印了一部分,相互的review (检查),然后去做crosschecking(互相比对)的这种工作,最终就打造出了这样一篇文章。所以大家可以看到,通过这种众包的模式,你就可以非常轻松。当然也不是太轻松,因为总共历时了三周,我们才完成了这篇文章。但最后就输出了这样一个东西,其实总共三周,每天只花了一点点时间。这是微信的整个截图:

 

你把这一点放大,它就变成了这样,再把这一点放大,它又变成这样。所以这个东西真的是很长。之后我们发现,其实用这种开源的方式写报道很好玩,就一人出一点力,这样一篇文章就完成了。而且大家可以得到非常丰富的信息,就比以往一个记者专门写这样的文章要来的轻松。

 

Present / Initium Lab

 

大家可以看到我前面介绍了三个社区,然后在今年的6月份,我加入端传媒。我发现我们要做一些感性媒体,就是这种技术的事情,所以后来做了这个Initium Lab。那我们拍下来几张Push the limit of
Journalism with Technology
。说人话的话就是说做点好玩的事情,然后希望这些事情也比较有用。那我们也会关注开放源码,开放数据,开放接口和开放社区,我会跟大家从头展示一些样例以及我们怎么利用一些开放的元素来做事情。

 

开放源码很简单,比如说这边有些开放的技术,我就不去解释它们是什么东西啦。然后我们会展现这种小游戏,比如说废青,废青这个概念在香港非常流行,有点像大陆的屌丝,但是他又有点不一样,他是带有些社会或政治的含义的,所以我们为了让大家理解什么叫废青,就做了测试,就很容易地搜集了几万个值。那怎么让这个更快呢,就用了开源技术,因为用开源技术,我们可以从开发到部署做一个快速的迭代,然后我们不重造轮子,我们可以用别人已经有的结果。

然后就是开放数据,大家前面已经看到我在开头做过这个立法会的分析和人口普查数据的分析。但是当时做的是非常粗糙的,就只是做一个很简单的应用。但是这个东西是面向普通民众的,他们不太好接受,所以后来我们就进行了深度打磨。再比如说这个立法会的需求,我们做了这个图,做了这个动画,这样一放他就能够看懂。

 

然后在人口普查数据的基础上我们做了这个月薪的游戏。你可以看到只要你在这选你的区,填你的工资,你就可以看到你的邻居们的收入是什么样子,你可以跟他们做一个非常非常深入的对比。实际上通过这个方式,我们就可以让开放数据变得好玩,可能有一个完善的过程。

下一个是开放接口。大家知道这个Telegram吗?Telegram是一个即时聊天软件,像whatsapp或者微信这样子的。它有一个好处,就是它的协议,接口和它的客户端全部是开源的,大家想想看,你可以做很多二次利用。

 

比如说你去关注了这个叫Initium bot的这个用户,他给你推送了我们Initium的所有最新的文章,然后你可以在这边做搜索,并且获取全文。由于某些原因,大家不能访问我们的网站,但是通过这个bot,大家还是可以拿到非常优质的中文报道,大家回去试试吧。

最后一个就是开放社区的思路。大家想,在这个Initium Lab我们肯定有自己的成员。我们会经常做这样一些疯狂的活动,比如说读八个小时数据科学的书,用一个小时处理数据,或者说用八个小时读一本新闻书。

 

那这样一些疯狂的活动,为了激发我们的成员之间更努力学习的这种氛围,我们会请外面的人来,然后就会请这种所谓的叫记客松“Jackathon” “Journalism”+“Hackathon”的一种缩写。通过引入外面的一些资源的一种活动,就形成了一种大家相互竞争、比拼的氛围,然后大家也会更加努力地去学习,去创新。

 

 

那其实讲了这么多这种所谓的开放,最后我可能想跟大家分享一点思考,就是究竟我们要不要开放。那其实我在做开放社区的过程中,也看到了各种各样的问题。比如说如何保证质量,如何保证时间承诺,这些都是非常现实的。那么我就在想,其实不同的社区会有不同的运营模式。有的纯靠志愿,有的可能会有一些学院的支持,有的可能就是有商业的背景。但是就是在这种情况下,如果说你能保持一些时间,让这些成员可以做出更高质量的作品,那么这个开放数据就比较容易跟进下去了。

 

非常快的给大家分享了这样一些东西。我平常就是写代码,或者做一些数据分析。除此之外,其实偶尔也会写一点文字。我想今天肯定是没有办法跟大家分享所有的东西,但还有很多有趣的可以跟大家交流。然后大家可以关注我的公众号,下次再跟我讨论。谢谢大家!

 

 

互动问答摘录

 

「 咸肉放招 」 您在做这件事情的时候,有没有想到过,您的这么多的历程,该如何推广去让人知道,或者怎样让后进者从你这样的历程中去学习?

「 鲜肉接招 」 这个问题很好,其实我还真的没有想到做这么多事情,现在大家都在创新,居然有这么多不一样的可以创在一起,对我来说是一个非常惊讶的发现。我觉得后面也是说想办法做一种类似模式的总结,就像你现在提到的可能要花十几年,去做实践,才会有这样的模式。当然我觉得可能也会利用这种社区的方式,通过像这样的活动跟大家分享交流,其实也会是一种方式。

 

「 吃货提问 」 我发现三位嘉宾风格包括团队,运行模式都不一样,所以想问一下在港台和大陆数据开放,你们运作的方式,或者促进这件事情的原因是什么?

「 鲜肉接招 」 这个简单讲一下,香港是政府有这个传统,非常老的,是有立法规定,数据要公开,但是没有规定是怎么公开,所以给你一个PDF,你很难找到。然后他有规定,你是公民人家可能会给你,但是可能是发邮件,或者是三个月、半年才可以收到回复。所以什么事情都可能发生。所以有制度保障,但是这个制度不完全够,现在你可以看到,其实有很多民间的力量在网上反推政府,或者是别的力量在反推政府,我觉得这是现在的一个现状。