当前位置: 首页 > 新闻 > 国际新闻
本站搜索:

美国数据挖掘形成完整产业链 数据能量层层放大

2012-08-22 15:18:00     作者:    来源: 中国青年报  我要评论

关键词: 数据 数据中心 谷歌 回师门 数据挖掘
[提要] 上任第一天,奥巴马签署了5个文件,其中包括《透明和开放的政府》备忘案  头一回在美国上统计课,在国内政府部门做过近10年数据统计工作的涂子沛觉得“眼前一亮”。就在Data.gov上线不到一个月的时候,民间的一位程序员便利用美国交通部开放的数据开发了一个航班延误的免费查询系统。

上任第一天,奥巴马签署了5个文件,其中包括《透明和开放的政府》备忘案

  头一回在美国上统计课,在国内政府部门做过近10年数据统计工作的涂子沛觉得“眼前一亮”。

  这一讲的内容是统计学的意义。大胡子的印度裔教授一本正经地对学生们说:“我们信靠上帝。除了上帝,任何人都必须用数据来说话。”

  教授大胆的观点一下子震撼了中国学生涂子沛。在他的印象中,数据往往被当成论证工具,更像是一种“证明领导意图的手段”。

  但在这里,“数据”二字似乎有另一重含义。

  2007年底,奥巴马访问了谷歌公司的总部。作为他的支持者,涂子沛在视频网站上观看了这次演讲。

  “人民知道得越多,政府官员才可能更加负责任。”这位总统候选人一上来就表达了建设开放政府的决心。

  面对谷歌公司的员工,奥巴马继而雄心勃勃地说:“我将把联邦政府的数据用通用的格式推上互联网。我要让公民可以跟踪、查询政府的资金、合同、专门款项和游说人员的信息。”

  涂子沛记得,演讲在此时被热烈的掌声所打断。

  这是涂子沛第一次将“公民权利”这样的大词与“数据”联系起来。也正是从那时起,这个从卡内基·梅隆大学毕业、并已经在一家美国公司就职的数据库程序员萌生了一个系统的写作计划。

  去年12月,涂子沛将21万字的书稿寄给国内几家出版社。

  一家出版社的编辑对他说:“不管别人开出什么样的条件,我们都要。”而另一家出版社的主编则给涂子沛回复了一封邮件,写道:“这是一本中国社会需要的书。”

  今年7月,《大数据》一书出版。翻开这本以0和1的二进制代码图案为封面的新书,扉页上的题记别具一格:“一个真正的信息社会,首先是一个公民社会。”

  这几乎相当于13亿中国人人手一本1500页的书加起来的信息量

  涂子沛在美国匹兹堡市一家联邦政府的合同商公司做程序员,每天面对的东西都是数据、代码或大大小小的表格。

  但无论从哪个角度观察,他都不是一个单纯的IT行业的从业者。涂子沛爱读刘瑜和陈丹青的书,和匹兹堡大学著名史学教授许倬云是好朋友,还会在一个人开车的时候听几段古典诗词的朗诵。他的房间里,大部头的编程书籍和不少从国内带来的人文类图书整齐码放在书架上。书房的窗外,大树的树叶伸手可及,他喜欢对着一片新绿写作。

  上世纪70年代初,涂子沛出生在一个法官家庭。因为从小看父亲断案,他很早就开始思考什么是“正义”这样的大问题。90年代中期,他进入当时的华中理工大学读书。学校里有人文讲堂的讲座活动,这个计算机专业的学生是最忠实的拥趸之一。讲座结束后,他常会在昏暗的路灯下追着讲师们请教问题,直到老师的家门口。

  时任中国人民大学副校长的谢韬也来过人文讲堂。当时他给涂子沛签名并留下这样一句赠语:“要做新世纪国家的建设者。”

  年已不惑的涂子沛至今仍然保留着这分情怀。他在博客上记录匹兹堡市的学生们如何因为征税问题质询市长,也写下这里的市民对阻止他们游行的匹兹堡警方怎样提起集体诉讼。

  上个月,在微博上看到“7.21”北京暴雨的新闻后,他连夜写了一篇介绍美国如何发布气象灾害信息的文章。

  “没有有效的预警,再准确的数据预报也是一个零。”涂子沛在文中介绍到,美国国家天气服务局不仅开通了推特、脸谱等社交媒体账号,还推出了一种叫做天气收音机的预警产品。一旦气象预警后,平时沉默不语的“收音机”会立刻成为“闹钟”。负责短信预警的部门则专门开发了一个系统,能根据用户手机发出的信号,来判别其是否位于暴风或者恶劣天气覆盖的区域,再决定是否发送信息,以提高准确性并减少信息扰民。

  事实上,正是从看到奥巴马2007年在谷歌公司的演讲开始,涂子沛才意识到,原来自己一直关心的“公平正义”,竟然与每天朝夕相处的数据有着如此紧密的联系。

  在此以前,和大部分人一样,涂子沛更愿意从技术层面去关注什么才是“大数据”——这是对信息爆炸时代的崭新描述。它的基本单位是“太”(TB),而1000个太则等于一“拍”(PB)。打个直观的比方,美国国会图书馆是世界上最大的图书馆之一,它所有印刷品的信息量加起来只有15太。而全美国仅在2010年一年的新增数据量就足足有3500拍,这比13亿中国人人手一本1500页的书加起来的信息量还要大。

  麦肯锡咨询顾问公司曾做出估测,未来数据仍然会以每年50%的速度增长,美国还需要14万至19万名拥有“深度分析数据”专长的工作者。

  涂子沛便是其中之一。他会在自己的专栏文章中记录那些数据改变商业的故事:比如,沃尔玛的研究人员通过数据挖掘,发现4成左右的年轻爸爸在购买婴儿尿布时会顺手买点啤酒犒劳自己,便对这两种商品进行了捆绑销售,结果销售量双双增加。更夸张的事例是,一个高中女孩某天突然收到了超市寄来的婴儿服广告,父亲大为光火,但就在超市公开道歉几天后,这位父亲发现自己的女儿真的怀孕了。原来,超市已经可以通过顾客的食品消费数据做出趋势判断。

  事实上,数据挖掘已经在美国形成了一条完整的产业链,不少大学还设立了相关的硕士学位。

  但当涂子沛开始写作《大数据》一书时,商业已经不再是他头脑中最重要的东西。

  他想在书里讲一个数据与正义的故事。

陶云江

editor

更多

 
 
 

大众网版权与免责声明

1、大众网所有内容的版权均属于作者或页面内声明的版权人。未经大众网的书面许可,任何其他个人或组织均不得以任何形式将大众网的各项资源转载、复制、编辑或发布使用于其他任何场合;不得把其中任何形式的资讯散发给其他方,不可把这些信息在其他的服务器或文档中作镜像复制或保存;不得修改或再使用大众网的任何资源。若有意转载本站信息资料,必需取得大众网书面授权。
2、已经本网授权使用作品的,应在授权范围内使用,并注明“来源:大众网”。违反上述声明者,本网将追究其相关法律责任。
3、凡本网注明“来源:XXX(非大众网)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。本网转载其他媒体之稿件,意在为公众提供免费服务。如稿件版权单位或个人不想在本网发布,可与本网联系,本网视情况可立即将其撤除。
4、如因作品内容、版权和其它问题需要同本网联系的,请30日内进行。

投稿热线