大数据的笑话

大数据的笑话篇一：大数据冲击

龙源期刊网 .cn

大数据冲击

作者：

来源：《新理财·政府理财》2013年第05期

2012年10月，时任广东省委书记的汪洋向广东省财政厅推荐了《大数据》一书，并指出，大数据是未来政府的重要决策之一。这也是本期专题的开端。

因此本期专题成稿之前，我们一直在向各个地市的财政人询问一个问题：

你们怎么理解财政的“大数据”？

让我们始料未及的是，这个问题从一开始的“怎么理解”，逐渐发展到“理不理解”，又发展到“知不知道”。看起来，各地财政对于“大数据”这一概念，多数还仅停留在新鲜的层面上。究其原因，财政的“大数据”工作基于一个历史沿革。不管是1999年开始的金财工程建设，还是2007年开始的财政信息系统一体化建设，财政工作正在越来越依靠数据。然而由于种种原因，财政的信息化建设需要提速的地方还有很多。在本刊曾经做过的《云财政梦》专题中，我们也提到了，到现在云财政依然是一个定义而已。而财政的大数据时代，更是一个可望而不可及的远方。

俗话说没有调查就没有发言权，这也反映了现在地方财政的现状：数据不足，所以说话无底气。那我们说话的根据来源于哪里？许多财政人表示，来源于经过各个部门层层“处理”的“伪数据”，而非实时监控得来的“真数据”。如果数据的真实性都值得怀疑，它的适用性就更难以谈起了。

政府理财者有一个很尴尬的“心结”，公司理财由于财务灵活度自主度高，工具先进，因此一直走在政府理财的前面。在大数据方面，公司理财也是先行一步。本期我们也选择了几个国际顶尖的大数据公司，以他们的视角，来探讨如何解开财政大数据之“结”。

从一个角度看，财政在数据方面总是处于一个被动挨打的地位。但从另一个角度来看，政府理财起步虽晚，但正在以一个惊人的速度迎头赶上。

大数据的笑话篇二：大数据时代：我们都走在裸奔的路上

大数据时代：我们都走在裸奔的路上

1、相关关系比因果关系更重要

老王开了个包子铺，有时做少了不够卖，有时做多了没卖完，两头都是损失。老王琢磨着买包子的都是街坊，他们买包子是有规律的，例如老张只在周六买，因为闺女周末会来看他，而且闺女就爱吃包子。于是老王每卖一次就记次账，谁在哪天买了几笼包子，并试图找出每个街坊的买包子规律。

数据虽然越记越多，但老王啥规律也没找出来，即使是老张也都没准，好几个周六都没来买，因为他闺女有事没来。有个人给老王支招，你甭记顾客，就记每天卖了多少笼就行，这个法子明显简单有效，很容易就看出了周末比平时会多卖两笼的规律。

这个例子虽然简单，却道出了大数据的一个重要特点【相关关系比因果关系更重要】，周末与买包子人多就是相关关系，但为什么多呢？是因为老张闺女这样的周六来吃包子的人多？还是周末大家都不愿意做饭？对这些可能性不必探究，因为即使探究往往也搞不清楚，只要获得了周末买包子的人多，能正确地指导老王在周末时多包上两笼，这就行了。

要相关不要因果，这是大数据思维的重要变革，以前数据处理的目标更多是追求对因果性的寻找，或是对猜测的因果性的验证，人们总是习惯性地找出个原因，然后心里才能踏实，而这个原因是否是真实的，却往往是无法核实的，而虚假原因对面向未来的决策来说是有害无益的。承认很多事情是没有原因的，这是人类思维方式的一个重大进步。

2、要全体不要抽样

传统的调查方式都是抽样的，抽取有限的样本进行统计，从而得出整体的趋势来，之所以选择抽样而不是统计全部数据，只有一个原因，那就是全部数据的数量太多了，根本没法操作。

抽样的核心原则就是随机性，不随机就不能反映整体趋势性。例如搞一个保暖内衣的调查，找了一群精壮的武警战士试穿，战士们穿上了普遍反映不冷，但这并不能说明内衣的保暖效果有多好。

抽样随机性的道理谁都知道，但要做到随机性其实是很难的。例如电视收视率调查，要从不同阶层随机找被调查人，但高学历高收入的大忙人们普遍拒绝被调查，他们根本就不会为几条毛巾赠品而耽误时间，愿意接受调查的多是整天闲得无聊的低收入者，电视收视率的调查结果就可想而知。

互联网为大数据的采集带来的新手段，云计算为处理大数据带来了新方法。还以电视收视率调查为例，互联网电视普及后，每一部电视正在收看什么节目的信息会毫无遗漏地发送到调查中心。这就是大数据的第二个特点【要全体不要抽样】，对全部数据进行统计分析，其结果当然会更加准确。

3、要效率不要精确

俗话说的好，萝卜快了不洗泥，既然我们要的是全体数据，自然会夹杂进来一些错误的数据，这是难以避免的。我们传统的数据分析的思路是“宁缺勿烂”，因为传统小数据分析的数据量本身并不大，任何一个错误数据都有可能对结果产生相对较大的负面影响，对错误数据必须花大精力去**，这是小数据时代必须坚持的原则。

大数据时代的原则就变了，变成了【要效率不要精确】，并不是说精确不好，而是因为在大数据时代是做不到的，如果继续把排除错误数据作为重要工作，那大数据分析就进行不下去了。更重要的是，大数据分析的目标在于预测，而不在于追溯以前发生过的事件的真相。

4、大数据时代的裸奔

有次我给学生畅想未来，你走在大街上，基站的智能天线以一道极窄的波束指向你的手机，从而获得你的方位角，通过开机瞬时的上百次功率调整和探询，换算后就能获得你与基站的距离，两个信息结合就精准地确定了你的位置。根据你的搜索记录，互联网早已知道了你的爱好，然后手机“滴”地一声通知你，你前方10米处右侧有您最喜爱吃的咸豆腐脑

店，正在八折酬宾中，“滴”地又来了一声，老板已得知您是咸豆腐脑的忠实拥护者，特别给您打五折，来尝一碗呗。

在我描绘完未来信息社会的全新生活方式后，有个学生问我：我走在大街上，手机“滴”地一声，通知我前面有个同志聚会，系统通过我以前的搜索和看过的片子早已确定了我的性向，并将我的信息经过精确配对发送给了好多基友，但我并不想出柜，这可咋整啊？

这个学生的玩笑话道出了大数据时代我们都面临的一个重大问题，那就是隐私权问题。美国某机构曾做过一个实验，根据网友的搜索记录来筛定目标，虽然信息已经进行了模糊，还是有不愿意出柜的基友被筛出来了，基友的妈妈非常震惊和生气，将该机构告上了法庭。

微博上常有维权人士声称电话被政府**了，因为手机语音出现了不正常的声音，其实这是他们多心了，他们的电信知识还停留在用鳄鱼夹搭电话线窃听的阶段。并不是说政府不会窃听，而是说如果政府窃听你的电话，你是绝对察觉不出来的，多手段全方面的监控手段早已超出了外行的想象力。即使是技术内行，例如**家机密的间谍被收网后往往会马上崩溃，他所有的电话短信邮件出行会面谈话都有清清楚楚的铁证。

犯罪成本太高了，将来无死角的摄像监控头会记录下一切，即使你犯罪时蒙着面，根据前两天你没蒙脸踩点时的录像，通过姿态步态的匹配算法就能把你筛选出来。现在公安系统有句话“只要上手段，没有查不出来的”，上手段就是指包括摄像头监控、手机监控、网络监控等综合手段。现在的基础设施还不完善，等将来所有的路灯杆都变成了多传感监控器，加上强大的大数据分析能力，你还想咋藏？

更有意思的是，将来的犯罪逮捕会变成事前，有天你啥事没做睡在床上就被逮捕了，**通告你：根据警方对你所有信息的大数据分析，显示你已经知道了老婆出轨之事，根据以往犯罪案例及你本人性格的大数据分析结果，你有76.3%的概率会在本周内对老婆进行轻伤以上程度的犯罪，超过了法律规定的60%轻伤以上犯罪概率必须入监的标准，特羁押你一个月，根据大数据分析结果，放出来后的你仍然犯罪的概率会降低到法律规定可以释放的5%以下。

听着很安全吧？但是不是也感到了毛骨悚然？在大数据时代，我们每个人都是赤条条地在信息社会中裸奔，真的是光着屁股一丝不挂地那种裸奔，难到没有人意识到这点吗？当然不是，英国等西方国家早就对街道监控摄像头展开了全社会的大讨论，安全与隐私该如何权衡？随着近年来随着**主义的盛行，安全显然更重要了，公民们很无奈地同意把更多的隐私权交给了政府，以获得更大的安全感。

必须对公民隐私信息进行分级制的严管，公安部门掌握着每个人的**信息，如果不涉及到重大违法犯罪的话，绝不能滥加使用，更不能透露给当事人的配偶，否则社会就会大乱。掌握信息和利用信息的应是独立的两个机构，如果让利用信息的公安

大数据的笑话

部分掌管公民所有隐私信息，那就会成为一个人人自危的**国家。

我们现在该如何做好迎接大数据时代的准备？我觉得应该培养公权机构绝不能泄露公民隐私的社会舆论，前几天网上流传着范冰冰的机场安检照，记者们以此做娱乐文章称人家如何如何，这就是一个极坏的兆头！如果放任这种公权力的滥用，我们每个人将来都会成为光屁股裸奔的人，光不光屁股则取决于掌握公民信息的权力人士的一念之差。

最近有报道称银行内鬼**账户信息，银行方面居然称这事主要靠自觉，他们内部查不出来。这事也是大恶！查不出来是因为银行内部缺乏相应的技术手段，根本就没有建立起相应的信息保密制度，这种不作为是未来大数据时代的严重隐患。

前两天我参加一个学生的婚礼，作为导师我被安排在领导桌，刚坐定就有个陌生人来照相，询问后才知是婚宴酒商的员工，把我们作为背景来照酒的照片，估计是用于宣传。我把他轰走了，我不愿意这个数据留在网上，不愿意让它将来作为分析我的大****。

结论：与以往的抽样统计不同，大数据使用的是全部数据，更着重的是效率而不是数据的精确性，关注的是相关性而不是因果性，这些特点造就了大数据对事物发展的极强的预测能力，它可以给我们带来更安全更便捷的新生活，同时也给个人隐私带来了巨大的威胁，对掌握公民隐私信息的公权力的严格控制，应该成为全社会的共识。

大数据的笑话篇三：大数据处理

大数据处理

大数据处理的流程主要包括以下四个环节：采集、导入（预处理）、统计（分析）、挖掘，下面针对这四环节进行简单阐述。

大数据处理之一：采集

大数据的采集是指利用多个数据库来接收发自客户端（Web、App或者传感器形式等）的数据，并且用户可以通过这些数据库来进行简单的查询和处理工作。比如，电商会使用传统的关系型数据库MySQL和Oracle等来存储每一笔事务数据，除此之外，Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。

在大数据的采集过程中，其主要特点和挑战是并发数高，因为同时有可能会有成千上万的用户来进行访问和操作，比如火车票售票网站和淘宝，它们并发的访问量在峰值时达到上百万，所以需要在采集端部署大量数据库才能支撑。并且如何在这些数据库之间进行负载均衡和分片的确是需要深入的思考和设计。

大数据处理之二：导入/预处理

虽然采集端本身会有很多数据库，但是如果要对这些海量数据进行有效的分析，还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库，或者分布式存储集群，并且可以在导入基础上做一些简单的清洗和预处理工作。也有一些用户会在导入时使用来自Twitter的Storm来对数据进行流式计算，来满足部分业务的实时计算需求。

导入与预处理过程的特点和挑战主要是导入的数据量大，每秒钟的导入量经常会达到百兆，甚至千兆级别。

大数据处理之三：统计/分析

统计与分析主要利用分布式数据库，或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等，以满足大多数常见的分析需求，在这方面，一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata，以及基于MySQL的列式存储Infobright等，而一些批处理，或者基于半结构化数据的需求可以使用Hadoop。

统计与分析这部分的主要特点和挑战是分析涉及的数据量大，其对系统资源，特别是I/O会有极大的占用。

大数据处理之四：挖掘

与前面统计和分析过程不同的是，数据挖掘一般没有什么预先设定好的主题，主要是在现有数据上面进行基于各种算法的计算，从而起到预测（Predict）的效果，从而实现一些高级别数据分析的需求。比较典型算法有用于聚类的

Kmeans、用于统计学习的SVM和用于分类的NaiveBayes，主要使用的工具有Hadoop的Mahout等。该过程的特点和挑战主要是用于挖掘的算法很复杂，并且计算涉及的数据量和计算量都很大，常用数据挖掘算法都以单线程为主。

整个大数据处理的普遍流程至少应该满足这四个方面的步骤，才能算得上是一个比较完整的大数据处理