首页 浪子小说 其它 领跑大数据时代

第四章 大数据面临的难题

领跑大数据时代 孙向杰 15245 2024-10-22 02:41

  

  作为一个新生领域,尽管大数据意味着大机遇,拥有巨大的应用价值,但同时也遭遇工程技术、管理政策、资金投入、人才培养等诸多领域的大挑战。只有解决这些基础性的挑战问题,才能充分利用这个大机遇,让大数据为企业为社会发挥最大价值与贡献。

  大数据分析工具面临的难题

  无论是从实际数据量方面来看,还是从业务重要性方面来看,大数据都很大。尽管大数据如此重要,还是只有38%的企业做好了处理不断涌入的大数据的准备。

  原因何在?如今的数据具有多种多样的形式,而且来自许多不同的数据源。更为重要的是,除非有需要的那些人易于获得大数据,并且能迅速获得洞察力,否则大数据分析工具的用处并不是很大。

  下面是大数据分析工具面临的四大最常见的难题:

  1. 需要在更短的时间内处理更多的数据。

  你能说出贵企业的所有数据源吗?面对众多的传感器、社交媒体、事务记录、手机及更多数据源,企业完全淹没在一片数据汪洋之中。

  你是不是借助分析工具来从容地应对数据和决策?要是花很长的时间才获得洞察力,连最先进的分析工具对你也不会有太大的助益。

  要是缺乏具有弹性的IT基础设施能够迅速处理数据、提供实时洞察力,你可能要花太长的时间才能做出关键的业务决策。

  2. 确保合适的人员可以使用分析工具。

  你是否觉得贵企业很难将分析结果转化为实际行动?

  数字时代的消费者期望从第一次搜索一直到购买都有定制的体验。尽管许多公司通过奖励计划、网站跟踪、cookie和电子邮件收集了大量的数据,但要是无法分析数据,无法提供消费者具体需要的产品或服务,还是会错失商机。

  如果合适的人员无法使用合适的工具,你拥有多少海量的客户数据都无济于事。

  3. 高效地处理数据并确保其质量和性能。

  每个人之前都碰到过这种项目:项目实在太庞大了,持续时间又长,结果项目越来越庞大,实际上无力跟踪性能指标。这就变成了一个恶性循环:在没有洞察力的情况下贸然做决策,洞察力被长年累月的工作隐藏起来。

  设想一下试图在没有任何可靠或一致数据的情况下跟踪需求、利润、亏损及更多指标,是不是听起来觉得近乎不可能?确实如此。

  现在不妨设想一下这种基础设施:与你的业务目标相一致,并且提供可以信赖的实用、实时的业务洞察力,是不是觉得听起来好得多?

  4. 需要可灵活扩展,适合贵公司业务的大数据解决方案。

  你是否觉得所有数据的潜力完全被遏制、有待发挥出来?不管数据位于何处,要是它没有合适的基础设施来支持,数据就没有太大的用处。

  关键是共享式的、安全有保障的访问,并且确保自己的数据随时可用。想在合适的时候让合适的人员获得合适的洞察力,你就要有一套灵活、可扩展的基础设施,能够可靠地将前端系统与后端系统整合起来,并且让贵公司的业务顺畅运行起来。

  国内大数据面临的问题

  “大数据”作为时下最火热的IT行业的词汇,随之而来的数据仓库、数据安全、数据分析、数据挖掘等围绕大数据的商业价值的利用逐渐成为行业人士争相追捧的利润焦点。

  一、大数据是一个时代,“国家队”很及时

  2013年11月19日,国家统计局与11家国内企业签署战略合作框架协议,合作内容涉及大数据应用统计标准,以及企业数据补充政府统计数据等领域。有分析称,在大数据国家战略日益强烈的情况下,统计局介入将进一步推动大数据的应用落地。

  首先,大数据绝对不是忽悠,它是当下IT领域最时髦的词,简单地说就是从各种数据中快速获取价值信息的能力。美国是最早发现和使用大数据科学价值的国家。

  2012年3月,奥巴马政府宣布投资2亿美元拉动大数据相关产业发展,将“大数据战略”上升为国家战略,奥巴马政府甚至将大数据定义为“未来的新石油”。当时美国政府声明说通过提高美国从大型复杂的数据集中提取知识和管理的能力,来加强整个国家的竞争力,这被认为是跟互联网同一个级别的时代。显然,大数据不止是一个词汇,更是一门技术,是一个产业时代。

  中国作为世界上人口最多、GDP排名第二的国家,成立大数据国家队是非常及时的。大数据的精髓在于“大”,它不是抽样而是全样,它不是盲人摸到的象腿或者是象鼻子,而是整个大象本身,大数据的精妙处在于用的人越多越增,通过这样一个模糊的宏观判断,能够完成一个精准的个体推荐,从而会让整个生产效率得到极大提高。

  二、不开放大数据,周边创业是无米之炊

  目前我国大数据的应用还存在一些问题。

  第一,大数据不是IT公司的专利。第一批国家统计局引入的战略合作伙伴,大多数还是聚焦在IT公司,其实不是只有IT公司才有大数据,线下零售巨头企业在实体经济中也积累了很大的数据资源,他们数据的深度和广度不亚于甚至超过互联网公司。第一批进入的合作伙伴之一上海钢联其实掌握了煤炭钢铁在内的大宗商品数据,这是国家统计局没有涉及的。因此,非IT类公司、拥有巨大的业务形态的企业,都可以成为第二批国家统计局大数据合作伙伴。我们也看到,国家统计局作为国家法定职能部门把姿态放平,主动寻求和民营企业的合作,这是非常可喜的进步。

  第二,拥有大数据的IT公司和非IT公司应该打破数据格局。我们看BAT(百度、阿里、腾讯),近期围绕微信和淘宝发生新一轮互相屏蔽,在早前百度和淘宝进行了屏蔽,这三家掌握搜索、社交和消费的数据,本来是三方的数据汇总才能拼凑出比较完整的网上信息图谱,但是三家公司为了彼此的商业利益,并没有体现出数据合作的意愿,而是互相封杀,这给社会数据的流动带来伤害。因此,在保证一定商业利益的基础上,巨头的眼光应该放远一点,打破数据割据。这看起来是一个很难实现的乌托邦,不过任何美好的事情都需要乌托邦的愿景作为起步的。我们看到许多美好的事情,比如说全世界的互联网,全世界的人通过互联网联结在一起,开始大家觉得乌托邦,现在已经成为现实。

  第三,应该呼吁政府相关部门进一步开放市场,因为围绕大数据不管是应用还是创业,最核心的是要有数据的源头,然后才能进行采集、编辑,重新编制。现在大量的关于国民经济或者说民生的数据其实还在封闭状态,在工商部门、银行、保险、公安、医院、社保,包括电信运营机构的手里。如何让这些数据流动起来,能让大家更方便,其实应该由政府带头实现等级制数据的开放共享。在不违反保密或者是国防的情况下,如果不开放大数据,那么大数据研究和创业都是无米之炊。

  所以还是应该抓住这个机遇,进一步开放市场,不断试点,一步一步把数据开放转起来,带来更多的应用价值。

  三、隐私保护与数据精准之间的平衡

  数据应该共融共通,还要开放市场。这个开放市场不仅仅是企业之间开放,企业对个人也要开放。

  为什么现在开放变得这么谨慎?因为开放有风险,一是安全问题,二是伦理问题。安全问题是对于国防、军事以及整个经济信息的保密顾虑而言;伦理问题是从个体角度而言,即网民的隐私。大数据的作者曾经说过,在一个有组织的社会里,几乎每一则信息都在不同的时候,以不同的形式公开过。就公民而言,他的信息一次性在网上公开,和第一种情况有本质区别。

  大数据平台在提供服务的同时,也在时刻收集用户的各种消费习惯、浏览习惯甚至生活习惯。如何保护用户的隐私成了大数据时代发展过程中不可回避的问题。因此,大数据的应用价值在于个人隐私保护与数据精准之间的平衡。

  要真正做到大数据的开放,还需要走很长的路。我们相信,大数据会成为互联网之后,人类的又一个技术乌托邦。大数据的启动跟互联网有着相同的逻辑,一开始大家谈,不知道怎么做,会有一轮甚至几轮比较明显的产业泡沫,但是随着那些看似乌托邦的愿景,一个技术、一个尝试的创业公司的进入,会一步一步变成现实。

  未来大数据会怎样,创业者跟投资者都需要很谨慎。目前来说,就大数据作预测是非常危险的事情,比较谨慎地说,可能在三年左右会看到一些具体的、得到社会应用的大数据,但往长期看则还是未知数。

  大数据面临的重要技术问题

  当今,大数据的到来,已经成为现实生活中无法逃避的挑战。每当我们要做出决策的时候,大数据就无处不在。大数据术语广泛的出现也使得人们渐渐明白了它的重要性。大数据渐渐向人们展现了它为学术、工业和政府带来的巨大机遇。与此同时,大数据也向参与的各方提出了巨大的挑战,首先是三个重要的技术问题:

  一、如何利用信息技术等手段处理非结构化和半结构化数据

  大数据中,结构化数据只占15%左右,其余的85%都是非结构化的数据,它们大量存在于社交网络、互联网和电子商务等领域。另一方面,也许有90%的数据来自开源数据,其余的被存储在数据库中。大数据的不确定性表现在高维、多变和强随机性等方面。股票交易数据流是不确定性大数据的一个典型例子。

  大数据刺激了大量研究问题。非结构化和半结构化数据的个体表现、一般性特征和基本原理尚不清晰,这些都需要通过包括数学、经济学、社会学、计算机科学和管理科学在内的多学科交叉来研究和讨论。给定一种半结构化或非结构化数据,比如图像,如何把它转化成多维数据表、面向对象的数据模型或者直接基于图像的数据模型?值得注意的是,大数据每一种表示形式都仅呈现数据本身的侧面表现,并非全貌。

  如果把通过数据挖掘提取“粗糙知识”的过程称为“一次挖掘”过程,那么将粗糙知识与被量化后的主观知识,包括具体的经验、常识、本能、情境知识和用户偏好,相结合而产生“智能知识”过程就叫做“二次挖掘”。从“一次挖掘”到“二次挖掘”类似事物从“量”到“质”的飞跃。

  由于大数据所具有的半结构化和非结构化特点,基于大数据的数据挖掘所产生的结构化的“粗糙知识”(潜在模式)也伴有一些新的特征。这些结构化的粗糙知识可以被主观知识加工处理并转化,生成半结构化和非结构化的智能知识。寻求“智能知识”反映了大数据研究的核心价值。

  二、如何探索大数据复杂性、不确定性特征描述的刻画方法及大数据的系统建模

  这一问题的突破是实现大数据知识发现的前提和关键。从长远角度来看,依照大数据的个体复杂性和随机性所带来的挑战将促使大数据数学结构的形成,从而导致大数据统一理论的完备。从短期而言,学术界鼓励发展一种一般性的结构化数据和半结构化、非结构化数据之间的转化原则,以支持大数据的交叉工业应用。管理科学,尤其是基于最优化的理论将在发展大数据知识发现的一般性方法和规律性中发挥重要的作用。

  大数据的复杂形式导致许多对“粗糙知识”的度量和评估相关的研究问题。已知的最优化、数据包络分析、期望理论、管理科学中的效用理论可以被应用到研究如何将主观知识融合到数据挖掘产生的粗糙知识的“二次挖掘”过程中。这里人机交互将起到至关重要的作用。

  三、数据异构性与决策异构性的关系对大数据知识发现与管理决策的影响

  由于大数据本身的复杂性,这一问题无疑是一个重要的科研课题,对传统的数据挖掘理论和技术提出了新的挑战。在大数据环境下,管理决策面临着两个“异构性”问题:“数据异构性”和“决策异构性”。传统的管理决定模式取决于对业务知识的学习和日益积累的实践经验,而管理决策又是以数据分析为基础的。

  大数据已经改变了传统的管理决策结构的模式。研究大数据对管理决策结构的影响会成为一个公开的科研问题。除此之外,决策结构的变化要求人们去探讨如何为支持更高层次的决策而去做“二次挖掘”。无论大数据带来了哪种数据异构性,大数据中的“粗糙知识”都可被看作“一次挖掘”的范畴。通过寻找“二次挖掘”产生的“智能知识”来作为数据异构性和决策异构性之间的桥梁是十分必要的。探索大数据环境下决策结构是如何被改变的,相当于研究如何将决策者的主观知识参与到决策的过程中。

  大数据是一种具有隐藏法则的人造自然,寻找大数据的科学模式将带来对研究大数据之美的一般性方法的探究,尽管这样的探索十分困难,但是如果我们找到了将非结构化、半结构化数据转化成结构化数据的方法,已知的数据挖掘方法将成为大数据挖掘的工具。

  以上是中国科学院虚拟经济与数据科学研究中心常务副主任石勇对大数据的三个重要技术问题进行研究的一些心得,也仅仅是一个研究大数据挑战的起点。除此之外,还有一些数据科学的问题,包括在获得数据和从数据中产生规则方面可能存在的公理体系,基于数据库的知识发现规则与基于开放数据源的知识发现规则以及大数据挖掘的整体和(或)局部解的存在性问题,等等。

  大数据时代的网络安全

  一、大数据时代的网络安全存在的问题

  1.信息访问权限混乱

  访问权限,是指根据在各种预定义的组中用户的身份标识及其成员身份来限制某些信息项或某些控制的机制。

  一般来说,主要是由系统管理员来控制外来人员访问本区域的网络资源,在此情况下,通常只有被授予了访问权限才能访问此网站。然而,随着互联网技术的迅速发展,信息访问权限出现了混乱不堪的局面。各种信息铺天盖地,随之访问权限也出现了“大锅粥”,各种权限逐渐弱化,许多信息源没有了权限界定甚至出现混乱。大量数据的泄露给一些别有用心的黑客提供了机会,也致使网络出现了一些不安全的因素。

  2.数据集群泄露严重

  随着数据值的增大和数据的集中,对海量数据进行安全防护变得愈加困难,网络空间中信息的泄露风险来源涵盖范围非常广,数据的大量汇集和集中存储不可避免地增加了用户数据的泄露风险,这些数据成为维护公共安全的重要工作。

  当今,个别私人的数据泄露已经不是黑客攻击的对象,相反,他们的目标是银行、证券、大型公司等数据集群机构,一旦攻击成功,黑客将会攫取巨额的财富,这也是数据集群机构更容易遭到病毒入侵的原因之一。另一方面,这些机构在数据的储存能力和数据处理能力方面远远跟不上数据量的增长速度,信息处理能力亟待提高。

  3.智能终端危险化

  智能终端目前在全球占有很大的市场,可以预想到在未来会具有良好的发展前景,走智能终端化的道路也是时代的要求。智能终端就是将大量的个人信息储存在移动终端中,便于个人携带,比如许多企业将大量的企业信息包括员工信息都存储在智能终端中,便于领导随时集中管理。然而,将大数据储存在智能终端中有很大的安全问题,因为智能终端很容易成为黑客攻击的重点目标。

  二、保障大数据网络信息安全的建议

  大数据时代,每个人的生活中都不存在所谓的绝对“秘密”,通过网络上的数据信息可以分析出一个人生活的各种痕迹。因此,保障大数据信息安全至关重要。针对网络安全存在的问题,控制访问网络权限、强化数据加密和智能终端加固不失为保障信息安全的有效手段。

  1.控制访问权限

  访问控制是保障网络安全的主要策略。进行访问控制的目的,是对用户访问网络资源的权限进行严格的认证和控制。

  访问权限的限制是预防病毒、阻止黑客进入的有效手段之一。具体而言就是对网络资源设置密码、口令或者其他不可识别的标识和符号来增强访问权限的认证和控制。从根本上规范用户使用网络资源的行为,使之合理地浏览和摄取有效资源。同时也对规范网络管理、提升互联网安全度和可信度有一定的积极意义。

  2.强化数据加密

  在做好网络访问控制的基础上,对数据进行加密是保障网络安全运行的有效手段。数据加密,是指通过加密算法和加密钥匙将明文转变为密文。它是目前计算机系统对信息保护的一种相对可靠的办法。

  数据加密相当于是对网络资源、网络数据进行的第二层保护,是第二道防护门。具体说来,第一道防护门是控制网络访问权限,阻止信息访问权限混乱,访问者要想“入门”就必须获得准入资格,通过身份的验证,否则将被“拒之门外”;这第二道门就是在访问者已经“入门”的情况下,对数据的又一层保护,即使不速之客通过身份的伪装顺利通过第一道门,第二道防护门也会把他隔绝出去,这样即使他有机会访问网络资源,也无法识别已经加密的数据。

  3.智能终端加固

  由于智能终端存储了海量的数据信息,因此对智能终端进行加固是提高网络安全、保障互联网管理有序的内在要求和合理措施。

  智能终端加固对大数据的处理技术要求比较高,不再是简单被动的补漏洞,而是采取积极的态度去预防病毒的肆意入侵,防止黑客的蓄意攻击。通过大数据安全技术研发、云计算方式的更新、软件工具的整合等措施,针对攻击力非常强的病毒、恶意代码进行彻底的清除,并及时挖掘潜在的大数据安全隐患,确保智能终端在安全的网络环境下运行。通过一系列技术手段,构建一个高级的智慧平台,引领我们朝着大数据时代迈进。

  大数据专业人才的缺乏

  近日,国外著名职业人士社交网站LinkedIn(领英)对全球超过3.3亿用户的工作经历和技能进行分析,并公布了2014年最受雇主喜欢、最炙手可热的25项技能,其中统计分析和数据挖掘技能位列榜首。大数据时代对数据人才的需求已经排在了首位。

  近几年,大数据从“可有可无”的边缘迅速演变成“必须获取”的核心。深度挖掘分析把数据变成可操作利用的情报,提供个性化推荐、精细化运营,帮助企业降低成本、增加利润,大数据的作用在逐渐显现。

  大数据高速发展的2014年,利用大数据应用,精准广告投放系统、用户个性化推荐、消费热点预测、客户生命周期管理、企业经营策略分析等,互联网企业尤其是阿里巴巴、京东等电商企业成为2014年大数据发展的最大赢家。2014年天猫“双十一”571亿元的交易额就是一个很好的佐证。

  利用大数据优势,获取更高的利益,大数据发展势头十分迅猛。近年来,中国互联网三巨头BAT(百度、阿里、腾讯)均耗费巨资投入大数据发展,纷纷建立大数据研究院、大数据实验室等,提供大数据专业服务,一批大数据专业分析公司也应运而生。据CSDN(中国软件开发联盟)2014年中国大数据调查报告显示,32.5%的公司正在搭建大数据平台,29.5%的公司已经在生产环境实践大数据,并有成功的应用案例和产品,24.5%的公司已经做了足够的了解,开发准备就绪。

  各大公司纷纷上马大数据业务,对大数据人才的需要,市场上正处于十分旺盛的阶段。据Gartner预测,2015年,全球将新增440万个与大数据相关的工作岗位。大数据的发展也会催生出一些新职业如大数据分析师、首席数据官等,据Gartner消息,2015年将会有25%的组织设立首席数据官职位。

  然而人才供给的缺乏正是大数据发展面临的一个瓶颈。目前企业发展大数据已步入初级阶段,在记者近期的采访中,不论是拓展大数据业务的百度、阿里、奇虎360等互联网公司,还是专业提供数据服务的大数据服务商,对专业的大数据人才均有较高的需求量。

  市场上对大数据人才有着旺盛的需求量,大数据人才培养问题就显得愈发重要。大数据专业服务商中润普达(集团)信息技术有限公司总裁联合创始人杜小军在接受中国经济时报采访时表示:“我们需要的大数据人才是跨专业的复合型人才,既要熟悉计算机技术,又要掌握解构中文的能力,还要拥有建立综合性模型框架的能力。”

  大数据的相关职位需要的是复合型人才,要能综合掌握数学、统计学、数据分析、机器学习和自然语言处理等多方面知识,但目前国内还没有哪所高校能培养出这样的大数据人才。2015年大数据将会出现更高速的增长,人才需要量将更大,而人才供给则有断档的可能。

  大数据思维尚未形成

  五年前,谷歌的一个研究团队在著名科学期刊《自然》上发布了一项令人瞩目的研究成果:不需要任何医疗检验结果,该小组能够追踪到当时扩散在全美的流感趋势,而且追踪速度比美国疾病控制中心(CDC)要快得多。谷歌的追踪只比流感爆发晚了一天,而CDC却花了一周甚至更多的时间来汇总一张流感传播趋势图。显然谷歌的速度更快,因为它通过寻找“在线搜索”和搜索“人是否患有流感”二者之间的相关性和规律,成功追踪到流感传播的趋势。

  “谷歌流感趋势”不仅快速、准确、成本低,而且不需要任何理论支持。谷歌的工程师没心思开发一套假设理论研究什么样的词条可能和疾病有关,而是挑出5000万条最靠前的词条,让搜索法则自行运算,得出结果。由此,“谷歌流感趋势”成为商业界、技术界、科学界具有代表意义的“大数据”成功案例。

  正如许多流行语一样,“大数据”是一个含糊不明确的词语,经常被人们信手拈来又随手抛去。有人会特别提到数据组的规模,例如Large Hadron Collider的电脑,一年能够储存15千兆字节,相当于音乐播放1500年留下的数据。实际上,吸引了众多公司注意力的“大数据”可以被称作“寻获的数据”,其发生在网络搜索、信用卡支付、手机感应到最近的电话信号平台。比如“谷歌流感趋势”就是建立在已经被寻获的数据上的,这样的数据组可以更庞大。值得注意的是,相对于庞大的规模,数据的收集实际上很便宜。现代社会随着人们的沟通、休闲和商务活动都转移到网络(包括移动网络),生活在以一种十年前难以想象的方式,被记录和被量化。数据点可以随意拼贴、收集起来用于不同的目的,同时可以实时更新。

  一、如何捕捉大数据

  大数据的拥护者们总结出了四个结论,而每一条都存在于“谷歌流感趋势”的成功案例中:1.数据分析产生了惊人的准确结果;2.每一个数据点都可以被捕捉,这使得过去的统计抽样技术显得十分过时;3.数据背后的原因纠结显得过时,因为数据的相关性已经告诉了我们需要知道的信息;4.科学或数据模型是不需要的。

  虽然大数据向科学家、企业家以及政府展现出了光明前景,然而这四条理论完全是出于最乐观、最单纯的角度,如果忽略了一些过去的经验教训,它也注定会让人们失望。在关于“谷歌流感趋势”预测的文章发表四年以后,《自然》杂志报道了一则坏消息:在最近的一次流感爆发中谷歌流感趋势不起作用了。虽然过去几年的冬天,“谷歌流感趋势”信心满满地提供了一系列迅速准确的流感爆**况统计信息。但不知从何时开始,这个模型渐渐失去了对流感的灵敏嗅觉。在谷歌的模型数据中显示将有一场严重的流感爆发,但当疾病防治中心最终将漫无边际但依旧准确可靠的数据送达时,这些数据表明谷歌对流感疾病传播情况的预测夸大了近两倍。

  问题是谷歌不知道甚至根本无法知道是什么原因将搜索词条和流感的传播联系在一起。谷歌的工程师也并没有试图搞清楚背后的原因,他们只是简单地寻找数据中的规律。比起前因后果,他们更在乎数据之间的相关性。这种情况在大数据分析中相当常见,但要想搞清楚前因后果很困难,不过搞清楚哪些数据是相互关联的则成本更低,也更容易。因而,维克托迈尔·舍思伯格和肯尼思·库克耶在他们的著作《大数据时代》中写道:“在大数据分析中针对因果关系的探究不会被丢弃,但是它正渐渐撤出数据研究的主要基石地位。”

  那些没有理论支持而只着重于数据相关性的分析必然是脆弱且站不住脚的。如果人们不明白表象相关性背后的事情,那么就不会知道什么原因会导致那种相互关联性的破裂。关于“谷歌流感趋势”失败的一种解释,2012年12月的新闻里总是充满了耸人听闻的故事,而这些故事激发了那些健康人群在线搜索的兴趣。另一个可能性解释是,谷歌自身的搜索法朝令夕改,当人们输入信息时,系统会自动提示诊断信息。

  在过去的200年里,统计学家们一直致力于弄清楚是什么阻挡了人们单纯地通过数据来理解这个世界。虽然当前世界数据的量更大,传播速度更快,但是并非意味着过去那些陷阱都已经安全处理了,因为事实上它们并没有消失。

  二、大数据的偏差难题

  1936年,共和党人Alfred Landon参加和总统Franklin Delano Roosevelt一起的总统竞选,知名杂志《文学文摘》肩负起了大选结果的预测责任。杂志社发起了一次邮政民调活动,目的在于将测验送达1000万人民手中,这个数字接近真实选民数的1/4。回复如洪水般涌来,杂志社很享受这种大范围的任务。在8月末期,报道说:“下周,1000万名选票中的第一批人将开始经历候选人的第一轮,进行三次检验、核实,五次交叉分类和汇总。”

  在统计了两个月内收回的240万张选票后,《文学文摘》最终发布调查结果:Landon将以55∶41令人信服地赢得大选,其中有少数投票倾向于第三方候选人。但是竞选最终却呈现出非常不同的结果:Roosevelt以61∶37的绝对优势大胜Landon。让《文学文摘》更郁闷的是,由民意调查先驱人物George Gallup实施的一个小范围调查得出的结果却和最终投票结果非常接近,成功预测了Roosevelt将轻松获胜。由此可见,Gallup先生理解了《文学文摘》杂志社所不能理解的一些事:当谈到数据时,规模不代表一切。

  大体上来说,民意测验建立在投票人群的取样基础上。这就意味着,民意测验专家通常需要解决两件事:取样错误和样本偏差。样本错误反映了通过偶然方式选择样本带来的风险,一个随机选择的民调样本并不能反映人们的真实观点,而民意测验中体现出来的“误差幅度”也体现了这种风险。样本越大,误差幅度越小。1000个受访者的样本数据已经足够成为很多调查目的的样本,Gallup先生的民意测验据说采纳了3000个受访者样本。

  如果说3000个受访者样本带来的调查结果是对的,那么为什么240万个样本却没有呈现更正确的结果呢?答案是,取样错误常常会伴随着一个更危险的因素:样本偏差。取样错误是因为样本的随机选择会导致该选择样本无法反映民众的根本意图;而样本偏差则是样本的选择未经过筛选,而随机选择。George Gallup不辞辛劳地寻找了一个无偏差的样本,因为他知道一个无偏差的样本远远比一个数量庞大的样本更重要。

  相反,《文学文摘》却忽略了可能产生的样本偏差问题。一方面,它直接将调查表格寄给从汽车登记簿和电话本上获得的人员名单,而这种方式获得的样本,至少当时在体现真实民意方面是比例失调的。另一方面,为了缓解问题的严重性,Landon的支持者们乐意于将自己的答案寄回。这两个偏差因素结合在一起,使得《文学文摘》的民意测验泡汤。因为收集到的数据组是那么凌乱,《文学文摘》即使想要搞清楚数据中潜伏着的偏差因素也非常困难。此外,因为这些数据实在太庞大,一些数据分析师似乎认为取样问题根本不值得担心。

  三、大数据思维的挑战

  《大数据时代》的作者舍恩伯格教授认为,他所倾向的大数据组的定义是:N=All。大数据前提下无须取样,我们已拥有具备所有背景的人群。当N=All,就说明的确不存在取样偏差,因为样本中包含了所有人。但“N=All”是不是对大多数寻获数据的最佳描述?也许不是。“一个人能够拥有所有数据,我对此表示怀疑。”英国伦敦大学学院数据统计学教授、计算机科学家Patrick Wolfe如此说。

  Twitter就是一个例子。原则上,通过记录和分析Twitter上的每一条信息,并通过分析结果判断公众舆情是有可能的。事实上,大多数研究人员都在使用那些大数据中的一部分,但是当我们可以看到所有Twitter信息,使用者从整体来看并不具备全体民众的代表性。所以,《数字常识》一书的作者及数据分析师Kaiser Fung提醒,不能简单地认为我们已经将所有重要因素考虑在内了,“N=All,很多时候只是一个针对数据的假设,而不是事实”。那么,当面对一大堆杂乱无章的数据信息时,人们更应该理清头绪。

  波士顿当地研发的一款智能手机APP Street Bump,通过手机的加速度传感器探测路面上的凹坑,而不需要城市工人通过街面巡查发现凹坑。随着波士顿市民纷纷下载该款APP并且开着车四处转悠,他们的手机自动提示市政厅是否需要对城市街道表面进行修复工作。这个过程通过技术解决难题,创造出了信息量庞大的“数据排放”,而这些数据正好以一种不可思议的方式解决问题。波士顿政府骄傲地宣称:“数据为这座城市提供了实时的信息监控,而这些信息又可以用来解决城市问题和规划城市的长期投资项目。”

  实际上,Street Bump程序产生的是一张路面凹坑的城市分布图,这些图更多是系统地分布于富裕地区,因为这些地区有更多人拥有智能手机。可以说,Street Bump提供了一个“N=All”的情况,即每部手机探测到的每一个路面凹坑都能被记录下来。这和记录每一个路面凹坑的情况是不一样的。微软研究院的科学家Kate Crawford指出,寻获数据中包含着的系统偏差,需要仔细思考才能发现和纠正。大数据组看起来具有全面综合性,但“N=All”常常造成相当有迷惑性的错觉。

  目前,极少有案例对于大批量数据的分析最终带来奇迹。剑桥大学教授David Spiegelhalter谈到谷歌翻译软件,这是“机器学习能力”的一个典型例子。该软件是在分析数以亿计的已翻译作品中,寻找其中可以复制的翻译服务,其“学习能力”让谷歌翻译软件呈现让人难以置信的处理结果,而不需要预先编入任何语法规则。“这是一项了不起的成就。”Spiegelhalter说,因为这项成就是建立在对大数据的明智处理的基础之上的。在他看来,谷歌翻译就是接近于无理论支撑的,完全由数据驱动的数据运算黑盒子。

  但是大数据无法解决那些纠缠了统计学家和科学家们几个世纪的问题:洞察力、情况判断,以及如何进行正确干预,从而改善系统。通过大数据得到这些问题的答案,还需要统计学发展的大步迈进。“现在我们仿佛又回到了西大荒时代,”伦敦大学教授Patrick Wolfe说,“聪明上进的人会辗转反侧,会想尽方法利用每一种工具从这些数据中获取有利的价值,但是我们现在有点盲目冲动”。统计学家们正在竭力研究新的方法来抓住大数据中蕴藏的秘密。这样的新方法非常关键,但是需立足于过去古老的统计理论基础之上,这样新方法才能起作用。

  回顾大数据的四个信条,如果我们忽略了主动的错误讯息,那么很容易高估那些让人觉得不可思议的高准确性。“数据中的因果关系已经渐渐撤出作为数据研究基础的基石地位”,如果有人这么宣称,那么没有关系,前提是我们是在一个稳定的环境中进行数据预测。但是如果世界正处于一个巨变的环境中(例如正经历流感传播)或者如果我们自身希望对现实世界做些改变,那就不能这么说了。“因为N=All,取样偏差不重要”,这种想法在大多数案例中都不成立。大数据时代已经到来,但是大数据思维尚未形成。现在的挑战在于解决新的问题,获得新的答案,但前提是不要在更大范围内犯过去的统计错误。

  大数据分析的局限

  咨询师Barry Devlin介绍了一些人们因为统计数据分析不当而误解风险的案例,同时阐述了为什么业务决策不能完全由数据驱动。他提醒企业要清醒认识数据科学家的阴谋,同时接受普通业务人员的天真想法。

  一、大数据分析

  大数据分析的拥护者竭尽全力地鼓吹“数据驱动”,明智的人应该谨慎对待,并明确两个问题。第一,业务人员在制定特定决策时是否真正理解相关数据,是否曾经以实用且可行的方式向管理层展示了这些数据。第二,是否所有决策都有必要在收集“所有数据”之后自动完成。

  在《认清风险:如何作出好决策》一书中,德国柏林Max Planck人类发展研究所管理主管Gerd Gigerenzer阐述了公共环境中风险测量与决策过程的问题,他的观点同样适用于商业领域。

  首先,我们看看Gigerenzer举的一些例子。它们说明了大多数人所获得的统计数据只是很小一部分,而且我们很容易因为数据的不正确性或明显误用而产生错误结论。

  在“9·11”事件的一年时间里,成千上万的美国人放弃乘坐飞机,转而选择开车长途远行,因为他们害怕遇到相同的袭击。高速公路行驶距离因此增长了5%,而道路交通意外死亡人数在一年里逐月上升,已经超过了过去五年的平均水平。此外,粗略计算有约1600人丧身交通意外,而航空旅客及空乘人员的伤亡人数只有256人,其中还包括“9·11”事件的伤亡数字。

  由于对当时伤亡事件产生了主观反应,美国公众完全忽视了有效的统计风险测量结果,即飞机的安全系数要远远高于汽车。

  二、错误的风险测量方法

  1995年,英国医药安全委员会发布了一系列研究结果,服用第三代口服避孕药的人患血栓症的概率是普通人的两倍。这个研究结果很快传遍全世界。医生与药剂师向妇女传达了由预期结论得出的警告信息:意外怀孕与妊娠激增。接下来的一年时间里,仅仅在英格兰和威尔士流产案例就预计增加了13000人次。

  尽管这些专家都经过科学和医学培训,但是他们严重忽视或忽略了一个结果:绝对风险数量增加一倍才只有7000人次,也远远不及由怀孕与流产导致的血栓症风险。因此,相同的数据有两种描述方式:一是风险率相对增长100%,二是绝对增长数量为7000。前者很容易占据新闻头条和引起公众跟风,而后者则不会造成太大影响,但是可能会避免很多痛苦。

  Gigerenzer的书还有很多这样的故事,如果你有兴趣了解人们解读数字数据的方式及使用(或不使用)这些数字作为决策依据的方式,那么这本书很值得你阅读。事实是,即使经过科学训练,也只有极少数人能够正确理解这个领域。因此,我们缺少区分不同风险表达方式及不确定性的能力,也缺乏一些帮助理解所得到结果的培训。对于世界上的一些概念,我们很容易陷入偏见或先入为主的错误理解方式。

  当我们从“少量数据”世界(掌握简单算术就足够应付)过渡到充斥大数据统计的世界时,数据误解产生的危害也出现指数增长。无论自助服务商业智能有多厉害,它们也无法轻松扩展变成自助服务商业分析。业务用户都需要在理解和展示统计数据方面加强自身的能力。

  三、最大的决策动因:潜意识行为

  除了技能问题,还有一个更根本的问题,而“9·11”事件关于航空旅行方式的态度改变就是一个最好的例子。Barry Devlin将这种现象称为商业不智能。按照西方商业思维方式,智慧几乎可以完全等同于合理和理智思想,特别是在决策过程中。这忽略了大脑的现实情况及其思维过程,其中有90%的想法是无意识发生的。决策很少是由数据驱动的,特别是那些会对个人产生影响或需要快速响应的决策。

  心理学家及诺贝尔经济学奖得主Daniel Kahneman在他写的书《快思考与慢思考》中阐述了这个话题,但是他落入唯理性主义者的圈套,后者认为无意识思维源于有意识思维。这样就得出了一些结论:我们很容易做出一些严重错误且非常容易受外界干扰的决策,而且总是在有意识地保护自己。或者更坏的情况是,一些专制政府可能且总是会“迫使”我们做出一些有利于自身的决策。

  当然,自我意识也很重要。然而,如果认为我们新进化的小小前额可以或应该完全超越大多数大脑的长期进化但潜意识发生的感知,那么这是极其短视的。这种感知对于现实世界的决策过程有很多影响——形式包括内在感受、直觉、有根据的揣测和探索,而它们会忽略得到的大部分数据。如果只关注于收集和堆砌不断增多的数据,那么我们就有迷失的风险。

  在不确定的世界里,有一些事件是无法预测的,基于数据分析出来的概率只能让人得到一个决策。2008年金融领域发生的事件表明,过分依赖于预测风险模型是灾难性的,因为有一些东西不在模型参数的覆盖范围之内。Gigerenzer指出:“问题在于不正确的风险测量:这些方法错误地假定不确定的世界里有已知的风险。因为这些计算为一个不确定的风险产生了精确的数字,因此它们会产生一个虚假的确定性。”

  在决策过程中完全依赖数据驱动或分析工具本身具有内在的危险性。人类决策者所带来的价值是他能够看到环境和理解业务环境,这些洞察力并不能完全由参数来描述。当然,它们也来源于一些信息:思想认识中的旧记忆或新思维模式。但是,它们大多数都基于计算机科学远远无法理解的思维处理模型,计算机还完全无法模拟出思维。这是一个宝贵的东西。

  

目录
设置
手机
书架
书页
简体
评论