Comments
Description
Transcript
Hadoop 文:
Hadoop 时代的商业智能 原文原文:http://ibmdatamag.com/2012/07/business-intelligence-in-the-hadoop-era/ 深入研究 PB 级的可操作智能 作者:James Kobielus |发布日期:2012 年 7 月 5 日 |评论次数: 22 至今为止,只有少数有远见的用户开始将 Hadoop 直接连接到他们公司的商业智能 (BI) 策略。然而,随着 Hadoop 日渐成熟,成为传 统运营 BI 应用程序的更强大的平台,同时继续在高级分析中为核心应用程序提供服务,其用户人数必然也会增加。 交互式数据探索:新型知识工作者的灵魂 人们开始考虑使用 IBM InfoSphere BigInsights 等 Hadoop 平台作为下一代企业数据仓库 (EDW) 的核心,这并不牵强。同样,您应该 将 Hadoop 的主要用户和开发人员(数据科学家)视为下一代 BI 用户的先驱者:业务分析师需要能够探索更高数量级的数据,并在范 围越来越广的关键任务型应用程序中构建、评价和部署更多复杂的分析模型。新一代的知识工作者坚持在他们认为合适的时候使用自己 的深层数据“沙盒”进行探索。 传统的 BI 工具并没有消失,而是假定在大数据中存在一个利基市场 即使在本年代末期,仍然由传统的 BI 工具为大多数传统的 BI 需求提供足够的服务,并支持 EDW、多维数据集、集市和其他分析数据 库(如 IBM Netezza)。即使在 2020 年,Hadoop 主要用于传统 BI 领域之外的运营应用程序,如客户体验管理和营销活动优化,或 者用于某个支持角色,如非结构化内容的转换。 但 Hadoop 几乎肯定可以扩展到范围更广的先进 BI 需求,特别是那些涉及到统计分析、预测分析或自然语言处理的需求。您可能还会 将其他大数据工具和平台(如大规模并行内存、文档和图形数据库)融入到混合环境中,Hadoop 可在这样的环境中发挥重要(但不是 最重要的)作用。 传统 BI 的范围会扩大到包括高级分析 显然,随着越来越多以大数据为中心的方法成为主流,“传统 BI”的定义将会继续扩展。人们经常使用术语“业务分析”来指代主流 BI 工具不断扩大的功能范围。 几种类型的新兴需求将在接下来的十年里推动 Hadoop 及类似方法的采用,使用传统的业务分析(即,提供决策支持的 BI)作为重点: 完整填充分析:若应用程序需要交互式访问分析数据的完整填充,而不仅仅是访问方便的样本或切片,该应用程序就是大数 据的有力候选人。最值得注意的是,为确定下一个最佳提供的微分段,其成功来自对整个目标客户填充的 360 度视图的访问。 多结构分析:任何需要统一访问结构化、非结构化和其他数据类型的应用程序都需要一个大数据平台,该平台可以同等敏捷 度发现、获得、存储并分析任何一种数据。例如,客户影响分析往往需要挖掘非结构化的社交媒体、半结构化的呼叫中心日志、结构 化的事务数据,以及各种地理坐标。这些数据源和其他数据源,可以帮助您构建更强大的行为分类关系图模型。 全方位的时空分析:任何需要跨越所有时间范围(历史、当前和预测)的融合视图的应用程序都需要一个大数据平台,该平 台具有处理这些不同工作负载所需的存储和马力。例如,多渠道客户体验优化应用程序需要决策自动化基础架构,充分利用历史事务、 实时门户点击流和预测性行为模型来支持客户界面和交互的持续调优。 多元分析:任何需要详细的、交互式且多维统计分析和关联的应用程序均需要一个大数据平台,该平台能够以大规模并行的 方式执行这些模型。回归分析、市场购物篮分析,以及高级分析的其他分支均属于这一类。 多场景分析:任何需要您建模和模拟替代场景、采纳自由形式的假设分析并预测替代场景未来状态的应用程序都需要一个大 数据平台,该平台无需预先定义的数据模型即可支持流畅的探索。这是众所周知的“类固醇电子表格”用例。在 Hadoop 的上下文中, 这涉及到在一个文件系统(如 HDFS)中汇总不同的数据源,然后将它交付给下游内存中的客户端,提供灵活、特设的以客户端为中 心的可视化。 语义分析:任何需要对非结构化数据、流数据和其他数据源进行语义探索的应用程序都需要一个大数据平台,该平台具有一 个富元数据层。要寻找的主要特性之一是三重存储功能,实现以 Resource Description Framework (RDF) 标准管理语义元数据。RDF 三重存储是 DB2 v10 的一个特性,DB2 v10 与 InfoSphere BigInsights 和 InfoSphere Streams 都是 IBM 大数据产品组合的关键 组件。 下一代 BI 工具集的发展 显然,我们在这里已远远超越了老派的 BI,但世界已发展到 PB 级规模的高级分析垂手可得的年代。一个新的 BI 未来正在迅速崛起。 然而,这并不意味着摒弃那些仍然可满足组织需求的已构建工具和方法。如果您在这些领域中的需求是专业化的,并且需要配备全套专 业的数据科学家,您几乎肯定会需要使用 IBM SPSS 等强大的工具。但如果您需要这些领域中的任意或所有基本特性,开箱即可与您的 报表、查询和其他传统 BI 工具配合使用,下一代的 Hadoop 支持的 BI 平台最适合您。 不要忘记简单性方程,若没有它,大数据很可能成为埋在草堆里的智能金块(虽然是金色)。大数据有一个潜在的缺点,数据庞大的数 量、速度和多样性,可很容易地压倒那些试图寻找智能可操作内核的可怜的分析师。人类无法轻易导航 PB 级数据,当您不加选择地将 数据扔进 Hadoop 集群,则信息过载始终是一个切实存在的风险。 当您实现下一代的 Hadoop 支持的 BI 环境时,您必须尽力地确保为普通知识工作者提供简单、无缝和高效的体验。如果您无法向业务 线用户的平板电脑、智能手机和其他设备提供可以快速消费针对性情报,则业务线用户将会对大数据望而却步。 如今许多顶级 BI 平台(如 IBM Cognos)的可用性特性,将成为这个新时代的基础。新时代的以 Hadoop 为中心的 BI 将依靠自助服 务、内存、预测、便携式和个性化的客户端工具。重点将是交互式可视化、语义搜索、数据虚拟化,以确保简单而丰富的探索经验。 可视的协作式 BI 开发在大数据时代将是家常便饭 不要担心。普通用户不需要学习如何用 MapReduce、Pig,或任何其他 Hadoop 规范编程。这个大数据“测量”都将被淹没在一个高 度可视化的下一代 BI 体验中,类似于 Cognos 和其他分析工具上已经习惯的体验。可以肯定,您的下一代 BI 平台将带来生产力加速 器:换句话说,嵌入式 MapReduce 和其他大数据模型、视图和工具与常见分析需求密切结合。 下一代的 Hadoop 支持的 BI 平台也将是可扩展的。这些环境也将支持在社交协作上下文中工作的数据科学家、业务分析师和其他知识 工作者进行 MapReduce 和其他分析模型的协作开发。开发人员的生产力将提高,因为新一代的大数据平台自动化了数据发现、准备、 汇总、分割、建模和评分等繁重的工作。 换句话说,Hadoop 和其他新的大数据技术将是一种进化出来的大规模并行处理 (MPP) EDW,与 IBM Smart Analytics System 或 IBM Netezza 不同。 总之,我们所讨论的所有新方法均在改造您的 BI 环境,从现在起,在接下来的十年里,BI 环境将变成一个更加强大的基础架构。 相关主题 1. 迎接来自仓库的大数据 2. 为什么日志分析是大数据入门的一个良好的(和可怕的)起点 3. Ventana Research 认为收购 Vivisimo 是 IBM 的明智之举 4. 飞向 PB 星球的飞船 5. 商业驱动技术,反之亦然