...

飞往 PB 以更加智慧的方式整合至

by user

on
Category: Documents
34

views

Report

Comments

Transcript

飞往 PB 以更加智慧的方式整合至
飞往 PB 星球的高速火箭
英文原文:http://ibmdatamag.com/2012/05/rocketship-to-planet-petabyte/
以更加智慧的方式整合至 Hadoop 平台
作者:James Kobielus
发表日期:2012 年 5 月 23 日
如果您认为 Hadoop 百分百准备好作为您的“单一版本事实”综合存储库,那么请三思而
后行。
诚然,Hadoop 现已迅速发展成为大部分企业的大数据战略核心组件。但它还不够成熟,无
法完全取代企业数据仓库 (EDW)。由于 Hadoop 的所有优势均集中作为非结构化数据集成
层,因而绝大多数 Hadoop 环境缺乏强劲的安全性、可用性和治理性,而这些恰好是成熟
EDW 的标准。这些功能及其他典型 EDW 级功能通过开源分发和商业分发逐渐步入
Hadoop,但仍然需要一到三年才能发展成熟。
此时时刻,采用 Hadoop 作为战术整合平台执行特定的分析以及作为数据来源更为明智。
最值得注意的是,Hadoop 已证实自身是大数据开发“沙盒”的战略基础。此用例在许多早
期 Hadoop 采用者之间极为常见,其中包括为数据科学家团队提供 PB 级可扩展型综合数
据存储库,以便执行交互探索、统计关联及预测建模。
作为宝贵的非结构化数据(如地理空间、社会和传感器信息)的主要来源,Hadoop 可以在
任何大数据计划中发挥核心作用。这样,Hadoop 即可有效补充(而不是替换)分析沙盒,
企业实施用于支持工具(如 IBM SPSS)建模的分析沙盒往往侧重于管理较为传统的来自
客户关系管理和企业资源规划系统的结构化数据。因此,Hadoop 可能不是(也不必是)所
有高级分析的惟一综合沙盒。
在此沙盒用例中,我们建议优先运用 Hadoop 作为 EDW 或操作数据存储的整合平台,而
不是采用上述成熟的 EDW 功能。同样的道理,在沙盒用例中,集成 Hadoop 平台与丰富
的统计和数学算法库是当务之急。同时还需要重点关注自动化沙盒配置、快速数据加载和集
成、作业调度和协调、MapReduce 建模和打分、模型管理、交互探索以及高级可视化工具。
开始在 Hadoop 集群上整合更多操作分析时,您可能会发现根据不同的目的配置不同的集
群比将所有作业全部导入一刀切式集群要明智得多。例如,Hadoop 分布式文件系统可能足
以处理批量 MapReduce 作业。实时作业或许最适合在专门针对 HBase 或集成
MapReduce 执行引擎的其他低延迟数据库技术优化的集群和节点上运行。
某些操作式 Hadoop 部署或许已经列入大型应用程序整合计划,并且可能需要针对联机事
务处理、语义 Web 和决策自动化环境的分析任务卸载集成 Hadoop/MapReduce 运行时。
在这种情况下,请考虑集成生产 Hadoop 集群与非 Hadoop 技术(如 IBM DB2 v10 资源
描述框架三元组存储),或各种其他关联数据库、NoSQL 数据库及其他形式的数据库。
随着企业的 Hadoop/MapReduce 用例和部署拓扑范围不断扩大,您可能会发现自身需要
针对更多精细作业优化“符合目的的”集群或节点。在将更多操作应用程序整合到 Hadoop
的同时,还可以为特定的数据源和下游应用程序指定特定的集群或节点。此外,您也可以在
使用电子披露查询进行归档及使用日志关联性执行 IT 根本原因分析时,为任务关键型大数
据支持功能分配专用节点。
由于市场上针对 Hadoop 优化的数据治理、安全性、集群管理及其他基础架构工具越来越
多,可以先考虑在独立集群中全面测试和评估这些工具,然后在将它们部署至“单一版本事
实”场景中获取运营商业智能。此外,至少还需要评估 Hadoop 平台与企业双边数据交换
EDW 之间的集成水平。如果已经完成数据库内部分析,请确定各平台是否能够消耗对应模
型运行产生的输出数据。
智能整合取决于对所有数据分析平台(包括 Hadoop)的优势和局限性的了解。将所有企业
数据和分析整合至 Hadoop 在目前及未来或许都不是最佳选择,即使 Hadoop 逐步演进并
渗透至 EDW 及其他成熟方法也是一样。重要的是,将各方法部署至适应您的特定大数据
环境的用例。
相关主题
1.
2.
3.
4.
5.
大数据对数据分析的影响
通过数据集市整合实现全球化(第 1 部分)
通过数据集市整合实现全球化(第 2 部分)
网络研讨会:大数据简介
大数据治理:成熟度评估框架
Fly UP