...

Hadoop 心

by user

on
Category: Documents
37

views

Report

Comments

Transcript

Hadoop 心
Hadoop:新一代大数据仓库的核
心
Hadoop 如何通过对数据仓库进行补充来创建强大的聚合平台
英文原文:
http://ibmdatamag.com/2012/08/hadoop-and-data-warehous
ing/
作者:James Kobielus | 发布日期:2012 年 8 月 6 日 | 486 次阅读
打印
PDF
Apache Hadoop 是新一代数据仓库的基础。各公司纷纷采用 Hadoop 作为其当前仓储架构(如
提取/转换/加载 (ETL)、数据暂存和非结构化内容预处理)中的战略角色。我也将 Hadoop 视
为云中新一代大规模并行数据仓库中的一项关键技术,Hadoop 对当今的仓储技术和低延迟流平
台进行了有效补充。
在 IBM,我们期待在未来的几年里,Hadoop 和数据仓库技术能够更加完善地相互融合并汇成
一个全新的平台范例:Hadoop 数据仓库。Hadoop 没有展示陈旧的传统仓储架构;相反,它将
补充和扩展数据仓库,以支持单个版本的真实数据、数据治理以及多结构数据的主数据管理,多
结构数据至少存在下列两种格式:结构化(比如关系或表格)、半结构化(包括带 XML 标记
的自由文本文件)和/或非结构化(例如,ASCII 和其他自由文本格式)。
数据仓库和 Hadoop 在很多方面已经实现了精神上的统一,它们在很大程度上共享一个共同的
架构方法,两者均位于 IBM 架构中,并且大部分处于这个行业内。这种共享方法的主要特点是:
大规模并行处理、数据库内部分析、混合工作负载管理和灵活存储层。
Hadoop 一直如此,并且显然很可能成为用户和供应商的大数据方法向前发展的关键。Hadoop
发展势头强劲的原因包括:

针对多结构信息、用于高级分析的、与供应商无关的大规模并行框架

能够利用可扩展框架构建高级分析和数据管理功能

快速向新的方向演进

快速商业化并被企业采用

从充满活力的开源社区和行业中获得支持
尽管如此,实现聚合 Hadoop 数据仓库平台的演进并非一朝一夕便可完成。这些还不足以导致
Hadoop 的形成,在当前形式下,任何大数据遗留方法或新方法都会受到排挤。牺牲内存数据库、
柱状数据库或图形数据库等热点技术也无法实现这一目标。所有这些方法都将并存于 Hadoop
数据仓库之中,这种存在模式在不久的将来会成为主流。
在关键数据仓库生态系统部署角色中,Hadoop(通常还包含 NoSQL 技术)将在暂存、预处理
和 ETL 层中确立其地位。在这一角色下,Hadoop 会实现社交、传感器、事件、点击流、RFID
和其他新型数据源方面的三大优势:数量、速度和种类。同样,我们会发现 Hadoop 将逐步成
为数据科学家的首选“沙盒”平台,可以用它来探索巨大、复杂的数据集,为领先的大数据应用
程序开发精密的统计模型。
关于新兴 Hadoop 数据仓库的一项令人兴奋的发现是,随着必要的治理、安全性和管理工具的
涌现,它将适用于需要有关结构化(事务性)数据和非结构化(社交)客户数据的综合、单一 360
度的真相视图的应用程序,以便推动实现数字渠道战略的定位、体验优化和其他因素。这项功能
将成为新一代 Hadoop 数据仓库的杀手级应用程序,任何一项组成技术都无法单独通过优化而
获得支持。
您的 Hadoop 数据仓库将成为一个功能强大的聚合平台。但是,除非您的供应商能够提供适用
于您当前部署的特定大数据应用程序的开箱即用解决方案加速器(包括社交媒体分析和实时基础
架构监控),否则 Hadoop 不一定会提供直接的业务价值。在评估商业大数据和 Hadoop 解决
方案的过程中,还应当考虑它们是否绑定了关键解决方案加速器元素,特别是示例应用程序、用
户定义与标准开发工具包,以及银行、保险、电信、医疗保健和零售领域的行业数据模型。
在 IBM,我们将不断跨越各种不同的信息管理解决方案领域来满足上述需求和其他 Hadoop 数
据仓库需求。敬请期待未来几个月发布的进一步细节。
无相关文章。
Fly UP