...

充分利用仓库中的大数据 以务实的态度启动大数据之旅

by user

on
Category: Documents
33

views

Report

Comments

Transcript

充分利用仓库中的大数据 以务实的态度启动大数据之旅
充分利用仓库中的大数据
英文原文:http://ibmdatamag.com/2012/05/embracing-big-data-from-the-warehouse/
以务实的态度启动大数据之旅
作者:Michael Kearney
发表日期:2012 年 5 月 23 日
互联网巨头 Google 和 Facebook 相继通过管理和分析大数据实现了巨额价值,这也促使
首席信息官们不禁发问,新兴技术能否在自身企业内创造辉煌成果。行业分析师预计大数据
将以飞快的速度增长,这也在一定程度上鼓励了这种想法。Wikibon 预计,到 2015 年大
数据市场将由 2012 年的 50 亿美元直线跃升超过 300 亿美元,到 2017 年更将高达
534 亿美元(您可以在此处查看免费报告)。IDC 则较为保守,他们预计到 2015 年大数据
市场将达 169 亿美元。许多 IBM 客户纷纷利用其数据仓库(堪称最大的托管结构数据集
合)启动大数据之旅。本文将概括介绍在将各种技术融入大数据管理保护伞下之后,企业如
何实现真正的业务价值。
部署大数据管理技术
部署管理大数据的技术有:

企业数据仓库

数据仓库设备

Apache Hadoop 集群

基于流数据的日志分析及复杂事件处理技术

用于在各管理节点之间移动和集成数据的软件
IBM 创作团队在一本名为了解大数据的免费 IBM 电子书中为技术初学者们提供了详细深
刻的指导。
首要步骤是管理大数据。企业在运用各种算法分析数据并逐步了解数据因果关系的过程中创
造价值。但是,这些分析算法在计算层面要求严格,并且与大规模并行处理硬件架构上运行
的数据管理技术兼容性最强。
实现数据仓库现代化
计算架构上部署的许多第一代数据仓库已经无法满足大数据分析要求。通过实现数据仓库现
代化及用 IBM Netezza 数据仓库设备替换对称式多重处理硬件上运行的较老的数据库管
理系统,现已有数百家企业应用大数据。
在移动通讯时代中,持续提供高品质网络服务是实现客户满意度的基础,如果客户不满意将
会转向竞争对手。T-Mobile 第一代数据仓库的规模已经不足以聚合这家公司的数据,因而
无法对整个网络事件进行全面了解。40 TB,这个基于 Oracle 的数据仓库已经超越自身极
限,拒绝协助该公司深入了解其服务质量。通过采用 Netezza 源实现数据仓库现代化,
T-Mobile 每天能够加载 170 亿份网络记录,并且能够通过分析这些数据深入探究服务质
量和客户满意度。该数据仓库目前共管理 2 PB 数据,为 1,300 个企业用户提供分析支持,
取得了巨大的成功,客户范围也超越了原有的网络运营用户群并扩展至收入保障、计费、市
场营销和客户服务等领域。您可以在这里观看 T-Mobile 网络技术解决方案部门经理
Christine Twiford 的专访视频,他在视频中详细介绍了 T-Mobile 公司的大数据之旅。
利用设备增强数据仓库
银行及其他金融公司必须对自身的计算资产进行严格控制以便遵循行业法规。鉴于现代计算
机系统的分发和网络配置,满足监管要求堪称挑战,而且了解各计算机数据促使这项本已非
常艰巨的任务变得更加复杂。与其他行业一样,银行业已将目光转向计算技术以提高库存控
制有效性以及降低成本,但往往只是零打碎敲。例如,某家银行从前依赖 40 多个系统共
同管理数百 TB 的海量数据。这种“系统套系统”的技术不仅难以处理而且效率极低。单
是解答某台计算机的配置及其管理的数据这样一个看似简单的问题都可能需要经过数周的
工作才能完成。
经过数据管理战略反思后,这家银行决定创建新型基础架构主数据中心开展 IBM DB2 与
Netezza 设备协作。借助 DB2 的巨大可扩展性,这家银行将此前通过 40 多个系统分发的
数百 TB 数据整合至采用通用数据模型的单一集成数据库。除数据整合外,DB2 还作为操
作数据存储 (ODS),以极高的到达率响应简短查询。集成软件会将数据从 ODS 快速迁移
至 Netezza,以便进行报告和高级分析。现在,这家银行的数据配置已在总体治理模型的
控制之下,同时其业务也已实现近实时资产清查监控。
搭配使用 Hadoop 与数据仓库
Hadoop 是一个高度可靠的可扩展式数据处理系统。其优势在于无需采用模式即可加载数
据,并且能够使用廉价硬件大规模处理及分析此类非结构化(或多结构 1)数据。Hadoop 可
分批处理数据,它不具有优化程序,也不支持随机访问和交互查询。这些都是 Netezza.等
数据库系统的优势。
Edmunds.com(一家网上汽车销售公司)将 Hadoop(作为数据接收引擎)与其 Netezza
仓库搭配使用,同时 Netezza Hadoop 适配器还可以在这些系统之间移动数据。Hadoop 负
责分析海量非结构化数据,包括数据仓库外的文本、语音和推文,将其转换为关系格式,然
后将结构化数据传输至 Netezza,以便 Edmunds.com 分析团队在这里将社交媒体和消费
者反馈整合至业务的方方面面。您可以在这里获取介绍相关详细信息的幻灯片。
通过实时复杂事件处理扩展数据仓库
西北太平洋国家实验室 (PNNL) 智能电网示范项目是美国最大的区域合作项目,涉及横跨
五个州的 11 家电力公司的 60,000 名客户。该项目通过搭配运用日志分析和实时复杂事
件处理(运用 IBM InfoSphere Streams)与数据仓库设备 (IBM Netezza) 管理大数据。
InfoSphere Streams 能够对数以百万计的消息开展分析,包括每个通信状态或事件、从电
网控制系统进行级联及检测可能会导致断电的各种问题。而后将上述数据发送到 Netezza,
Netezza 在管理事件历史记录的同时,运行更加深入的分析以便实时识别难以察觉的各种
趋势及其他模式。这些分析数据能够提高电网可靠性,并能降低动态新数据管理平台的运营
成本。Netezza 将这些分析数据返回至 InfoSphere Streams,从而精炼控制系统数据实时
分析。智能电网示范项目总监 Ron Melton 对此进行了详细介绍,请在这里观看。
作为社会计算示范项目,PNNL 智能电网示范项目超出许多企业的运作能力,但其数据管
理平台对于研究实时复杂事件处理价值的首席信息官具有很大的启发性。合并 InfoSphere
Streams 与 Netezza 为新类型的应用程序(包括金融市场交易分析、欺诈检测、网络服务
质量分析、网络威胁检测、资产监控及营销活动管理)创建数据管理平台。随着库存和资产
实现 IP 化,上述及其他应用程序的应用将更为广泛。
结束语
我们发现新型企业数据平台层出不穷。通过利用专为管理和分析海量动态和静态数据而设计
的各种技术扩展结构化数据存储,企业即可自我武装以利用任何及全部可用数据。这种全新
的大数据管理平台是分布式平台,但并非完全统一,而是不同的平台,各平台均针对自身任
务进行专化和优化,串联工作并共享数据和分析结果。在数据仓库开启大数据之旅是一种切
实有效的方法,因为它们代表最大的托管数据存储,也是企业数据集成、安全和治理技术和
经验的中心焦点。
相关主题
1.
2.
3.
4.
5.
采用高级分析技术的 IBM Netezza 数据仓库设备的总体经济影响
在数字营销环境下管理层出不穷的大数据
网络研讨会:大数据简介
大数据,大成就
为什么日志分析是开始使用大数据的好(坏)起点
Fly UP