...

2장 빅데이터 물결을 넘는 분석의 전략 2막, 비정형 데이터 분석을 위한

by user

on
Category: Documents
36

views

Report

Comments

Transcript

2장 빅데이터 물결을 넘는 분석의 전략 2막, 비정형 데이터 분석을 위한
2장 빅데이터 물결을 넘는 분석의 전략
2막, 비정형 데이터 분석을 위한
하둡 기반의 분석 방법
이 정권 실장
IBM SWG 정보 관리팀
R
© 2012 IBM Corporation
http://www.ibm.com/developerworks/kr/
Content
1. 빅 데이터 도전
2. IBM의 접근 방식
3. Use Case
R
© 2012 IBM Corporation
http://www.ibm.com/developerworks/kr/
기업은 보다 깊은 인사이트를 필요로 합니다.
83%
의 CIO들이 “비즈니스
인텔리전스와 분석”이 기업의
경쟁력을 강화하는데 주요
요소라고 생각하고 있습니다.
60%
의 of CEO들이 비즈니스 결정을
내리기 위해서 정보에 대한 수집과
빠른 이해에 대한 필요를 느끼고
있습니다.
R
1 in 3
비즈니스 리더들은 자주
자신들의 결정이 신뢰하기
어려운 정보 기반하에
이루어진다고 생각합니다.
1 in 2
비즈니스 리더들은 자신들의
작업을 수행하기 위한 정보에
접근하지 못하고 있다고
느낍니다.
© 2012 IBM Corporation
http://www.ibm.com/developerworks/kr/
비정형 데이터에 대한 인사이트가 필요합니다.
44x
데이터가 점점
증가하고 있습니다.
2020
35 zettabytes
80%
의 데이터가 비정형
형태의 데이터입니다.
2009
800,000 petabytes
R
© 2012 IBM Corporation
http://www.ibm.com/developerworks/kr/
빅 데이터 시장이 점점 더 커질 것이라고 예측하고 있습니다.
Big Data Market Forecast - Wikibon
R
© 2012 IBM Corporation
http://www.ibm.com/developerworks/kr/
Content
1. 빅 데이터 도전
2. IBM의 접근 방식
3. Use Case
R
© 2012 IBM Corporation
http://www.ibm.com/developerworks/kr/
IBM Big Data Platform
InfoSphere BigInsights
Hadoop-based low latency
analytics for variety and volume
Hadoop
InfoSphere Information
Server
InfoSphere Streams
Low Latency Analytics for
streaming data
High volume data integration
and transformation
Information Integration
IBM InfoSphere
Warehouse
structured data analytics
R
IBM Netezza High
Capacity Appliance
Queryable Archive
Structured Data
Stream Computing
IBM Netezza 1000
BI+Ad Hoc
Analytics on Structured Data
IBM Smart Analytics
System
Operational Analytics on
Structured Data
IBM Informix Timeseries
Time-structured analytics
© 2012 IBM Corporation
http://www.ibm.com/developerworks/kr/
Hadoop이란 ?
Apache Hadoop = free, open source framework for data-intensive applications
– Google 기술에 의해 영향을 받음 (MapReduce, GFS)
– Batch-Oriented, Read-Intensive 응용프로그램들에 초점을 맞춤
– Nutch (오픈 소스 웹 검색 기술)의 확장성 이슈를 해결하기 위해 시작됨
Highly Parallel Processing in cost-effective manner
– CPU + disks of commodity box = Hadoop “node”
– 노드들이 클러스터로 묶여 있음
– 신규 노드를 기존 노드들의 변경 없이 추가가 용이함
• 데이터의 포맷
• 데이터가 적재되는 방식
• Job이 쓰여진 방식
R
© 2012 IBM Corporation
http://www.ibm.com/developerworks/kr/
Apache Hadoop의 Limitations (예)
Need to “roll your own” or “deal with multiple suppliers”
– Iteratively install, configure, and test Hadoop and complementary projects
– Verify software pre-requisites and project versions for compatibility
– Add-your-own analytics
Pig/Hive (Languages)
– Limited support for nested objects, multi-level hierarachies
– 상용 DBMS에 대한 built-in connectivity 부족
Storage: Hadoop Distributed File System (HDFS)
– NameNode = single point of failure
– Limited POSIX compliance. Cannot run other applications on node.
– 파일 시스템에 대한 보안 취약
Open source community를 통한 기술 지원 (or your own experts)
R
© 2012 IBM Corporation
http://www.ibm.com/developerworks/kr/
Hadoop Echo System
R
© 2012 IBM Corporation
http://www.ibm.com/developerworks/kr/
Hadoop을 기업으로 확장하기
Usability
Platform for V3
웹 콘솔/통합 설치
Enhanced Hadoop foundation
Big Sheet
Storage, 보안, 클러스터 관리
Analytics for V3
Text Analytics
Machine Learning
Eclipse Tooling
Ready-made “app”
InfoSphere
BigInsights
Performance
Adaptive MapReduce
Integration
Connectivity to DB2,
Netezza, JDBC 지원 상용
DBMS
FAIR 잡 스케즐러
압축 기술
빅 인덱스
R
© 2012 IBM Corporation
http://www.ibm.com/developerworks/kr/
InfoSphere BigInsights
Enterprise Edition
Enterprise class
Licensed
Business process accelerators (“Apps”)
Text analytics
Spreadsheet-style analysis tool
RDBMS, warehouse connectivity
Integrated Web-based console
Flexible job scheduler
Basic Edition
Performance enhancements
Eclipse-based tooling
Free download
LDAP authentication
Integrated install
Online InfoCenter
BigData Univ.
Apache
Hadoop
Breadth of capabilities
R
© 2012 IBM Corporation
http://www.ibm.com/developerworks/kr/
웹 기반의 통합 설치 및 관리 기능
R
통합 설치
Job / Workflow 관리
시스템 헬스 관리
클러스터 / 파일 관리
© 2012 IBM Corporation
http://www.ibm.com/developerworks/kr/
Role 기반의 보안 지원
Application Role
권한
시스템 관리자
모든 시스템 관리 작업 수행, 예를 들어 클러스터 모니터링과 노드 추가, 삭제,
시작 및 정지 등의 작업 수행
데이터 관리자
모든 데이터 관리 작업 수행, 예를 들어 디렉토리 생성, Hadoop 파일 시스템
명령어 수행, 파일 적재, 삭제, 다운로드 및 보기 등의 작업 수행
어플리케이션 관리자
모든 어플리케이션 관리 작업 수행, 예를 들어 어플리케이션 발행/삭제,
어플리케이션 배치/제거, 런타임 라이브러리 변경 및 어플리케이션 수행 권한
할당 증의 작업 수행
사용자
사용자에게 권한이 부여된 어플리케이션 수행 및 데이터와 결과 보기, 클러스터
상태 보기 등의 작업 수행
R
© 2012 IBM Corporation
http://www.ibm.com/developerworks/kr/
Map Reduce 작업을 개발하기 쉬운 스크립트 제공
MapReduce development in Java
Pig
Skill Required
– Open source language / Apache sub-project
Hive
– Open source language / Apache sub-project
– Provides a SQL-like interface to Hadoop
Jaql
– IBM Research Invented query language
– Very useful for loosely structured data
R
© 2012 IBM Corporation
http://www.ibm.com/developerworks/kr/
Eclipse 기반의 개발 환경 지원
Java MR
HIVE
Jaql
R
© 2012 IBM Corporation
http://www.ibm.com/developerworks/kr/
스프레드 시트 스타일의 데이터 탐색 기능 제공
R
© 2012 IBM Corporation
http://www.ibm.com/developerworks/kr/
Splitable 기능을 제공하는 압축 기능
R
© 2012 IBM Corporation
http://www.ibm.com/developerworks/kr/
Eclipse 개발 환경을 통한 텍스트 분석 기능
Documents
Media
Mathematical
.doc
Images
Legal
Sensors
Video
Papers
Feeds
Audio
Filings
Geospatial
Voice
Weather
BLAH Data or Blahta
Header (Metadata)
plus
BLAH BLAH BLAH
Tweet: created_at: user_id: user_name text: BLAH BLAHG BLAH BLAH BLAH BLAH BLAH BLAH
Facebook: NameID: created_time: updated_time: message: BLAH BLAH BLAH BLAHG BLAH BLAH
BLOG: url: sessionId: datetime: tx: BLAH BLAH BLAH BLAH BLAH BLAH BLAHD BLAH BLAH BLAH
Forum: url/forum: published: author: texthtml: BLAH BLAH BLAHG BLAH BLAH BLAH BLAHG BLAH
GProfile: name: id: desc: BLAH BLAHD BLAH BLAH BLAH BLAH BLAH BLAHD BLAH BLAH
MapReduce
Text Analytics (SystemT)
ID’s 와 BLAHG가 연관이 있는가 ?
BLAHG와 BLAHD 가 연관이 있는가 ?
BLAHG 의 사용이 date/time 과 연관이 있는가 ?
R
© 2012 IBM Corporation
http://www.ibm.com/developerworks/kr/
데이터 Search 기능을 제공하는 Big Index
Map Task
JSON
records
extracted
with text
analytics
Index
Reduce Task
Index
...
JSON
Indexer
Merge
BigIndex for
Batch 1 Data
...
JSON
records
extracted
with text
analytics
Index
R
Combine
Optimized
“Master”
BigIndex
for Batch 1
& 2 Data
BigIndex for
Batch 2 Data
© 2012 IBM Corporation
http://www.ibm.com/developerworks/kr/
기간계 DB와의 연동 기능
DB2
LUW,
IW with
DPF
Netezza
JDBC
DBMS
R
© 2012 IBM Corporation
http://www.ibm.com/developerworks/kr/
Content
1. 빅 데이터 도전
2. IBM의 접근 방식
3. Use Case
R
© 2012 IBM Corporation
http://www.ibm.com/developerworks/kr/
웹 로그 분석
BigInsights
Web Server
Data Loading
Web Log Extraction
Custom Parsers
Commands
Web logs
JMX
Flume
HDFS
(Java…)
Text Analytics
(System T)
Query data
Jaql
Hadoop Shell
Hadoop APIs
JSON data
Jaql
Analytics
# of shopping carts
abandoned at
shipping/registration
R
RESULT
© 2012 IBM Corporation
http://www.ibm.com/developerworks/kr/
소셜 미디어 데이터 처리
Social media
data
Load BigInsights
Clean
(De-duplicate,
Annotate)
Forums, blogs, microblogs,
news , video
Data for reporting
Jaql
Commands
URL
Dictionary
Legit site
Removal
Further
processing
Query data using
REST interface
/ BigInsights App
Clean Data
Expanded URLs Data
Aggregations
R
© 2012 IBM Corporation
http://www.ibm.com/developerworks/kr/
Adpative Analytics
Visualization of realtime and historical
insights
Data Integration,
data mining,
machine learning,
statistical modeling
InfoSphere
Streams
1. Data Ingest
Data
2. Bootstrap/Enrich
Data ingest,
preparation,
online analysis,
model validation
Control
flow
InfoSphere
BigInsights,
Database &
Warehouse
3. Adaptive Analytics Model
R
© 2012 IBM Corporation
http://www.ibm.com/developerworks/kr/
감사합니다.
R
© 2012 IBM Corporation
Fly UP