Comments
Transcript
2장 빅데이터 물결을 넘는 분석의 전략 2막, 비정형 데이터 분석을 위한
2장 빅데이터 물결을 넘는 분석의 전략 2막, 비정형 데이터 분석을 위한 하둡 기반의 분석 방법 이 정권 실장 IBM SWG 정보 관리팀 R © 2012 IBM Corporation http://www.ibm.com/developerworks/kr/ Content 1. 빅 데이터 도전 2. IBM의 접근 방식 3. Use Case R © 2012 IBM Corporation http://www.ibm.com/developerworks/kr/ 기업은 보다 깊은 인사이트를 필요로 합니다. 83% 의 CIO들이 “비즈니스 인텔리전스와 분석”이 기업의 경쟁력을 강화하는데 주요 요소라고 생각하고 있습니다. 60% 의 of CEO들이 비즈니스 결정을 내리기 위해서 정보에 대한 수집과 빠른 이해에 대한 필요를 느끼고 있습니다. R 1 in 3 비즈니스 리더들은 자주 자신들의 결정이 신뢰하기 어려운 정보 기반하에 이루어진다고 생각합니다. 1 in 2 비즈니스 리더들은 자신들의 작업을 수행하기 위한 정보에 접근하지 못하고 있다고 느낍니다. © 2012 IBM Corporation http://www.ibm.com/developerworks/kr/ 비정형 데이터에 대한 인사이트가 필요합니다. 44x 데이터가 점점 증가하고 있습니다. 2020 35 zettabytes 80% 의 데이터가 비정형 형태의 데이터입니다. 2009 800,000 petabytes R © 2012 IBM Corporation http://www.ibm.com/developerworks/kr/ 빅 데이터 시장이 점점 더 커질 것이라고 예측하고 있습니다. Big Data Market Forecast - Wikibon R © 2012 IBM Corporation http://www.ibm.com/developerworks/kr/ Content 1. 빅 데이터 도전 2. IBM의 접근 방식 3. Use Case R © 2012 IBM Corporation http://www.ibm.com/developerworks/kr/ IBM Big Data Platform InfoSphere BigInsights Hadoop-based low latency analytics for variety and volume Hadoop InfoSphere Information Server InfoSphere Streams Low Latency Analytics for streaming data High volume data integration and transformation Information Integration IBM InfoSphere Warehouse structured data analytics R IBM Netezza High Capacity Appliance Queryable Archive Structured Data Stream Computing IBM Netezza 1000 BI+Ad Hoc Analytics on Structured Data IBM Smart Analytics System Operational Analytics on Structured Data IBM Informix Timeseries Time-structured analytics © 2012 IBM Corporation http://www.ibm.com/developerworks/kr/ Hadoop이란 ? Apache Hadoop = free, open source framework for data-intensive applications – Google 기술에 의해 영향을 받음 (MapReduce, GFS) – Batch-Oriented, Read-Intensive 응용프로그램들에 초점을 맞춤 – Nutch (오픈 소스 웹 검색 기술)의 확장성 이슈를 해결하기 위해 시작됨 Highly Parallel Processing in cost-effective manner – CPU + disks of commodity box = Hadoop “node” – 노드들이 클러스터로 묶여 있음 – 신규 노드를 기존 노드들의 변경 없이 추가가 용이함 • 데이터의 포맷 • 데이터가 적재되는 방식 • Job이 쓰여진 방식 R © 2012 IBM Corporation http://www.ibm.com/developerworks/kr/ Apache Hadoop의 Limitations (예) Need to “roll your own” or “deal with multiple suppliers” – Iteratively install, configure, and test Hadoop and complementary projects – Verify software pre-requisites and project versions for compatibility – Add-your-own analytics Pig/Hive (Languages) – Limited support for nested objects, multi-level hierarachies – 상용 DBMS에 대한 built-in connectivity 부족 Storage: Hadoop Distributed File System (HDFS) – NameNode = single point of failure – Limited POSIX compliance. Cannot run other applications on node. – 파일 시스템에 대한 보안 취약 Open source community를 통한 기술 지원 (or your own experts) R © 2012 IBM Corporation http://www.ibm.com/developerworks/kr/ Hadoop Echo System R © 2012 IBM Corporation http://www.ibm.com/developerworks/kr/ Hadoop을 기업으로 확장하기 Usability Platform for V3 웹 콘솔/통합 설치 Enhanced Hadoop foundation Big Sheet Storage, 보안, 클러스터 관리 Analytics for V3 Text Analytics Machine Learning Eclipse Tooling Ready-made “app” InfoSphere BigInsights Performance Adaptive MapReduce Integration Connectivity to DB2, Netezza, JDBC 지원 상용 DBMS FAIR 잡 스케즐러 압축 기술 빅 인덱스 R © 2012 IBM Corporation http://www.ibm.com/developerworks/kr/ InfoSphere BigInsights Enterprise Edition Enterprise class Licensed Business process accelerators (“Apps”) Text analytics Spreadsheet-style analysis tool RDBMS, warehouse connectivity Integrated Web-based console Flexible job scheduler Basic Edition Performance enhancements Eclipse-based tooling Free download LDAP authentication Integrated install Online InfoCenter BigData Univ. Apache Hadoop Breadth of capabilities R © 2012 IBM Corporation http://www.ibm.com/developerworks/kr/ 웹 기반의 통합 설치 및 관리 기능 R 통합 설치 Job / Workflow 관리 시스템 헬스 관리 클러스터 / 파일 관리 © 2012 IBM Corporation http://www.ibm.com/developerworks/kr/ Role 기반의 보안 지원 Application Role 권한 시스템 관리자 모든 시스템 관리 작업 수행, 예를 들어 클러스터 모니터링과 노드 추가, 삭제, 시작 및 정지 등의 작업 수행 데이터 관리자 모든 데이터 관리 작업 수행, 예를 들어 디렉토리 생성, Hadoop 파일 시스템 명령어 수행, 파일 적재, 삭제, 다운로드 및 보기 등의 작업 수행 어플리케이션 관리자 모든 어플리케이션 관리 작업 수행, 예를 들어 어플리케이션 발행/삭제, 어플리케이션 배치/제거, 런타임 라이브러리 변경 및 어플리케이션 수행 권한 할당 증의 작업 수행 사용자 사용자에게 권한이 부여된 어플리케이션 수행 및 데이터와 결과 보기, 클러스터 상태 보기 등의 작업 수행 R © 2012 IBM Corporation http://www.ibm.com/developerworks/kr/ Map Reduce 작업을 개발하기 쉬운 스크립트 제공 MapReduce development in Java Pig Skill Required – Open source language / Apache sub-project Hive – Open source language / Apache sub-project – Provides a SQL-like interface to Hadoop Jaql – IBM Research Invented query language – Very useful for loosely structured data R © 2012 IBM Corporation http://www.ibm.com/developerworks/kr/ Eclipse 기반의 개발 환경 지원 Java MR HIVE Jaql R © 2012 IBM Corporation http://www.ibm.com/developerworks/kr/ 스프레드 시트 스타일의 데이터 탐색 기능 제공 R © 2012 IBM Corporation http://www.ibm.com/developerworks/kr/ Splitable 기능을 제공하는 압축 기능 R © 2012 IBM Corporation http://www.ibm.com/developerworks/kr/ Eclipse 개발 환경을 통한 텍스트 분석 기능 Documents Media Mathematical .doc Images Legal Sensors Video Papers Feeds Audio Filings Geospatial Voice Weather BLAH Data or Blahta Header (Metadata) plus BLAH BLAH BLAH Tweet: created_at: user_id: user_name text: BLAH BLAHG BLAH BLAH BLAH BLAH BLAH BLAH Facebook: NameID: created_time: updated_time: message: BLAH BLAH BLAH BLAHG BLAH BLAH BLOG: url: sessionId: datetime: tx: BLAH BLAH BLAH BLAH BLAH BLAH BLAHD BLAH BLAH BLAH Forum: url/forum: published: author: texthtml: BLAH BLAH BLAHG BLAH BLAH BLAH BLAHG BLAH GProfile: name: id: desc: BLAH BLAHD BLAH BLAH BLAH BLAH BLAH BLAHD BLAH BLAH MapReduce Text Analytics (SystemT) ID’s 와 BLAHG가 연관이 있는가 ? BLAHG와 BLAHD 가 연관이 있는가 ? BLAHG 의 사용이 date/time 과 연관이 있는가 ? R © 2012 IBM Corporation http://www.ibm.com/developerworks/kr/ 데이터 Search 기능을 제공하는 Big Index Map Task JSON records extracted with text analytics Index Reduce Task Index ... JSON Indexer Merge BigIndex for Batch 1 Data ... JSON records extracted with text analytics Index R Combine Optimized “Master” BigIndex for Batch 1 & 2 Data BigIndex for Batch 2 Data © 2012 IBM Corporation http://www.ibm.com/developerworks/kr/ 기간계 DB와의 연동 기능 DB2 LUW, IW with DPF Netezza JDBC DBMS R © 2012 IBM Corporation http://www.ibm.com/developerworks/kr/ Content 1. 빅 데이터 도전 2. IBM의 접근 방식 3. Use Case R © 2012 IBM Corporation http://www.ibm.com/developerworks/kr/ 웹 로그 분석 BigInsights Web Server Data Loading Web Log Extraction Custom Parsers Commands Web logs JMX Flume HDFS (Java…) Text Analytics (System T) Query data Jaql Hadoop Shell Hadoop APIs JSON data Jaql Analytics # of shopping carts abandoned at shipping/registration R RESULT © 2012 IBM Corporation http://www.ibm.com/developerworks/kr/ 소셜 미디어 데이터 처리 Social media data Load BigInsights Clean (De-duplicate, Annotate) Forums, blogs, microblogs, news , video Data for reporting Jaql Commands URL Dictionary Legit site Removal Further processing Query data using REST interface / BigInsights App Clean Data Expanded URLs Data Aggregations R © 2012 IBM Corporation http://www.ibm.com/developerworks/kr/ Adpative Analytics Visualization of realtime and historical insights Data Integration, data mining, machine learning, statistical modeling InfoSphere Streams 1. Data Ingest Data 2. Bootstrap/Enrich Data ingest, preparation, online analysis, model validation Control flow InfoSphere BigInsights, Database & Warehouse 3. Adaptive Analytics Model R © 2012 IBM Corporation http://www.ibm.com/developerworks/kr/ 감사합니다. R © 2012 IBM Corporation