...

Hadoopの今とこれから Yifeng Jiang Solutions Engineer, Hortonworks

by user

on
Category: Documents
28

views

Report

Comments

Transcript

Hadoopの今とこれから Yifeng Jiang Solutions Engineer, Hortonworks
Hadoopの今とこれから
Yifeng Jiang
Solutions Engineer, Hortonworks
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
自己紹介
蒋 逸峰 (Yifeng Jiang)
•  Solutions Engineer, Hortonworks
•  Apache HBase本の作者
•  ⽇本に来て10年経ちました…
•  趣味は⼭登り
•  Twitter: @uprush
Page 2
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
Page 3
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
Hadoopコミュニティのアクティビティ
コード⾏数の増加
http://ajisakaa.blogspot.jp
Page 4
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
Hortoworksのオープンリーダーシップ
Hortonworks
組織毎のコード貢献(2014年)
HortonworksのApache
コミュニティに対する影響力
コミッターの多くがHortonworks社員
-- Apache® Hadoop™プロジェクトの
全コミッターの1/3、および他の重要プロジェクト
のコミッターの大多数を占める
Hortonworksコミッターの役割
Open Enterprise Hadoopの革新と拡張
Hadoopロードマップに対する影響力
リーダーを通じて、重要な要件をコミュニティに
伝達
A PA C H E H A D O O P の コ ミ ッ タ ー
Page 6
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
About Hortonworks
顧客
•  556 のお客様 (2015年8月5日時点)
•  2015年2期に119 新規お客様追加
•  NASDAQに上場(HDP)
Hortonworks Data Platform
Founded in 2011
Original 24 architects, developers,
operators of Hadoop from Yahoo!
740+
1350+
EMPLOYEES
ECOSYSTEM
PA R T N E R S
•  完全にオープンなマルチテナント プラット
フォーム。あらゆるデータ、あらゆるアプリ。
•  一貫したエンタプライズ サービス:セキュリ
ティ、オペレーション、ガバナンス
お客様のためのパートナー
•  オープンソース コミュニティのリーダー、エン
タプライズ要件を満たすための革新に注力
•  比類のないHadoopのサポートサブスクリプ
ション
Payment
Tracking
Sentiment
Analysis
Due
Diligence
Call
Analysis
Machine
Data
Factory
Yields
Product
Design
Next
Product
Recs
Customer Optimize
Support Inventories
Social
Mapping
Ad
Placement
M&A
CrossSell
Defect
Detection
Basket
Analysis
Supply
Chain
Proactive
Repair
Segments
Inventory
Predictions
Customer Vendor
Retention Scorecards
Store
Design
Disaster Investment
Mitigation Planning
Risk
Ad
Modeling Placement
Device
Data
Ingest
OPEX
Reduction
Data
as a
Service
Historical
Records
Fraud
Prevention
Rapid
Digital
Reporting Protection
Mainframe
Offloads
Public
Data
Capture
お客様は、Hortonworks®のテクノロジーを利用してビジネスの変革を図り、新たな事業目標の達成や
コストの削減を目指している。ユースケースの多くで、カスタマージャーニーに両方の目標が組み込ま
れている。
Page 8
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
Symantec
コスト削減
Page 9
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
Symantec
ストリーム中の脅威データを分析することで、
攻撃を事前に阻止
Symantec™ Global Intelligence Network は、157 を超える
国々に設置された5,700万台以上の攻撃センサーで構成される
1億2,000万台のデバイスで作業する7,500万人のユーザーから
のデータストリーム
レガシープラットフォームでは、脅威検出のためのログファイル分
析処理で3~4時間の遅延が発生
この処理時間が攻撃者の標的になる可能性があった
Page 10
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
Symantec
数十億件のログのリアルタイム処理により
すばやい対応が可能に
新しいクラウドプラットフォームに顧客を移管
1日あたり400億件のログに対し脅威データのストリーム処理を
実行することで、企業顧客を確実に保護
数十ペタバイトの脅威ログデータを対象とした長期ストレージと
機械学習により、攻撃の予防的検出が可能に
Page 11
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
Symantec
かつてない規模の統合、コスト削減、
迅速な保護を実現
脅威検出に要する時間が4時間から2秒に
脅威検出時間を5000分の1に短縮
Symantecクラウドチームは、プロアクティブで動的なクラウドの
生成・拡張に向けてAmbariとCloudbreakを利用
Page 12
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
「これらの機能を
取り上げ、できるだ
け多くの開発者やア
ナリストに届ける必
要があります」
クラウドプラット
フォームリーダー
デビッド “DTL” リン
(David “DTL” Lin)
Symantec
Open Enterprise Hadoopでの
カスタマージャーニー
セキュリティログ
分析
デバイス
データ取り込み
Page 13
脅威検出
Greenplum
オフロード
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
攻撃者
IP検出
統合
セキュリティ
メタデータ
収集
脅威予測
プロアクティブな
防御
脅威
記録アーカイブ
Hortonworks Data Platform (HDP)
Open Enterprise Hadoop
オープン
一元化
Open
Enterprise
Hadoop
相互運用性
万全の対応
Page 15
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
Tweet: #hadooproadshow
オープン
一元化
Open
Enterprise
Hadoop
相互運用性
万全の対応
Page 16
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
Tweet: #hadooproadshow
イノベーション
完全にオープンな
Hortonworks Data Platform
リスクの解消
オープンコミュニティ
完全なオープンソースであるApache技術を提
供することで、ベンダー固定化のリスクを解消
イノベーションの
優位性
独自の HADOOP
コミュニティイノベーションの最大化
数百社の企業の数百人の開発者により、
コミュニティイノベーションを最大化
シームレスな統合
共同エンジニアリングの取り組みを通して、
他の先進技術を統合
時間
コミュニティイノベーションの最大化
Page 17
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
オープン
一元化
Open
Enterprise
Hadoop
相互運用性
万全な対応
Page 18
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
Tweet: #hadooproadshow
YARN ベースのアーキテクチャによるプラットフォーム一元化
YA R N
データオペレーティングシステム
プラットフォーム一元化
オペレーション、ガバナンス、セキュリティ
バッチ
機械学習
ガバナンス
多様なアプリケーション
単一クラスタで同時実行
ストレージ
ストレージ
データ取り込みの最大化
ローフォーマットかどうかに関係なく、新旧の
ソースに対応
セキュリティ
オペレーション
インタラクティ
ブ
ストリーミン
グ
ビッグデータ資産の共有
すべての事業部門、機能部門、ユーザー間で
の共有
検索
オープン
一元化
Open
Enterprise
Hadoop
相互運用性
万全な対応
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
Tweet: #hadooproadshow
最大限の柔軟性を提供
あらゆるデータ
あらゆるアプリケーション
あらゆる場所
新旧のデータセット
複数のデータ分析エンジン
あらゆる環境に対応
クリック
ストリーム
バッチ
センサー
オンプレミス
クラウド
Linux
Windows
インタラクティブ
ソーシャル
モバイル
検索
ストリーミング
ジオ
ロケーション
サーバ
ログ
機械学習
業界標準との同期
エコシステム相互運用性の向上
Apache Hadoop対応
オープン
プラットフォーム
Hortonworksが立ち上げたOpen Data
Platform(ODP)イニシアティブの一環
Pivotal HD
選択肢の開放
ODPコア
HDP
Apache
Hadoop
Apache
Ambari
HDPと統合された複数のベンダーのコンポーネ
ントを選択可能
IIP
無駄な当て推量の解消
システムバージョンの調整を行う必要がある
アーキテクトに対するメリット
エコシステムとの統合
パートナー
オープン
一元化
Open
Enterprise
Hadoop
相互運用性
万全な対応
Page 24
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
Tweet: #hadooproadshow
信頼できるガバナンス
YA R N
データオペレーティングシステム
データ管理
バッチ
機械学習
データライフサイクル全般における管理
GOVERNANCE
ガバナンス
メタデータによるモデリング
ストレージ
ストレージ
オペレーション
ハイブリッドアプローチにより総合的なデータリ
ネージが実現
セキュリティ
相互運用ソリューション
インタラクティ
ブ
ストリーミン
グ
検索
共通のメタデータストアにより、Hadoopエコシス
テム全体で相互運用が可能
Apache Atlas – データガバナンスのための基盤
ヘルスケア
l金融
エネルギー
小売業
その他
HIPAA
HL7
SOX
Dodd-Frank
PPDM
PCI
PII
CWM
REST API
サービス
検索
リネージ
ナレッジストア
分類
ポリシールール
型システム
モデル
SQLのようなドメイン特化型言語を使った検索
エクスチェンジ
データライフサイクル
管理
タグベースのポリシー
監査ストア
リアルタイムのタグベースアクセス制御
Apache Atlas
Rest API
Atlasサービス、 HDPコンポーネント、外部ツールへ
の柔軟なアクセスが可能
キーワード、ファセット、フルテキストによる検索
データリネージとスキーマ
HiveServer2上のすべてのSQLランタイムアクティビ
ティを取得
エクスチェンジ
既存のメタデータのインポートと、ダウンストリームシ
ステムへのメタデータのエクスポート
安定した運用
YA R N
データオペレーティングシステム
一元化
バッチ
機械学習
ガバナンス
自動プロビジョニング
Cloudbreak APIにより、オンプレミスかクラウド
のいずれかの環境に数分でクラスタをプロビ
ジョニング
ストレージ
ストレージ
オペレーション
OPERATIONS
インタラクティ
ブ
セキュリティ
ストリーミン
グ
検索
Hadoopクラスタの管理・監視
マネージドサービス
ダッシュボードとアラート機能により、高可用性
と一貫したライフサイクル管理を提供
包括的なセキュリティ
YA R N
データオペレーティングシステム
包括的なセキュリティ
バッチ
機械学習
ガバナンス
暗号化
保存データと移動中のデータの暗号化
ストレージ
ストレージ
オペレーション
プラットフォームアプローチによるセキュリティ
管理の一元化
セキュリティ
SECURITY
セキュリティポリシーとユーザー認証の管理
インタラクティ
ブ
ストリーミン
グ
きめ細かな承認
データアクセスを管理
検索
安定した運用と包括的なセキュリティ
Apache Ambari
Apache Ranger
安定した運用
包括的なセキュリティ
容易なセットアップと設定
すべてのコンポーネントの承認と監査
リアルタイムのカスタマイズが可能なダッシュ
ボード
HDFSの透過的なデータ暗号化
ビッグデータの技術革新
~ Hadoop Core ~
©Page
Hortonworks
30
Inc. 2015.
All Rights Inc.
Reserved
© Hortonworks
2011 – 2015. All Rights Reserved
HDFSとYARN – イノベーションの基盤
Hadoop / YARNを用いたデータオペレーティングシステム
あらゆるアプリケーション、データセット、環境に対応する、
100%オープンソースのマルチテナント型データプラットフォーム
データアクセス:バッチ、インタラクティブ、リアルタイム
リソース管理
ガバナンス
セキュリティ
YARN
オペレーション
ストレージ
コモディティ
Page 31
アプライアンス
クラウド
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
共有エンタープライズサービスの集中型アーキテクチャをベース
に構築
拡張可能な階層型ストレージ
リソース/ワークロード管理
信頼性に優れたデータガバナンスとメタデータ管理
安定した運用
包括的なセキュリティ
開発者向けAPIとツール
HDFS:拡張性、信頼性、安全性に優れたストレージプラットフォーム
拡張性
データの増加にあわせて水平方向に拡張し、1つ以上の
ノードを1度に追加
信頼性
高可用性(HA)とフォルトトレラント性により、データの
損失と破損を防止
YARN:データオペレーティングシステム
発信元/
発信先
NFS
発信元/
発信先
REST
発信元/
発信先
RPC
標準ベースの
データインターフェイス
B
A B
C
A B C
A
C
B
B
A
A
C
コスト効率
階層型ストレージで汎用ハードウェアを採用
クロスワークロードアクセス
安全性
強力なアクセス制御と認証メカニズムの統合
HDFS
あらゆるフォーマットのあらゆるデータを取り込み、保管
柔軟なリードアクセスにより多様なワークロードに対応
Page 32
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
すべてのユーザー/グループのデータセットへのアクセス
を細かく制御
移動中のデータ/保存データを保護
HDFSのエンタプライズ機能
エンタプライズ機能
•  Namenode HA(冗⻑化)
• 
単⼀障害点がない
•  ファイル システム スナップショット
•  HDFS NFS Gateway
• 
HDFSをNFSマウント、データを簡単にHadoopに
•  データ暗号化 (HDFS TDE)
• 
Page 33
データを置くだけで⾃動暗号化
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
HDFS -- 大規模向け更に効率アップ
⼤規模向け
•  ティア・ストレージ
• 
HDD, SSD, アーカイブ, RAM Disk
• 
アーカイブ・ティア:コストが最⼤1/6までダウン
•  Erasure Code
• 
⽇本のエンジニアからの貢献が⼤きい
• 
3レプリケーションと⽐べ、ストレージ効率が2倍
Cluster Storage and Compute Capacity
Cluster Storage Utilization
Compute Utilization
Page 34
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
HDPとIsilon -- デプロイメント
Page 35
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
YARNにおけるマルチテナント/ワークロード
Page 36
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
HDP 2.3内のApache Spark 1.4.1
完璧な組み合わせ
アプリケーション
Spark
SQL
Spark
Streaming
GraphX
Sparkコアエンジン
Sparkコアエンジン
YARN
HDFS
オペレーション
MLlib
セキュリティ
ガバナンスと統合
Scala
Java
Python
API
セキュリティ、
プラットフォーム統合、
Zepplinによる可視化など
リソース管理 – Spark on YARN
マルチテナントワークロードと予測可能なSLA
SparkR*
RデータサイエンティストはSpark機械学習を活用
可能
Page 37
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
YARN - エコシステムの拡大
データアクセス
バッチ
スクリプト
SQL
NoSQL
ストリーム
検索
インメモリ
その他
MapReduce
Pig
Hive
HBase
Accumulo
Phoenix
Storm
Solr
Spark
ISVエンジン
Tez
Tez
Slider
Slider
YARN:データオペレーティングシステム
1
°
°
°
°
°
°
°
°
°
°
°
°
°
N
HDFS Hadoop Distributed File System
°
°
°
°
°
°
°
データ管理
Linux
Page 38
Windows
環境の選択肢
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
オンプレミス
クラウド
SAS統合
SASで、Hadoopからのデータの取り出し、
Hadoopを利用したインメモリ処理、 Hadoop
クラスタ内での直接動作が可能に
Slider
Hbase、Accumolo、StormなどのSlider経由で
YARN上のDocker化アプリケーションを実行
Solr
HDP 2.3を利用して Solr検索エンジンをYARN
上で実行できるように
YARNとDocker
セキュアなクラスタおよびアンセキュアなクラス
タでコンテナを実行するための透過的な方法
Data Operating System
Enable all data and applications
TO BE
accessible and shared
BY
any end-user
Page 39
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
Page 40
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
Page 41
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
DataDiscoveryandPredic1veAnaly1cs
ElefanteWineInc.
UseCase&Demo
Hortonworksブースに
お越しください
Page 42
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
サンドボックスをダウンロードし、試し
てみてください:
hortonworks.com/sandbox
Page 43
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
Tweet: #hadooproadshow
Thank You
Page 44
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
Tweet: #hadooproadshow
Fly UP