Hadoopの今とこれから Yifeng Jiang Solutions Engineer, Hortonworks
by user
Comments
Transcript
Hadoopの今とこれから Yifeng Jiang Solutions Engineer, Hortonworks
Hadoopの今とこれから Yifeng Jiang Solutions Engineer, Hortonworks © Hortonworks Inc. 2011 – 2015. All Rights Reserved 自己紹介 蒋 逸峰 (Yifeng Jiang) • Solutions Engineer, Hortonworks • Apache HBase本の作者 • ⽇本に来て10年経ちました… • 趣味は⼭登り • Twitter: @uprush Page 2 © Hortonworks Inc. 2011 – 2015. All Rights Reserved Page 3 © Hortonworks Inc. 2011 – 2015. All Rights Reserved Hadoopコミュニティのアクティビティ コード⾏数の増加 http://ajisakaa.blogspot.jp Page 4 © Hortonworks Inc. 2011 – 2015. All Rights Reserved Hortoworksのオープンリーダーシップ Hortonworks 組織毎のコード貢献(2014年) HortonworksのApache コミュニティに対する影響力 コミッターの多くがHortonworks社員 -- Apache® Hadoop™プロジェクトの 全コミッターの1/3、および他の重要プロジェクト のコミッターの大多数を占める Hortonworksコミッターの役割 Open Enterprise Hadoopの革新と拡張 Hadoopロードマップに対する影響力 リーダーを通じて、重要な要件をコミュニティに 伝達 A PA C H E H A D O O P の コ ミ ッ タ ー Page 6 © Hortonworks Inc. 2011 – 2015. All Rights Reserved About Hortonworks 顧客 • 556 のお客様 (2015年8月5日時点) • 2015年2期に119 新規お客様追加 • NASDAQに上場(HDP) Hortonworks Data Platform Founded in 2011 Original 24 architects, developers, operators of Hadoop from Yahoo! 740+ 1350+ EMPLOYEES ECOSYSTEM PA R T N E R S • 完全にオープンなマルチテナント プラット フォーム。あらゆるデータ、あらゆるアプリ。 • 一貫したエンタプライズ サービス:セキュリ ティ、オペレーション、ガバナンス お客様のためのパートナー • オープンソース コミュニティのリーダー、エン タプライズ要件を満たすための革新に注力 • 比類のないHadoopのサポートサブスクリプ ション Payment Tracking Sentiment Analysis Due Diligence Call Analysis Machine Data Factory Yields Product Design Next Product Recs Customer Optimize Support Inventories Social Mapping Ad Placement M&A CrossSell Defect Detection Basket Analysis Supply Chain Proactive Repair Segments Inventory Predictions Customer Vendor Retention Scorecards Store Design Disaster Investment Mitigation Planning Risk Ad Modeling Placement Device Data Ingest OPEX Reduction Data as a Service Historical Records Fraud Prevention Rapid Digital Reporting Protection Mainframe Offloads Public Data Capture お客様は、Hortonworks®のテクノロジーを利用してビジネスの変革を図り、新たな事業目標の達成や コストの削減を目指している。ユースケースの多くで、カスタマージャーニーに両方の目標が組み込ま れている。 Page 8 © Hortonworks Inc. 2011 – 2015. All Rights Reserved Symantec コスト削減 Page 9 © Hortonworks Inc. 2011 – 2015. All Rights Reserved Symantec ストリーム中の脅威データを分析することで、 攻撃を事前に阻止 Symantec™ Global Intelligence Network は、157 を超える 国々に設置された5,700万台以上の攻撃センサーで構成される 1億2,000万台のデバイスで作業する7,500万人のユーザーから のデータストリーム レガシープラットフォームでは、脅威検出のためのログファイル分 析処理で3~4時間の遅延が発生 この処理時間が攻撃者の標的になる可能性があった Page 10 © Hortonworks Inc. 2011 – 2015. All Rights Reserved Symantec 数十億件のログのリアルタイム処理により すばやい対応が可能に 新しいクラウドプラットフォームに顧客を移管 1日あたり400億件のログに対し脅威データのストリーム処理を 実行することで、企業顧客を確実に保護 数十ペタバイトの脅威ログデータを対象とした長期ストレージと 機械学習により、攻撃の予防的検出が可能に Page 11 © Hortonworks Inc. 2011 – 2015. All Rights Reserved Symantec かつてない規模の統合、コスト削減、 迅速な保護を実現 脅威検出に要する時間が4時間から2秒に 脅威検出時間を5000分の1に短縮 Symantecクラウドチームは、プロアクティブで動的なクラウドの 生成・拡張に向けてAmbariとCloudbreakを利用 Page 12 © Hortonworks Inc. 2011 – 2015. All Rights Reserved 「これらの機能を 取り上げ、できるだ け多くの開発者やア ナリストに届ける必 要があります」 クラウドプラット フォームリーダー デビッド “DTL” リン (David “DTL” Lin) Symantec Open Enterprise Hadoopでの カスタマージャーニー セキュリティログ 分析 デバイス データ取り込み Page 13 脅威検出 Greenplum オフロード © Hortonworks Inc. 2011 – 2015. All Rights Reserved 攻撃者 IP検出 統合 セキュリティ メタデータ 収集 脅威予測 プロアクティブな 防御 脅威 記録アーカイブ Hortonworks Data Platform (HDP) Open Enterprise Hadoop オープン 一元化 Open Enterprise Hadoop 相互運用性 万全の対応 Page 15 © Hortonworks Inc. 2011 – 2015. All Rights Reserved Tweet: #hadooproadshow オープン 一元化 Open Enterprise Hadoop 相互運用性 万全の対応 Page 16 © Hortonworks Inc. 2011 – 2015. All Rights Reserved Tweet: #hadooproadshow イノベーション 完全にオープンな Hortonworks Data Platform リスクの解消 オープンコミュニティ 完全なオープンソースであるApache技術を提 供することで、ベンダー固定化のリスクを解消 イノベーションの 優位性 独自の HADOOP コミュニティイノベーションの最大化 数百社の企業の数百人の開発者により、 コミュニティイノベーションを最大化 シームレスな統合 共同エンジニアリングの取り組みを通して、 他の先進技術を統合 時間 コミュニティイノベーションの最大化 Page 17 © Hortonworks Inc. 2011 – 2015. All Rights Reserved オープン 一元化 Open Enterprise Hadoop 相互運用性 万全な対応 Page 18 © Hortonworks Inc. 2011 – 2015. All Rights Reserved Tweet: #hadooproadshow YARN ベースのアーキテクチャによるプラットフォーム一元化 YA R N データオペレーティングシステム プラットフォーム一元化 オペレーション、ガバナンス、セキュリティ バッチ 機械学習 ガバナンス 多様なアプリケーション 単一クラスタで同時実行 ストレージ ストレージ データ取り込みの最大化 ローフォーマットかどうかに関係なく、新旧の ソースに対応 セキュリティ オペレーション インタラクティ ブ ストリーミン グ ビッグデータ資産の共有 すべての事業部門、機能部門、ユーザー間で の共有 検索 オープン 一元化 Open Enterprise Hadoop 相互運用性 万全な対応 © Hortonworks Inc. 2011 – 2015. All Rights Reserved Tweet: #hadooproadshow 最大限の柔軟性を提供 あらゆるデータ あらゆるアプリケーション あらゆる場所 新旧のデータセット 複数のデータ分析エンジン あらゆる環境に対応 クリック ストリーム バッチ センサー オンプレミス クラウド Linux Windows インタラクティブ ソーシャル モバイル 検索 ストリーミング ジオ ロケーション サーバ ログ 機械学習 業界標準との同期 エコシステム相互運用性の向上 Apache Hadoop対応 オープン プラットフォーム Hortonworksが立ち上げたOpen Data Platform(ODP)イニシアティブの一環 Pivotal HD 選択肢の開放 ODPコア HDP Apache Hadoop Apache Ambari HDPと統合された複数のベンダーのコンポーネ ントを選択可能 IIP 無駄な当て推量の解消 システムバージョンの調整を行う必要がある アーキテクトに対するメリット エコシステムとの統合 パートナー オープン 一元化 Open Enterprise Hadoop 相互運用性 万全な対応 Page 24 © Hortonworks Inc. 2011 – 2015. All Rights Reserved Tweet: #hadooproadshow 信頼できるガバナンス YA R N データオペレーティングシステム データ管理 バッチ 機械学習 データライフサイクル全般における管理 GOVERNANCE ガバナンス メタデータによるモデリング ストレージ ストレージ オペレーション ハイブリッドアプローチにより総合的なデータリ ネージが実現 セキュリティ 相互運用ソリューション インタラクティ ブ ストリーミン グ 検索 共通のメタデータストアにより、Hadoopエコシス テム全体で相互運用が可能 Apache Atlas – データガバナンスのための基盤 ヘルスケア l金融 エネルギー 小売業 その他 HIPAA HL7 SOX Dodd-Frank PPDM PCI PII CWM REST API サービス 検索 リネージ ナレッジストア 分類 ポリシールール 型システム モデル SQLのようなドメイン特化型言語を使った検索 エクスチェンジ データライフサイクル 管理 タグベースのポリシー 監査ストア リアルタイムのタグベースアクセス制御 Apache Atlas Rest API Atlasサービス、 HDPコンポーネント、外部ツールへ の柔軟なアクセスが可能 キーワード、ファセット、フルテキストによる検索 データリネージとスキーマ HiveServer2上のすべてのSQLランタイムアクティビ ティを取得 エクスチェンジ 既存のメタデータのインポートと、ダウンストリームシ ステムへのメタデータのエクスポート 安定した運用 YA R N データオペレーティングシステム 一元化 バッチ 機械学習 ガバナンス 自動プロビジョニング Cloudbreak APIにより、オンプレミスかクラウド のいずれかの環境に数分でクラスタをプロビ ジョニング ストレージ ストレージ オペレーション OPERATIONS インタラクティ ブ セキュリティ ストリーミン グ 検索 Hadoopクラスタの管理・監視 マネージドサービス ダッシュボードとアラート機能により、高可用性 と一貫したライフサイクル管理を提供 包括的なセキュリティ YA R N データオペレーティングシステム 包括的なセキュリティ バッチ 機械学習 ガバナンス 暗号化 保存データと移動中のデータの暗号化 ストレージ ストレージ オペレーション プラットフォームアプローチによるセキュリティ 管理の一元化 セキュリティ SECURITY セキュリティポリシーとユーザー認証の管理 インタラクティ ブ ストリーミン グ きめ細かな承認 データアクセスを管理 検索 安定した運用と包括的なセキュリティ Apache Ambari Apache Ranger 安定した運用 包括的なセキュリティ 容易なセットアップと設定 すべてのコンポーネントの承認と監査 リアルタイムのカスタマイズが可能なダッシュ ボード HDFSの透過的なデータ暗号化 ビッグデータの技術革新 ~ Hadoop Core ~ ©Page Hortonworks 30 Inc. 2015. All Rights Inc. Reserved © Hortonworks 2011 – 2015. All Rights Reserved HDFSとYARN – イノベーションの基盤 Hadoop / YARNを用いたデータオペレーティングシステム あらゆるアプリケーション、データセット、環境に対応する、 100%オープンソースのマルチテナント型データプラットフォーム データアクセス:バッチ、インタラクティブ、リアルタイム リソース管理 ガバナンス セキュリティ YARN オペレーション ストレージ コモディティ Page 31 アプライアンス クラウド © Hortonworks Inc. 2011 – 2015. All Rights Reserved 共有エンタープライズサービスの集中型アーキテクチャをベース に構築 拡張可能な階層型ストレージ リソース/ワークロード管理 信頼性に優れたデータガバナンスとメタデータ管理 安定した運用 包括的なセキュリティ 開発者向けAPIとツール HDFS:拡張性、信頼性、安全性に優れたストレージプラットフォーム 拡張性 データの増加にあわせて水平方向に拡張し、1つ以上の ノードを1度に追加 信頼性 高可用性(HA)とフォルトトレラント性により、データの 損失と破損を防止 YARN:データオペレーティングシステム 発信元/ 発信先 NFS 発信元/ 発信先 REST 発信元/ 発信先 RPC 標準ベースの データインターフェイス B A B C A B C A C B B A A C コスト効率 階層型ストレージで汎用ハードウェアを採用 クロスワークロードアクセス 安全性 強力なアクセス制御と認証メカニズムの統合 HDFS あらゆるフォーマットのあらゆるデータを取り込み、保管 柔軟なリードアクセスにより多様なワークロードに対応 Page 32 © Hortonworks Inc. 2011 – 2015. All Rights Reserved すべてのユーザー/グループのデータセットへのアクセス を細かく制御 移動中のデータ/保存データを保護 HDFSのエンタプライズ機能 エンタプライズ機能 • Namenode HA(冗⻑化) • 単⼀障害点がない • ファイル システム スナップショット • HDFS NFS Gateway • HDFSをNFSマウント、データを簡単にHadoopに • データ暗号化 (HDFS TDE) • Page 33 データを置くだけで⾃動暗号化 © Hortonworks Inc. 2011 – 2015. All Rights Reserved HDFS -- 大規模向け更に効率アップ ⼤規模向け • ティア・ストレージ • HDD, SSD, アーカイブ, RAM Disk • アーカイブ・ティア:コストが最⼤1/6までダウン • Erasure Code • ⽇本のエンジニアからの貢献が⼤きい • 3レプリケーションと⽐べ、ストレージ効率が2倍 Cluster Storage and Compute Capacity Cluster Storage Utilization Compute Utilization Page 34 © Hortonworks Inc. 2011 – 2015. All Rights Reserved HDPとIsilon -- デプロイメント Page 35 © Hortonworks Inc. 2011 – 2015. All Rights Reserved YARNにおけるマルチテナント/ワークロード Page 36 © Hortonworks Inc. 2011 – 2015. All Rights Reserved HDP 2.3内のApache Spark 1.4.1 完璧な組み合わせ アプリケーション Spark SQL Spark Streaming GraphX Sparkコアエンジン Sparkコアエンジン YARN HDFS オペレーション MLlib セキュリティ ガバナンスと統合 Scala Java Python API セキュリティ、 プラットフォーム統合、 Zepplinによる可視化など リソース管理 – Spark on YARN マルチテナントワークロードと予測可能なSLA SparkR* RデータサイエンティストはSpark機械学習を活用 可能 Page 37 © Hortonworks Inc. 2011 – 2015. All Rights Reserved YARN - エコシステムの拡大 データアクセス バッチ スクリプト SQL NoSQL ストリーム 検索 インメモリ その他 MapReduce Pig Hive HBase Accumulo Phoenix Storm Solr Spark ISVエンジン Tez Tez Slider Slider YARN:データオペレーティングシステム 1 ° ° ° ° ° ° ° ° ° ° ° ° ° N HDFS Hadoop Distributed File System ° ° ° ° ° ° ° データ管理 Linux Page 38 Windows 環境の選択肢 © Hortonworks Inc. 2011 – 2015. All Rights Reserved オンプレミス クラウド SAS統合 SASで、Hadoopからのデータの取り出し、 Hadoopを利用したインメモリ処理、 Hadoop クラスタ内での直接動作が可能に Slider Hbase、Accumolo、StormなどのSlider経由で YARN上のDocker化アプリケーションを実行 Solr HDP 2.3を利用して Solr検索エンジンをYARN 上で実行できるように YARNとDocker セキュアなクラスタおよびアンセキュアなクラス タでコンテナを実行するための透過的な方法 Data Operating System Enable all data and applications TO BE accessible and shared BY any end-user Page 39 © Hortonworks Inc. 2011 – 2015. All Rights Reserved Page 40 © Hortonworks Inc. 2011 – 2015. All Rights Reserved Page 41 © Hortonworks Inc. 2011 – 2015. All Rights Reserved DataDiscoveryandPredic1veAnaly1cs ElefanteWineInc. UseCase&Demo Hortonworksブースに お越しください Page 42 © Hortonworks Inc. 2011 – 2015. All Rights Reserved サンドボックスをダウンロードし、試し てみてください: hortonworks.com/sandbox Page 43 © Hortonworks Inc. 2011 – 2015. All Rights Reserved Tweet: #hadooproadshow Thank You Page 44 © Hortonworks Inc. 2011 – 2015. All Rights Reserved Tweet: #hadooproadshow