Comments
Transcript
BIG Dataを分析する IBMソフトウェア・テクノロジー 日本アイ・ビー・エム株式会社
渋谷テクニカルナイト BIG Dataを分析する IBMソフトウェア・テクノロジー 日本アイ・ビー・エム株式会社 ソフトウェア事業 中林 紀彦 ([email protected]) © 2010 IBM Corporation 世界は変貌を続け、以下の特徴が顕著化しつつある 世界中が 機能化 世界中が 相互接続化 すべてのモノが インテリジェント化 その結果、情報が爆発的に増大し、 これまでにないインテリジェンスの必要性が発生 Smarter Planetの構築が進む © 2010 IBM Corporation データが爆発的に増大し、世界中で様々な動きが発生 20億人の 13億個の無線ICタグ(2005年) 30億個の無線ICタグ (2010年) インターネット・ユーザーが 2011年までに出現 46億個の携帯電話 が世界中で使用される 資本市場のデータ容量が、 2003年から2006年にかけて 1,750%に増大 世界気候データセンター 220 TBのWebデータ 9 PBのその他のデータ 毎日Twitterが 7 TBのデータを処理 毎日Facebookが 10 TBのデータを処理 © 2010 IBM Corporation 情報の増大 44倍 データとコンテンツの容量が 今後10年間で増大 80% の世界中のデータは 構造化されていない 2020年 35 ZB 2009年 800,000 PB 出典: IDC(デジタル・ユニバース・デケイドへの対応状況、2010年5月) © 2010 IBM Corporation 組織はデータからより深い洞察を獲得する必要がある 3分の1 83% のビジネス・リーダーが、信頼できない情報に基づ いて意思決定を行い、情報に基づかずに意思決 定を行っています。 のCIOが、競争力を強化するための今後のプラン に不可欠な要素として「ビジネスインテリジェンスと アナリティクス」を挙げています。 2分の1 35% のビジネス・リーダーは、業務遂行のために必要な情 報にアクセスできていないと述べています。 出典: TDWI(次世代のデータウェアハウス・プラットフォーム、2009年第4四半期) のお客様が、3年後に現在のウェアハウスを事前 に設定済みのウェアハウス・ソリューション(現在 14%のお客様のみが導入済み)と入れ替えること を検討しています。 © 2010 IBM Corporation BIG Dataによって発生する課題 • • • • 増大を続ける大容量のデータを管理し、活用する 様々な形式やデータのスピードが一定しないことに対応する 構造化されていないデータを取り扱う タイムリーかつコスト効率よくBIG Dataを活用する 収集 管理 Collect Manag e 統合 Integra te 分析 Analyz e © 2010 IBM Corporation 情報爆発に対してのIBMによる包括的なアプローチ 従来のウェアハウスの機能を超える 従来の ウェアハウス 従来のデータソースと リレーショナルな データソース データベースと 休眠データの ウェアハウス 分析 Streams 最新のデータソースと リレーショナルではない データソース レイテンシーが非常に 低い分析結果 変動する情報を 分析 Internet Scale 分析結果 最新のデータソースと リレーショナルではない データソース InfoSphere Big Insights Internet Scale 従来のデータソースと リレーショナルなデータ ソース データ分析、 データ処理、および モデル構築 分析結果 © 2010 IBM Corporation 情報爆発に対してのIBMによる包括的なアプローチ 新しい種類の データ InfoSphere Big Insights 従来の データ Streamsが入ってくる データをフィルタリング StreamsがInfoSphere Warehouseの分析モデルを 再利用 恒常的なデータ 変動するデータ © 2010 IBM Corporation IBM InfoSphere Big Insights BIG Dataを収集・保存・分析することで、ビジネスの先を読むプラットフォーム コスト効率よく、Big Dataに対するソリューションを実現 • 通常入手可能なハードウェアに基づいて、数TBから数PBに直線的にシステムを拡張可能 • 構造化した情報と構造化していない情報に対応 • Hadoopによるオープンソース・フレームワーク(IBMが完全に準拠)に対応 ビジネスに対応 • InfoSphere BigSheets: データの収集・検 ソリュー ション 索・可視化のための汎用的なソリューション 環境 Cognos ECM 消費者に関する 洞察t ECMに基づく検索 ... 次世代の 信用リスク分析 • ビジネス・ナリティクス: Cognos、SPSSとの InfoSphere InfoSphere Big Big Insights Insights InfoSphere システム統合 ビジネスに 対応 Big Insights 分析プラットフォーム © 2010 IBM Corporation InfoSphere Streams BIG Dataに基づいて変動する情報を分析するプラットフォーム データ容量 リアルタイムの提供 毎秒最大で数PBのデータを処理 環境 モニタリング ICU モニタリング 従来のデータと最新のデータ(音 データの種類 声、ビデオ等)の両方に対応 数マイクロ秒のレイテンシーで 洞察を提供 強力な アナリティクス システム トレード サイバー セキュリティー 政府機関 警察 テレコム企業の 顧客流出率の予測 スマート グリッド スピード 複雑なアナ リティクス C++やJavaで作成されたカスタ ム・アナリティクスとウェアハウス 分析モデルをサポート 単一のインスタンスで複数のアプ リケーションをサポート 毎秒数百万 のイベントを 処理 マイクロ秒の レイテンシー 従来のデータソースと 最新のデータソース 俊敏性 © 2010 IBM Corporation IBM Smarter Analytics Systems ビジネス・アナリティクスに必要な全ての機能を提供 ・・・単なるデータウェアハウス・アプライアンスではない アナリティクス・ソフトウェア 情報をビジネス上の洞察に 変える • ビジネスインテリジェンス • キュービング・サービス • テキスト・アナリティクスとデータ・マイニング 強力なデータウェアハウス • ウェアハウジング・プラットフォーム • 先進ワークロード・マネジメント • システムの自動化 ハードウェアとサービス • 柔軟なサーバー・プラットフォーム・オプション • モジュールごとにキャパシティーを増大可能な ストレージ • 構築、実装、ヘルスチェック、およびプレミアム・ サポート・サービス ワークロードを最適化したアナ 3倍 のスピード リティクスにより、ビジネスインテリジェンス・ プロセスのスピードが 倍に : 3 50% 設置面積を削減 データ圧縮によりストレージコストを削減 世界トップのパフォーマンス © 2010 IBM Corporation IBM InfoSphere Big Insights © 2010 IBM Corporation IBM InfoSphere BigInsights 膨大なデータの分析要求を提供するための、ひとまとまりのシステム製品群 – – – – – – Hadoopベース ビジネス専門家とIT専門家の両方に向けた特定の膨大データ分析ソリューション 最大限の柔軟性のために、構造化、准構造化、非構造化のすべてをサポート エンタープライズ・クラスの極度な分析とパフォーマンスのために設計 IBMウェアハウス・ソリューションの領域を幅広くサポートし統合 クラスタの導入、運用管理、モニタリングを簡単に すぐに価値を享受できます – – – – 膨大なデータの、クイックな調査分析やモデル化を実現 必要なものを事前にテスト・構成済み 業界標準とベストプラクティスによってリスクを低減 計画、構築、運用管理、増強がシンプル 所有コストの低減 – 巨大なスケールアウト、一般的なハードウェアでの実行、高い回復力と耐障害性を基本 – 統合コスト、ストレージ、サーバー、電力を総合的に削減 – 成長に合わせて、迅速にユーザーやデータ容量を増強 © 2010 IBM Corporation BigInsightsスタック BigInsights Application Server SPSS マイニング とスコア アプリケーション / ソリューション / パートナー / コミュニティー 非構造化分析 (SystemT) Metatracker 消費者セグメント追跡 BigSheets IBM W3 エンタープライズ/サーチ 次世代クレジット・リスク分析 カスタム・アプリケーション BigInsights コア 導入と構成 モニタリング 管理コンソール DB & Warehouse の統合 Jaql アプリケーション & ソリューション Enabling Infrastructure IBM Distribution of Apache Hadoop IBM法務と知的所有権のレビュー を受けた、安全な実装 © 2010 IBM Corporation Adding IBM Value to Hadoop IBM value-add over time IT Infrastructure admin Most users interact here Collection manipulation/visualization Catalog of Collections Custom development, hybrid models, etc go here PIG | JAQL | Hive Developer Business Analyst Role Available Resources/Functions Job / Work Flow Creation IBM Hadoop System Mgmt Hardware © 2010 IBM Corporation BigSheetsコンポーネント BigSheets BigSheetsは、IT開発者でな い方でもBigInsightsで管理 されているデータやワーク ロードと会話できるようにす るためのWebフロントエンド – 長時間型のデータコレク ションジョブを定義し管理 – 抽出されたページにある テキストのコンテンツを 分析 – リッチなビジュアル © 2010 IBM Corporation 【参考】 Jaql A JSON Query Language データモデルとしてJSONを利用 – JSONの視点でデータを変換 準構造化データのクエリ処理 – JSONで表現される 巨大並列処理を活用 – Apache Hadoop’s Map-Reduce を利用 容易な拡張性 – お好みのプログラミング言語によるプラグイン機能 – Jaql IOパッケージを利用して、データモデルをカスタマイズした、新規に 定義したりすることが可能 オープンソースとして開発 – http://jaql.org/ – http://code.google.com/p/jaql/ © 2010 IBM Corporation InfoSphere Streams © 2010 IBM Corporation 一般的な情報処理の流れ アクションまでに所要する時間 分析モデル & 情報 オペレーショナル レポート ビジネスプロセッシング & イベント管理 ダッシュボード 計画 スコアリング・カード レポート アドホック・クエリ WAREHOUSE 情報ソース(取込み) 19 データマート データ・インテグレーション オペレーショナル・データ・ストア(ODS) © 2010 IBM Corporation ストリーミング・コンピューティング: 分析モデル & リアルタイムな情報 アクションまでの時間 アクションまでの実行時間短縮 視野を広げる インフラコストの削減 分析モデル & 情報 オペレーショナル レポート ビジネスプロセッ シング & イベン ト管理 ダッシュボード 計画 スコアリング レポート 動的なクエリ 様々な コンテンツ WAREHOUSE 情報ソース(取込み) 20 データマート データ・インテグレーション オペレーショナル・データ・ストア(ODS) © 2010 IBM Corporation ストリーム・コンピューティングとは? 今までのコンピューティング 格納されたデータを分析 ストリーム・コンピューティング 動いているデータを リアルタイムに分析 ストリーミング・コンピューティングは新しいデータ処理・分析解析する手法 であり、既存のテクノロジーを リプレイスするという考えではありません。 © 2010 IBM Corporation ストリーム・コンピューティングとは? ストリーム・コンピューティングとは、従来の構造化され蓄積された過去のデータに対する分析ではなく、 リアルタイムで流れてくる様々なデータを処理・分析する手法。 ただし、既存のデータベース技術などをリプレイスするという考え方ではありません。 今までの方式【過去の事実の発見】 ストリーム・コンピューティング【今の出来事】 ■目的 静的な過去のデータを分析し、過去の事実を発見する ■目的 動的なデータをリアルタイムに分析し、直近の事実を発見する ■インプットデータ 静的で、構造化されたデータ ■インプットデータ 動的で、構造化データや非構造化データのストリーム ■コンピューティング処理 静的データに対しクエリーをかける (バッチ方式、プル型モデル) ■コンピューティング処理 ストリーミング・データに対し、リアルタイムにデータ分析 データの保管はしない! 保管 リアルタイム・データ リアルタイム・データ 過去の事実の発見 ・・・・・・ 直近の事実を掴む (特定の条件等) テーブル 静的データ処理 データ処理 ・・・・・・ クエリー ストリーミング・データ処理 © 2010 IBM Corporation Streamsのボトルネック解消 – 並列化の考え方 今までは: Streamsでは: © 2010 IBM Corporation StreamsのSPLプログラムの配置の考え方 オペレーターをノードに分散 オペレーターをプロセスに融合 © 2010 IBM Corporation InfoSphere Streamsの特徴 IBMワトソン研究所で約100人のIBM研究員が7年間に渡り、200を超えるIBMの特許を基に開発。 ストリーム・コンピューティング・プラットホームとして製品化を実現しました プログラミング言語と開発環境 ソース・アダプター シンク・アダプター •ストリーム処理に特化した、新しいプログラミン グ言語と開発環境を利用可能 •ボトルネックを監視する モニタリング・ツール 豊富なツールキット スケーラブルな実行環境 •各業界に特化した解析処理へのインター フェイスを豊富に用意 •業務処理の拡大に併せて、1台か ら125台まで拡張可能 •様々なニーズに応じた的確な解析処理の スピーディーな構築をサポート 多様な情報ソース •並列処理・直列処理を複数の筐体 に拡大・分散可能 PE PE Source •ニュース、気象情報、テキスト(日本語、 英語)、画像(静止画・動画)、音声など、 これまで扱えなかったような情報を相互に 関連付けて解析可能 PE Sink PE PE Source Sink Sink PE PE 処理要素 コンテナ 処理要素 コンテナ 処理要素 コンテナ 処理要素 コンテナ 処理要素 コンテナ Streams データファブリック TCP-IP / イーサネット X86 ブレード X86 X86 X86ブレード ブレード ブレード X86 ブレード X86 ブレード Front Front Office Office 3.0 3.0 © 2010 IBM Corporation IBM InfoSphere Streams v1.2 開発言語と 開発環境 ランタイム 実行環境 ツールキット & アダプター Front Front Office Office 3.0 3.0 Streams Studio (Eclipse IDE) StreamSight Stream Debugger RHEL v5.3 or v5.4 x86 マルチコアCPU InfiniBand サポート 最大 125 台のサーバー データソースへのコネクター オペレーターのライブラリー ファイナンシャル・ツールキット マイニング・ツールキット © 2010 IBM Corporation 【参考】 データ・サンプリング Streamsをデータサンプリング(または解析)プラットフォームとして 使用する場合: 【データ処理および 解析が可能】 【処理をしたデータ を解析】 PMML DB2 ③データ格納 【ダッシュボード連携】 ①データ収集 ②データ処理 (絞り込み) ③データ格納 (高速時系列 データ格納) Functorオペレータは、タプル (データ)レベルでのデータ変換を 行うことができます。このケース では、50%のサンプリング率にす る、ある特定の条件でのサンプリ ングを行うなど。 Application Specific Needs Informix TimeSeries © 2010 IBM Corporation IBM Smarter Analytics Systems © 2010 IBM Corporation IBM Smart Analytics System より早く結果を出すために、スマートな企業が求めているもの ビジネス分析に必要なすべてをワン・パッケージで提供 普通のデータウェアハウス・アプライアンスとは違う、分析アプライアンス 分析ソフトウェア ビジネス・インテリジェンス機能をフル装備 イン・データベースOLAPによる多次元分析 テキスト分析とデータマイニング機能 今後も各種機能を追加提供 社内の情報を有益な ビジネス洞察に変換 パワフルなデータウェアハウス 高度なワークロード管理 モジュール単位で容量・機能を簡単に追加 3倍速いBI ハードウェアとソフトウェアを完全統合 分析ワークロード最適化でスタンドアローン 導入時より3倍速いBIパフォーマンス 設計・導入から運用開始までを1/6に劇的短縮 管理の自動化で運用負担を劇的に軽減 フロアスペース50% 減 データ圧縮機能でストレージコスト削減 サービス・サポート 構築/デプロイ・サービス、ヘルスチェック 29 サポート窓口一本化 世界記録のパフォーマンス TCP-H 10TBで世界No1のパフォーマンス © 2010 IBM Corporation IBM Smart Analytics System ファミリー データウェアハウスの構築期間を1/15にする、高機能分析アプライアンス 5600 高度な分析機能を短時間、 低コストで導入できる System x ベース …分析ワークロードに特化して最適化 …FusionIOのSSD(Solid State Drive)オプション ~データ待ち時間を短縮 1050 7700 System xベース POWER7 Serversベース …分析とレポートに最適なコスト効果 …コンパクトなアプライアンス ソリューション …中小規模システム市場向け製品 … IBMのデータウェアハウス管理ソフト ウェア、ストレージ、優れたパフォーマンス のPower Systems™を基盤として構築 2050 9600 System xベース System z ベース …分析と BI の機能を最適なコスト効果で提供 …パワーと即効性のバランス …中小規模システム市場向け製品 …最上位のクエリーとワークロード管理 …業界トップの拡張性と信頼性、可用性、セキュリティー …System zのデータへのアクセスを単純化かつ高速化 © 2010 IBM Corporation データベース・クラスターとは DB2が提供するデータベース・クラスターとは? – DPF(Database Partitioning Feature) – パーティション・データベース – 複数サーバを利用して1つのデータベースを構成 区分0 区分1 パーティション パーティション ノード(サーバ) ノード(サーバ) 1,000 partition 区分2 – OracleではRAC 区分3 区分4 区分5 区分6 区分7 © 2010 IBM Corporation SQLの実行は? どのパーティションに接続しても同じ結果 – コーディネータが各パーティションに問合せ – 各パーティションから結果を受け取り集計 結果セット SQL コーディネータ SQLを処理 結果を コーディネータ へ返す 区分0 SQLを全ノード へ配布 SQLを処理 全ノードの 結果を集計 区分1 SQLを処理 SQLを処理 結果を コーディネータ へ返す 結果を コーディネータ へ返す 区分2 区分3 © 2010 IBM Corporation クラスター・アーキテクチャ 1. シェアード・ナッシング方式 – CPU、メモリ、ストレージ(I/O)を共有しない 2. データの区分化 – – データの均等配分 データの大きさに応じてパーティションを選択可能 3. 並列処理 – パーティション間並列処理 4. 分散カタログ・キャッシング – カタログ情報(テーブルに関するメタデータ)をキャッシュ © 2010 IBM Corporation シェアード・ナッシング方式 CPU、メモリー、ストレージが各パーティションで独立 – ストレージを共有しないので、ディスクI/Oに関してもボトルネックになら ない – ユーザからはあくまでも、シングルデータベース 区分0 区分1 区分2 区分3 © 2010 IBM Corporation データの区分化 実環境に即したデータの均等分割が可能 – DB2独自のハッシング関数に基づいてデータ分割 INSERT INSERT 表1 表1 VALUES( VALUES( 100,…..) 100,…..) Vector Position Node Assignment INSERT INSERT 表1 表1 VALUES( VALUES( 101,…..) 101,…..) 0 1 2 3 4 5 6 7 8 9 10 11 12 ・・・ 1 2 3 4 1 2 3 4 1 2 3 4 1 ・・・ 区分0 区分1 区分2 区分3 © 2010 IBM Corporation 並列処理 パーティション内並列処理 パーティション間並列処理 © 2010 IBM Corporation 分散カタログ・キャッシング 非カタログ・パーティションのパフォーマンス向上 – カタログ・キャッシュ機能を拡張して、パーティション・データベースの各 パーティションごとにキャッシュを提供 – キャッシュされる情報は、SYSTABLE 情報や許可情報 SYSTABLE 区分0 カタログ パーティション キャッシュ キャッシュ キャッシュ 区分1 区分2 区分3 © 2010 IBM Corporation データ分析をビジネス・システムに 組み込む © 2010 IBM Corporation Business Analytics & Optimization BI = レポーティング + 分析 + 最適化 = Davenportモデル 最適化(自動化) 最適化(オプティマイゼーション) シミュレーション IT業界のBI定義 Operational BI Optimization アクションを 提示する 分析 Analytic 予測的な 分析 Business Intelligence 原因の 分析 Predictive BI 統計分析 Analytical BI アラート IBMのBAO定義 BAO 競争優位性 予測モデル Business (BI) + Analytic + Optimization クエリ / ドリルダウン アドホックレポート 定型レポート Query & Reporting 複雑度 (Based upon: Competing on Analytics, Davenport and Harris, 2007) © 2010 IBM Corporation 【デモ】 ビル・エネルギー管理の自動化 「25%削減」の厳しい現実 CO2削減がトラッキングされる時代 エネルギー排出量が経営のKPI 2010年関連法案 改正省エネ法 (報告義務) 炭素税2011年度開始に向け制度設計 排出権取引(東京都環境確保条例) (2011~2013年、他自治体への展開想定) 買電制度 再生可能エネルギーの買取制度試案を発表 大規模ビル1棟で 年数千万円の 負担増の可能性 経営インパクト © 2010 IBM Corporation 予測モデルと最適化 予測モデル –(消費電力) = 0.3 平均気温 + 0.4 最高気温 + 0.5 点灯時間 制約条件を加味して最適化 –消費電力を計画値以下にする • 400 >= 0.3 平均気温 + 0.4 最高気温 + 0.5 点灯時間 –点灯時間は8時間(480分)以上 • 点灯時間 >= 480 © 2010 IBM Corporation オペレーションの自動化 先を「予測」する分析 迅速に 「最適なアクション」 Predictive Predictive Analytics Analytics フロア毎、曜日毎の 消灯時刻の最適化 天気、気温などから 消費エネルギーを 予測 ポータルで通知 「循環」 Optimization Optimization 精度向上 リアルタイムに 「見える化」 Business ntelligence Business IIntelligence ビル管理システム で消灯 事業部門別の 消費エネルギーを 見える化 © 2010 IBM Corporation BIG Data事例 © 2010 IBM Corporation BIG Data分析のためのアプリケーションの可能性は無限 新生児医療 取引上のメリット 環境 警察 電波天文学 テレコム 製造 交通管理 不正行為の検出 © 2010 IBM Corporation 新生児ICUにてInfoSphere Streamsによる予測分析(Predictive Analytics) を実施、生命を脅かす状況を最大24時間早く検知 生理学データ・ストリームの、リアルタイム分 析および相関 – Blood pressure血圧、体温、心電図、血 中酸素飽和度、等 潜在的な生命への脅威の状況を早期に検 知 – 現在の医療現場よりも最大 24 時間早 期に検知 – 早期の介入が患者の疾病率を低下させ、 長期的な症状の改善につながる テクノロジーにより医師が新しい臨床仮説を 検証することも可能になる 過去のデータへの分析ではなく、今、現在進 行形で発生している事象を検知し、前もって 異常発生を予測する。 © 2010 IBM Corporation オンタリオ工科大学での研究プロジェクト 未熟児のモニタリング – SpO2(動脈血酸素飽和度)と Mean ABP(観血的動脈血圧の 平均)を関連付けることで“新 生児心肺停止”を予測 Source Sp02 Join Aggregate Functor Alert BP Functor • Sp02<85% • 20秒間 血圧(BP)< 在胎週数 (GestAge) Aggregate Join Source GestAge – 院内感染予測 • 心拍数(HR)の変動をモニタリ ング • 臨床情報システム(CIS)のモニ タリング • データを融合して敗血症を予 測 • ベテラン ICU 看護士より6-24 時間早期に検知 Alert Source Aggregate Functor Source Source Source Join Punctor UDF Aggregate Aggregate Functor UDF Aggregate Join Baby Crashing: Sp02<85%&& BP< Aggregate GestAge for 20 secs) © 2010 IBM Corporation マイクロチップ製造の製造監視・制御への応用 Test Data 技術的なチャレンジ Event Sensor Defect YPV JPQ WQA Incremental Learning through Delayed Feedback of Ground Truth Confidence Tool log Alarm ... Trace data RUI JSQ FDC Summary Data チャレンジ 半導体の製造工程の品質を管理する自動製 造監視・制御への応用 リアルタイムのデータ統計分析が必要 100以上の製造工程からなり、それぞれの工 程で相関のあるステップを複数束ねた分析が 必要 画像データなどを含めた非構造化データなど、 様々な情報ソースからデータが到着する TSA User Defined Decision Tree PEs Link to external Very Fast Machine Learning (VFML) library (C) ITL Prediction Repository SOC OTP Online prediction using incrementally learnt model Confidence and Confusion Matrix RAN Yield Prediction Monitoring and Feedback ソリューション • 100以上のセンサー • リアルタイムのプロセス及びセンサーデータの 分析 • 画像など、より非構造化データ分析の潜在的 なニーズがある © 2010 IBM Corporation 太陽嵐の ‘緊急速報’:スウェーデン宇宙物理研究所 太陽嵐の有害な影響 電力発電網の故障 通信信号の欠損 他に生物学的な影響. 継続的な計測によるデータ変化の兆候 をいち早く検知 各アンテナからのデータを 8Gバイト/秒 で解析する必要性 総計 = 1.3Tバイト/秒、増加中 データ・ストレージは選択肢にならない © 2010 IBM Corporation TD 証券は InfoSphere Streams で 次世代トレーディング・プラットフォームを構築中 次世代アルゴリズミック・ トレーディング・プラットフォーム 1秒当たり160万件のイベントを処 理 (IBM BlueGene) ミリ秒のスピードで取引を特定、執 行 2010年までに1秒当たり500万件の イベントまで成長する計画 コンテンツ・フィード、ニュース本文、 音声、ビデオを統合するように拡張、 より有効な意思決定のため高度な 処理内容を確立する予定 © 2010 IBM Corporation 【参考】 野火監視 野火監視アプリケーション 国土の野火発生リスクのリアル タイム・マップ 野火の煙を検知 衛星から監視 山火事監視のため NOAA (米国海洋大気庁) 衛星およ び NASA (アメリカ航空宇宙 局) UAV(無人航空機) を多 用 © 2010 IBM Corporation 【参考】 次世代の河川・水質管理 Beacon Institute との協業により、 ニューヨークのハドソン河の生態系をモ ニタリングし、常時その状況を分析・ 評価できるこれまでにないシステムを 開発 315マイル(507km)にわたる全域の データを収集 System S を用いて、センサーから データを集め、水の温度、塩分、濁り 具合などを調査 さらに、ハドソン河に棲息する種々の 魚類その他の生物の状況も調査 © 2010 IBM Corporation 【参考】 海洋科学研究: Smart Bay—Galway Bay, Ireland 海洋研究所との共同研究 a yl h p 度 温 高 由 経 ク ワ ネ さ 合 統 術 技 科 用 使 ュ ピ コ 学 工 ッ ボ ロ サ セ れ 流 潮 そ 働 て ニ モ 。 ラ フ ン イ 明 証 ト ス テ 、 査 調 め す 理 管 を タ ー デ 境 環 生 水 っ い と 波 た し 配 分 で 所 る 至 の 湾 が kto n 水生環境のモニターと管理,潮の流れ,波高,温度 センサーデータのデータウェアハウス構築 水中ソナーによりアル・タイム・モニタリング © 2010 IBM Corporation 【参考】 FAA (アメリカ航空局)サイバーセキュリティ CognosNow! Dashboarding リアルタイムの結果 1 (チケット、モニター) 3 動向、履歴 2 DNS 結果の収集 + エビデンス Transport System S Data Fabric Operating System NetFlow X86 Box X86 Blade FPGA Blade X86 Blade Cell Blade 4 分析モデルの適用 リアルタイム分析 リアルタイム分析 オフライン分析 オフライン分析 新しい攻撃パターンを解析し、 新しい防御パターンをStreamsロジックに反映。 ↓ 防御パターンの信頼性を継続的に改善。 01/11/10 © 2010 IBM Corporation 【参考】 SmarterCity ストックホルム市の交通管制システム: バージョン 2.0 データソース – 数1000台のタクシーの GPS – ループ・センサー • 交通のスピード • 流れ – 交通の密度 (台数/秒) – トンネル内CCTV(監視カメラ)映像 – リアルタイム天候データ 出力 – 所要時間の予報 • SMS 経由 • 今、30分で、1時間で、2時間で、 等 既存システムとの統合 © 2010 IBM Corporation 【参考】 SmarterCity リアルタイム交通流マネージメント 車載GPS、混雑具合、公共の交通手段、天候などのリアルタイムデータから、各車の状態を推定し、 交通状況を可視化し、経路の予測・プランニングを実行 – 4台のx86ブレードサーバーを用いて,1秒間に250,000個のGPSからのデータを処理でき ることを確認 交通状況の可視化 経路のプランニングと、予測所要時間 各地点での速度予測 GPS Data Streams Real Time Transform ation Logic Real Time Geo Mappi ng Interactive visualizatio n Real Time Speed & Headin g Estima tion Real Time Aggreg ates & Statistic s Storag e adapter s Web Server Data Warehouse Google Earth Offline statistical analysis © 2010 IBM Corporation BIG Dataに基づいて実現するInternet Scale 従来のウェアハウスの機能を超える 従来の ウェアハウス 従来のデータソースと リレーショナルな データソース データベースと 休眠データの ウェアハウス 分析 Streams 最新のデータソースと リレーショナルではない データソース レイテンシーが非常に 低い分析結果 変動する情報を 分析 Internet Scale 分析結果 最新のデータソースと リレーショナルではない データソース InfoSphere Big Insights Internet Scale 従来のデータソースと リレーショナルなデータ ソース データ分析、 データ処理、および モデル構築 分析結果 © 2010 IBM Corporation IBMのみが“BIG Data”の分析に対応可能 9 直線的にプロセッサの能力を拡張することで、 コア・データの分析のために数PBのデータを 数千人のユーザーに提供可能 9 CognosおよびSPSSとの緊密な連携 9 サードパーティーの分析モデルをデータウェア ハウスで起動し、拡張性が高く効率的な分析 処理を実現 9 全てのデータをウェアハウスに読み込むことな く、分析の集約化と分析モデルの一貫性を実 現 © 2010 IBM Corporation ありがとうございました © 2010 IBM Corporation