...

BIG Dataを分析する IBMソフトウェア・テクノロジー 日本アイ・ビー・エム株式会社

by user

on
Category: Documents
9

views

Report

Comments

Transcript

BIG Dataを分析する IBMソフトウェア・テクノロジー 日本アイ・ビー・エム株式会社
渋谷テクニカルナイト
BIG Dataを分析する
IBMソフトウェア・テクノロジー
日本アイ・ビー・エム株式会社 ソフトウェア事業 中林 紀彦
([email protected])
© 2010 IBM Corporation
世界は変貌を続け、以下の特徴が顕著化しつつある
世界中が
機能化
世界中が
相互接続化
すべてのモノが
インテリジェント化
その結果、情報が爆発的に増大し、
これまでにないインテリジェンスの必要性が発生
Smarter Planetの構築が進む
© 2010 IBM Corporation
データが爆発的に増大し、世界中で様々な動きが発生
20億人の
13億個の無線ICタグ(2005年)
30億個の無線ICタグ
(2010年)
インターネット・ユーザーが
2011年までに出現
46億個の携帯電話
が世界中で使用される
資本市場のデータ容量が、
2003年から2006年にかけて
1,750%に増大
世界気候データセンター
ƒ 220 TBのWebデータ
ƒ 9 PBのその他のデータ
毎日Twitterが
7 TBのデータを処理
毎日Facebookが
10 TBのデータを処理
© 2010 IBM Corporation
情報の増大
44倍
データとコンテンツの容量が
今後10年間で増大
80%
の世界中のデータは
構造化されていない
2020年
35 ZB
2009年
800,000 PB
出典: IDC(デジタル・ユニバース・デケイドへの対応状況、2010年5月)
© 2010 IBM Corporation
組織はデータからより深い洞察を獲得する必要がある
3分の1
83%
のビジネス・リーダーが、信頼できない情報に基づ
いて意思決定を行い、情報に基づかずに意思決
定を行っています。
のCIOが、競争力を強化するための今後のプラン
に不可欠な要素として「ビジネスインテリジェンスと
アナリティクス」を挙げています。
2分の1
35%
のビジネス・リーダーは、業務遂行のために必要な情
報にアクセスできていないと述べています。
出典: TDWI(次世代のデータウェアハウス・プラットフォーム、2009年第4四半期)
のお客様が、3年後に現在のウェアハウスを事前
に設定済みのウェアハウス・ソリューション(現在
14%のお客様のみが導入済み)と入れ替えること
を検討しています。
© 2010 IBM Corporation
BIG Dataによって発生する課題
•
•
•
•
増大を続ける大容量のデータを管理し、活用する
様々な形式やデータのスピードが一定しないことに対応する
構造化されていないデータを取り扱う
タイムリーかつコスト効率よくBIG Dataを活用する
収集
管理
Collect
Manag
e
統合
Integra
te
分析
Analyz
e
© 2010 IBM Corporation
情報爆発に対してのIBMによる包括的なアプローチ
従来のウェアハウスの機能を超える
従来の
ウェアハウス
従来のデータソースと
リレーショナルな
データソース
データベースと 休眠データの
ウェアハウス
分析
Streams
最新のデータソースと
リレーショナルではない
データソース
レイテンシーが非常に
低い分析結果
変動する情報を
分析
Internet
Scale
分析結果
最新のデータソースと
リレーショナルではない
データソース
InfoSphere
Big Insights
Internet Scale
従来のデータソースと
リレーショナルなデータ
ソース
データ分析、
データ処理、および
モデル構築
分析結果
© 2010 IBM Corporation
情報爆発に対してのIBMによる包括的なアプローチ
新しい種類の
データ
InfoSphere
Big Insights
従来の
データ
Streamsが入ってくる
データをフィルタリング
StreamsがInfoSphere
Warehouseの分析モデルを
再利用
恒常的なデータ
変動するデータ
© 2010 IBM Corporation
IBM InfoSphere Big Insights
BIG Dataを収集・保存・分析することで、ビジネスの先を読むプラットフォーム
コスト効率よく、Big Dataに対するソリューションを実現
• 通常入手可能なハードウェアに基づいて、数TBから数PBに直線的にシステムを拡張可能
• 構造化した情報と構造化していない情報に対応
• Hadoopによるオープンソース・フレームワーク(IBMが完全に準拠)に対応
ビジネスに対応
• InfoSphere BigSheets: データの収集・検
ソリュー
ション
索・可視化のための汎用的なソリューション
環境
Cognos
ECM
消費者に関する
洞察t
ECMに基づく検索
...
次世代の
信用リスク分析
• ビジネス・ナリティクス: Cognos、SPSSとの
InfoSphere
InfoSphere
Big
Big Insights
Insights InfoSphere
システム統合
ビジネスに
対応
Big Insights
分析プラットフォーム
© 2010 IBM Corporation
InfoSphere Streams
BIG Dataに基づいて変動する情報を分析するプラットフォーム
データ容量
リアルタイムの提供
毎秒最大で数PBのデータを処理
環境
モニタリング
ICU
モニタリング
従来のデータと最新のデータ(音
データの種類 声、ビデオ等)の両方に対応
数マイクロ秒のレイテンシーで
洞察を提供
強力な
アナリティクス
システム
トレード
サイバー
セキュリティー
政府機関
警察
テレコム企業の
顧客流出率の予測
スマート
グリッド
スピード
複雑なアナ
リティクス
C++やJavaで作成されたカスタ
ム・アナリティクスとウェアハウス
分析モデルをサポート
単一のインスタンスで複数のアプ
リケーションをサポート
毎秒数百万
のイベントを
処理
マイクロ秒の
レイテンシー
従来のデータソースと
最新のデータソース
俊敏性
© 2010 IBM Corporation
IBM Smarter Analytics Systems
ビジネス・アナリティクスに必要な全ての機能を提供
・・・単なるデータウェアハウス・アプライアンスではない
アナリティクス・ソフトウェア
情報をビジネス上の洞察に
変える
• ビジネスインテリジェンス
• キュービング・サービス
• テキスト・アナリティクスとデータ・マイニング
強力なデータウェアハウス
• ウェアハウジング・プラットフォーム
• 先進ワークロード・マネジメント
• システムの自動化
ハードウェアとサービス
• 柔軟なサーバー・プラットフォーム・オプション
• モジュールごとにキャパシティーを増大可能な
ストレージ
• 構築、実装、ヘルスチェック、およびプレミアム・
サポート・サービス
ワークロードを最適化したアナ
3倍 のスピード
リティクスにより、ビジネスインテリジェンス・
プロセスのスピードが 倍に
:
3
50%
設置面積を削減
データ圧縮によりストレージコストを削減
世界トップのパフォーマンス
© 2010 IBM Corporation
IBM InfoSphere Big Insights
© 2010 IBM Corporation
IBM InfoSphere BigInsights
ƒ 膨大なデータの分析要求を提供するための、ひとまとまりのシステム製品群
–
–
–
–
–
–
Hadoopベース
ビジネス専門家とIT専門家の両方に向けた特定の膨大データ分析ソリューション
最大限の柔軟性のために、構造化、准構造化、非構造化のすべてをサポート
エンタープライズ・クラスの極度な分析とパフォーマンスのために設計
IBMウェアハウス・ソリューションの領域を幅広くサポートし統合
クラスタの導入、運用管理、モニタリングを簡単に
ƒ すぐに価値を享受できます
–
–
–
–
膨大なデータの、クイックな調査分析やモデル化を実現
必要なものを事前にテスト・構成済み
業界標準とベストプラクティスによってリスクを低減
計画、構築、運用管理、増強がシンプル
ƒ 所有コストの低減
– 巨大なスケールアウト、一般的なハードウェアでの実行、高い回復力と耐障害性を基本
– 統合コスト、ストレージ、サーバー、電力を総合的に削減
– 成長に合わせて、迅速にユーザーやデータ容量を増強
© 2010 IBM Corporation
BigInsightsスタック
BigInsights
Application
Server
ƒ
SPSS
ƒ
マイニング
とスコア
アプリケーション / ソリューション /
パートナー / コミュニティー
ƒ
非構造化分析
(SystemT)
ƒ
Metatracker
ƒ
消費者セグメント追跡
ƒ
BigSheets
ƒ
IBM W3 エンタープライズ/サーチ
ƒ
次世代クレジット・リスク分析
ƒ
カスタム・アプリケーション
BigInsights
コア
ƒ
導入と構成
ƒ
モニタリング
ƒ
管理コンソール
ƒ
DB & Warehouse の統合
ƒ
Jaql
アプリケーション &
ソリューション
Enabling
Infrastructure
IBM Distribution of Apache Hadoop
ƒ
IBM法務と知的所有権のレビュー
を受けた、安全な実装
© 2010 IBM Corporation
Adding IBM Value to Hadoop
IBM value-add over time
IT
Infrastructure
admin
Most users
interact here
Collection manipulation/visualization
Catalog of Collections
Custom
development,
hybrid models, etc
go here
PIG | JAQL | Hive
Developer
Business
Analyst
Role
Available Resources/Functions
Job / Work Flow Creation
IBM Hadoop
System
Mgmt
Hardware
© 2010 IBM Corporation
BigSheetsコンポーネント
BigSheets
ƒ BigSheetsは、IT開発者でな
い方でもBigInsightsで管理
されているデータやワーク
ロードと会話できるようにす
るためのWebフロントエンド
– 長時間型のデータコレク
ションジョブを定義し管理
– 抽出されたページにある
テキストのコンテンツを
分析
– リッチなビジュアル
© 2010 IBM Corporation
【参考】 Jaql
ƒ A JSON Query Language
ƒ データモデルとしてJSONを利用
– JSONの視点でデータを変換
ƒ 準構造化データのクエリ処理
– JSONで表現される
ƒ 巨大並列処理を活用
– Apache Hadoop’s Map-Reduce を利用
ƒ 容易な拡張性
– お好みのプログラミング言語によるプラグイン機能
– Jaql IOパッケージを利用して、データモデルをカスタマイズした、新規に
定義したりすることが可能
ƒ オープンソースとして開発
– http://jaql.org/
– http://code.google.com/p/jaql/
© 2010 IBM Corporation
InfoSphere Streams
© 2010 IBM Corporation
一般的な情報処理の流れ
アクションまでに所要する時間
分析モデル & 情報
オペレーショナル
レポート
ビジネスプロセッシング
& イベント管理
ダッシュボード
計画
スコアリング・カード
レポート
アドホック・クエリ
WAREHOUSE
情報ソース(取込み)
19
データマート
データ・インテグレーション
オペレーショナル・データ・ストア(ODS)
© 2010 IBM Corporation
ストリーミング・コンピューティング:
分析モデル
& リアルタイムな情報
アクションまでの時間
アクションまでの実行時間短縮
視野を広げる
インフラコストの削減
分析モデル & 情報
オペレーショナル
レポート
ビジネスプロセッ
シング & イベン
ト管理
ダッシュボード
計画
スコアリング
レポート
動的なクエリ
様々な
コンテンツ
WAREHOUSE
情報ソース(取込み)
20
データマート
データ・インテグレーション
オペレーショナル・データ・ストア(ODS)
© 2010 IBM Corporation
ストリーム・コンピューティングとは?
今までのコンピューティング
格納されたデータを分析
ストリーム・コンピューティング
動いているデータを
リアルタイムに分析
ストリーミング・コンピューティングは新しいデータ処理・分析解析する手法
であり、既存のテクノロジーを
リプレイスするという考えではありません。
© 2010 IBM Corporation
ストリーム・コンピューティングとは?
ストリーム・コンピューティングとは、従来の構造化され蓄積された過去のデータに対する分析ではなく、
リアルタイムで流れてくる様々なデータを処理・分析する手法。
ただし、既存のデータベース技術などをリプレイスするという考え方ではありません。
今までの方式【過去の事実の発見】
ストリーム・コンピューティング【今の出来事】
■目的
静的な過去のデータを分析し、過去の事実を発見する
■目的
動的なデータをリアルタイムに分析し、直近の事実を発見する
■インプットデータ
静的で、構造化されたデータ
■インプットデータ
動的で、構造化データや非構造化データのストリーム
■コンピューティング処理
静的データに対しクエリーをかける (バッチ方式、プル型モデル)
■コンピューティング処理
ストリーミング・データに対し、リアルタイムにデータ分析
データの保管はしない!
保管
リアルタイム・データ
リアルタイム・データ
過去の事実の発見
・・・・・・
直近の事実を掴む
(特定の条件等)
テーブル
静的データ処理
データ処理
・・・・・・
クエリー
ストリーミング・データ処理
© 2010 IBM Corporation
Streamsのボトルネック解消 – 並列化の考え方
今までは:
Streamsでは:
© 2010 IBM Corporation
StreamsのSPLプログラムの配置の考え方
オペレーターをノードに分散
オペレーターをプロセスに融合
© 2010 IBM Corporation
InfoSphere Streamsの特徴
ƒ IBMワトソン研究所で約100人のIBM研究員が7年間に渡り、200を超えるIBMの特許を基に開発。
ストリーム・コンピューティング・プラットホームとして製品化を実現しました
プログラミング言語と開発環境
ソース・アダプター
シンク・アダプター
•ストリーム処理に特化した、新しいプログラミン
グ言語と開発環境を利用可能
•ボトルネックを監視する
モニタリング・ツール
豊富なツールキット
スケーラブルな実行環境
•各業界に特化した解析処理へのインター
フェイスを豊富に用意
•業務処理の拡大に併せて、1台か
ら125台まで拡張可能
•様々なニーズに応じた的確な解析処理の
スピーディーな構築をサポート
多様な情報ソース
•並列処理・直列処理を複数の筐体
に拡大・分散可能
PE
PE
Source
•ニュース、気象情報、テキスト(日本語、
英語)、画像(静止画・動画)、音声など、
これまで扱えなかったような情報を相互に
関連付けて解析可能
PE
Sink
PE
PE
Source
Sink
Sink
PE
PE
処理要素
コンテナ
処理要素
コンテナ
処理要素
コンテナ
処理要素
コンテナ
処理要素
コンテナ
Streams データファブリック
TCP-IP / イーサネット
X86
ブレード
X86
X86
X86ブレード
ブレード
ブレード
X86
ブレード
X86
ブレード
Front
Front Office
Office 3.0
3.0
© 2010 IBM Corporation
IBM InfoSphere Streams v1.2
開発言語と
開発環境
ランタイム
実行環境
ツールキット
& アダプター
Front
Front Office
Office 3.0
3.0
Streams Studio
(Eclipse IDE)
StreamSight
Stream Debugger
RHEL v5.3 or v5.4
x86 マルチコアCPU
InfiniBand サポート
最大 125 台のサーバー
データソースへのコネクター
オペレーターのライブラリー
ファイナンシャル・ツールキット
マイニング・ツールキット
© 2010 IBM Corporation
【参考】 データ・サンプリング
Streamsをデータサンプリング(または解析)プラットフォームとして
使用する場合:
【データ処理および
解析が可能】
【処理をしたデータ
を解析】
PMML
DB2
③データ格納
【ダッシュボード連携】
①データ収集
②データ処理
(絞り込み)
③データ格納
(高速時系列
データ格納)
Functorオペレータは、タプル
(データ)レベルでのデータ変換を
行うことができます。このケース
では、50%のサンプリング率にす
る、ある特定の条件でのサンプリ
ングを行うなど。
Application
Specific Needs
Informix TimeSeries
© 2010 IBM Corporation
IBM Smarter Analytics Systems
© 2010 IBM Corporation
IBM Smart Analytics System
より早く結果を出すために、スマートな企業が求めているもの
ビジネス分析に必要なすべてをワン・パッケージで提供
普通のデータウェアハウス・アプライアンスとは違う、分析アプライアンス
分析ソフトウェア
ƒ ビジネス・インテリジェンス機能をフル装備
ƒ イン・データベースOLAPによる多次元分析
ƒ テキスト分析とデータマイニング機能
ƒ 今後も各種機能を追加提供
社内の情報を有益な
ビジネス洞察に変換
パワフルなデータウェアハウス
ƒ 高度なワークロード管理
ƒ モジュール単位で容量・機能を簡単に追加
3倍速いBI
ハードウェアとソフトウェアを完全統合
分析ワークロード最適化でスタンドアローン
導入時より3倍速いBIパフォーマンス
ƒ 設計・導入から運用開始までを1/6に劇的短縮
ƒ 管理の自動化で運用負担を劇的に軽減
フロアスペース50% 減
データ圧縮機能でストレージコスト削減
サービス・サポート
ƒ 構築/デプロイ・サービス、ヘルスチェック
29 ƒ サポート窓口一本化
世界記録のパフォーマンス
TCP-H 10TBで世界No1のパフォーマンス
© 2010 IBM Corporation
IBM Smart Analytics System ファミリー
データウェアハウスの構築期間を1/15にする、高機能分析アプライアンス
5600
高度な分析機能を短時間、
低コストで導入できる
System x ベース
…分析ワークロードに特化して最適化
…FusionIOのSSD(Solid State Drive)オプション
~データ待ち時間を短縮
1050
7700
System xベース
POWER7 Serversベース
…分析とレポートに最適なコスト効果
…コンパクトなアプライアンス ソリューション
…中小規模システム市場向け製品
… IBMのデータウェアハウス管理ソフト
ウェア、ストレージ、優れたパフォーマンス
のPower Systems™を基盤として構築
2050
9600
System xベース
System z ベース
…分析と BI の機能を最適なコスト効果で提供
…パワーと即効性のバランス
…中小規模システム市場向け製品
…最上位のクエリーとワークロード管理
…業界トップの拡張性と信頼性、可用性、セキュリティー
…System zのデータへのアクセスを単純化かつ高速化
© 2010 IBM Corporation
データベース・クラスターとは
ƒ DB2が提供するデータベース・クラスターとは?
– DPF(Database Partitioning Feature)
– パーティション・データベース
– 複数サーバを利用して1つのデータベースを構成
区分0
区分1
パーティション
パーティション
ノード(サーバ)
ノード(サーバ)
1,000 partition
区分2
– OracleではRAC
区分3
区分4
区分5
区分6
区分7
© 2010 IBM Corporation
SQLの実行は?
ƒ どのパーティションに接続しても同じ結果
– コーディネータが各パーティションに問合せ
– 各パーティションから結果を受け取り集計
結果セット
SQL
コーディネータ
SQLを処理
結果を
コーディネータ
へ返す
区分0
SQLを全ノード
へ配布
SQLを処理
全ノードの
結果を集計
区分1
SQLを処理
SQLを処理
結果を
コーディネータ
へ返す
結果を
コーディネータ
へ返す
区分2
区分3
© 2010 IBM Corporation
クラスター・アーキテクチャ
1. シェアード・ナッシング方式
–
CPU、メモリ、ストレージ(I/O)を共有しない
2. データの区分化
–
–
データの均等配分
データの大きさに応じてパーティションを選択可能
3. 並列処理
–
パーティション間並列処理
4. 分散カタログ・キャッシング
–
カタログ情報(テーブルに関するメタデータ)をキャッシュ
© 2010 IBM Corporation
シェアード・ナッシング方式
ƒ CPU、メモリー、ストレージが各パーティションで独立
– ストレージを共有しないので、ディスクI/Oに関してもボトルネックになら
ない
– ユーザからはあくまでも、シングルデータベース
区分0
区分1
区分2
区分3
© 2010 IBM Corporation
データの区分化
ƒ 実環境に即したデータの均等分割が可能
– DB2独自のハッシング関数に基づいてデータ分割
INSERT
INSERT 表1
表1
VALUES(
VALUES( 100,…..)
100,…..)
Vector
Position
Node
Assignment
INSERT
INSERT 表1
表1
VALUES(
VALUES( 101,…..)
101,…..)
0
1
2
3
4
5
6
7
8
9
10
11
12
・・・
1
2
3
4
1
2
3
4
1
2
3
4
1
・・・
区分0
区分1
区分2
区分3
© 2010 IBM Corporation
並列処理
パーティション内並列処理
パーティション間並列処理
© 2010 IBM Corporation
分散カタログ・キャッシング
ƒ 非カタログ・パーティションのパフォーマンス向上
– カタログ・キャッシュ機能を拡張して、パーティション・データベースの各
パーティションごとにキャッシュを提供
– キャッシュされる情報は、SYSTABLE 情報や許可情報
SYSTABLE
区分0
カタログ
パーティション
キャッシュ
キャッシュ
キャッシュ
区分1
区分2
区分3
© 2010 IBM Corporation
データ分析をビジネス・システムに
組み込む
© 2010 IBM Corporation
Business Analytics & Optimization
BI = レポーティング + 分析 + 最適化 =
Davenportモデル
最適化(自動化)
最適化(オプティマイゼーション)
シミュレーション
IT業界のBI定義
Operational BI
Optimization
アクションを
提示する
分析
Analytic
予測的な
分析
Business
Intelligence
原因の
分析
Predictive BI
統計分析
Analytical BI
アラート
IBMのBAO定義
BAO
競争優位性
予測モデル
Business (BI) + Analytic + Optimization
クエリ / ドリルダウン
アドホックレポート
定型レポート
Query &
Reporting
複雑度
(Based upon: Competing on Analytics, Davenport and Harris, 2007)
© 2010 IBM Corporation
【デモ】 ビル・エネルギー管理の自動化
ƒ 「25%削減」の厳しい現実
ƒ CO2削減がトラッキングされる時代
ƒ エネルギー排出量が経営のKPI
2010年関連法案
改正省エネ法 (報告義務)
„炭素税2011年度開始に向け制度設計
„排出権取引(東京都環境確保条例)
(2011~2013年、他自治体への展開想定)
„買電制度
„再生可能エネルギーの買取制度試案を発表
„
大規模ビル1棟で
年数千万円の
負担増の可能性
経営インパクト
© 2010 IBM Corporation
予測モデルと最適化
ƒ 予測モデル
–(消費電力) = 0.3 平均気温 + 0.4 最高気温 + 0.5 点灯時間
ƒ 制約条件を加味して最適化
–消費電力を計画値以下にする
• 400 >= 0.3 平均気温 + 0.4 最高気温 + 0.5 点灯時間
–点灯時間は8時間(480分)以上
• 点灯時間 >= 480
© 2010 IBM Corporation
オペレーションの自動化
先を「予測」する分析
迅速に
「最適なアクション」
Predictive
Predictive Analytics
Analytics
フロア毎、曜日毎の
消灯時刻の最適化
天気、気温などから
消費エネルギーを
予測
ポータルで通知
「循環」
Optimization
Optimization
精度向上
リアルタイムに
「見える化」
Business
ntelligence
Business IIntelligence
ビル管理システム
で消灯
事業部門別の
消費エネルギーを
見える化
© 2010 IBM Corporation
BIG Data事例
© 2010 IBM Corporation
BIG Data分析のためのアプリケーションの可能性は無限
新生児医療
取引上のメリット
環境
警察
電波天文学
テレコム
製造
交通管理
不正行為の検出
© 2010 IBM Corporation
新生児ICUにてInfoSphere Streamsによる予測分析(Predictive Analytics)
を実施、生命を脅かす状況を最大24時間早く検知
ƒ 生理学データ・ストリームの、リアルタイム分
析および相関
– Blood pressure血圧、体温、心電図、血
中酸素飽和度、等
ƒ 潜在的な生命への脅威の状況を早期に検
知
– 現在の医療現場よりも最大 24 時間早
期に検知
– 早期の介入が患者の疾病率を低下させ、
長期的な症状の改善につながる
ƒ テクノロジーにより医師が新しい臨床仮説を
検証することも可能になる
過去のデータへの分析ではなく、今、現在進
行形で発生している事象を検知し、前もって
異常発生を予測する。
© 2010 IBM Corporation
オンタリオ工科大学での研究プロジェクト
ƒ 未熟児のモニタリング
– SpO2(動脈血酸素飽和度)と
Mean ABP(観血的動脈血圧の
平均)を関連付けることで“新
生児心肺停止”を予測
Source
Sp02
Join
Aggregate
Functor
Alert
BP
Functor
• Sp02<85%
• 20秒間 血圧(BP)< 在胎週数
(GestAge)
Aggregate
Join
Source
GestAge
– 院内感染予測
• 心拍数(HR)の変動をモニタリ
ング
• 臨床情報システム(CIS)のモニ
タリング
• データを融合して敗血症を予
測
• ベテラン ICU 看護士より6-24
時間早期に検知
Alert
Source
Aggregate
Functor
Source
Source
Source
Join
Punctor
UDF
Aggregate
Aggregate
Functor
UDF
Aggregate
Join
Baby Crashing: Sp02<85%&& BP<
Aggregate
GestAge for 20 secs)
© 2010 IBM Corporation
マイクロチップ製造の製造監視・制御への応用
Test
Data
技術的なチャレンジ
Event
Sensor
Defect
YPV
JPQ
WQA
Incremental Learning
through Delayed Feedback
of Ground Truth
Confidence
Tool log
Alarm
...
Trace data
RUI
JSQ
FDC Summary
Data
チャレンジ
ƒ 半導体の製造工程の品質を管理する自動製
造監視・制御への応用
ƒ リアルタイムのデータ統計分析が必要
ƒ 100以上の製造工程からなり、それぞれの工
程で相関のあるステップを複数束ねた分析が
必要
ƒ 画像データなどを含めた非構造化データなど、
様々な情報ソースからデータが到着する
TSA
User Defined Decision Tree PEs
Link to external Very Fast Machine
Learning (VFML) library (C)
ITL
Prediction
Repository
SOC
OTP
Online prediction using
incrementally learnt model
Confidence and
Confusion Matrix
RAN
Yield Prediction
Monitoring and Feedback
ソリューション
• 100以上のセンサー
• リアルタイムのプロセス及びセンサーデータの
分析
• 画像など、より非構造化データ分析の潜在的
なニーズがある
© 2010 IBM Corporation
太陽嵐の ‘緊急速報’:スウェーデン宇宙物理研究所
ƒ 太陽嵐の有害な影響
ƒ 電力発電網の故障
ƒ 通信信号の欠損
ƒ 他に生物学的な影響.
ƒ 継続的な計測によるデータ変化の兆候
をいち早く検知
ƒ 各アンテナからのデータを
8Gバイト/秒 で解析する必要性
ƒ 総計 = 1.3Tバイト/秒、増加中
ƒ データ・ストレージは選択肢にならない
© 2010 IBM Corporation
TD 証券は InfoSphere Streams で
次世代トレーディング・プラットフォームを構築中
次世代アルゴリズミック・
トレーディング・プラットフォーム
ƒ 1秒当たり160万件のイベントを処
理
(IBM BlueGene)
ƒ ミリ秒のスピードで取引を特定、執
行
ƒ 2010年までに1秒当たり500万件の
イベントまで成長する計画
ƒ コンテンツ・フィード、ニュース本文、
音声、ビデオを統合するように拡張、
より有効な意思決定のため高度な
処理内容を確立する予定
© 2010 IBM Corporation
【参考】 野火監視
ƒ 野火監視アプリケーション
ƒ 国土の野火発生リスクのリアル
タイム・マップ
ƒ 野火の煙を検知
ƒ 衛星から監視
山火事監視のため NOAA
(米国海洋大気庁) 衛星およ
び NASA (アメリカ航空宇宙
局) UAV(無人航空機) を多
用
© 2010 IBM Corporation
【参考】 次世代の河川・水質管理
ƒ Beacon Institute との協業により、
ニューヨークのハドソン河の生態系をモ
ニタリングし、常時その状況を分析・
評価できるこれまでにないシステムを
開発
ƒ 315マイル(507km)にわたる全域の
データを収集
ƒ System S を用いて、センサーから
データを集め、水の温度、塩分、濁り
具合などを調査
ƒ さらに、ハドソン河に棲息する種々の
魚類その他の生物の状況も調査
© 2010 IBM Corporation
【参考】 海洋科学研究:
Smart Bay—Galway Bay, Ireland
ƒ 海洋研究所との共同研究
ƒ
a
yl
h
p
度
温
高
由
経
ク
ワ
ネ
さ
合
統
術
技
科
用
使
ュ
ピ
コ
学
工
ッ
ボ
ロ
サ
セ
れ
流
潮
そ
働
て
ニ
モ
。
ラ
フ
ン
イ
明
証
ト
ス
テ
、
査
調
め
す
理
管
を
タ
ー
デ
境
環
生
水
っ
い
と
波
た
し
配
分
で
所
る
至
の
湾
が
kto
n
ƒ 水生環境のモニターと管理,潮の流れ,波高,温度
ƒ センサーデータのデータウェアハウス構築
ƒ 水中ソナーによりアル・タイム・モニタリング
© 2010 IBM Corporation
【参考】 FAA (アメリカ航空局)サイバーセキュリティ
CognosNow! Dashboarding
リアルタイムの結果
1
(チケット、モニター)
3 動向、履歴
2
DNS
結果の収集 +
エビデンス
Transport
System S Data Fabric
Operating System
NetFlow
X86
Box
X86
Blade
FPGA
Blade
X86
Blade
Cell
Blade
4 分析モデルの適用
リアルタイム分析
リアルタイム分析
オフライン分析
オフライン分析
新しい攻撃パターンを解析し、
新しい防御パターンをStreamsロジックに反映。
↓
防御パターンの信頼性を継続的に改善。
01/11/10
© 2010 IBM Corporation
【参考】 SmarterCity
ストックホルム市の交通管制システム: バージョン 2.0
ƒ データソース
– 数1000台のタクシーの GPS
– ループ・センサー
• 交通のスピード
• 流れ – 交通の密度 (台数/秒)
– トンネル内CCTV(監視カメラ)映像
– リアルタイム天候データ
ƒ 出力
– 所要時間の予報
• SMS 経由
• 今、30分で、1時間で、2時間で、
等
ƒ 既存システムとの統合
© 2010 IBM Corporation
【参考】 SmarterCity
リアルタイム交通流マネージメント
ƒ 車載GPS、混雑具合、公共の交通手段、天候などのリアルタイムデータから、各車の状態を推定し、
交通状況を可視化し、経路の予測・プランニングを実行
– 4台のx86ブレードサーバーを用いて,1秒間に250,000個のGPSからのデータを処理でき
ることを確認
交通状況の可視化
経路のプランニングと、予測所要時間
各地点での速度予測
GPS
Data
Streams
Real Time
Transform
ation
Logic
Real
Time
Geo
Mappi
ng
Interactive
visualizatio
n
Real
Time
Speed
&
Headin
g
Estima
tion
Real
Time
Aggreg
ates &
Statistic
s
Storag
e
adapter
s
Web
Server
Data
Warehouse
Google
Earth
Offline
statistical
analysis
© 2010 IBM Corporation
BIG Dataに基づいて実現するInternet Scale
従来のウェアハウスの機能を超える
従来の
ウェアハウス
従来のデータソースと
リレーショナルな
データソース
データベースと 休眠データの
ウェアハウス
分析
Streams
最新のデータソースと
リレーショナルではない
データソース
レイテンシーが非常に
低い分析結果
変動する情報を
分析
Internet
Scale
分析結果
最新のデータソースと
リレーショナルではない
データソース
InfoSphere
Big Insights
Internet Scale
従来のデータソースと
リレーショナルなデータ
ソース
データ分析、
データ処理、および
モデル構築
分析結果
© 2010 IBM Corporation
IBMのみが“BIG Data”の分析に対応可能
9 直線的にプロセッサの能力を拡張することで、
コア・データの分析のために数PBのデータを
数千人のユーザーに提供可能
9 CognosおよびSPSSとの緊密な連携
9 サードパーティーの分析モデルをデータウェア
ハウスで起動し、拡張性が高く効率的な分析
処理を実現
9 全てのデータをウェアハウスに読み込むことな
く、分析の集約化と分析モデルの一貫性を実
現
© 2010 IBM Corporation
ありがとうございました
© 2010 IBM Corporation
Fly UP