...

運用(1) PureApplicationの監視 1 IBM PureApplication サマー・スクール 第3部 応用実践編:PureApplication Systemにおけるパターン開発と運用・管理

by user

on
Category: Documents
21

views

Report

Comments

Transcript

運用(1) PureApplicationの監視 1 IBM PureApplication サマー・スクール 第3部 応用実践編:PureApplication Systemにおけるパターン開発と運用・管理
IBM PureApplication サマー・スクール
第3部 応用実践編:PureApplication Systemにおけるパターン開発と運用・管理
運用(1) PureApplicationの監視
日本アイ・ビー・エム・システムズ・エンジニアリング PureSystemsソリューション
根本 真理子
© 2013 IBM Corporation
1
Disclaimer
‰
この資料は日本アイ・ビー・エム株式会社ならびに日本アイ・ビー・エム システムズ・エ
ンジニアリング株式会社の正式なレビューを受けておりません。
‰
当資料は、資料内で説明されている製品の仕様を保証するものではありません。
‰
資料の内容には正確を期するよう注意しておりますが、この資料の内容は2013年07
月現在の情報であり、製品の新しいリリース、修正などによって動作/仕様が変わる
可能性があるのでご注意下さい。
PureApplication
Summer School
2
© 2013 IBM Corporation
2
PureApplicationの運用概要
運用(1) PureApplicationの監視
運用(2) PureApplicationの管理
死活監視
イベント監視
カタログ管理
仮想イメージ
パターン
スクリプト・パッケージ
性能監視
リソース監視
FIXの適用
運用(3)
障害対策と災対構成
ライセンス管理
障害対策
バックアップ
ログ運用
災対構成
3
© 2013 IBM Corporation
運用のセッションは、3つに分けて実施します。各セッションは以下の通り別れてお
ります。
運用(1)-当セッション
死活監視・イベント監視・性能管理・リソース監視
運用(2)
カタログ管理・FIXの適用・ライセンス管理・ログ運用
運用(3)
障害対策・バックアップ・災対構成
3
Agenda
‰
‰
§1.はじめに
§2.PureApp監視の検討
„
„
„
„
„
‰
§3.PureApp監視設計Tips
„
„
„
„
„
4
PureAppの監視カテゴリー
PureAppの監視機能
【モニタリング・ポータル デモ】
【モニタリング・ポータルによる"状況確認"、"監視設定"デモ】
PureApp監視の検討方針
Tips1 システム・モニターで検知したイベントの転送
Tips2 PureAppの管理機能に対する監視
Tips3 TDW性能履歴データのエクスポート
Tips4 システム・モニターの障害復旧
Tips5 管理対象VMの追加対応
© 2013 IBM Corporation
4
§1.はじめに
5
© 2013 IBM Corporation
5
当セッションの目的
PureApplicationで監視がどう変わるのか?
どこからは作り込みが必要か?
6
© 2013 IBM Corporation
トラディショナルな環境を対象にした場合と、PureApplicationを対象とする場合と
で、システム監視どのように変わるのか、
どこまでPureApplicationの製品機能でカバーされるのかを紹介させていただきま
す。
6
システム監視の目的
‰
システムの正常な状態を保つために・・・
‰
異常(またはその兆候のある)状態 を自動で検知し
素早い対応を可能にし、システムの稼動率向上に貢献すること
重大なエラーメッセー
ジが出力されている
正常
URLにアクセスしてもリ
クエストが帰ってこない
稼動しているべきプロセ
スが停止している
異常
ディスク使用率が今にも使用率
100パーセントになりそう
7
© 2013 IBM Corporation
システム監視の目的は異常のある状態、あるいは 異常の兆候のある状態 を自動
で検知し、管理者に通知することで、素早い対応を可能にし、 システムの稼働率
向上に貢献することです。
ポイントとなるのは、管理者による『対応』が必要となる状況を、選別して検知するこ
とです。
全てのログの『エラー』や、CPU使用率が一時的に高い状態を検知しても、実際は
対応不要であることもあります。
ログについては、管理対象システムによって、検知すべき項目は異なりますが、一
般的な サーバー監視では、どのような項目が有用とされているか、次のページで
一般的な監視項目を紹介していきます。
7
一般的なサーバー監視項目例
‰
障害監視
€
€
€
€
‰
性能監視
€
€
€
€
€
実際に発生している問題をすばやく検知する
サーバー死活監視
ログ監視
プロセス/サービス ダウン検知
H/Wエラー
今後システムへ影響を与える状況が起こりうる現象を検知する
CPU使用率
メモリー使用率
ディスク使用率
ディスクI/O
ネットワークI/O
監視イベント
監視システム
監視対象
上記サーバー監視とは別に、サーバー上で稼動する
M/Wやアプリケーションに特化した監視も適宜行う。
€
€
€
テーブルスペース使用率(DB2監視の例)
レスポンスタイム監視(Webアプリケーション監視の例)
など・・
実プロジェクトでは、「既存システムの監視と同等の監視」といった要件を出されるケースが多い
8
© 2013 IBM Corporation
監視を検討する際は、大きく障害監視、性能監視の2つに分けて考えます。
障害監視 は、 実際問題が発生しているものを素早く検知することを目的としてい
ます。
一般的な監視項目としては、pingなどによるサーバー死活監視・テキストログ監視・
プロセス/サービスのダウン検知、SNMPtrap などによるH/Wエラー検知があげられ
ます。
性能監視 は、今後システムに影響を与える状況が起こりうる現象を検知することを
目的としています。
CPU使用率、など物理リソースの枯渇、I/Oの状況を閾値を設定して検知します。
これらサーバー監視とは別に、M/Wやアプリケーションに特化した監視も検討しま
す。
DB2の場合は、テーブルスペースの使用率が逼迫していないか、
Webアプリケーションの場合は、httpリクエストに対するレスポンス時間の閾値監
視・応答有無監視 などがあげられます。
システムに新たなサーバーを追加する場合、既存システムの監視と同等の監視レ
ベルを実現するといった要求をされるケースもあります。
8
§2.PureApp監視の検討
9
© 2013 IBM Corporation
9
PureApplication Systemの監視
‰
PureApplication Systemの運用監視はどのように検討すればよいでしょう
か?
なにを見ておけば有用?
監視方法・ツールの選択肢は?
監視構成の選択方法は?
10
© 2013 IBM Corporation
一般的な監視 について少しご説明させていただきました。
続いて、PureApplication Systemの監視をどのように検討すればよいか、お話して
いきます。
順に、「なにを見ておけば有用か」「監視方法・ツールの選択肢はなにか」「監視構
成の選択方法」についてご説明します。
10
PureApplication Systemの監視
‰
PureApplication Systemの運用監視はどのように検討すればよいでしょう
か?
なにを見ておけば有用?
監視方法・ツールの選択肢は?
監視構成の選択方法は?
11
© 2013 IBM Corporation
11
なにを見ておけば有用?
PureAppの監視カテゴリー(1/2)
‰
運用監視の観点から見た PureAppの構成要素
Instance
PureApp
各インスタンス内のOS,
各インスタンス内のOS, M/W
M/W
ƒƒLinux
Linux OS
OS
ƒƒWAS,
WAS, IHS
IHS
ƒƒDB2
DB2
ƒƒアプリケーションログ
アプリケーションログ
PureApp管理機能
PureApp管理機能
ƒƒPureApplication
PureApplication System
System Manager
Manager
ƒƒVirtual
Virtual System
System Manager
Manager
ƒƒ共有サービス
共有サービス
ƒƒ共有リソース
共有リソース(クラウド・グループ単位の
(クラウド・グループ単位の
資源。次ページにて説明)
資源。次ページにて説明)
Hardware
12
PureAppのH/W
PureAppのH/W
ƒƒ計算ノードや管理ノードなどのサー
計算ノードや管理ノードなどのサー
バー
バー
ƒƒネットワークスイッチ
ネットワークスイッチ
ƒƒストレージデバイス
ストレージデバイス
© 2013 IBM Corporation
監視の項目を検討するために、PureApplicationを、3つのレイヤーに分けてお話
します。
「Inscance」
こちらは、デプロイされた各VM上の監視を表します。
監視すべき項目は、一般的な仮想環境のLinuxサーバーシステムと同様です。
Linux OSのリソース・プロセスの監視、ミドルウェアを稼動させている場合は、ミド
ルウェアの監視、他、テキストログの監視があげられます。
「PureApplication管理機能」の層です。こちらは、PureApplication独自の監視を
検討することになります。
PureApplicationの管理機能としては、計算ノードと並列に物理マシンとして提供さ
れている、PSM, VSM、加えて、他VMと同様に計算ノード上で稼動する 共有
サービスがあげられます。
計算ノードのリソースは、共有リソースとして、デプロイ環境にリソースを提供して
いくため、共有リソースの監視も行います。
最後に、「Hardware」の層です。Hardwareの管理モジュールは、PureApplication
の管理者でも操作することはできません。
設定済みのHardware監視をそのまま適用し、監視を行っていくことになります。
一部、計算ノードやストレージの閾値監視については、ユーザーの設定による監
視も可能ですので、後ほどご説明します。
12
なにを見ておけば有用?
PureAppの監視カテゴリー(2/2)
‰
‰
PureAppは、仮想マシンをデプロイする際、クラウド・グループ を指定する
クラウド・グループには、以下が紐付けられている
€
€
‰
‰
ハードウェア
„
計算ノードのグループ(CPU, Memory)
„
ストレージ
IPグループ
仮想マシンの
デプロイ
クラウド・グループ:計算ノード=1:N の関係
クラウド・
クラウド・
⇒ 計算ノードのリソース監視によりの共有リ
グループ
グループ
ソースとしてのCPU, Memoryの監視はカバー
可
CPUをVM間で共有する「平均」
モードがある
⇒仮想マシン上のCPU使用率と、
ハードウェア・リソース
計算ノードのCPU使用率を合わ
せて監視することにより、VM間で
ストレージ
計算ノード
のリソース競合状況を検知
13
IPグループ
IP_GRP1
IP_GRP2
・・・
© 2013 IBM Corporation
PureAppは、仮想マシンをデプロイする際、クラウド・グループ を指定します。クラ
ウド・グループには、計算ノードやIPグループをひも付けます。
クラウド・グループ:計算ノード=1:N の関係です。
計算ノードのリソース監視が可能であることから、CPU, Memoryの計算ノードのリ
ソース監視により、クラウド・リソースの監視をカバーすることとなります。
また、計算ノードに属するCPUは、
前セッションにもあったとおり、VM間でCPUリソースを共有する「平均」という設定
があり、この場合VM上のリソースだけでなく、共有リソースとしてのCPU監視が必
要です。
13
PureApplication Systemの監視
‰
PureApplication Systemの運用監視はどのように検討すればよいでしょう
か?
なにを見ておけば有用?
監視方法・ツールの選択肢は?
監視構成の選択方法は?
14
© 2013 IBM Corporation
何を見ておけば有用か、PureApp監視のカテゴリーの概要について説明してきま
した。
続いて、監視方法・ツールの選択肢について、製品デモを交えつつ、お話していき
ます。
14
監視方法・ツールの選択肢は?
PureAppの監視機能
‰
‰
PureApp提供の監視ツールと、追加の監視機能を必要に応じて組み合わ
せ実装を行う
PureApp提供の監視ツール
ツール
監視機能
PureSystem Manager (PSM)
H/W, PureAppのイベントを検知
共有サービ
ス
データベース・パフォーマン
ス・ モニター
DB2の性能監視
(Optim Performance Manager(OPM))
システム・モニター
仮想マシン上のOS, M/Wの障害・性能監
視
‰
その他の監視ツール (要件に応じて追加)
ツール (Tivoli製品の場合)
監視機能
LogFile Agent
ログ監視
Netcool/OMNIbus (SNMP Probe)
イベント管理
15
© 2013 IBM Corporation
PureAppには、監視ツールが内蔵されています。
監視構成を決定する際、PureApp提供の監視ツールと、その他の監視ツール、そ
れぞれどのように採用するか検討します。
PureApp提供の監視ツールには、PureAppの主な管理コンポーネント PSMの他
に、共有サービスとして任意に選択することで使用できる データベース・パフォー
マンス・モニター、システム・モニター があげられます。
データベース・パフォーマンス・モニターは、DBの性能情報監視に特化したツール
です。システム・モニターは、仮想OS, WAS,IHS, その他PureApp内のH/Wリソー
スの監視を行います。
PureApp提供の監視ツールで、監視要件が満たされない場合、
あるいは、既存システムの監視ツールでPureApp上の監視も行う場合は、外部監
視システムにより、PureApp上のシステムも監視することになります。
PureApp提供の監視ツールを活用する場合についても、一部の監視要件は、外
部ツールの追加が必要になります。
代表的なものは、ここに記載のある テキストログ監視、イベントの管理機能(たと
えば、メンテナンス時間のイベントを抑止機能、重複イベントの排除)といったもの
です。
例として、ログ監視、イベント管理を挙げましたが、次に、PureAppではなく、トラ
ディショナルな環境に対し、IBMが提供している監視システムの全体図と、それに
対するPureApp提供機能の位置づけを説明させていただきます。
15
監視方法・ツールの選択肢は?
トラディショナルな分散系システムのための監視システム例
自動アクション
イベント管理
PureApp内の
イベント統合のみ
PSMで実施
イベント抑止対応
Netcool / OMNIbus
パトランプ点灯
E-mail通知
PureApp提供機能
カバー範囲
イベント統合
HW 障害監視
ログ監視
ITM/ITCAM
IBM Systems
Directorなど
Netcool Probes
LogFile Agent
ディスク, CPU,メ
モリ閾値
プロセス死活
ミドルウェア情報
HW障害情報
温度情報
電力情報
リソース/パフォーマンス
監視・障害監視
ログ・ファイル監視
HWエラーログ(AIX
errpt)
ネットワーク状況・
障害監視
TNM/
snmp probe
MIB 閾値監視
MIB 収集
SNMP トラップ
監視対象
‰
‰
16
ITM/ITCAMについては、全てをカバーするものではなく、OS Agent, WAS Agent(制約あり)のみ搭載。
(PureApplication System Agent と )
HW障害監視 については、PureAppのデフォルト設定を元に発行されるイベントを PSMが受信する
© 2013 IBM Corporation
監視システムの全体図としては、監視対象から各種情報を取得する仕組みがあり、
その監視情報を、「イベント管理」の機能を持つ Netcool/OMNIbusで統合・自動
アクションを行います。
イベントに対する管理アクションとしては、管理者の方へ E-mailでイベント情報を
通知したり、パトランプを点灯させたり という自動アクション処理に加え、システム
の一部がメンテナンス時刻に入る際のイベント抑止 などの処理があげられます。
各種管理対象の情報を受信するツールは、多くの種類がありますが、代表的な4種
類に分けると、以下の4つになります。
・リソース/パフォーマンス監視・障害監視 (ITM/ITCAM)
・ HW 障害監視 (Director, FSMなど)
・ログ監視 (LFA)
・ネットワーク状況・障害監視
(TNM/ snmp Probeなど)
このうち、PureApplication の提供している監視機能は、・リソース/パフォーマンス
監視・障害監視 (ITM/ITCAM)、・ HW 障害監視 に該当する部分となります。
また、PSMにイベントが集約されることから、一部のイベント管理機能があるといえ
ます。
※ ITM/ITCAMについては、全てをカバーするものではなく、OS Agent, WAS
Agent, IHS Agent(制約あり)のみの提供となります。
H/W監視については、PSMへ通知されるものを受信し、転送します。PSM受信
するイベントについては、デフォルトの状態からカスタマイズできません。
16
監視方法・ツールの選択肢は?
PureAppの監視機能構成概要
‰
PureAppの監視機能: PSMと共有サービス(システム・モニター)構成概要
外部システム
管理ドメイン
管理ドメイン
PSM
クラウド・グループ単位
SNMPトラップ
SNMPトラップ
外部監視
ツール
(ex.Netcool
)
システム・
モニター
(ITM)
H/W情報
(PureApp)
仮想マシン
システム・
モニターの
エージェント
運用監視
オペレーター
モニタリング・ポータル
(システム・モニターのGUI)
サービス・ドメイン
サービス・ドメイン
17
© 2013 IBM Corporation
PureApp監視機能の概要図です。
システム・モニターのエージェントがデプロイされた仮想マシン上で稼動します。
エージェントは、システム・モニターサーバーへ監視情報を通知します。
システム・モニターサーバーは、クラウド・グループ単位で作成されます。
システム・モニターサーバーで検知したイベントは、PSMへ通知されます。場合に
よっては、外部 EIF Probeへ通知する という選択肢もあります。当設定について
は、Tipsにて説明させていただきます。
PSMでは、システム・モニターのイベントだけではなく、あらゆる H/Wイベントや、
PureApp内部コンポーネントのイベントが通知され、PureApp内のイベントが統合
されます。
PSMで統合されたイベントは、SNMP trapにより、外部監視ツールに通知可能で
す。
PSMは、イベント一覧のGUIを、
システム・モニターは、リソース情報およびシステム・モニターで検知したイベントを
参照するための モニタリング・ポータルを提供しています。
通常時、運用監視オペレーターは、SNMP trapによりイベントを受けた 外部監視
システムの統合イベントコンソールを参照しており、PureAplicationに関連するイ
ベントを検知した際、必要に応じてPSMやモニタリング・ポータルを参照する とい
う流れになります。
17
監視方法・ツールの選択肢は?
PSM概要
‰
PureSystem Manager(PSM)とは・・・
PureAppを統括管理するコンポーネント
H/Wおよび PureApp管理機能のイベントを検知
„ PureApp の監視を統合
„ イベントをSNMP trapにて外部へ通知
„
外部システム
H/W情報
(PureApp)
CMM, IMMなど
PSM
仮想リソース
SNMPトラップ
SNMPトラップ
外部監視
ツール
(ex.Netcool
)
共有サービス
(ITM/OPM)
PureApp内
18
© 2013 IBM Corporation
監視におけるPSMの役割は、以下の通りです。
H/Wおよび PureApp管理機能のイベントを検知します。
PureApp の監視を統合します。
イベントをSNMP trapにて外部へ通知します。
18
監視方法・ツールの選択肢は?
システム・モニターITM/ITCAM(1/5)
‰
ITM/ITCAMとは・・・・
ITリソース、トランザクションなどを監視するための監視ツール
„
多様なエージェントにより、さまざまなITリソースの監視が可能
GUIのシンプルな操作で、監視定義が可能
„
現時点・時系列でのリソース情報をグラフィカルに表示
„
19
© 2013 IBM Corporation
システム・モニターは、共有サービスという形態で提供されるパターンとなっており、
内部には、ITM (IBM Tivoli Monitoring)、ITCAM(IBM Composite Application
Manager)が構成されます。
管理対象となるノード上で稼動し、監視対象の情報を検知し、アラートを発行しま
す。
GUI上からは、蓄積した性能履歴情報を参照する機能が提供されており、過去にさ
かのぼって性能情報の推移を参照し、その後のキャパシティー・プランニングに役
立てることが可能です。
19
監視方法・ツールの選択肢は?
システム・モニターITM/ITCAM(2/5)
‰
エージェントの種別により監視項目が異なる
エージェント種別
監視対象レイヤー
監視項目(例)
OS Agent
Instance(仮想マシン)
プロセス生死、ディスク使用率
Workload Agent
Instance(仮想マシン)
SWデプロイの成功・失敗
WAS Agent
Instance(仮想マシン)
アプリケーションサーバーのステータス、
Webサービスの応答時間
PureApplication
Agent
PureApp System,
Hardware
計算ノード単位のCPU使用率,メモリ使用率 PureApp
N/Wスイッチステータス
特有
PureApp
特有
Instance
参考)
IBM PureApplication System W1500 > Monitoring Agent for Linux の属性グループと属性
http://pic.dhe.ibm.com/infocenter/psappsys/v1r0m0/topic/com.ibm.ipas.doc/ITM_portal/DITA/attributegroupsa
ndattributes.html
PureApp
IBM PureApplication System W1500 > Monitoring Agent for Workloads > 属性のリファレンス
http://pic.dhe.ibm.com/infocenter/psappsys/v1r0m0/topic/com.ibm.ipas.doc/iwd/agent_IWD/fac_attributes_ref
erence.html
Hardware
IBM PureApplication System W1500 > ITCAM Agent for WebSphere Applications の属性
http://pic.dhe.ibm.com/infocenter/psappsys/v1r0m0/topic/com.ibm.ipas.doc/ITM_portal/was/itcam_71_was_te
ma_help/kyn_attr_overview.html
IBM PureApplication System W1500 > Monitoring Agent for IBM PureApplication System > 属性のリファレンス
http://pic.dhe.ibm.com/infocenter/psappsys/v1r0m0/topic/com.ibm.ipas.doc/agent_IPAS/fac_attributes_descri
ptions.html
20
© 2013 IBM Corporation
監視する対象により、監視エージェントが異なります。
Linux OS を監視する、Linux OS Agent,
デプロイの成功・失敗などを検知する Workload Agent、
WebSphere Application Serverの監視を行う WAS Agent、
計算ノードや、ストレージ、スイッチを監視する PureApplication Agentなどが提供
されています。PureApplication特有のAgentとしては、Workload Agent,
PureApplication Agentの2つになります。Workload Agentについては、PSMでイ
ベントとしてデフォルトで検知できる情報が多いため、監視としての必要性は低い
です。
それぞれの属性情報については、参考リンクをご確認ください。
参考)
Monitoring Agent for Linux の属性グループと属性
http://pic.dhe.ibm.com/infocenter/psappsys/v1r0m0/topic/com.ibm.ipas.doc/IT
M_portal/DITA/attributegroupsandattributes.html
Monitoring Agent for Workloads > 属性のリファレンス
http://pic.dhe.ibm.com/infocenter/psappsys/v1r0m0/topic/com.ibm.ipas.doc/i
wd/agent_IWD/fac_attributes_reference.html
ITCAM Agent for WebSphere Applications の属性
http://pic.dhe.ibm.com/infocenter/psappsys/v1r0m0/topic/com.ibm.ipas.doc/IT
M_portal/was/itcam_71_was_tema_help/kyn_attr_overview.html
Monitoring Agent for IBM PureApplication System > 属性のリファレンス
http://pic.dhe.ibm.com/infocenter/psappsys/v1r0m0/topic/com.ibm.ipas.doc/a
gent_IPAS/fac_attributes_descriptions.html
20
監視方法・ツールの選択肢は?
【モニタリング・ポータル デモ】
システム稼動時に状況を確認する手順を紹介します。画面をご覧ください。
<デモの流れ>
1. PSMログイン
2. モニタリング・ポータル(システム・モニターのGUI)起動
3. PureApplication System Agentの提供するワークスペース照会
€
€
€
4.
仮想マシンの状況確認
€
€
21
計算ノード
ネットワーク
ストレージ
ディスク使用率
稼働中プロセスのステータス
© 2013 IBM Corporation
21
監視方法・ツールの選択肢は?
システム・モニターITM/ITCAM(3/5)
‰
監視の定義は、シチュエーションという定義で作成
€
シチュエーション: 複数条件による状態の評価
„
„
€
設定した閾値と、管理対象システムから収集された属性データを比較
AND条件、OR条件の選択が可能
全ての条件がマッチした場合に状態を「真」と判断
„
€
結果が「真」の場合、問題・障害と認識 → PSMへ通知
標準シチュエーションの提供
„
監視に最適なシチュエーションをプラットフォーム・ミドルウェア別に提供
例) プロセスダウンを検知したら通知
22
後ほど
デモで紹介します
例) CPU使用率が70%~80%の間の場合、通知
© 2013 IBM Corporation
システム・モニターではシチュエーションという定義で監視の設定を行います。
シチュエーションでは、判定対象となる属性(データの種類)を指定し、その属性の
値に対し、判定式を記述します。
横に記載する式は And条件、 縦に記載する式は Or条件となります。
定義作成および設定変更手順については、デモにてご紹介させていただきます。
22
監視方法・ツールの選択肢は?
システム・モニターITM/ITCAM(4/5)
‰
システム・モニターデプロイ時、接続可能エージェント数を設定する
選択項
目
大
中
小
極小
‰
接続可能
エージェント数
2,000~5,000
500~2,000
200~500
~200
注意) 各仮想マシン上のエージェント数は、2~3個程度を見込む
€
基本的に OS Agent, Workload Agentが導入され、適宜WASなどM/W監視用
Agentが追加されるため
参考)Infocenter IBM PureApplication System W1500 >System Monitoring サービスのデプロイ
http://pic.dhe.ibm.com/infocenter/psappsys/v1r0m0/index.jsp?topic=%2Fcom.ibm.ipas.doc%2FITM_shared_service%2Ffac_deploy_monitoring_service.html
23
© 2013 IBM Corporation
システム・モニター・サーバーをデプロイする際、システム・モニターのサイズを指定
します。
クラウド・グループ内のエージェント数および、TDWのデータサイズを見積もり、サ
イズを決定します。
大
2,000~5,000エージェント
中
500~2,000エージェント
小
200~500エージェント
極小
~200エージェント
TDWのサイズについては、FPレベル(システム・モニターのパターンのバージョン)
により変更される傾向にあります。
採用予定のバージョンの仕様を適宜お問い合わせいただき、サイジングを行ってく
ださい。
システム・モニター・サーバーのリソースは、計算ノードより提供されることになります。
23
監視方法・ツールの選択肢は?
システム・モニターITM/ITCAM(5/5)
‰
PureSystem
Monitor
ITM/ITCAMの構成概要
管理ドメイン
管理ドメイン
仮想マシン
PSM
メイン管理サー
バー。Agentや監
視定義を管理
監視対象情報を収
集し、検知したイベ
ントを通知
エージェント
(TEMA)
PureApplication
Agent
PureAppの物理リ
ソースを監視
システム・モニター
のGUIを提供
ポータル・サーバー
(TEPS)
リポジトリ
Hub-モニター・
サーバー
(Hub-TEMS)
監視定義
Remote-モニター・
サーバー
(R-TEMS)
オペレーター
DB
ウェアハウス
サーバー
(TDW)
Warehouse
DB
性能履歴データを
収集・保存・要約
仮想マシン
サービス・ドメイン
サービス・ドメイン
Hub-TEMSとほぼ同
様の機能を持つ負荷
分散サーバー
24
© 2013 IBM Corporation
システム・モニターの構成概要です。
Small, Tiny では、デプロイ時全3VM (Hub-TEMS用VM, R-TEMS用VM, TDW用
VM)
Midium, Largeでは、デプロイ時4VM(Hub-TEMS用VM, R-TEMS用VM×2,
TDW用VM)で構成されます。
各デプロイされたノードは、R-TEMS経由で接続します。R-TEMSが2台構成の場
合、各Agentは接続先を2つ持ち、片方のR-TEMSに接続できない際は、もう片方
のR-TEMSに自動的に切り替わり接続します。
24
監視方法・ツールの選択肢は?
システム・モニターITM/ITCAM(補足)
‰
システム・モニターの各コンポーネントの機能説明
コンポーネント
25
機能説明
エージェント
(Tivoli Enterprise Monitoring
Agent/TEMA)
各監視対象の情報の収集を行う。収集データと監視条件との比較は、多くの場合エージェント側
で実施されるが、複雑な条件の場合はTEMS側で実施されることもある。
Agentには、OS Agent、Agent for WebSphere, Applications, に加え、PureApp特有の、Agent for
Workloads, Agent for IBM PureApp が提供されている。
モニター・サーバー
(Tivoli Enterprise Monitoring
Server/TEMS)
エージェントの管理を行う。エージェントに対する情報収集の依頼やエージェントが収集したデー
タの管理を行う。またアラート条件やアクション定義などの設定内容はTEMSで管理され、各エー
ジェントに配布される。
Hub-TEMSに対し、複数のRemote-TEMSを構成することで、負荷分散が可能。
ポータル・サーバー
(Tivoli Enterprise Portal Server
/TEPS)
監視クライアント(GUI)の管理を行う。このコンポーネントは、正確には各クライアントの定義情
報などを管理するTEPSとクライアント端末との通信を行なうサービスブローカの2つのコンポー
ネントに分かれている。ブラウザークライアントを使用している環境では、TEPSが持つHTTP
サーバー機能を利用する。ベースの実行環境にJVMが必要。
Tivoli Enterprise Portal(TEP)ク
ライアント
TEPSにアクセスして監視や監視のための各種設定を行うためのユーザーインターフェース。
TEPクライアントには、専用ソフトをインストールするデスクトップ・クライアント、Webブラウザから
アクセスするWebクライアント、Java Web Startを利用するJava Web Startクライアントの3種類が
提供されているが、PureApplicationsで使用するのは、Java Web Startクライアントとなる。
リポジトリーDB
TEPSの構成定義などが保管されるDB。
Tivoli Data Warehouse(TDW)
TEMAから収集した性能データを保管するDB。
© 2013 IBM Corporation
25
監視方法・ツールの選択肢は?
【モニタリング・ポータルによる"状況確認"・"監視設定"デモ】
シチュエーションの作成手順と、PSMへのイベントの連携をデモで紹介します。
画面のデモをご覧ください。
<デモの流れ>
1. プロセス監視のシチュエーション作成
1.
2.
3.
Formula(判定式(プロセス名、監視インターバル)
Distribution(検知対象OSの指定)
EIF (イベント転送有無の設定)
2.
システム・モニター上での検知
3.
4.
ファイル・システム使用率監視のシチュエーション作成
システム・モニター上での検知
5.
PSM上で検知したイベント確認
26
© 2013 IBM Corporation
26
PureApplication Systemの監視
‰
PureApplication Systemの運用監視はどのように検討すればよいでしょう
か?
なにを見ておけば有用?
監視方法・ツールの選択肢は?
監視構成の選択方法は?
27
© 2013 IBM Corporation
27
監視構成の選択方法は?
PureApp監視の検討方針
‰
以下のフロー図に基づいて、監視構成を決定
PureApp提供の監視ツールが、監視サーバー自身の運用要件(障害復旧の時間制約や、
冗長化指定、運用ツール製品指定など)を満たすことができるか? ※後述Tipsにて説明
YES
NO
PureApp提供の監視ツールで
監視要件を満たせるか?
YES
NO
PureApp提供外の機能を
組み合わせて実装
構成①
PureApp提供機能
のみによる監視
低
構成②
PureApp提供+外部監視システム
によるハイブリッド監視
監視ツールのための追加ライセンス費用
28
構成③
外部監視システム
による監視
高
© 2013 IBM Corporation
PureAppの監視構成の検討方法を紹介します。
さまざまな考え方はありますが、ここでは、監視ツールのためのライセンス費用を抑
えることを重視し、フローを記載しています。
まず、第一に、監視サーバー自身の要件を確認します。
製品の制約があるか、冗長性が必須ではないか、監視サーバー自身の障害復旧
時間に厳しい制約はないか、といった点を確認します。
上記3点に厳しい要件がない場合、共有サービスであるシステム・モニターの採用
を視野に入れ、攻勢を決めていきます。
PSMのイベント管理機能、PSMで検知されるイベントとシステム・モニターのシチュ
エーションにより検知できるイベント により、監視要件をカバーできる場合、
PureApp提供の監視機能のみでの構成をご提案します。
監視要件や、イベント管理要件により追加のモジュールが必要となる場合は、外部
監視システムも追加したハイブリッド監視形式が有効です。
続いて、これらの構成について、説明させていただきます。
28
監視構成の選択方法は?
構成①PureApp提供機能のみによる監視
PureApp
PureApp 管理ドメイン
管理ドメイン
PSM
クラウド・グループ単位
データベース
パフォーマンス・
モニター
(OPM)
PSMのイベントコンソールあるいは、
TEPのGUIから監視を行う
システム・
モニター
(ITM)
運用監視オペレーター
H/W情報
(PureApp)
DB2
TEMA
仮想マシン
PureApp
PureApp サービス・ドメイン
サービス・ドメイン
29
© 2013 IBM Corporation
構成①PureApp提供機能のみによる監視 の構成です。
監視オペレーターは、基本的にPSMのイベントのGUIを参照していることになりま
す。
問題発生時は、PSMのその他のGUIや、システム・モニターのポータル画面を参照
します。
29
監視構成の選択方法は?
構成①PureApp提供機能のみによる監視
‰
構築までのステップ
システム・モニター
のデプロイ
シチュエーションの設定
(GUIより)※1
※1 事前定義シチュエーションのみを使用する場合は不要。事前定義シチュエーションについては、後述。
‰
監視対象追加時のステップ
仮想マシンのデプロイ
※2
‰
個別の監視定義を
作成 ※3
※2自動的にAgentが追加導入・起動され監視対象となる
※3 全Agentを対象とするシチュエーションの監視のみの
使用であれば対応不要
監視レベル
€
€
€
€
€
€
H/Wイベント検知
H/Wリソース監視
構成① のカバー範囲
VM上のリソース監視
VM上のプロセス監視
VM上のログ監視
イベント処理機能(抑止・フィルタリングなど)
30
© 2013 IBM Corporation
構築までのステップは非常にシンプルです。
PSMはデフォルトの構成を採用することになりますので、システム・モニターのデプ
ロイを実施し、監視定義を設定します。
監視対象となる仮想マシンをデプロイする場合、仮想マシンを仮想マシンのデプロ
イ後に、個別の監視定義があれば、シチュエーションを作成します。
監視の機能としては、
PSMおよびシステム・モニターでカバーできる範囲の実装となります。
VM上のログ監視は含まれませんが、WAS Agentにより、 SystemOut.log と
SystemErr.log の監視は可能です。
イベント抑止機能や、重複排除機能、不要イベントのフィルタリング機能は提供され
ていないため、オペレーターは重要なイベントを見逃さないよう、工夫する必要があ
ります。
30
監視構成の選択方法は?
構成② PureApp提供+外部監視システムによるハイブリッド監視
PureApp
PureApp 管理ドメイン
管理ドメイン
外部監視サーバー
SNMPトラップ
SNMPトラップ
PSM
SNMP Probe
EIF Probe
クラウド・グループ単位
データベース
パフォーマンス・
モニター
(OPM)
OMNIbus
(Object Server)
WebGUI
システム・
モニター
(ITM)
運用監視オペレーター
H/W情報
(PureApp)
DB2
TEMA
LogFile
Agent
凡例 PureApp提供外コンポーネン
ト
仮想マシン
PureApp
PureApp サービス・ドメイン
サービス・ドメイン
31
SNMP Probe : SNMP trapを受信するための
Netcoolコンポーネント
EIF Probe : EIFイベントを受信するための
Netcoolコンポーネント
© 2013 IBM Corporation
続いて、構成② PureApp提供+外部監視システムによるハイブリッド監視 です。
監視オペレーターは、基本的に外部監視サーバーの統合イベント・コンソールを参
照することになります。
問題発生時は、PSMのその他のGUIや、システム・モニターのポータル画面を参照
します。
31
監視構成の選択方法は?
構成②PureApp提供+外部監視システムによるハイブリッド監視
‰
構築までのステップ
シチュエーションの設定(GUIより)
システム・モニター
のデプロイ
外部SNMP Managerに対し
PSMからのSNMP trap受信設定
PSMでSNMP trap
送付先を設定
イベント管理処理を外部システム上で実装
追加Agentの導入パッケージを作成(スクリプトパッケージ、PDK)
‰
監視対象追加時のステップ
追加エージェントの
導入パッケージを付与
‰
システム・モニター上で個別の監視定義を作成
仮想マシンのデプロイ
外部監視システムで個別の監視定義を作成
凡例
監視レベル
€
€
€
€
€
€
H/Wイベント検知
H/Wリソース監視
VM上のリソース監視
VM上のプロセス監視
VM上のログ監視
イベント処理機能(抑止・
フィルタリングなど)
PureApp上のステップ
外部システム上のステップ
構成② のカバー範囲
追加Agentにより対応(LogFile Agentなど)
外部監視システムにより対応
(Netcool/OMNIbus Triggerなど)
32
© 2013 IBM Corporation
構築までのステップPSMはデフォルトの構成を採用することになりますので、システ
ム・モニターのデプロイを実施し、監視定義を設定(不要なデフォルト監視定義を削
除するなど)します。
それに加え、外部監視システムへ、イベントを通知る設定、外部監視システムで
SNMP trapを受信するための設定、
イベント管理処理を外部システム上で実装
管理対象上にエージェントの追加が必要な場合、追加Agentの導入パッケージを
作成 する という作業が必要になります。
監視対象となる仮想マシンをデプロイする場合、パッケージに対し導入パッケージ
を付与してから、デプロイ行います。
仮想マシンを仮想マシンのデプロイ後は、個別の監視定義があれば、シチュエー
ションおよび外部システム監視での監視定義を作成します。
監視の機能としては、
PSMおよびシステム・モニターでカバーできる範囲に加え、
外部監視システムの機能により拡張した機能に対応が可能です。
32
監視構成の選択方法は?
構成②PureApp提供+外部監視システムによるハイブリッド監視
監視項目概要・監視ツールマッピング -障害監視
太字: お勧め機能
障害監視 -実際に発生している問題をすばやく検知する
PureApp提供機能 PureApp提供外機能
監視対象
H/W
計算ノード
PSM
なし
ネットワーク
PSM
なし
ストレージ・デバイス
PSM
なし
物理リソース
-
-
PureApp
System
PureApplication System Manager
PSM
ポート監視スクリプト
Virtual System Manager
PSM
なし
各インスタンス
内のOS, M/W
システム・モニター本体
PSM
OMNIbus
Linux OS
ITM OS Agent
同左
WAS, IHS
ITCAM Agent
同左
DB2
OPM
ITCAM DB2 Agent
OPM
MQ
なし
ITCAM MQ Agent
アプリケーション・ログ
なし
LogFile Agent
定期イベントチェック
33
© 2013 IBM Corporation
監視の住み分け案を表としてご紹介しています。
H/W, PSM, VSMについては、PSMから検知、システム・モニターは定期イベント
発行により別途外部システムのイベント処理により対応、各インスタンス上のリソー
ス・プロセスの監視はシステム・モニター、アプリケーション・ログはLFAによる監視と
なります。
33
監視構成の選択方法は?
構成②PureApp提供+外部監視システムによるハイブリッド監視
監視項目概要・監視ツールマッピング -性能監視
性能監視 -リソースの逼迫状況など今後システムへ影響を与える情況が起こりうる現象を検知する
PureApp提供機能
PureApp提供外機
監視対象
能
H/W
計算ノード
PSM+PureApplication Agent
なし
ネットワーク
PSM+PureApplication Agent
なし
ストレージ・デバイス
PSM+PureApplication Agent
なし
物理リソース
PSM+PureApplication Agent
なし
PureApp
System
PureApplication System Manager
なし
Virtual System Manager
なし
各インスタンス
内のOS, M/W
システム・モニター本体
ITM OS Agent
なし
Linux OS
ITM OS Agent
同左
WAS, IHS
ITCAM Agent
同左
DB2
OPM
ITCAM DB2 Agent
OPM
MQ
なし
ITCAM MQ Agent
アプリケーション・ログ
なし
LogFile Agent
太字: お勧め機能
34
© 2013 IBM Corporation
リソース監視の場合、H/Wリソースの監視に システム・モニターのPureApplication
Agentを活用できます。
PureApplication Agentについては、システム・モニター外部にも導入できるので、
構成③でも同様に採用可能です。
34
監視構成の選択方法は?
構成③外部監視システムによる監視
外部システム
PureApp
PureApp
管理ドメイン
管理ドメイン
SNMPトラップ
SNMPトラップ
PSM
SNMP Probe
EIF Probe
OMNIbus
(Object Server)
WebGUI
PureApplicatio
n Agent
TEMS
H/W情報
(PureApp)
TEMA
LogFile
Agent
仮想マシン
PureApp
PureApp サービス・ドメイン
サービス・ドメイン
35
運用監視オペレータ
PureApp提供外コンポーネン
凡例
ト
既存コンポーネント(想定)
© 2013 IBM Corporation
最後に、構成③外部監視システムによる監視 です。
監視オペレーターは、基本的に外部監視サーバーの統合イベント・コンソールを参
照することになります。
問題発生時は、外部監視システムのリソース管理コンポーネントや、PSMなどの
GUIを参照します。
35
監視構成の選択方法は?
構成③外部監視システムによる監視
‰
構築までのステップ
外部SNMP Managerに対し
PSMからのSNMP trap受信設定
外部監視システムを準備
PSMでSNMP trap
送付先を設定
追加Agentの導入パッケージを作成(スクリプトパッケージ、PDK)
‰
監視対象追加時のPureApp側のステップ
追加エージェントの
導入パッケージを付与
仮想マシンのデプロイ
個別の監視定義
を作成
凡例
‰
PureApp上のステップ
外部システム上のステップ
監視レベル
€
H/Wイベント検知
H/Wリソース監視
€ VM上のリソース監視
€ VM上のプロセス監視
€ VM上のログ監視
€
€
構成③ のカバー範囲
イベント処理(抑止)機能
36
© 2013 IBM Corporation
構築までのステップは、外部監視システムの準備に加え、PSMのイベントをSNMP
trapで送付する設定を行うことがあげられます。
監視対象となる仮想マシンをデプロイする場合、パッケージに対し導入パッケージ
を付与してから、デプロイ行います。
個別の監視定義がある場合、外部システム上で監視の定義を設定します。
監視の機能としては、外部システムのカバー範囲がどこまでかに依存しますが、記
載している以下の項目はカバー可能とするツールを採用するケースが多いかと思
います。
H/Wイベント検知
H/Wリソース監視
VM上のリソース監視
VM上のプロセス監視
VM上のログ監視
イベント処理(抑止)機能
36
§3.PureApp監視設計Tips
37
© 2013 IBM Corporation
基本的な管理操作
PureApplicationの基本的な管理操作の概要を紹介します。
37
【Tips1】 システム・モニターで検知したイベントの転送
‰
‰
外部監視システムにイベントを転送する経路は以下の2つ
それぞれのメリット・デメリットを踏まえ、設計を行う
1.
2.
システム・モニター → PSM → 外部監視システム(SNMP Probe)
システム・モニター → 外部Tivoli監視システム(EIF Probe) PureApp v1.1新機能
外部Tivoli監視システム
PureApp
PureApp
システム・モニター (クラウド・グループ単位)
TEMS
EIF Reciver
SNMP Trap
PSM
EIF Event
‰
※
EIF Probe
‰イベント転送経路が一本化される
‰他社製SNMP
経路2
OMNIbus
(Object Server)
凡例 経路1
経路2
各経路の特徴
経路1
SNMP Probe
Managerでもイベント受信が可能
‰クラウドグループごとに、転送先の外部監視システムを設定することが可能。(マルチ
テナントで監視サーバーが分かれる場合)
‰受信にはTivoliコンポーネント(EIF Probe)が必須
※ PSM経由しか通知できないH/Wなどの監視イベントについては、いずれの設定でも、1の経路をたどる
38
© 2013 IBM Corporation
V1.1 で、システム・モニターで検知したイベントの通知経路が、追加されました。
これまでのイベント通知経路は、システム・モニター → PSM → 外部監視シス
テム(SNMP Probe) のみでしたが、
システム・モニター → 外部Tivoli監視システム(EIF Probe) という経路もとること
が可能となっています。
追加された経路のメリットとしては、マルチ・テナントで監視サーバーが各テナントご
とに別れるようなケースに、クラウドグループごとに、転送先の外部監視システムを設定すること
が可能である点です。
注意点は、EIF イベントの受信に EIF Probe(Netcool/OMNIbusのエージェント)が必要ということ、
PSM経由のイベントは、一括でのみ転送先の指定となる ということです。
一方
V1.0から提供されていた経路1 全てのイベントを PSM経由とする場合、SNMP trapのイベントで
通知されるため、Tivoli以外のツールであっても、イベントを受信することは可能です。
38
【Tips2】 PureAppの管理機能に対する監視 (1/2)
‰
‰
PureAppの管理機能および監視機能の障害を検知する方法を検討する
監視コンポーネントの停止により異常を検知できない状況を避けるため、シス
テム・モニターの監視も必要
PureApp
Remote-TEMS
外部システム
Hub-TEMS
EIF Receiver
PSM
PSM
PSM
TEMA
R-TEMS or TEMA
障害時
Hub-TEMSの管理
対象システム接続
断状態イベントに
より検知可能
Hub-TEMS or EIF Receiter
障害時
製品機能により検知する仕組みはない。
Hub-TEMS, EIF Receiverを経由する正
常イベントを常時発行し、外部監視システ
ムで「正常イベントがない状態」を異常とし
て検知することなどで対応
39
外部監視
ツール
(ex.Netcool
)
PSM
障害時
冗長化されている
ため、PSM切り替
わりイベントにより
検知可能
© 2013 IBM Corporation
PureAppの管理機能の監視を検討します。
PSM, VSMは冗長化されており、切り替わりイベントが発行されるため、死活監視
は可能です。
システム・モニターについては、上記図の通り、Hub-TEMS, EIF Receiverの死活
を検知する仕組みが提供されていないため、工夫が必要です。
1つの方法として、定期的に正常イベントを発行し、外部監視ツールのイベント処理
機能によって、イベントの途絶えた情報を障害として検知する方法があげられます。
39
【Tips2】 PureAppの管理機能に対する監視 (2/2)
‰
‰
PureAppの管理機能および監視機能の障害を検知する方法を検討する
監視コンポーネントの停止により異常を検知できない状況を避けるため、シス
テム・モニターの監視も必要
監視対象
検知場所
VSM
PSM Agentのイベント受信
PSM
PSM
PSM Agentのイベント受信
外部からの接続監視(ping or ポート)
PSM
各Agent
AgentのOffline検知
TEMS
TEPS
Agent(TEPS)のOffline検知
TEMS
Remote-TEMS
Agent(Remote-TEMS)のOffline検知
TEMS
TEMS
定期的なイベント発行により検知
外部イベント管
理サーバー
EIF Receiver
定期的なイベント発行により検知
外部イベント管
理サーバー
システム・モ
ニター
40
検知方法
外部の監視機
能
© 2013 IBM Corporation
40
【Tips3】 TDW性能履歴データのエクスポート
‰
システム・モニターのTDWコンポーネントにより、性能履歴データが保管可能
‰
ただし、蓄積した性能履歴データの外部保管(エクスポート)は、GUI(TEP)上
の手動操作のみで、自動化は不可
手動でのエクスポートのために、TEPの設計・設定が必要
‰
表示されている履歴
データのみをCSV
ファイルにエクス
ポート
システム・モニター(ITM)
ウェアハウス
サーバー
(TDW)
運用監視
オペレーター
Warehouse
DB
CSVファイル
モニタリング・ポータル
(システム・モニターのGUI)
41
© 2013 IBM Corporation
TDWの性能履歴データをエクスポートする仕組みが必要な場合、
システム・モニター上で定期的なシェルスクリプトの実行などを作ることがサポートの
範囲内では不可であることから、モニタリング・ポータル上からCSVファイルをエクス
ポートする方法を採用します。
モニタリング・ポータル上に、性能履歴データを表示するには、GUIの設定が必要
です。
エクスポート対象となる属性グループ(Agentが収集したデータのグループ)が多い
場合には、定期的なエクスポート処理の運用負荷軽減のため、モニタリング・ポータ
ルのGUIを設計・設定し保存しておくことが有効です。
41
【Tips4】 システム・モニターの障害復旧
‰
‰
システム・モニター障害時には、システム・モニター再構築は短時間で済む。
しかし、設定情報の反映については、コマンドによる定義バックアップ取得/リ
ストの手段が提供されていないため、手動(GUI)での実行が必要。
システム・モニターの設定情報
€
€
€
シチュエーション設定
ヒストリカルデータ取得・要約設定
ワークスペース設定
ITMの復旧作業との比較イメージ
以下定義をimport
ITMサーバー
障害発生
ITMサーバーの
再導入
•シチュエーション
•ヒストリカル収集・要約
•ワークスペース
ITMサーバーを再導入する場合、導入にそれなりの時間がかかる
システム・モニター
障害発生
以下定義をGUIより設定 (所要時間は設定量に依存)
システム・モニター •シチュエーション
•ヒストリカル収集・要約
再構築
•ワークスペース
システム・モニターの再構築は短時間(1時間程度)で完了するが、設定反映に時間がかかる
42
© 2013 IBM Corporation
システム・モニターに障害が発生した場合、まずは各コンポーネントの再起動、つ
いては、システム・モニターの再起動などを行い復旧しないか試みます。
復旧しない場合、PAコールにより問題判別を行います。
最悪の場合、システム・モニターの再デプロイを実施することになります。
再デプロイは、2時間もあれば完了しますが、シチュエーション設定、ヒストリカル
データ取得設定、ワークスペース設定の取り込みに、一部使用できないコマンドが
あるため、通常のITM, ITCAMより時間を要する可能性があります。ご注意ください。
シチュエーションを1つずつエクスポート・インポートするコマンドについては、実行
が可能です。
(tacmd viewsit, tacmd createsit)
http://pic.dhe.ibm.com/infocenter/psappsys/v1r1m0/index.jsp?topic=%2Fcom
.ibm.puresystems.appsys.1500.doc%2Fiwd%2Fitmss_situation_not_forward
ed.html
42
【Tips5】 管理対象VMの追加対応
‰
管理対象となるVMが追加された場合、監視に関して自動化されている部分と
手動対応が必要な部分がある
実施内容
PureApp提供
監視機能
OS Agent, WAS Agentなどの導入
PureApp外部
監視機能
スクリプト・パッケージあるいはPDKによる監
視ツールの導入
要手動対応 PureApp提供
監視機能
仮想マシンごと異なる監視設定(例: プロセス
監視対象)
PureAppに
より自動化
PureApp外部
監視機能
43
全仮想マシンが対象となっている監視の開始
ログファイルの検知文字列指定など
© 2013 IBM Corporation
管理対象VMが追加された場合の手動対応が必要な部分を表にしています。
仮想マシン単位で異なる監視を実装する場合、仮想マシンが増えるごとに監視の
設定が必要です。
可能な限り、汎用的な監視定義とし、同タイプの全Agent (*Linux_ALL など) に
対しシチュエーションを配布することで、当運用負荷の軽減につながります。
43
【Tips6】 事前定義シチュエーションの活用
‰
システム・モニターでは、各Agentごとに、事前定義シチュエーションが提供さ
れている。実運用で活用するには、以下の工夫が必要
€
€
監視オペレータのアクションが必須となる項目のみ絞る
プロセス監視など、個別監視で補足すべきものを追加する
Agent種別
事前定義シチュエーション例
Linux OS Agent
(53個)
・Linux_High_CPU_Overload
CPUアイドル% 10パーセント未満を検知 15m間隔
・Linux_Process_stopped
プロセスのRunningとSleeping以外を/proc/PIDより検知
15m間隔
InfoCenterリンク
http://pic.dhe.ibm.com/infocenter/psap
psys/v1r0m0/topic/com.ibm.ipas.doc/IT
M_portal/DITA/predefinedsituations.ht
ml
WebSphere Agent
(38個)
InfoCenterリンク
http://pic.dhe.ibm.com/infocenter/psap
psys/v1r0m0/topic/com.ibm.ipas.doc/IT
M_portal/was/itcam_71_was_tema_hel
p/kyn_situations.html
PureApplication
System Agent
(32個)
InfoCenterリンク
http://pic.dhe.ibm.com/infocenter/psap
psys/v1r0m0/topic/com.ibm.ipas.doc/a
gent_IPAS/fac_situations_descriptions.
html
15分間の間でCPUアイドル率
10%未満を検知したらアラート
が発生する。対象となる環境の
処理内容を精査し、正常な
CPU使用を検知しすぎないよう
必要に応じてカスタマイズする。
/proc/PIDにエントリーのないプ
・WASError (WASのログ監視)
ロセスについては、別途監視定
SystemOut.log と SystemErr.logに 警告以上のメッセージ 義を個別に作成し検知すること
・WASAppHealthGood (WASアプリケーション正常性監視)
となる。
正常性「良好」を検知
(「不良」「普通」別途事前定義シチュエーションで提供)
・KQ8_VM_Down_Cri (仮想マシンの停止監視)
仮想マシンのステータス「stopped」を検知 5m間隔
・KQ8_Temperature_High_Warn (高温状態を監視)
H/Wの高温状態を検知
PSMの機能で検知されるイベ
ントと重複するケースがある
44
© 2013 IBM Corporation
デフォルトの監視定義を活用する際は、不要なイベントが挙がりすぎないよう、
テスト運用期間を設けてイベントが発生した際にオペレータアクションが本当に必
要か、整理をすることになります。
表にシチュエーションの定義を一部紹介させていただいておりますので、ご参照く
ださい。
Linux OS Agent
(53個)
InfoCenterリンク
http://pic.dhe.ibm.com/infocenter/psappsys/v1r0m0/topic/com.ibm.ipas.doc/ITM_portal/DITA/predefinedsituations.html
WebSphere Agent
(38個)
InfoCenterリンク
http://pic.dhe.ibm.com/infocenter/psappsys/v1r0m0/topic/com.ibm.ipas.doc/ITM_portal/was/itcam_71_was_tema_help/kyn_situations.html
PureApplication System Agent
(32個)
InfoCenterリンク
http://pic.dhe.ibm.com/infocenter/psappsys/v1r0m0/topic/com.ibm.ipas.doc/agent_IPAS/fac_situations_descriptions.html
44
ITを、もっと手早くカンタンに。
45
© 2013 IBM Corporation
45
Fly UP