2. 監視アイテムの追加 - Zabbixインターナル
監視データが正常に取得できなかったり、想定どおりにトリガーが発行されない場合があります。通常は、監視対象に問題があったり、テンプレートやホストの設定に誤りがあることがほとんどです。
まれに、監視対象にも監視設定にもまったく問題がない(なかった)のに、監視が正常に行われないこともあります。
そのようなケースでは、実行しているZabbixサーバ自体に問題がある場合(CPU負荷、メモリ不足、ネットワーク障害、HDD領域不足、等々)と、Zabbixサーバアプリケーションが正常に動作していない場合が考えられます。
前者の場合、OS監視テンプレートで監視をしていれば(たとえそのデータの監視も止まっていても)、ある程度容易に、原因を推測することができます。
OSの状態がすべて正常にもかかわらず、監視データ、特に複数ホストの監視データの更新が一斉に遅延したり、トリガー発行が非常に遅くなる場合は、Zabbixサーバアプリケーションに問題がある可能性が高いです。
Zabbixアプリケーションの状態を確認するために、ZabbixにはZabbixインターナルという監視タイプがあります。Zabbixインターナルで、普段からこのアイテムで状態を監視しておくことZabbix自体の異常を未然に防ぐことが可能です。
Zabbixインターナルの種別
Zabbixインターナルで使用できるキーは、マニュアルの以下のページに定義されています。
Zabbixインターナルのキーやパラメタは、バージョンごとに結構相違があるので、かならず使用しているバージョンのマニュアルを確認するようにしてください。
上記のページには、様々なキーが定義されています。マニュアルには明記されていませんが、これらのキーは使い方によって、3つのタイプに分類できます。
Zabbixの内部状態の監視
キーのほとんどがこのタイプです。Zabbixの稼動状態、監視ホストやアイテムの数、Zabbixのプロセスやキャッシュ、キューの数、等々、これらの値の確認することで、Zabbixの状態をかなり詳細に把握することが可能です。
例:
zabbix [process,, , ] プロセスの状態
zabbix [queue,, ] キューの状態
zabbix [wcache,, ] キャッシュの状態
監視ホスト内のアイテムの状態
各監視ホスト内で使用し、そのホストに含まれるアイテムの数などを把握します。
ダッシュボードで全体の数値を確認することができますが、上記の値をテンプレート化し、概要画面で確認できるようにしておくと、グループ毎にunsupportedになっているホストの数がすぐに確認できて便利だと思います。
また、実験などで評価データを確実に値を取得しなければならない場合、unsupportedになったタイミングでトリガーを発行したり、グラフで異常が発生したタイミングを簡単に発見したりするのにも役立ちます。
Proxyの状態監視
Proxyの状態を監視するキーもあります。
zabbix[proxy,
zabbix[proxy_history] Proxy側でサーバへ送信待ちのデータ数を取得します。
Zabbixインターナルの使い方
Zabbixの監視テンプレートと、Zabbix自体の監視は、最初から登録されています。ただし、インストール状態では、無効になっているので、使い始めたらすぐに有効にしておくことをおススメします。
公開テンプレート
公式テンプレートでは、使用しているアイテムやグラフも限られており、状態を把握するためにもう少し工夫する余地があります。Shareサイトに、公式Zabbixテンプレートを補完するテンプレートを公開していますので、こちらもぜひ試してみてください。
このテンプレートを使用することで、多数のグラフを一つのスクリーンで確認できるようになっています。こちらのテンプレートの説明も後日記載したいと思います。