誰でも ZABBIX

Zabbixの使い方、役に立つ情報、等々

2. 監視アイテムの追加 - Zabbixインターナル

監視データが正常に取得できなかったり、想定どおりにトリガーが発行されない場合があります。通常は、監視対象に問題があったり、テンプレートやホストの設定に誤りがあることがほとんどです。

まれに、監視対象にも監視設定にもまったく問題がない(なかった)のに、監視が正常に行われないこともあります。

そのようなケースでは、実行しているZabbixサーバ自体に問題がある場合(CPU負荷、メモリ不足、ネットワーク障害、HDD領域不足、等々)と、Zabbixサーバアプリケーションが正常に動作していない場合が考えられます。

前者の場合、OS監視テンプレートで監視をしていれば(たとえそのデータの監視も止まっていても)、ある程度容易に、原因を推測することができます。

OSの状態がすべて正常にもかかわらず、監視データ、特に複数ホストの監視データの更新が一斉に遅延したり、トリガー発行が非常に遅くなる場合は、Zabbixサーバアプリケーションに問題がある可能性が高いです。

Zabbixアプリケーションの状態を確認するために、ZabbixにはZabbixインターナルという監視タイプがあります。Zabbixインターナルで、普段からこのアイテムで状態を監視しておくことZabbix自体の異常を未然に防ぐことが可能です。

Zabbixインターナルの種別

Zabbixインターナルで使用できるキーは、マニュアルの以下のページに定義されています。

8 Internal checks [Zabbix Documentation 3.4]

Zabbixインターナルのキーやパラメタは、バージョンごとに結構相違があるので、かならず使用しているバージョンのマニュアルを確認するようにしてください。

上記のページには、様々なキーが定義されています。マニュアルには明記されていませんが、これらのキーは使い方によって、3つのタイプに分類できます。

Zabbixの内部状態の監視

キーのほとんどがこのタイプです。Zabbixの稼動状態、監視ホストやアイテムの数、Zabbixのプロセスやキャッシュ、キューの数、等々、これらの値の確認することで、Zabbixの状態をかなり詳細に把握することが可能です。

例:
zabbix [process,,,] プロセスの状態
zabbix [queue,,] キューの状態
zabbix [wcache,,] キャッシュの状態

監視ホスト内のアイテムの状態

各監視ホスト内で使用し、そのホストに含まれるアイテムの数などを把握します。

f:id:Unam:20180308221100p:plain

ダッシュボードで全体の数値を確認することができますが、上記の値をテンプレート化し、概要画面で確認できるようにしておくと、グループ毎にunsupportedになっているホストの数がすぐに確認できて便利だと思います。

また、実験などで評価データを確実に値を取得しなければならない場合、unsupportedになったタイミングでトリガーを発行したり、グラフで異常が発生したタイミングを簡単に発見したりするのにも役立ちます。

Proxyの状態監視

Proxyの状態を監視するキーもあります。

zabbix[proxy,,] Proxyが最後にアクセスした時間が記録されています。fuzzytime()関数を使用し、一定時間アクセスのないProxyに対して、トリガーを発行することが可能です。

zabbix[proxy_history] Proxy側でサーバへ送信待ちのデータ数を取得します。

Zabbixインターナルの使い方

Zabbixの監視テンプレートと、Zabbix自体の監視は、最初から登録されています。ただし、インストール状態では、無効になっているので、使い始めたらすぐに有効にしておくことをおススメします。

f:id:Unam:20180308222320p:plain

公開テンプレート

公式テンプレートでは、使用しているアイテムやグラフも限られており、状態を把握するためにもう少し工夫する余地があります。Shareサイトに、公式Zabbixテンプレートを補完するテンプレートを公開していますので、こちらもぜひ試してみてください。

share.zabbix.com

このテンプレートを使用することで、多数のグラフを一つのスクリーンで確認できるようになっています。こちらのテンプレートの説明も後日記載したいと思います。