富士通研、クラウド向け障害対処技術を業界初開発 〜 自動で障害の検知から解決まで実行 | RBB TODAY

富士通研、クラウド向け障害対処技術を業界初開発 〜 自動で障害の検知から解決まで実行

エンタープライズ その他

従来の障害発生時の様子と今回の障害検知・対処の様子
  • 従来の障害発生時の様子と今回の障害検知・対処の様子
  • システムメッセージの分析による障害の予知
 富士通研究所は23日、クラウドシステムの障害予兆の検知から障害原因の絞込み、さらに障害解決までの一連の処理を自動で実行する技術を他社に先駆けて開発したことを発表した。

 クラウドシステムからの情報分析力と情報収集力を向上させることにより実現したもので、本技術により、クラウドシステムで障害が起こる前に対応することが可能になる。さらに、障害の解決まで自動的に行うことにより、運用管理者の負担が軽減できる他、利用者が安心して使えるクラウドシステムの提供が実現できるという。従来はシステム障害が発生した場合、発生直後からその対処を行っていたが、基盤を支えているクラウドシステムは止めることが許されないため、同様な対応では対処できない。そこで、障害が顕在化する前に予兆を捉え、障害が起こる前に解決するなどの新しい技術が期待されていた。

 富士通研では、障害時の直前に出力されるメッセージに特定のパターンがあることに注目し、障害の予兆を検知する技術を開発。発生したメッセージと過去に発生した障害時のメッセージのパターンを比較することで、障害の予兆が発生しているかどうかを判断する。過去に発生したメッセージパターンは“ベイズ学習”により事例ごとに重みづけを行うことにより、障害の予兆が発生しているかどうかを高い精度で検知する。

 一方、サーバなどの機器を設定する場合に人間のミスで誤った設定をしてしまうなど、メッセージには現れないトラブルもある。そこで、サーバとシステムをつなぐネットワーク上を流れる通信パケットを収集・分析し、ロスや再送、遅延時間など、通信パケットレベルでの微細な変化を分析することにより、障害を検出する手法が有効とされる。今回、クラウドのような大規模システムを監視するために、10Gbps(ギガビット毎秒)の高速通信に対応させ、ネットワークやサーバシステムの障害をリアルタイムで検出する技術を開発した。

 こうして検出された障害予兆に対して、観測された症状を起点として、ネットワークやシステムの構成情報を使って症状の原因へと遡って行き、複数の起点から遡った結果を重ね合わせ、もっとも重なりの大きい個所や正常動作が確認できない個所を推定。絞り込まれた障害原因に対して、障害対処履歴などの過去のノウハウを活用し、運用管理者に適切な対処方法を提示する。

 なおこの技術を適用した同社の社内システムにおいて、障害が実際に発生する前に誤設定を検出できたとのこと。また、障害解決の際にも、従来平均で15分かかっていた障害対処を1分程度で対応することが可能になったという。今後は同社の“オンデマンド仮想システムサービス”や“LCM監視サービス”への適用を順次進めていく予定。
《冨岡晶》

関連ニュース

特集

page top