【テクニカルレポート】大規模クラウドデータセンターの運用管理、コスト削減を可能とするITリソース管理技術……日立評論

ブロードバンドテクノロジー

2012年7月29日（日） 19時32分

注目記事

　クラウドの利用が進み，データセンターが大規模・複雑化している。そのため，データセンターを運用する管理者の負荷が高まり，運用管理コストが増加している。

　そこで，日立グループは，管理者の抱える「大規模化したデータセンターの一元管理が困難」，「高度な管理スキルの属人化による特定管理者への作業集中」，「役割の異なる複数管理者の連携による作業時間の増大」という，三つの課題に取り組んだ。これらの解決に向け，大規模ITリソースの一元管理を可能とする管理リポジトリ技術，高度な管理者の持つノウハウを形式知化した障害原因解析技術，ストレージ構築を自動化し管理者間の連携を省力化した仮想サーバ・ストレージ管理連携技術を実現した。

1.　はじめに

　近年，スマートフォンやタブレットPC（Personal Computer）などモバイルデバイスが普及し，デジタルデータの量が爆発的に増加している。2020年には世界のデジタルデータの総容量が73 Z（Z＝10の21乗）バイトに到達する見込みであり，約44.4％がクラウドに格納されると予測されている（1）。これは2012年現在の約10倍以上である。さらに，クラウドの登場で，IT（Information Technology）リソースの「所有」から「利用」への流れが進み，これまで分散して設置されていたITリソースをデータセンターへ集約化することで，コスト削減をねらう動きがある。

　このようにクラウドの利用が進む中，日立グループは，データセンターで利用しているサーバやストレージなどのITリソースから，日立クラウドソリューション「Harmonious Cloud」まで幅広く提供している。

　ここでは，クラウドの利用によって大規模化するデータセンターの運用管理コスト削減に向けて管理者が抱える三つの課題を取り上げ，これを解決するITリソース管理技術について述べる。

2. ITリソース管理の課題

　データセンターは大規模化しているが，これを管理する管理者の数は横ばいの状況である。そのため，運用管理コストを削減すべく，管理者の負荷を軽減することが求められている。
　
　そこで，大規模化するデータセンターの管理者の抱える主な三つの課題に取り組んだ（図1参照）。

　1点目は，ITリソースの一元管理が困難となったことである。データセンターの大規模化により，管理対象のITリソースの数が爆発的に増え，従来まで実現していた構成情報や性能情報の一元管理が困難になった。このため，大規模なデータセンターでは，全体の状況を把握できず，迅速な管理が行えない。

　2点目は，高度な管理スキルの属人化である。データセンターの大規模化に加え，サーバやストレージの仮想技術の進展によってシステム構成が複雑化したことで，従来に増して管理者に高度な知識や豊富な経験が求められている。しかし，各企業では経験が十分な管理者を，必要な人数だけ確保できない場合が多い。そのため，高度な管理スキルを持った特定の管理者に作業が集中してしまい，短時間で多くの作業をこなすことが難しくなっている。

　3点目は，複数管理者の連携作業による作業時間の増大である。データセンターが大規模化したことで，管理者の体制が管理対象の種類や提供するサービスごとで分業する体制が増えてきている。そのため，役割のある複数管理者が連携して作業しなければならないケースがある。これは，人間を介することで作業の迅速さを欠くだけでなく，担当業務の違いから，管理者が知り得ている知識に偏りが生じ，管理者間で意図どおりに情報が伝わらず，障害が発生する場合もある。

3.　大規模ITリソース管理リポジトリ技術

　1点目の課題に対して取り組んだ大規模ITリソース管理リポジトリ技術について述べる。

　データセンターの大規模・複雑化に伴い，管理対象のITリソースの数や種類が増加し，管理者が日々利用する運用管理ソフトウェアが扱うデータ量が増加している。そのため，従来まで一元管理を実現してきた運用管理ソフトウェアでは，メモリ不足や処理時間の増大が発生し，管理できなくなりつつある。こうしたことの主な原因は，ITリソースの構成情報を格納し，検索処理を実行しているDB（Database）にある。一般的な運用管理ソフトウェアでは，管理対象のITリソースから構成情報を受け取ると，サーバの構成情報はDBのサーバ用テーブルへ格納し，ストレージの構成情報はストレージのテーブルへと，ITリソースごとに別々のテーブルに格納していた。しかし運用管理ソフトウェアが扱うデータ量が増え，さらに，データセンター全体を俯瞰（ふかん）するレポート画面のように，1回の操作によって扱わなければならないテーブル数が増えた。これがDBでのメモリ不足や処理時間増大の原因である。

　解決策として，一般的には，DBのインデックスを使う方法がある。しかし，対象データとテーブル数が増加すると，設定しなければならないインデックスの数が増加してしまい，その結果，インデックス生成の処理時間，およびインデックス自体のデータ量が増加して問題となる。対象とする大規模データセンターのITリソースの数から試算すると，100Gバイト以上ものインデックスが必要であった。そこで，省メモリで高速な検索を実現する大規模ITリソース管理リポジトリ技術を開発した（図2参照）。この技術は，データセンターの運用管理で利用される主要ユースケースを分析し，この主要ユースケースで利用される必要なデータのみを抽出して，集約した集約テーブルを生成する。さらに，この集約テーブルに絞りインデックスを設定することで，省メモリで高速なITリソース管理リポジトリ技術を実現した。この技術により，世界トップクラスのスケーラビリティ（当社従来比約40倍）のITリソース管理リポジトリを実現した。

4.　障害原因解析技術

　次に，2点目の課題に対して取り組んだ障害原因解析技術について述べる。

　データセンターの大規模・複雑化により，管理者には従来に増して高度な知識や豊富な経験が求められている。しかし，各企業では経験が十分な管理者を，必要な人数だけ確保できない場合が多い。こうしたことは，運用管理作業の中で特に迅速な対応が求められる障害復旧作業を困難にする。障害に迅速に対応するためには，障害発生から回復までのサイクルのうち，障害検知から原因特定までに要する時間を短縮することが重要である。そこで障害発生時に原因を解析するためのRCA（Root Cause Analysis：障害原因解析）技術を開発した。

　RCAでは，障害発生箇所と対応する障害原因のパターンをあらかじめ汎用化している（以下，汎用ルールと記す。）。障害を検知すると，受信した障害イベントと，汎用ルールをマッチングする。マッチングした汎用ルールに実際の構成情報を利用して，障害イベントと影響する機器の関係を具体化した解析ルールを構築し，障害原因を導出する。その際に解析ルールに含まれ，障害発生時に受信可能と想定できる障害イベント群のうち実際に受信した障害イベントの割合を，障害原因の確信度として算出する。そして障害原因と確信度を，障害原因の候補として管理者に提示する。

　大規模なシステムで障害が発生した場合，通常はその障害によって影響を受ける機器が限定的である。そこで，解析ルールの構築処理は，機器間の接続情報を参照したうえで障害イベントに影響を受ける可能性のある機器についてのみ実施する。また，障害イベント発生時に受信イベントに関連する汎用ルールには，機器を限定して障害原因解析に必要な解析ルールのみをオンデマンドで構築する。これにより，障害原因解析を迅速に実施できる（図3参照）。

　大規模なデータセンターでは，障害発生時に極めて多数の障害イベントが発生することがあるうえに接続関係が複雑である。このため，どの障害イベントとどの障害イベントが関連して発生していて，どの障害イベントが対処すべき障害原因を示しているのかを判断することが非常に難しくなる。そこであらかじめ障害イベントの発生状況を顧客環境で解析し汎用ルールを導出しておき，それに基づき障害発生時に障害イベントを解析している。その結果，障害検知から原因特定までに要する時間を短縮できる。さらにこの技術は，サーバ，ストレージ，ネットワーク装置を対象に障害を解析する。それぞれの機器に発生した障害が，別の種類の機器に影響する場合，障害原因を判断することがさらに難しくなる。機器の種類ごとに専任の管理者を確保しなくとも，障害発生時に障害原因を迅速に解析できる。
　
　このように，大規模クラウドデータセンターを対象に障害対応を省力化することで，運用管理コストを削減することが可能である。

5.　仮想サーバ・ストレージ管理連携技術

　最後に，3点目の課題に対して取り組んだ仮想サーバ・ストレージ管理連携技術について述べる。

　クラウドでは，利用者が利用したいときに，迅速にITリソースを割り当てられることが求められている。しかし，大規模データセンターでは，複数人の管理者が分業して管理を行っているため，ITリソースを割り当てるために，企業によっては，社内ワークフローを使い，管理者間で連携して作業を実施する必要がある。例えば，IaaS（Infrastructure as a Service）のような仮想サーバを提供するようなサービスの場合，仮想サーバと，データの格納先のストレージを提供するのに，仮想サーバ管理者とストレージ管理者が連携して，システム構築を行っていた。その結果，人間が介することで，クラウドで要望される迅速なサービス提供が困難であった。

　そこで，仮想サーバ管理者とストレージ管理者のコミュニケーションをなくし，仮想サーバ管理者のみで仮想サーバとストレージのITリソースを管理できる管理連携技術を開発した（図4参照）。この技術では，単に仮想サーバの管理機能とストレージ管理機能を集約しただけでなく，ストレージの知識を有さない仮想サーバ管理者でも，ストレージを設定できるように，ストレージの利用状況を動的に判断し，リソースの設定パラメータを自動選出する自動設定モジュールを実現した。これにより，管理者間のコミュニケーションによって数時間以上必要であった管理業務を，数分レベルにまで短縮した。

6.　おわりに

　ここでは，大規模クラウドデータセンターの運用管理における三つの課題について，日立グループが取り組んでいる大規模ITリソース管理リポジトリ技術，障害原因解析技術，仮想サーバ・ストレージ管理連携技術について述べた。

　この三つの技術の共通点は，すべて管理業務を省力化する点である。大規模・複雑化が進むデータセンターの運用管理コストを削減するためには，管理者が頻繁に行う管理業務の省力化が重要である。今後は，さらなる管理業務の省力化を図っていく予定である。なお，ここで紹介した技術は，日立運用管理ソフトウェア「Hitachi Command Suite」，「Hitachi IT Operations」へそれぞれ適用され，製品化されている。

●執筆者紹介
坂下幸徳：2003年日立製作所入社，横浜研究所情報プラットフォーム研究センタ運用管理システム研究部所属現在，ITシステムの運用管理技術の研究開発に従事情報処理学会会員，SNIA日本支部技術委員会委員長

工藤裕：1995年日立製作所入社，横浜研究所情報プラットフォーム研究センタ運用管理システム研究部所属現在，ITシステムの運用管理技術の研究開発に従事博士（情報科学）情報処理学会会員，電気学会会員

名倉正剛：2009年日立製作所入社，横浜研究所情報プラットフォーム研究センタ運用管理システム研究部所属現在，ITシステムの運用管理技術の研究開発に従事博士（工学）情報処理学会会員，日本ソフトウェア科学会会員

草間隆人：1999年日立製作所入社，情報・通信システム社 ITプラットフォーム事業本部開発統括本部ソフトウェア本部 ITマネジメントソリューション開発部アーキテクチャセンタ所属現在，IT システムの運用管理ソフトウェアの製品開発に従事

※本記事は株式会社日立製作所より許可を得て、同社の発行する「日立評論」2012年4月号収録の掲題論文を転載したものである。

《RBB TODAY》