作業手順書記載ミスがきっかけで連鎖……KDDI、Eメール障害の詳細な報告書を公開 | RBB TODAY

作業手順書記載ミスがきっかけで連鎖……KDDI、Eメール障害の詳細な報告書を公開

ブロードバンド その他

障害の概要
  • 障害の概要
  • サービス影響の概要
  • 本来行われるはずだった正常な作業手順
  • きっかけとなった「ユーザ認証サーバでのユーザ情報の不一致」
 KDDIは25日、au携帯電話サービス(iPhone/iPad)において先日発生したEメール障害について、詳細な発生原因と今後の対策を発表した。報告書(PDFファイル、11ページ)は同社サイトより自由にダウンロード・閲覧が可能。

 それによると、Eメールリアルタイム送受信システムのバージョンアップ作業時に、3つの問題が発生したのが、今回のトラブルの原因だとしている。

 まず第1段階として、バージョンアップ作業の途中で、現行プロキシサーバにて認証エラーが発生、一部ユーザーでEメール サービスが利用できない状況が発生した。これは、手順書記載ミスによるコマンド誤りで、切り替えたはずの新認証サーバではなく、従来の認証サーバに誤って接続された結果、ユーザ情報データが一部欠損したため、ユーザ情報が不一致となり発生したものだった。

 そこで、正常な新ユーザ認証サーバに切り替える作業を続行し、現行プロキシサーバ等の参照先を新ユーザ 認証サーバへ切替えて、認証エラーを解消。さらに作業を続行したが、途中でタイムアウトエラーが発生した。そこで現行設備への切戻しを決定し作業を開始。切戻し作業中に新ユーザ認証サーバの片系がハードウェア障害でダウン。その後、残っていた片系も過負荷となりダウン、第2段階としてEメール送受信が不可となった。

 そして、サーバを再起動したが、再起動手順上の問題および中継サーバに滞留した受信メールにより、62台中24台のサーバの高負荷状態が継続。第3段階としてメール送受信が利用しづらい状況になったとのこと。

 KDDIでは、今回の原因を「手順書記載ミスによるコマンド誤り(事前検証試験不足)」「HW障害(片系)と二重障害時の対策準備不足」「メールBOXサーバ再起動手順の考慮不足」としており、今後順次、対策を実施する予定。
《冨岡晶》

関連ニュース

特集

page top