KDDI、年末年始の通信障害について説明……アクセス集中、設定・手順ミスなどが原因 | RBB TODAY

KDDI、年末年始の通信障害について説明……アクセス集中、設定・手順ミスなどが原因

エンタープライズ モバイルBIZ

au 4G LTEサービス1回目の障害の概要
  • au 4G LTEサービス1回目の障害の概要
  • KDDI 技術統括本部 運用本部長 内田義昭氏
  • KDDI 新規授業統括本部 新規ビジネス推進本部長 雨宮俊武氏
  • 対応策
  • 対応後の処理フロー
  • 4G LTE2回目の障害
  • マニュアルの不備による手順ミスが原因
  • au ID認証決済システム利用サービス
 KDDIは16日、年末年始に発生した4G LTEデータ通信サービスおよび、au ID認証決済システムにおける障害についての説明会を開催した。

 説明会には、同社の技術統括本部 運用本部長 内田義昭氏と、新規授業統括本部 新規ビジネス推進本部長 雨宮俊武氏が出席し、障害の概要、原因、今後の対策について説明した。

■4G LTEサービスにおける障害

 まず、年末年始立て続けに2回発生した4G LTEデータ通信における障害について。1回目の障害は2012年12月31日の午前0時0分~午前4時23分に発生し、4G LTEデータ通信サービスが利用不可もしくは利用しづらい状況になった。影響は全国で最大180万端末に及んだ。この原因については、「LTE端末から瞬間的に平常時の7倍のアクセス集中があった」ことで、ユーザーの利用通信量制御の認証を行う「加入者プロファイルサーバ」がバッファオーバーフローを起こしたことがきっかけとのこと。

 LTE端末が通信エリアに入った際、データ通信サービスを開始するためにさまざまな処理が行われるが、簡略化すると「基地局制御装置」「信号中継装置」「信号制御装置」「加入者プロファイルサーバ」を通って処理が行われる。このいずれかの段階でバッファが溢れたり、応答遅延によりタイマーの設定時間を超えたりすると、セッションが解放され、その端末は再接続を要求することになる。今回、「加入者プロファイルサーバ」の無応答や応答遅延、さらに「信号中継装置」、「信号制御装置」に設定されていた待受タイマー値の不整合も要因となり、多くのセッションがリセットされ、端末からの再接続要求が増加、輻輳が発生してしまったという。

 タイマー値の不整合だが、「信号制御装置」のタイマー値が3秒なのに対して「信号中継装置」のタイマー値が2秒と短かったため、例えば、「加入者プロファイルサーバ」からの認証応答が2.5秒だった場合、「信号制御装置」は3秒以内なのでセッションを継続するが、その先の「信号中継装置」は2秒を超えたセッションを解放してしまい、ここまでの処理が無意味になってしまうといった具合だ。

■2回目はマニュアル不備による手順ミス

 こうした問題に対して、「信号制御装置」の待受けタイマー値を1.2秒に短縮して不整合を解消し、かつ「加入者プロファイルサーバ」からの応答が無い、もしくは遅延した際に「信号制御装置」が代理応答することで、「信号中継装置」のタイマー超過を防ぐシステムを整備。これにより、今後は今回の倍ほどのアクセス集中にも耐えられるとした。なお、代理応答を行った場合「加入者プロファイルサーバ」の認証を通らずに通信を開始するため、本来7GBの容量規制を受ける端末が、規制を受けずに通信できてしまうことになる。

 次に1月2日に起きた2回目の障害だが、こちらはマニュアルの不備による人為的なミスが大きな要因とのこと。通常、問題のない範囲のアクセス集中にも関わらず「信号制御装置」のアラームが誤発報し、その際に本来であれば装置のカード系切替を実施すべきところを装置全体の復旧措置を実施してしまったため、当該装置に接続されているLTE端末とのセッションが一度に解放され、それらが一斉に再接続を要求、過度なアクセス集中が起きてしまった。マニュアルからは、アラーム誤発報の際の手順だけが何故か抜け落ちていたという。今後は手順書の整備および対応訓練の徹底で再発防止に努めるとした。

 2回目の障害では、最大175万の端末が影響を受け、2013年1月2日午前0時17分~午前2時10分までの間、4G LTEサービスが利用不可となった。なお、1回目の障害の影響は無関係とのことだ。

■au ID認証決済システムでも障害

 さらにKDDIでは、2013年1月1日にau ID認証決済システムについても障害が発生。1日午前0時12分~午前2時29分に対象サービスが利用不可、午前9時33分~午後1時33分に対象サービスが利用しづらい状況となった。

 これに関しては、データベースサーバ群のメモリアロケート処理パラメータに不適切な値があったことと、月初に行われるauかんたん決済利用限度額のクリア処理によるアクセス集中が重なり、CPUに過剰な負荷がかかったことが原因とのこと。パラメータの値を適切に変更することで対応したという。

 こうした一連の障害に対して同社では、輻輳制御メカニズムを再度総点検し、個々の装置、システムだけでなく装置間の連携動作まで確認を徹底し、再発を防ぎたいとしている。また今回設計そのものに漏れがあったことも考慮し、検証試験でその部分をカバーするための投資も増やしていくとのことだ。
《白石 雄太》

関連ニュース

特集

page top