2024年11月さくらのクラウド障害:何が起きたのかを学ぶ

Salesforceの大規模障害をわかりやすく解説

2024年11月15日、アメリカのIT大手であるセールスフォースが提供するクラウドサービスで大規模な障害が発生しました。この障害は日本を含む世界中の自治体や企業に影響を及ぼし、防災システムや金融機関のサービスが一時的に利用できなくなる事態となりました。インフラエンジニアを目指す初学者の方々に向けて、今回の障害の背景、原因、今後の対策、そして私たちが学ぶべきポイントについて分かりやすく解説します。

何が起こったのか

2024年11月15日の午前5時55分(UTC)、セールスフォースの技術チームは、複数のデータセンターとインスタンスでサービスの中断が発生していることを確認しました。影響を受けたのはAP43からAP61までの多数のインスタンスで、コアサービス全般が利用できない状況となりました。この障害は約9時間27分にわたって続き、同日午後3時22分(UTC)にようやく復旧が確認されました。

具体的な影響

自治体への影響

愛媛県では、防災ポータルサイト「えひめの防災・危機管理」の閲覧ができなくなり、避難情報や震度情報を伝える防災メールの自動配信も停止しました。同様に、大分県でも防災ポータルサイトや災害対応支援システムへのアクセスが不可能となりました。これらの自治体は、災害情報の収集と発信にセールスフォースのクラウドサービスを利用していたため、障害の影響を直接受ける形となりました。

金融機関への影響

三井住友信託銀行では、インターネットを通じたカードローンの申し込みやオンライン相談の予約ができなくなりました。また、他の複数の銀行でも住宅ローンのインターネット申し込み、コールセンターでの電話対応、社内情報共有サービスなどが利用できない状態に陥りました。これらのサービスは、午後11時頃から徐々に復旧に向かいましたが、一時的に多くの顧客が不便を強いられる結果となりました。

原因は?

今回の障害の主な原因は、セールスフォースが実施した最近のシステム変更にあるとされています。この変更がデータベース接続に問題を引き起こし、アプリケーションがデータベースに安定して接続できない状況を生み出しました。データベースの不整合も発見され、データベースチームは最新の安定したバックアップからの復元を余儀なくされました。
さらに、障害発生に伴い過剰なトラフィックが発生し、ネットワークの帯域幅が圧迫されました。これにより、サービスの遅延や接続不能といった二次的な問題も引き起こされました。ネットワークチームは接続数を制限するレートリミットを適用し、トラフィックの最適化を図りました。

今後どうするのか

セールスフォースは、今回の障害を受けて以下のような対策を講じると発表しています。

原因の詳細な調査

技術的なトリガーや根本原因を特定するため、詳細な調査を実施します。障害発生時のログやモニタリングデータを徹底的に分析し、問題の全容解明に努めます。

再発防止策の策定

システム変更のプロセスを見直し、リスク評価を強化します。また、データベースの冗長性や可用性を向上させるための技術的な改善も検討します。

顧客への情報提供とサポート

障害の経緯と対応策を顧客に対して透明性を持って報告し、被害を受けた顧客へのサポートを強化します。公式サイトや各種チャンネルを通じて最新情報を提供し、信頼回復に努めます。

我々はどうすべきなのか

インフラエンジニアとしての学び

今回の障害から、インフラエンジニアとして以下の点を学ぶことができます。

1.変更管理プロセスの重要性

システム変更を行う際には、事前のリスク評価やテスト環境での検証が不可欠です。変更が本番環境に及ぼす影響を最小限に抑えるため、ロールバック手順を事前に策定しておくべきです。

2.モニタリングとログ管理の徹底

リアルタイムのモニタリングにより、システムの異常を早期に検知し、迅速な対応が可能となります。ログの適切な分析と保存も、障害原因の特定に欠かせません。

3.冗長化と可用性の設計

システムの可用性を高めるために、フェイルオーバー機能の実装やデータのバックアップ体制を強化することが重要です。これにより、一部のシステムが障害を起こしてもサービスを継続できます。

クラウドサービス利用者としての対策

クラウドサービスに依存しすぎないためのリスク管理も重要です。

⚫︎マルチクラウド戦略の検討

一つのサービスプロバイダーに依存せず、複数のクラウドサービスを組み合わせて利用することで、リスクを分散できます。

⚫︎サービスレベルアグリーメント(SLA)の確認

プロバイダーとの契約内容を再確認し、可用性やサポート体制を理解することが必要です。

⚫︎バックアップと緊急対応計画の策定

自社データのバックアップを定期的に行い、障害発生時の業務継続計画(BCP)を明確にしておくことが求められます。

まとめ

今回のセールスフォースの大規模障害は、クラウドサービスの利便性とリスクを改めて浮き彫りにしました。インフラエンジニアとして、障害の原因や対応策を深く理解し、自分たちのシステムに活かすことが重要です。システム変更時のリスク管理やモニタリングの徹底、冗長化の設計など、日頃からの取り組みが障害発生時の影響を最小限に抑える鍵となります。

私たちはこの機会に、システムの信頼性と可用性を高めるためのベストプラクティスを学び、実践していくべきです。日々の訓練や対策が将来的な障害を未然に防ぎ、ユーザーに対して安定したサービスを提供することが可能となります。



コメント