Google Cloudの障害はコード更新ミスと保護機能の欠如が原因
Google Cloudは先週の大規模障害が、サービスコントロールシステムのコード更新ミスと、エラー処理や機能フラグ保護の欠如に起因したことを明らかにした。
最新の更新
Google Cloudは、先週発生した広範囲なサービス障害が、サービスコントロールシステムのコード更新ミスによるものであることを認め、その結果、エラー処理が不足し、機能フラグ保護が欠如していたため、グローバルなクラッシュループを引き起こしたと説明しています。
同社の報告によると、Google CloudのAPIやGoogleのAPIは、Google API管理および制御プレーンを通じて提供されており、これらのプレーンは地域ごとに分散しており、各APIリクエストが承認されているか、ポリシーや適切なチェック(クオータなど)が満たされているかを確認する責任を担っています。
問題となったのは「サービスコントロール」と呼ばれるポリシーチェックシステムのコアバイナリで、5月29日に新機能が追加され、追加のクオータポリシーチェックを有効にするためのコード変更が行われました。このコード変更とバイナリのリリースは、地域ごとに展開されましたが、失敗したコードパスは、ポリシー変更が必要であり、そのコードをトリガーする変更が行われるまで実行されることはありませんでした。
Googleは、この障害の原因としてコード更新の不備と、通常の保護機能(エラー処理や機能フラグ)が欠如していたことを挙げ、今後の改善策を講じると述べています。
好きかもしれない
- 米国でソーシャルメディアがテレビを抜いて主要なニュース源に
- インテル、リストラの一環として最大1万人の工場労働者を削減へ
- LinkedIn幹部、AIが新卒者の失業増加に伴いエントリーレベルの職を脅かすと警告
- iOS 26、ロック画面にフルスクリーンアニメーションアルバムアートワークが追加される可能性
- Microsoft、Windows 11の新しいカスタマイズ可能なスタートメニューをテストユーザー向けに提供開始
- アップル、iPad向けセルフサービス修理を開始、修理オプションを拡大
- 英国政府によるM365 Copilotの試験導入、生産性向上の明確な効果なし
- トランプの予算案、NASAの火星サンプルリターンミッションを中止の危機に