更新履歴
- 2021/8/6 9:55:初報
- 2021/8/6 11:38:接客の配信、イベントトラッキング、ユーザー解析の障害に関する影響について追記しました。
- 2021/8/6 16:10:チャット障害に関する影響について追記しました。
- 2021/8/6 17:20 : 原因及び今後の対策について追記しました。
概要
2021/8/5 17:46から20:17にかけて、KARTEで発生した一連の障害について、現在わかっている情報についてご報告いたします。
発生した事象は以下のとおりです。各事象の詳細については後述しています。
- 事象1:接客の配信に関する障害
- 事象2:イベントトラッキング・ユーザー解析に関する障害
- 事象3:管理画面に関する障害
- 事象4:チャット機能に関する障害
これらの事象につきましては、現在すべて解消済みとなっています。
事象1
発生期間
2021/8/5 17:46 〜 18:32
対象機能
接客の配信
発生した現象
一部のアクション配信の失敗
影響
1日あたりに換算して、約1.56%に該当するアクションの配信に失敗しました。
事象2
発生期間
2021/8/5 17:46 〜 20:17
対象機能
発生した事象
一部イベントトラッキングの失敗(トラッキングした一部イベントの内容がユーザー統計情報に反映されていない)
影響
1日あたりに換算して、約13.4%に該当するイベントの解析(トラッキングしたイベントのユーザー統計情報への反映)が行われませんでした。
事象3
発生期間
2021/8/5 18:05 〜 20:17
対象機能
管理画面
発生した現象
- 管理画面にログインできない
- 管理画面にアクセスできない
事象4
発生期間
2021/8/5 18:05〜20:17
対象機能
発生した現象
- 管理画面でトーク画面にアクセスできない
- オペレーターからメッセージを送信できない
- エンドユーザーからメッセージを送信できない
影響
- 該当期間中、エンドユーザーによるメッセージ送信が全く行えない状態でした。
- 該当期間中、オペレーターによるメッセージ送信が全く行えない状態でした。
- 管理画面(トーク画面)にログインできない、ログイン済みユーザーもアクセスしづらい状況が発生していました。
原因
- 特定のユーザーのイベントデータが短期的に急増し、イベントトラッキング用のデータベースに過負荷がおきた結果、接客の配信に障害が発生しました(事象1)
- イベントトラッキング用のデータベースの過負荷によりユーザー解析処理が遅延した結果、解析処理用のデータベースの過負荷が発生し、一部イベントトラッキング及び解析が失敗しました(事象2)
- 該当の解析処理用データベースを管理画面、及びチャット機能でも利用していたため、過負荷の影響を受け、管理画面及びチャット機能の障害が発生しました(事象3,4)
今後の対策
- 原因1. 瞬間的な負荷の増加にも対応できるよう、引き続きイベントトラッキングのインフラストラクチャの強化を行ってまいります
- 原因2. 解析処理のインフラストラクチャの強化や解析用のデータベースの過負荷を回避・軽減可能なアーキテクチャへの移行を行ってまいります
- 原因3. 該当の解析処理と管理画面及びチャット機能で利用するデータベースを分離し、解析障害の影響が波及しない構成に移行を行ってまいります