【解決済み】イベントをトリガーとする接客サービスの配信に失敗してしまう事象が発生しました。
Incident Report for KARTE
Postmortem

イベントをトリガーとする接客サービスの配信に失敗に関する障害について、下記の通りご報告致します。


発生期間
2022年5月23日 23:28頃〜23:40頃

対象のプロジェクト
KARTE Insight と KARTE Action を利用中の全プロジェクト

発生した現象

  • イベントのトラッキング完了までに過度に時間がかかってしまった
  • イベントを配信トリガーとする接客サービスの配信・実行が失敗してしまった

発生原因
データベースとの接続不良によりイベントキューが滞留後、イベントキューを解消する際に一度に大量のイベントを処理したため
通常の自動スケールアウトが間に合わず想定以上の負荷がかかり、接客サービスに影響がでてしまった

実施した対応
手動にてサーバーのスケールアウトを行いました

今後の対応
イベントのキューが溜まった際に、サーバーの自動スケールアウトをスムーズ行えるようにし、
一部のサーバーが過負荷になった場合、他に影響を与えないようにします

この度はご迷惑をおかけし、大変申し訳ございませんでした。

Posted May 26, 2022 - 11:03 JST

Resolved
障害が発生しましたのでご報告致します。
なお、事象は解消しております。

■ 発生期間
2022/5/23 23:28頃〜23:40頃

■ 対象のプロジェクト
- KARTE Insight と KARTE Action を利用中の全プロジェクト

■ 発生した現象
- イベントのトラッキング完了までに過度に時間がかかてしまう
- イベントを配信トリガーとする接客サービスの配信・実行が失敗してしまう

■ 原因
- イベント処理の遅延によってイベントキューが滞留してしまい、システムへ負荷が増加したことにより
事象が発生しました

■ 実施した対応
以下の2点を実施したことにより事象が解消しております
- データベースのスケールアウトを実施
- 処理サーバーのスケールアウトを実施

この度はご迷惑をおかけし、大変申し訳ございませんでした。
Posted May 24, 2022 - 12:27 JST
This incident affected: イベントトラッキング and 接客の配信.