【解決済み】イベントトラッキングや接客の配信等で障害が発生しています
Incident Report for KARTE
Postmortem

この度発生したイベントトラッキングの障害について、下記の通りご報告致します。


発生期間
2021年12月08日09時36分頃 〜 09時59分頃

対象のプロジェクト
KARTE InsightやKARTE Actionを利用中の全プロジェクト

発生した現象
一部の接客サービス配信・実行の失敗(1日あたりに換算すると、約1.34%%に該当します)

なお、上記以外については問題なく動作していたことが確認できております。

原因

  • データベースの台数を調整するシステムで利用している Amazon EventBridge に障害が発生した
  • これにより、トラッキングや配信関連の設定を保存しているデータベースが意図しないタイミングでスケールインされ、負荷が上がってしまった

実施した対応

  • 一時的にデータベースの台数を増強して過負荷状態を解消した

今後の対応
意図しないタイミングで DB のスケールインが発生しないようにシステムの修正を行います。


この度はご迷惑をおかけしてしまい、誠に申し訳ございませんでした。

Posted Dec 10, 2021 - 10:18 JST

Resolved
障害が解消したのでご報告します。

■ 発生期間
2021/12/08 09:36頃〜09:59頃

■ 対象のプロジェクト
KARTE InsightやKARTE Actionを利用中の全プロジェクト

■ 発生した現象
- ユーザーに対して発生したイベントの一部がタイムアウトし、そのイベントを配信トリガーとする接客サービスの配信・実行が失敗する

■ 原因
- トラッキングや配信関連の設定を保存しているデータベースが過負荷状態となり、配信に失敗した

■ 実施した対応
- 一時的にデータベースの台数を増強して過負荷状態を解消した

この度はご迷惑をおかけし、大変申し訳ございませんでした。
なお、本障害の詳細や事後対応については、追って記載します。
Posted Dec 08, 2021 - 09:56 JST
Investigating
一部のイベントでトラッキングが失敗する障害が発生しています。
想定される主な影響は次の通りです。

■ 対象プロジェクト
- 全プロジェクト

■ 対象機能
- イベントトラッキング機能

■ 発生している現象
- ユーザーに対して発生したイベントの一部がタイムアウトし、そのイベントを配信トリガーとする接客サービスの配信・実行が失敗する

現在、開発チームが原因を調査中です。
約1時間以内に続報を掲載します。
Posted Dec 08, 2021 - 09:53 JST
This incident affected: イベントトラッキング and 接客の配信.