イベントトラッキングや接客の配信等で障害が発生しています
Incident Report for KARTE
Postmortem

この度発生した接客の配信に関する障害について、下記の通りご報告致します。

(下記6つのインシデントに対するpostmortemです)


発生期間

  • 2022年03月17日00時07分頃 〜 00時14分頃
  • 2022年03月18日06時14分頃 〜 06時19分頃
  • 2022年03月19日00時12分頃 〜 00時16分頃
  • 2022年03月19日02時03分頃 〜 02時16分頃
  • 2022年03月19日02時22分頃 〜 02時29分頃
  • 2022年03月19日19時19分頃 〜 19時29分頃

対象のプロジェクト

  • KARTE InsightやKARTE Actionを利用中の全プロジェクト

発生した現象

  • 一部イベントトラッキングの失敗(1日あたりに換算すると、約0.06%に該当します)
  • 一部の接客サービス配信・実行の失敗(1日あたりに換算すると、約0.08%に該当します)

なお、上記以外については問題なく動作していたことが確認できております。

発生原因

  • データベースの一時的な負荷増加時に、自動スケールが遅れたことで、タイムアウトが増加しました。

実施した対応

  • データベースの自動スケール機能によって、過負荷状態が解消されました。

今後の対応

  • データベースのリソースを余裕を持って確保するように設定を見直しました。
  • 問題が再度発生した際により原因を素早く特定するために、ログの出力情報を追加しました。
  • 断続的に障害の報告と解消が続き、混乱させてしまった点につきまして、障害体制を強化し一貫性のあるステータスページ更新を行います。

この度はご迷惑をおかけしてしまい、誠に申し訳ございませんでした。

Posted Mar 23, 2022 - 16:13 JST

Resolved
障害が解消したのでご報告します。

■ 対象のプロジェクト
KARTE InsightやKARTE Actionを利用中の全プロジェクト

■ 発生した現象
- イベントのトラッキング完了までに過度に時間がかかるケースが一時的に増加した
- その結果、一部のイベントを配信トリガーとする接客サービスの配信・実行が失敗した

この度はご迷惑をおかけし、大変申し訳ございませんでした。
なお、本障害の詳細や事後対応については、追って記載します。
Posted Mar 19, 2022 - 19:29 JST
Investigating
一部のイベントでトラッキング完了までに過度に時間がかかる障害が発生しています。
想定される主な影響は次の通りです。

■ 対象プロジェクト
- KARTE InsightとKARTE Actionを利用中の全プロジェクト

■ 対象機能
- 接客サービス配信機能

■ 発生している現象
- イベントのトラッキング完了までに過度に時間がかかるケースが一時的に増加している
- その結果、一部のイベントを配信トリガーとする接客サービスの配信・実行が失敗する

現在、開発チームが原因を調査中です。
約1時間以内に続報を掲載します。
Posted Mar 19, 2022 - 19:19 JST
This incident affected: イベントトラッキング and 接客の配信.