イベントトラッキングや接客の配信等で障害が発生しています
Incident Report for KARTE
Postmortem

(下記2つのインシデントに対するpostmortemです)
https://status.karte.io/incidents/fbp9xb4wxyq0
https://status.karte.io/incidents/v1y0qgzq5kbn

発生期間
2022年1月14日19時31分頃 〜 20時2分頃

対象のプロジェクト
KARTE InsightやKARTE Actionを利用中の全プロジェクト

発生した現象
一部イベントトラッキングの失敗(1日あたりに換算すると、約0.4%に該当します)
一部の接客サービス配信・実行の失敗(1日あたりに換算すると、約1.5%に該当します)

なお、上記以外については問題なく動作していたことが確認できております。

原因
KARTEが使用しているGCPのデータベースとのタイムアウトエラーが発生し、サーバ内でのリトライ処理が頻発ことでサーバとデータベースが過負荷状態となり、処理に失敗した。
エラーの詳細な原因に関しては、GCPと調査を進めております。

実施した対応

  • 一時的にデータベースの台数を増強して過負荷状態を解消した

今後の対応
今回の障害の原因が判明次第、調査結果をもとに、さらなるインフラストラクチャの強化を行います。

Posted Jan 17, 2022 - 18:36 JST

Resolved
本障害の解決に向けた対応が実施されました。
これまでの、想定される主な影響は次の通りです。

■ 対象プロジェクト
- KARTE InsightとKARTE Actionを利用中の全プロジェクト

■ 対象機能
- 接客サービス配信機能

■ 発生している現象
- イベントのトラッキング完了までに過度に時間がかかるケースが一時的に増加していた
- その結果、一部のイベントを配信トリガーとする接客サービスの配信・実行が失敗した

この度はご迷惑をおかけし、大変申し訳ございませんでした。
Posted Jan 14, 2022 - 20:10 JST
Investigating
一部のイベントでトラッキング完了までに過度に時間がかかる障害が発生しています。
想定される主な影響は次の通りです。

■ 対象プロジェクト
- KARTE InsightとKARTE Actionを利用中の全プロジェクト

■ 対象機能
- 接客サービス配信機能

■ 発生している現象
- イベントのトラッキング完了までに過度に時間がかかるケースが一時的に増加している
- その結果、一部のイベントを配信トリガーとする接客サービスの配信・実行が失敗する

現在、開発チームが原因を調査中です。
約1時間以内に続報を掲載します。
Posted Jan 14, 2022 - 19:52 JST
This incident affected: イベントトラッキング and 接客の配信.