タグv1を使ったイベントトラッキングや接客の配信等で障害が発生しています
Incident Report for KARTE
Postmortem

この度発生したタグv1を使ったイベントトラッキングや接客の配信に関する障害について、下記の通りご報告致します。


発生期間

2024年7月17日0時0分頃 〜 1時15分頃

対象のプロジェクト

タグv1を用いて、KARTE InsightやKARTE Actionを利用中の全プロジェクト

発生した現象

  • KARTEのイベントトラッキング(計測)機能において、計測の遅延およびイベントログへの保存失敗が発生しました。
  • 本イベントデータの欠損についてはイベントログ上の欠損となり、ユーザーデータの更新は行われています。
  • 1日あたりに換算するとおよそ0.26%のイベントが欠損しました。
  • KARTEの接客サービスの配信・実行に遅延および一部失敗がありました。
  • 1日あたりに換算するとおよそ0.47%の接客サービスの配信・実行が失敗しました。

発生原因

KARTEで利用している外部サービスにてインフラを起因とする一時的な障害が発生し、その影響を受けイベントトラッキングで利用しているサーバが高負荷を受けトラッキング処理の遅延が発生しました。

また、この処理遅延によってイベントが長時間にわたって処理できない場合に、イベントデータがログ上欠損する可能性がありました。

実施した対応

KARTEのインフラとして利用しているサービスの提供会社への問い合わせを行い、外部サービスのインフラに問題があることを確認しました。‌

今後の対応

  • 外部サービスの監視と異常検知時に即時対応を行うための仕組みの強化を実施します。
  • 一部のサーバ等が高負荷な状況下でも、イベントトラッキング失敗率・接客配信失敗率を最小限に抑えられるアーキテクチャを目指した改善を検討します。

この度はご迷惑をおかけしてしまい、誠に申し訳ございませんでした。

Posted Jul 17, 2024 - 18:09 JST

Resolved
This incident has been resolved.
Posted Jul 17, 2024 - 09:56 JST
Monitoring
障害が解消したのでご報告します。

■ 発生していた期間
- 2024/7/17 0:00 - 1:15 頃

■ 対象のプロジェクト
- タグv1を用いて、KARTE InsightやKARTE Actionを利用中の全プロジェクト

■ 発生した現象
- タグv1を使った計測でイベントトラッキングに大幅に時間がかかっていた
- その結果、一部のイベントを配信トリガーとする接客サービスの配信・実行が失敗した

この度はご迷惑をおかけし、大変申し訳ございませんでした。
なお、本障害の詳細や事後対応については、追って記載します。
Posted Jul 17, 2024 - 01:31 JST
This incident affected: イベントトラッキング and 接客の配信.