【解決済み】ユーザーの解析処理・接客の配信・イベントトラッキングで障害が発生していました
Incident Report for KARTE
Resolved
過去発生した事象が障害に該当するものだったため、事後となりますが解消済みのご報告をいたします。

■ 発生期間
- 2023/12/19 15:00頃 〜 24:00頃

■ 対象プロジェクト
- KARTE InsightとKARTE Actionを利用中の全プロジェクト

■ 発生した現象
- KARTEのイベントトラッキング(計測)機能において、計測の遅延およびイベントログへの保存失敗が発生しました。
- 本イベントデータの欠損についてはイベントログ上の欠損となり、ユーザーデータの更新は行われています。
- 1日あたりに換算するとおよそ0.38%のイベントが欠損しました。
- KARTEの接客サービスの配信・実行に遅延および一部失敗がありました。
- 1日あたりに換算するとおよそ1.06%の接客サービスの配信・実行が失敗しました。

■ 原因
- KARTEで利用している外部サービスにてインフラを起因とする一時的な障害が発生し、その影響を受けイベントトラッキングで利用しているサーバが高負荷を受けトラッキング処理の遅延が発生しました。
また、この処理遅延によってイベントが長時間にわたって処理できない場合に、イベントデータがログ上欠損するという不具合が発生しておりました。

■ 実施した対応
- サーバー台数を増強しました。
- KARTEのインフラとして利用しているサービスの提供会社への問い合わせを行い、外部サービスのインフラに問題があることを確認しました。

■ 今後の対応
- 一部のサーバー等が高負荷な状況下でも、イベントトラッキング失敗率・接客配信失敗率を最小限に抑えられるアーキテクチャを目指した改善を検討します。
- イベントが長時間にわたって処理できない場合においても、欠損がないようにアプリケーション上の不具合を修正します。

この度はご迷惑をおかけしてしまい、誠に申し訳ございませんでした。
Posted Jan 19, 2024 - 08:43 JST
This incident affected: イベントトラッキング, 解析, and 接客の配信.