【解決済み】イベントトラッキング機能で障害が発生しています
Incident Report for KARTE
Postmortem

この度発生したイベントトラッキングの障害について、下記の通りご報告致します。


発生期間
2023/07/28 13:45 頃 から 2023/07/28 16:00 頃

対象のプロジェクト
「KARTEのイベントトラッキングに依存した機能」をもつプロダクトを利用中の全プロジェクト
※詳細は「発生した現象」をご覧ください。

発生した現象
KARTEへのイベントトラッキングが失敗し、一部のイベントが欠損しました。 障害発生期間中の主な影響は、次の通りです。

  • KARTE Insight

    • 障害発生期間中のイベントトラッキングが失敗しました(1日あたりに換算すると前日比で約3.5%に該当)
    • ユーザーのユーザーデータ、セグメント、ディメンション等の更新に失敗します
    • ユーザーのゴールの計測に失敗します
  • KARTE Action

    • 接客サービスの配信・実行が失敗しました(1日あたりに換算すると前日比で約5.1%に該当)
  • KARTE Live

    • 接客サービス機能でLiveの録画スクリプトを配信している場合、配信がされず録画に失敗します
  • KARTE Talk(ウェブチャット)

    • 接客サービス機能で配信しているチャットが配信されなくなります
  • KARTE Blocks

    • 「KARTE Insightのセグメント」の更新に失敗します
    • 「KARTE Insightのゴール」の更新に失敗します
  • KARTE RightSupport

    • ウィジェットの配信に失敗します
  • KARTE Datahub

    • イベント欠損によりkarte_eventテーブルに対するクエリの実行結果が意図と異なる結果になる場合があります
  • KARTE Message、ターゲット配信等

    • メール・LINE・Push通知などのイベント応答配信に失敗します
    • 「KARTE Insightのセグメント」を用いた配信において配信対象が意図と異なる結果になる場合があります
    • karte_eventテーブルに対するクエリを用いたリストによる配信において、配信対象や埋め込み変数の値が意図と異なる結果になる場合があります
    • メール・LINE・Push通知などの購読停止/購読再開のステータスが新規に連携されなくなります
    • LINEログインした場合でも、KARTE上のユーザーにLINE IDが紐付かなくなります
  • KARTE Signals

    • コンバージョン補完に失敗します
    • 「KARTE Insightのセグメント」を用いた連携対象のオーディエンスリストに最新の結果が反映されなくなります
    • ダッシュボードのコンバージョン計測値が欠損します

発生原因
KARTEの解析基盤で使用している一部のデータベースが高負荷になり、解析の処理の際に必要な情報の取得に時間がかかっていたため。

▼詳細
- 7/19にアーキテクチャ改善のため、リアルタイム解析基盤が参照する管理画面の設定情報データベースを変更しました
- 7/28 12:30からアクセス過多により処理遅延が増加し、その対応にて解析サーバーの台数を上げて負荷分散を行いました
- 解析サーバーの増設により、解析サーバーからデータベースへの処理負荷が増加し、変更を行なったデータベース側での負荷許容量を超えたためエラー率が急増しました

実施した対応
サーバーの台数の増強および、7/19以前のデータベースに戻しました。

今後の対応

  • データベースの負荷対策を実施します。

    • データベースの負荷状況に応じて処理台数を変更出来るようにします(オートスケールの実施)。
    • データベースの負荷が上昇傾向にある際に検知できるようにします。
    • データベースに高い負荷をかける処理を検知及び予防できるようにします。
      (例:高負荷のSQLクエリの実行など)
  • KARTEの解析基盤において単一で全体障害を引き起こす要因(単一障害点)を減らします。


この度はご迷惑をおかけしてしまい、誠に申し訳ございませんでした。

Posted Jul 31, 2023 - 15:09 JST

Resolved
障害が解消したのでご報告します。

■ 発生期間
- 2023/07/28 13:45 頃 から 2023/07/28 16:00 頃

■ 対象プロジェクト
「KARTEのイベントトラッキングに依存した機能」をもつプロダクトを利用中の全プロジェクト

※詳細は「発生した現象」をご覧ください。

■ 発生した現象
- KARTEへのイベントトラッキングが失敗し、一部のイベントが欠損する

障害発生期間中の主な影響は、次の通りです。

- KARTE Insight
- ユーザーの行動履歴が欠損します
- ユーザーのユーザーデータ、セグメント、ディメンション等の更新に失敗します
- ユーザーのゴールの計測に失敗します
- KARTE Action
- イベントを配信トリガーに指定している全ての接客サービスの配信に失敗します
- KARTE Live
- 接客サービス機能でLiveの録画スクリプトを配信している場合、配信がされず録画に失敗します
- KARTE Talk(ウェブチャット)
- 接客サービス機能で配信しているチャットが配信されなくなります
- KARTE Blocks
- 「KARTE Insightのセグメント」の更新に失敗します
- 「KARTE Insightのゴール」の更新に失敗します
- KARTE RightSupport
- ウィジェットの配信に失敗します
- KARTE Datahub
- イベント欠損によりkarte_eventテーブルに対するクエリの実行結果が意図と異なる結果になる場合があります
- KARTE Message、ターゲット配信等
- メール・LINE・Push通知などのイベント応答配信に失敗します
- 「KARTE Insightのセグメント」を用いた配信において配信対象が意図と異なる結果になる場合があります
- karte_eventテーブルに対するクエリを用いたリストによる配信において、配信対象や埋め込み変数の値が意図と異なる結果になる場合があります
- メール・LINE・Push通知などの購読停止/購読再開のステータスが新規に連携されなくなります
- LINEログインした場合でも、KARTE上のユーザーにLINE IDが紐付かなくなります
- KARTE Signals
- コンバージョン補完に失敗します
- 「KARTE Insightのセグメント」を用いた連携対象のオーディエンスリストに最新の結果が反映されなくなります
- ダッシュボードのコンバージョン計測値が欠損します

■ 原因
2023/07/28 19:56 下記、原因の全文を追記しています。

KARTEの解析基盤で使用している一部のデータベースが高負荷になり、
解析の処理の際に必要な情報の取得に時間がかかっていたため
 ▼詳細
  ・2023/07/28 12:00 頃 イベントトラッキングで利用している一部のサーバーの処理遅延が発生しました。
  ・同時刻にデータベースの負荷も高まっていました。
  ・処理遅延を解消させるためサーバー台数を増やしたところ、データベースの負荷が更に上がり、当事象が発生しました。

■ 実施した対応
2023/07/28 19:56 下記、実施した対応の全文を編集しています。

- サーバーの台数の増強、より高負荷に耐えられるデータベースへの変更を行いました。


この度はご迷惑をおかけし、大変申し訳ございませんでした。
なお、本障害の詳細や事後対応については、追って記載します。
Posted Jul 28, 2023 - 16:32 JST
Update
イベントのトラッキング機能で障害が発生しています。

■ 障害発生期間
- 2023/07/28 13:45 頃 から

■ 現在確認できている現象
- 障害発生中のイベントトラッキングが失敗する可能性があります。
- その結果、接客サービスの配信・実行が失敗する可能性があります。

■ 原因
- 現在調査中

現在、障害の解消に向けた暫定対応を実施し、改善傾向にあります。
引き続き調査・監視を行い、約1時間以内に続報を掲載します。
Posted Jul 28, 2023 - 15:12 JST
Investigating
イベントのトラッキング機能で障害が発生しています。

■ 障害発生期間
- 2023/07/28 13:54 頃 から

■ 原因
- 現在調査中

この度はご迷惑をおかけし、大変申し訳ございません。
本障害の詳細や原因については開発チームが調査中になりますので、追ってご報告いたします。
Posted Jul 28, 2023 - 14:14 JST
This incident affected: イベントトラッキング and 接客の配信.