【解決済み】ユーザーの解析処理・接客の配信・イベントトラッキングで障害が発生しています
Incident Report for KARTE
Postmortem

この度発生したイベントトラッキングの障害について、下記の通りご報告致します。

■ 発生期間
2023/12/06 09:35頃 ~ 2023/12/06 12:15頃

■ 対象プロジェクト

  • 全プロジェクト

■ 対象機能

  • ユーザー解析機能
  • 接客の配信
  • イベントトラッキング

■ 発生した現象
下記において平常時よりも時間を要するケースがございました。

  • イベントデータのユーザーデータへの反映
  • ユーザーのセグメントやディメンションの更新
  • 接客の配信

結果として接客の配信に一部失敗している可能性がございます。
障害発生期間中の主な影響は、次の通りです。

  • KARTE Insight
    障害発生期間中のイベントトラッキングが失敗しました(1日あたりに換算すると前日比で約2.2%に該当)
    ユーザーのユーザーデータ、セグメント、ディメンション等の更新に失敗します
    ユーザーのゴールの計測に失敗します
  • KARTE Action
    接客サービスの配信・実行が失敗しました(1日あたりに換算すると前日比で約7.1%に該当)
  • KARTE Live
    接客サービス機能でLiveの録画スクリプトを配信している場合、配信がされず録画に失敗します
  • KARTE Talk(ウェブチャット)
    接客サービス機能で配信しているチャットが配信されなくなります
  • KARTE Blocks
    「KARTE Insightのセグメント」の更新に失敗します
    「KARTE Insightのゴール」の更新に失敗します
  • KARTE RightSupport
    ウィジェットの配信に失敗します
  • KARTE Datahub
    イベント欠損によりkarte_eventテーブルに対するクエリの実行結果が意図と異なる結果になる場合があります
  • KARTE Message
    ターゲット配信等メール・LINE・Push通知などのイベント応答配信に失敗します
    「KARTE Insightのセグメント」を用いた配信において配信対象が意図と異なる結果になる場合があります
    karte_eventテーブルに対するクエリを用いたリストによる配信において、配信対象や埋め込み変数の値が意図と異なる結果になる場合があります
    メール・LINE・Push通知などの購読停止/購読再開のステータスが新規に連携されなくなります
    LINEログインした場合でも、KARTE上のユーザーにLINE IDが紐付かなくなります
  • KARTE Signals
    コンバージョン補完に失敗します
    「KARTE Insightのセグメント」を用いた連携対象のオーディエンスリストに最新の結果が反映されなくなります
    ダッシュボードのコンバージョン計測値が欠損します

■原因

一部のアプリケーション処理の遅延が継続的に発生し、サービス全体の負荷上昇に波及したため。

  • 一時的にイベントの数が急増し、それに伴う負荷の増加がアプリケーションの一部の処理速度を遅らせました。
  • この処理の遅れが持続し、サービス全体の負荷が増大し、結果としてエラーの発生が急激に増加しました。

■ 実施した対応

  • 負荷を軽減するため、利用するサーバー台数を増やしました。

■今後の対策

  • 処理が遅延したアプリケーションの負荷対策を強化します。
  • 一部処理遅延が発生した場合にも、サービス全体の負荷を増やさないよう軽減対策を強化します。

この度はご迷惑をおかけし、大変申し訳ございませんでした。

Posted Dec 07, 2023 - 16:21 JST

Resolved
障害が解消したのでご報告します。

■ 発生期間
2023/12/06 09:35頃 ~ 2023/12/06 12:15頃

■ 対象プロジェクト
- 全プロジェクト

■ 対象機能
- ユーザー解析機能
- 接客の配信
- イベントトラッキング

■ 発生した現象
下記において平常時よりも時間を要するケースがございました。
- イベントデータのユーザーデータへの反映
- ユーザーのセグメントやディメンションの更新
- 接客の配信

結果として接客の配信に一部失敗している可能性がございます。
障害発生期間中の主な影響は、次の通りです。

- KARTE Insight
障害発生期間中のイベントトラッキングが失敗しました(1日あたりに換算すると前日比で約2.2%に該当)
ユーザーのユーザーデータ、セグメント、ディメンション等の更新に失敗します
ユーザーのゴールの計測に失敗します

- KARTE Action
・接客サービスの配信・実行が失敗しました(1日あたりに換算すると前日比で約7.1%に該当)

- KARTE Live
・接客サービス機能でLiveの録画スクリプトを配信している場合、配信がされず録画に失敗します

-KARTE Talk(ウェブチャット)
・接客サービス機能で配信しているチャットが配信されなくなります

-KARTE Blocks
・「KARTE Insightのセグメント」の更新に失敗します
・「KARTE Insightのゴール」の更新に失敗します

-KARTE RightSupport
・ウィジェットの配信に失敗します

-KARTE Datahub
・イベント欠損によりkarte_eventテーブルに対するクエリの実行結果が意図と異なる結果になる場合があります

-KARTE Message
・ターゲット配信等メール・LINE・Push通知などのイベント応答配信に失敗します
・「KARTE Insightのセグメント」を用いた配信において配信対象が意図と異なる結果になる場合があります
・karte_eventテーブルに対するクエリを用いたリストによる配信において、配信対象や埋め込み変数の値が意図と異なる結果になる場合があります
・メール・LINE・Push通知などの購読停止/購読再開のステータスが新規に連携されなくなります
・LINEログインした場合でも、KARTE上のユーザーにLINE IDが紐付かなくなります

-KARTE Signals
・コンバージョン補完に失敗します
・「KARTE Insightのセグメント」を用いた連携対象のオーディエンスリストに最新の結果が反映されなくなります
・ダッシュボードのコンバージョン計測値が欠損します


■ 実施した対応
- 負荷を軽減するため、利用するサーバー台数を増やしました。

この度はご迷惑をおかけし、大変申し訳ございませんでした。
なお、本障害の原因詳細や事後対応については、追って記載します。
Posted Dec 06, 2023 - 13:20 JST
Monitoring
本障害の解決に向けた対応を実施しました。
現在は解析遅延状態の解消が確認されています。

■ 対象プロジェクト
- 全プロジェクト

■ 対象機能
- ユーザー解析機能
- 接客の配信
- イベントトラッキング

■ 発生した現象
下記において平常時よりも時間を要するケースがございました。
- イベントデータのユーザーデータへの反映
- ユーザーのセグメントやディメンションの更新
- 接客の配信

また、接客の配信に一部失敗している可能性がございます。
なお、本障害の詳細や事後対応については、追って記載します。

■ 実施した対応
- 負荷を軽減するため、利用するサーバー台数を引き上げました。

現在、障害の解決を確認するために監視を続けています。
Posted Dec 06, 2023 - 12:39 JST
Update
現在も当障害が発生しております。
引き続き、開発チームが原因及び影響を調査中です。
調査に進捗があり次第、続報を記載いたします。
Posted Dec 06, 2023 - 11:01 JST
Investigating
イベントトラッキングが行われてからユーザー解析処理が完了するまでの間に、遅延が発生しています。
想定される主な影響は次の通りです。

■ 対象プロジェクト
- 全プロジェクト

■ 対象機能
- ユーザー解析機能

■ 発生している現象
- イベントデータがユーザーデータに反映されるまでに、平常時よりも時間がかかる可能性があります。
- ユーザーのセグメントやディメンションが更新されるまでに、平常時よりも時間がかかる可能性があります。
- 上記の結果として接客配信に平常時よりも時間がかかる可能性があります。
- イベントデータが一部欠損している可能性がございます。

現在、開発チームが原因及び影響を調査中です。
調査に進捗があり次第、続報を記載いたします。
Posted Dec 06, 2023 - 09:57 JST
This incident affected: イベントトラッキング, 解析, and 接客の配信.