【解決済み】イベントトラッキングや接客の配信等で障害が発生しています
Incident Report for KARTE
Postmortem

この度発生したイベントトラッキングの障害について、下記の通りご報告致します。


発生期間
2021年08月19日13時36分頃 〜 13時50分頃

対象のプロジェクト
KARTE InsightやKARTE Actionを利用中の全プロジェクト

発生した現象
一部イベントトラッキングの失敗(1日あたりに換算すると、約0.22%に該当します)
一部の接客サービス配信・実行の失敗(1日あたりに換算すると、約0.99%に該当します)

なお、上記以外については問題なく動作していたことが確認できております。

原因
サーバ更新作業によってサーバ台数が増加し、データベースへのリクエスト数が増えたことで、データベースが高負荷状態となりパフォーマンスが悪化しました。結果として、結果、接客の配信、及び一部イベントトラッキングが失敗しました。

実施した対応
サーバ台数の減少とデータベースの台数の増加作業を行いました。

今後の対応
サーバ更新時にサーバ台数の増加を抑える修正を行います。
サーバ台数の増加時に、データベースへの負荷が集中しないよう修正を行います。
また、サーバー更新時の監視体制の強化および業務フローの見直しを行います。


この度はご迷惑をおかけしてしまい、誠に申し訳ございませんでした。

Posted Aug 20, 2021 - 13:14 JST

Resolved
障害が解消したのでご報告します。

■ 発生期間
2021/08/19 13:36頃〜13:50頃

■ 対象のプロジェクト
KARTE InsightやKARTE Actionを利用中の全プロジェクト

■ 発生した現象
- ユーザーに対して発生したイベントの一部が欠損する
- 欠損した一部のイベントを配信トリガーとする接客サービスの配信・実行が失敗する

■ 原因
- サーバ更新作業によってサーバ台数が増加し、データベースへのリクエスト数が増えたことで、データベースが高負荷状態となりパフォーマンスが悪化しました。結果として、結果、接客の配信、及び一部イベントトラッキングが失敗しました。

■ 実施した対応
- サーバ台数の減少とデータベースの台数の増加作業を行いました。


この度はご迷惑をおかけし、大変申し訳ございませんでした。
なお、本障害の詳細や事後対応については、追って記載します。
Posted Aug 19, 2021 - 15:23 JST
Monitoring
一部のイベントでトラッキングが失敗する障害が発生していました。
想定される主な影響は次の通りです。

■ 対象プロジェクト
- 全プロジェクト

■ 対象機能
- イベントトラッキング機能

■ 発生している現象
- ユーザーに対して発生したイベントの一部が欠損する
- 欠損した一部のイベントを配信トリガーとする接客サービスの配信・実行が失敗する

なお、発生していたと見られる時間帯は【2021/08/19(木)13:37-13:47頃】で、現在は失敗率が下がっています。
現在、障害の解決を確認するために監視を続けています。
Posted Aug 19, 2021 - 13:56 JST
This incident affected: イベントトラッキング and 接客の配信.