この度発生したイベントトラッキングの障害について、下記の通りご報告致します。
発生期間
2023/07/28 13:45 頃 から 2023/07/28 16:00 頃
対象のプロジェクト
「KARTEのイベントトラッキングに依存した機能」をもつプロダクトを利用中の全プロジェクト
※詳細は「発生した現象」をご覧ください。
発生した現象
KARTEへのイベントトラッキングが失敗し、一部のイベントが欠損しました。 障害発生期間中の主な影響は、次の通りです。
KARTE Insight
KARTE Action
KARTE Live
KARTE Talk(ウェブチャット)
KARTE Blocks
KARTE RightSupport
KARTE Datahub
KARTE Message、ターゲット配信等
KARTE Signals
発生原因
KARTEの解析基盤で使用している一部のデータベースが高負荷になり、解析の処理の際に必要な情報の取得に時間がかかっていたため。
▼詳細
- 7/19にアーキテクチャ改善のため、リアルタイム解析基盤が参照する管理画面の設定情報データベースを変更しました
- 7/28 12:30からアクセス過多により処理遅延が増加し、その対応にて解析サーバーの台数を上げて負荷分散を行いました
- 解析サーバーの増設により、解析サーバーからデータベースへの処理負荷が増加し、変更を行なったデータベース側での負荷許容量を超えたためエラー率が急増しました
実施した対応
サーバーの台数の増強および、7/19以前のデータベースに戻しました。
今後の対応
データベースの負荷対策を実施します。
KARTEの解析基盤において単一で全体障害を引き起こす要因(単一障害点)を減らします。
この度はご迷惑をおかけしてしまい、誠に申し訳ございませんでした。