イベントトラッキングで障害が発生しております
Incident Report for KARTE
Postmortem

2019年11月11日 20時12分頃 〜 21時55分頃にかけて発生した、一部のアクション配信の失敗について、下記の通りご報告致します。


発生日時

2019年11月11日 20時12分頃 〜 21時55分頃

発生した現象

一部のアクション配信の失敗(1日あたりに換算すると、約6.3%に該当します)

なお、イベントの欠損はなく、上記以外については問題なく動作していたことが確認できております。

原因

KARTEのイベントトラッキング処理を行うサーバはGCPで稼働させています。
今回GCP側で障害が発生したため、その影響を受けました。
https://status.cloud.google.com/incident/cloud-datastore/19006

同時に、KARTEが解析処理で利用しているDBサービスのパフォーマンス悪化の影響も受けて、今回の障害が発生しました。
詳細な原因に関しては、プロバイダー側と調査を進めております。

対応

調査結果をもとに、インフラストラクチャの強化、DBサービスのパフォーマンス劣化の影響を抑えるよう処理の改善など適宜改善をおこなってまいります


この度はご迷惑をおかけしてしまい、誠に申し訳ございませんでした。

Posted Nov 12, 2019 - 11:50 JST

Resolved
22時ごろにパフォーマンスが改善し、経過観察をしていましたが、その後大きなパフォーマンス悪化は発生していないため、本件のステータスをResolvedにいたします。
詳細については後日、報告いたします。
この度はご迷惑をおかけしました。
Posted Nov 12, 2019 - 00:42 JST
Monitoring
イベントトラッキングのパフォーマンスが解消しつつあります。
現在、開発チームが経過観察をしています。
Posted Nov 11, 2019 - 22:06 JST
Investigating
現在、開発チームが調査しております。ご迷惑をおかけします。
Posted Nov 11, 2019 - 21:23 JST