2021年8月12日17:00頃〜18:20頃にかけて、KARTEで発生した障害について、ご報告いたします。
発生した事象は以下のとおりです。各事象の詳細については後述しています。
事象1:接客の配信に関する障害
事象2:イベントトラッキングに関する障害
これらの事象につきましては、現在すべて解消済みとなっています。
- 事象1
対象機能
接客の配信
発生した現象
一部のアクション配信の失敗。1日あたりに換算して、約3.00%に相当するアクションの配信に失敗しました。
- 事象2
対象機能
イベントトラッキング
発生した事象
一部イベントトラッキングの失敗
1日あたりに換算して、約3.00%に相当するイベントトラッキングが行われませんでした。
サーバ更新作業のサーバ台数の増加タイミングに、一部データベースに想定よりもサイズが大きいデータが存在していたことで、該当データベースが高負荷状態となりパフォーマンスが悪化しました。結果として、結果、接客の配信、及び一部イベントトラッキングが失敗しました。
原因となっていたデータと該当データがデータベースに保存されてしまう原因となっていた処理を特定し、修正を行いました。
今回と同様の現象を発生させる可能性があるデータと、それに関連する処理が他にも存在していないか調査を行い、発見した場合は上述と同様の対応を行います。
また、今回のような高負荷にも耐えうるインフラストラクチャの強化やアーキテクチャの検討、サーバ更新時の挙動安定化については引き続き取り組んでまいります。