【解決済み】接客機能で障害が発生しています
Incident Report for KARTE
Postmortem

接客サービス配信機能に関する障害について、下記の通りご報告致します。


発生期間
2023/05/16 20:20頃〜20:35頃
2023/05/16 21:10頃〜21:25頃

対象のプロジェクト
KARTE Actionを利用中の全プロジェクト

発生した現象

  • イベントのトラッキング完了までに過度に時間がかかるケースが一時的に増加した
  • その結果、一部のイベントを配信トリガーとする接客サービスの配信・実行が失敗した(全プロジェクトに対して1日あたりに換算すると約1.9%に該当)

発生原因

  • インフラリソースの最適化を目的として、データベースの自動スケール設定を変更した
  • リソースに空きがある状況化でのリソース削減量を変更した結果、想定以上にリソースを減らしてしまった
  • 結果、一時的にデータベースが過負荷状態となり、配信処理に時間がかかるケースが増加した

実施した対応

  • 該当のデータベースのリソースを増やし、過負荷状態を解消した
  • また自動スケール設定を前の状態に戻し、想定以上にリソースを削減してしまう事象を解消した

今後の対応

  • リソース空き状況に対して自動でリソース削減を行う際は過負荷状態にならないよう、余裕を持った設定とする
  • データベースが過負荷状態になった場合に、より早急に復旧するための検知・自動復旧の仕組みを強化する

この度はご迷惑をおかけしてしまい、誠に申し訳ございませんでした。

Posted May 17, 2023 - 13:52 JST

Resolved
障害が解消したのでご報告します。

■ 発生期間
2023/05/16 20:20頃〜20:35頃
2023/05/16 21:10頃〜21:25頃

■ 対象プロジェクト
KARTE Actionを利用中の全プロジェクト

■ 発生した現象
- イベントのトラッキング完了までに過度に時間がかかるケースが一時的に増加した
- その結果、一部のイベントを配信トリガーとする接客サービスの配信・実行が失敗した(全プロジェクトに対して1日あたりに換算すると約1.9%に該当)

■ 原因
- インフラリソースの最適化を目的として、データベースの自動スケール設定を変更した結果、想定以上にリソースを減らしてしまった
- 結果、一時的にデータベースが過負荷状態となり、過度に時間がかかるケースが増加した

■ 実施した対応
- 該当のデータベースのリソースを増やし、過負荷状態を解消した
- また自動スケール設定を前の状態に戻し、想定以上にリソースを削減してしまう事象を解消した

この度はご迷惑をおかけし、大変申し訳ございませんでした。
Posted May 16, 2023 - 22:26 JST
This incident affected: 接客の配信.