【解決済み】ターゲット配信機能で障害が発生しています
Incident Report for KARTE
Postmortem

この度発生したターゲット配信に関する障害について、下記の通りご報告致します。


発生した可能性があるタイミング
2022年01月01日 09:00頃
2022年01月02日 09:00頃
2022年01月03日 09:00頃
2022年01月03日 10:00頃
2022年01月03日 12:00頃
2022年01月04日 09:00頃
2022年01月04日 10:00頃
2022年01月04日 12:00頃
2022年01月05日 09:00頃
2022年01月05日 12:00頃
2022年01月06日 09:00頃

対象のプロジェクト
上記タイミング付近でターゲット配信ジョブが実行されたプロジェクトの一部

発生した現象

  • 上記タイミング付近で実行されたターゲット配信ジョブについて、本来は1度しか実行されないはずが、2回続けて実行されてしまうパターンがあった
  • その結果、意図せずメール等の施策が同一ユーザーに複数回送信されることがあった

原因

  • 年始に配信スケジュール数が増えたことで負荷が上がり、スケジュールの一括処理が再起動するケースがあった
  • その結果、配信ジョブが二重に作成されてしまうことがあった

実施した対応

  • サーバーリソースを増強し、障害原因と見られる負荷を軽減した
  • スケジュールの処理進捗を出力するログを追加し、問題の切り分けをしやすくした

今後の対応

  • ジョブの実行処理ロジックを修正し、負荷が上がりすぎないようにする
  • ジョブのステータス反映タイミングを早めることで、仮にスケジュールの一括処理が再起動した場合であっても、実行開始済みのジョブが直後に再び実行されるのを防止する

この度はご迷惑をおかけしてしまい、誠に申し訳ございませんでした。

Posted Jan 11, 2022 - 12:31 JST

Resolved
障害が解消したのでご報告します。

■ 発生した可能性があるタイミング
2022年01月01日 09:00頃
2022年01月02日 09:00頃
2022年01月03日 09:00頃
2022年01月03日 10:00頃
2022年01月03日 12:00頃
2022年01月04日 09:00頃
2022年01月04日 10:00頃
2022年01月04日 12:00頃
2022年01月05日 09:00頃
2022年01月05日 12:00頃
2022年01月06日 09:00頃

■ 対象のプロジェクト
上記タイミング付近でターゲット配信ジョブが実行されたプロジェクトの一部

■ 発生した現象
- 2022年1月1日以降にスケジュールされたターゲット配信ジョブについて、本来は1度しか実行されないはずが、2回続けて実行されてしまうパターンがあった
- その結果、意図せずメール等の施策が同一ユーザーに複数回送信されることがあった

■ 原因
- 年始に配信スケジュール数が増えたことで負荷が上がり、スケジュールの一括処理が再起動するケースがあったと見られる
- その結果、配信ジョブが二重に作成されてしまうことがあった

■ 実施した対応
- サーバーリソースを増強し、障害原因と見られる負荷を軽減した
- スケジュールの処理進捗を出力するログを追加し、問題の切り分けをしやすくした

この度はご迷惑をおかけし、大変申し訳ございませんでした。
なお、本障害の詳細や事後対応については、追って記載します。
Posted Jan 07, 2022 - 17:42 JST
Monitoring
本障害の解決に向けた対応を実施しました。

■ 対象プロジェクト
- ターゲット配信を利用中の一部プロジェクト

■ 対象機能
- ターゲット配信機能

■ 発生した現象
- 2022年1月1日以降にスケジュールされたターゲット配信ジョブについて、本来は1度しか実行されないはずが、2回続けて実行されてしまうパターンがあった
- その結果、意図せずメール等の施策が同一ユーザーに複数回送信されることがあった

■ 原因
- 年始に配信スケジュール数が増えたことで負荷が上がり、スケジュールの一括処理が再起動するケースがあったと見られる
- その結果、配信ジョブが二重に作成されてしまうことがあった

■ 実施した対応
- サーバーリソースを増強し、障害原因と見られる負荷を軽減した
- スケジュールの処理進捗を出力するログを追加し、問題の切り分けをしやすくした

なお、サーバー増強対応は1/6 17:04に実施しており、サーバー増強対応以降はまだジョブの二重生成が発生していないことを確認しています。
現在、障害の解決を確認するために監視を続けています。

本日1/7中に続報を掲載します。
Posted Jan 07, 2022 - 13:06 JST
Update
ターゲット配信機能の障害について、現時点の状況をお伝えします。

■ 対象プロジェクト
- ターゲット配信を利用中の一部プロジェクト

※詳細の影響範囲は調査中です。

■ 対象機能
- ターゲット配信機能

※類似機能であるDatahubのジョブフロー機能については、現時点では影響は確認されていません。

■ 発生している現象
- 2022年1月1日以降にスケジュールされたターゲット配信ジョブについて、本来は1度しか実行されないはずが、2回続けて実行されてしまうパターンがある
- その結果、意図せずメール等の施策が同一ユーザーに複数回送信されることがある

■ 暫定対応の方針
- 負荷起因である可能性を考慮し、サーバーリソースの増強とログ追加を実施した上で、監視を強化します
- 引き続き、根本原因の調査を実施します

ご迷惑をおかけし申し訳ありません。
遅くとも明日1/7中までに続報を掲載します。
Posted Jan 06, 2022 - 15:26 JST
Update
現状でわかったことをお知らせします。

■ 追加でわかった状況
- 配信ジョブの重複実行は、確率的に発生する
- 実際、ターゲット配信を利用した全ての接客サービスで発生しているわけではなく、発生確率は低い

引き続き、詳しい原因の調査や再発防止のための対応を進めています。
明日1/6中までに続報を掲載します。
Posted Jan 05, 2022 - 17:25 JST
Update
現状でわかったことをお知らせします。

■ 追加でわかった状況
- 配信ジョブの重複排除機構がうまく機能せず、1つの接客サービス実行スケジュールに対して配信ジョブ実行タスクが重複して生成されてしまっている

引き続き、詳しい原因の調査や再発防止のための対応を進めています。
約1時間以内に続報を掲載します。
Posted Jan 05, 2022 - 16:10 JST
Investigating
ターゲット配信機能で障害が発生しています。
想定される主な影響は次の通りです。

■ 対象プロジェクト
- 調査中

■ 対象機能
- ターゲット配信機能

■ 発生している現象
- 本来は1度しか実行されないはずのターゲット配信ジョブが、2回続けて実行されてしまうパターンがある
- その結果、意図せずメール等の施策が同一ユーザーに複数回送信されることがある

現在、開発チームが原因を調査中です。
約1時間以内に続報を掲載します。
Posted Jan 05, 2022 - 15:09 JST
This incident affected: 接客の配信.