【解決済み】KARTE Talk機能で障害が発生していました
Incident Report for KARTE
Postmortem

接客サービスの設定反映の遅延に関する障害について、下記の通りご報告致します。


発生期間
2022年3月6日 13時00分頃 〜 2022年3月8日 14時04分頃

対象のプロジェクト
KARTE Talk利用中の全プロジェクト

発生した現象

  • 以下のユーザーからの問い合わせについて、ステータス・アサインの反映が正しくない状態にありました

    • 2023/03/03 11:00頃 ~2023/03/06 13:00頃 の間に新規問い合わせがあったユーザー

      • 「対応済み」「担当者なし」とみなされ、オペレーション自動化のルールが適用されていた
    • 2023/03/03 11:00頃 ~2023/03/06 13:00頃 にステータスの変更があったユーザー

      • ステータスの変更が反映されずにオペレーション自動化のルールが適用されていた
      • _talk_logイベントが、以下のパラメータが誤った状態で発生した

        • content.log_data.assignor_name
        • content.log_data.assignor_image
        • content.log_data.assignor_name
        • content.log_data.chatStatus
      • _talk_chat_status_changedイベントが、以下のパラメータが誤った状態で発生した

        • chatStatus
      • 手動でステータスを「対応済み」や「担当者なし」に変更したときに以下イベントが発火しなかった

        • _talk_log
        • talk_chat_status_changed

事象発生時の主な影響

上記の事象が発生したために、該当期間において影響があった主な機能は以下となります

  • チャットレポート

    • レポートの集計が正しく集計されませんでした
  • オペレーション自動化

    • オペレーション自動化のルールが誤って動作してしまいました

また、影響を受けてしまった箇所の復元、修正をすることができませんのでご了承ください

発生原因
今回、将来的なKARTE Talkデータベースの移行のため、複数のデータベースに対し、同時に同一の処理ができる機能を実装しました。

本機能は、検証環境下でのテストをクリアしており、本番環境におけるKARTE Talkの動作には影響を与えない想定でした。

しかしながら、処理に使用したプログラムに不具合があり、テスト用データベースから読み取った内容が、意図しない形で本番環境で利用されるという事象が発生しました。

そのため、該当処理でアクセスが行われてた、チャットのステータス・アサインのデータが、本番環境で期待される値とは異なるテスト用データベースの結果で利用され、結果的にイベントの欠損・チャットステータスやアサインの値が異なる状態でのイベント発生・期待と異なるタイミングでのオペレーション自動化のルール起動などの影響がありました。

実施した対応
移行準備を行う前の状態にロールバックを行い、ステータスの反映が正しく行われる状態に修正しました

今後の対応

  • 作業時におけるレビュー体制を強化

変更作業時に現在よりも多くのエンジニアによるレビューを実施するように、フローを見直し、強化を行ってまいります。
複数のエンジニアにて、多角的に影響範囲を検討することで同様の障害が起きないように対応して参ります。

  • リファクタリングによるコードを最適化

影響範囲を把握しやすくするため現在よりもコードの最適化を行い、テストやレビューが行いやすいようにすることでリスクを最小化する対応も合わせて実施して参ります。

この度はご迷惑をおかけしてしまい、誠に申し訳ございませんでした。

Posted Mar 16, 2023 - 08:56 JST

Resolved
障害が発生していたのでご報告します。

■ 発生期間
2023/03/03 13:00頃〜2023/03/08 14:04頃

■ 対象プロジェクト
KARTE Talk利用中の全プロジェクト

■ 発生した現象
- 以下のユーザーからの問い合わせについて、ステータス・アサインの反映が正しくない状態にありました
- 2023/03/03 11:00頃 ~2023/03/06 13:00頃 の間に新規問い合わせがあったユーザー
- 「対応済み」「担当者なし」とみなされ、オペレーション自動化のルールが適用されていた
- 2023/03/03 11:00頃 ~2023/03/06 13:00頃 にステータスの変更があったユーザー
- ステータスの変更が反映されずにオペレーション自動化のルールが適用されていた
- _talk_logイベントが、以下のパラメータが誤った状態で発生した
- content.log_data.assignor_name
- content.log_data.assignor_image
- content.log_data.assignor_name
- content.log_data.chatStatus
- _talk_chat_status_changedイベントが、以下のパラメータが誤った状態で発生した
- chatStatus

■ 原因
- データベースの移行テストを行なっている際に、意図しないデータベースの結果を利用してオペレーション自動化が動作する状態になってしまった

■ 実施した対応
- 移行テストを行う前の状態にロールバックを行い、ステータスの反映が正しく行われる状態に修正しました

この度はご迷惑をおかけし、大変申し訳ございませんでした。
Posted Mar 13, 2023 - 16:28 JST
This incident affected: チャット.