【解決済み】Datahubのジョブフロー機能で障害が発生しています
Incident Report for KARTE
Postmortem

障害の詳細と対応方法が決定したのでご報告します。

■ 発生期間
2022/07/09 08:30頃〜 2022/07/11 19:29頃

■ 対象のプロジェクト
KARTE Datahubのジョブフロー機能を使用し、ファイルパスに動的日付を指定して2GBより小さいファイルをS3からインポートするジョブを実行したプロジェクト

■ 発生した現象
S3からのインポートを行うジョブフローで2GBより小さいファイルをインポートした際に、以下のエラーによりジョブが失敗する現象が発生しておりました。
[{“reason”:“internalError”,“message”:“An internal error occurred and the request could not be completed. This is usually caused by a transient issue. Retrying the job with back-off as described in the BigQuery SLA should solve the problem: https://cloud.google.com/bigquery/sla. If the error continues to occur please contact support at https://cloud.google.com/support. Error: 80324028"}]

■ 原因
GCPの仕様変更に伴いKARTE側の日付を元に動的にファイルパスを指定するロジックに不整合が発生した。

■ 実施した対応
GCPの仕様変更に追従する修正を行いました。

■ 今後の対応
日付を元にした動的なファイルパスを指定するケースについてテストケースを作成し、今後同様の事象が発生した際には検出できるようにしました。

この度はご迷惑をおかけし、大変申し訳ございませんでした。

Posted Jul 19, 2022 - 17:54 JST

Resolved
障害が解消したのでご報告します。

■ 発生期間
2022/07/09 08:30頃〜 2022/07/11 19:29頃

■ 対象のプロジェクト
KARTE Datahubを利用中の全プロジェクト

■ 発生した現象
- 一部ジョブフローで以下のエラーによりジョブが失敗する現象が発生しておりました。
[{"reason":"internalError","message":"An internal error occurred and the request could not be completed. This is usually caused by a transient issue. Retrying the job with back-off as described in the BigQuery SLA should solve the problem: https://cloud.google.com/bigquery/sla. If the error continues to occur please contact support at https://cloud.google.com/support. Error: 80324028"}]


■ 原因
- GCPの仕様変更に伴いKARTE側の日付を元に動的にファイルパスを指定するロジックに不整合が発生した。

■ 実施した対応
- GCPの仕様変更に追従する修正を行いました。

この度はご迷惑をおかけし、大変申し訳ございませんでした。
なお、本障害の詳細や事後対応については、追って記載します。
Posted Jul 11, 2022 - 20:18 JST
Update
We are continuing to monitor for any further issues.
Posted Jul 11, 2022 - 20:07 JST
Update
We are continuing to monitor for any further issues.
Posted Jul 11, 2022 - 20:06 JST
Update
We are continuing to monitor for any further issues.
Posted Jul 11, 2022 - 20:01 JST
Update
Datahubのジョブフロー機能で障害が発生しています。
想定される主な影響は次の通りです。

■ 発生期間(暫定)
2022/07/09 08:30頃〜 2022/07/11 19:29

■ 対象プロジェクト
- すべてのプロジェクト

■ 対象ジョブ
- Datahubジョブフロー機能にて外部サービスからインポートを行う一部のジョブ

■ 発生した現象
- 一部ジョブフローで以下のエラーによりジョブが失敗する現象が発生しております。

[{"reason":"internalError","message":"An internal error occurred and the request could not be completed. This is usually caused by a transient issue. Retrying the job with back-off as described in the BigQuery SLA should solve the problem: https://cloud.google.com/bigquery/sla. If the error continues to occur please contact support at https://cloud.google.com/support. Error: 80324028"}]

■ 原因
- GCPの仕様変更に伴い弊社の日付を元に動的にファイルパスを指定するロジックに不整合が発生した。

■ 対応状況
- 原因を特定し、GCPの仕様に合わせる変更が完了しました。

現在、障害の解決を確認するために監視を続けています。
約1時間以内に続報を掲載します。
Posted Jul 11, 2022 - 19:35 JST
Monitoring
A fix has been implemented and we are monitoring the results.
Posted Jul 11, 2022 - 19:33 JST
Update
We are continuing to investigate this issue.
Posted Jul 11, 2022 - 17:00 JST
Update
Datahubのジョブフロー機能で障害が発生しています。
想定される主な影響は次の通りです。

■ 発生期間(暫定)
2022/07/09 08:30頃〜

■ 対象プロジェクト
- Datahubジョブフロー機能にてAWS S3からのimportを行う一部のプロジェクト

■ 発生した現象
- 一部ジョブフローで以下のエラーによりジョブが失敗する現象が発生しております。
[{"reason":"internalError","message":"An internal error occurred and the request could not be completed. This is usually caused by a transient issue. Retrying the job with back-off as described in the BigQuery SLA should solve the problem: https://cloud.google.com/bigquery/sla. If the error continues to occur please contact support at https://cloud.google.com/support. Error: 80324028"}]

■ 現状の回避策
- 現状の回避策については開発チームでは発見できておりません。
- ジョブをリトライしても成功するかは未だ不明です。
- 必要に応じて影響のあるジョブとジョブに影響される接客の停止を行うことを強く推奨します。

■ 対応状況
- 現在GCPと連携して原因究明をおこなっております。

現在、開発チームが原因を調査中です。

約1時間以内に続報を掲載します。
Posted Jul 11, 2022 - 14:54 JST
Investigating
Datahubのジョブフロー機能で障害が発生しています。
想定される主な影響は次の通りです。

■ 対象プロジェクト
- 調査中

■ 発生している現象
- 一部ジョブフローで以下のエラーによりジョブが失敗する現象が発生しております。
```
[{"reason":"internalError","message":"An internal error occurred and the request could not be completed. This is usually caused by a transient issue. Retrying the job with back-off as described in the BigQuery SLA should solve the problem: https://cloud.google.com/bigquery/sla. If the error continues to occur please contact support at https://cloud.google.com/support. Error: 80324028"}]
```

現在、開発チームが原因を調査中です。
約1時間以内に続報を掲載します。
Posted Jul 11, 2022 - 14:53 JST
This incident affected: KARTE Datahub.