Enregistrer le tableau <T> dans BigQuery à l'aide de Java

Nov 26 2020

J'essaie d'enregistrer des données dans Big query à l'aide du connecteur Spark Big Query. Disons que j'ai un pojo Java comme ci-dessous

@Getter
@Setter
@AllArgsConstructor
@ToString
@Builder
public class TagList {
    private String s1;
    private List<String> s2;
}

Maintenant, quand j'essaie de sauvegarder ce Pojo dans Big query, cela me lance l'erreur

Caused by: com.google.cloud.spark.bigquery.repackaged.com.google.cloud.bigquery.BigQueryException: Failed to load to test_table1 in job JobId{project=<project_id>, job=<job_id>, location=US}. BigQuery error was Provided Schema does not match Table <Table_Name>. Field s2 has changed type from STRING to RECORD
    at com.google.cloud.spark.bigquery.BigQueryWriteHelper.loadDataToBigQuery(BigQueryWriteHelper.scala:156)
    at com.google.cloud.spark.bigquery.BigQueryWriteHelper.writeDataFrameToBigQuery(BigQueryWriteHelper.scala:89)
    ... 35 more

Exemple de code:

Dataset<TagList> mapDS = inputDS.map((MapFunction<Row, TagList>) x -> {
                List<String> list = new ArrayList<>();
                list.add(x.get(0).toString());
                list.add("temp1");
return TagList.builder()
                    .s1("Hello World")
                    .s2(list).build();
        }, Encoders.bean(TagList.class));

        mapDS.write().format("bigquery")
                .option("temporaryGcsBucket","<bucket_name>")
                .option("table", "<table_name>")
                .option("project", projectId)
                .option("parentProject", projectId)
                .mode(SaveMode.Append)
                .save();

Grande table de requête:

create table <dataset>.<table_name> (
  s1 string,
  s2 array<string>,
  )
  PARTITION BY
  TIMESTAMP_TRUNC(_PARTITIONTIME, HOUR);

Réponses

DavidRabinowitz Nov 30 2020 at 18:59

Veuillez changer le format intermédiaire en AVRO ou ORC. Lors de l'utilisation de Parquet, la sérialisation crée une structure intermédiaire. Voir plus àhttps://github.com/GoogleCloudDataproc/spark-bigquery-connector#properties