目前使用 Dataflow 从 BigQuery 读取表数据,并使用一定数量的分片写入 Cloud Storage。
//Read Main Input
PCollection<TableRow> input = pipeline.apply("ReadTableInput",
BigQueryIO.readTableRows().from("dataset.table"));
// process and write files
input.apply("ProcessRows", ParDo.of(new Process())
.apply("WriteToFile", TextIO.write()
.to(outputFile)
.withHeader(HEADER)
.withSuffix(".csv")
.withNumShards(numShards));
为了管理文件大小,我们估计了将文件保持在一定大小所需的分片总数。
有没有办法代替设置分片数量,设置文件大小并让分片动态?
MMMHUHU
相关分类