Dari tautan sql-data-sources-parquet Saya lihat cuplikan kode di bawah ini menyimpan format parket data tetapi menurut pemahaman saya dari wiki hanyalah format bukan mesin penyimpanan. Jadi Parket akan menyimpan data dalam format tertentu pada beberapa mesin penyimpanan seperti HDFS/S3/Cassandra dll bukan? Jadi pertanyaan saya adalah di mana cuplikan kode di bawah ini akan simpan datanya karena saya tidak melihat penyebutan mesin penyimpanan seperti HDFS/S3/Cassandra dll

Dataset<Row> peopleDF = spark.read().json("examples/src/main/resources/people.json");

// DataFrames can be saved as Parquet files, maintaining the schema information
peopleDF.write().parquet("people.parquet");

// Read in the Parquet file created above.
// Parquet files are self-describing so the schema is preserved
// The result of loading a parquet file is also a DataFrame
Dataset<Row> parquetFileDF = spark.read().parquet("people.parquet");
0
user3198603 18 Maret 2019, 09:35

1 menjawab

Jawaban Terbaik

Itu disimpulkan dari skema URL, misalnya s3://examples/src/main/resources/people.json atau hdfs://examples/src/main/resources/people.json. Pemetaan dari skema ke implementasi org.apache.hadoop.fs.FileSystem dipertahankan dalam konfigurasi hadoop. Sebagai contoh

<property><name>fs.s3.impl</name><value>org.apache.hadoop.fs.s3a.S3AFileSystem</value></property>

Akan memetakan s3://... ke S3AFileSystem dan ada default untuk beberapa sistem file umum jika tidak dikonfigurasi secara eksplisit.

2
ollik1 18 Maret 2019, 06:47