Saya baru di pyspark dan saya mencoba melakukan tokenisasi pada data saya. Saya memiliki kerangka data pertama saya: reviewID|text|bintang

Saya membuat tokenisasi pada "teks" sesuai dengan dokumentasi pyspark:

tokenizer = Tokenizer(inputCol="text", outputCol="words")

countTokens = udf(lambda words: len(words), IntegerType())

tokenized = tokenizer.transform(df2)
tokenized.select("text", "words") \
    .withColumn("howmanywords", countTokens(col("words"))).show(truncate=False)

Saya mendapatkan token saya, tetapi sekarang saya ingin mengubah kerangka data yang terlihat seperti itu:

kata|bintang

"Kata-kata" adalah token saya.

Jadi saya harus bergabung dengan kerangka data pertama saya dan kerangka data tokenized untuk mendapatkan sesuatu seperti itu. Bisakah bantu saya? Bagaimana saya bisa menambahkan kolom ke kerangka data lain?

0
milva 21 September 2019, 10:50

1 menjawab

Jawaban Terbaik

Oke saya mengerti sekarang. Saya hanya perlu membuat:

tokenizer = Tokenizer(inputCol="text", outputCol="words")


tokenized = tokenizer.transform(df2)
tokenized.select("text", "words", "stars").show(truncate=False)

Berhasil!

0
milva 21 September 2019, 07:55