Saya mencoba membuka file csv besar (ca. 50gb) melalui Pandas.read_csv. Saya melihat pertanyaan lain di mana solusinya adalah menggunakan potongan, tetapi itu bukan cara yang baik untuk saya. File ini berisi banyak data (saya tidak tahu berapa banyak) dari '95 hingga sekarang. Sebenarnya, saya hanya perlu menggunakan baris akhir (mis. dari 2010) yang memungkinkan saya membaca file. Banyak terima kasih atas dukungan Anda

0
olcesi 28 Mei 2020, 16:55

1 menjawab

Jawaban Terbaik

Coba Dask. Saya baru saja mulai menggunakan perpustakaan yang luar biasa ini karena saya mengalami masalah serupa. Ini sangat mirip dengan panda (walaupun sedikit terbatas pada semua fungsi) tetapi memungkinkan Anda untuk membaca lebih banyak data dan melakukan banyak fungsi dasar seperti menggabungkan, mengelompokkan, dan banyak lagi.

https://docs.dask.org/en/latest/dataframe.html

Dari dokumentasi tertaut di atas, di bawah ini adalah cara Anda membaca dalam file dengan dask. Ini adalah kode yang sama dengan panda.

import dask.dataframe as dd
df = dd.read_csv('2014-*.csv')
df.head()
0
David Erickson 28 Mei 2020, 14:15