Saya ingin mengekstrak nilai-nilai di tabel di sisi kanan atas halaman web ini: https://www.timeanddate.de/wetter/deutschland/karlsruhe/klima (Wärmster Monat: Nilai, ...

0
meg1234 5 April 2021, 18:48

1 menjawab

Jawaban Terbaik

Anda dapat menggunakan fungsi html_table di rvest, yang cukup bagus sekarang. Membuatnya sedikit lebih mudah untuk diekstrak, tetapi saya merekomendasikan belajar untuk mengidentifikasi pemilih CSS yang tepat juga, karena tidak selalu berfungsi. html_table Selalu mengembalikan daftar dengan semua tabel dari halaman web, jadi dalam hal ini langkah-langkahnya adalah:

  1. Dapatkan HTML
  2. Dapatkan tabel
  3. indeks tabel kanan (di sini hanya ada satu)
  4. memformat ulang sedikit untuk mengekstrak nilai-nilai
library(rvest)
library(tidyverse)


result <- read_html("https://www.timeanddate.de/wetter/deutschland/karlsruhe/klima") %>%  
  html_table() %>% 
  .[[1]] %>% 
 rename('measurement' = 1,
        'original' = 2) %>% 
  mutate(value_num = str_extract_all(original,"[[:digit:]]+\\.*[[:digit:]]*") %>% unlist())
0
Datapumpernickel 5 April 2021, 19:49