Saya ingin mengindeks kode sumber halaman web saya yang dirayapi oleh Apache Nutch (v1.17) untuk diindeks di Solr (8.6.3), tetapi tidak tahu bagaimana melakukannya? Setidaknya saya baru saja mendapatkan versi siap yang diindeks ke konten Solr (lihat di bawah).

{
  "tstamp":"2020-11-19T08:41:15.908Z",
  "digest":"fdc7532e799d4a3a434be4be67c36bb3b",
  "boost":1.0,
  .
  .
  .
  "content":"Algorithm Engineering Group ....",
 "_version_":16837969286885539843
}

Saya telah melihat index-writers.xml, tetapi saya masih tidak tahu bagaimana melakukannya. Mungkin Anda tahu bagaimana melakukannya.

0
Snoopy 19 November 2020, 16:57

1 menjawab

Jawaban Terbaik

Alat indeks Nutch menyediakan opsi baris perintah untuk mengindeks konten mentah halaman web:

$> bin/nutch index
...
-addBinaryContent  index raw/binary content in field `binaryContent`
-base64            use Base64 encoding for binary content
...

Catatan: waspadai PDF dan format biner lainnya yang mungkin dikunjungi perayap!

1
Sebastian Nagel 19 November 2020, 20:38