Saya mencoba mengonversi halaman yang dipindai menjadi teks menggunakan baris perintah pytesseract dan tesseract di Ubuntu. Hasilnya sangat berbeda (pytesseract berkinerja jauh lebih baik daripada baris perintah tesseract) dan saya tidak dapat memahami alasannya. Saya melihat nilai default untuk parameter dan mencoba mengubah beberapa nilai parameter di baris perintah tesseract (seperti psm ) tetapi saya tidak bisa mendapatkan hasil yang sama dengan pytesseract. Karena kurangnya dokumentasi yang tepat di pytesseract, saya tidak dapat mengetahui nilai default untuk parameter apa yang digunakan.

Ini kode pytesseract saya print(pytesseract.image_to_string(Image.open('test.tiff'))

2
randomSampling 27 Desember 2017, 20:04

1 menjawab

Jawaban Terbaik

Melihat kode sumber pytesseract, sepertinya gambar selalu diubah menjadi file .bmp. Bekerja dengan file .bmp dan psm 6 pada baris perintah dengan Tesseract memberikan hasil yang sama seperti pytesseract. Selain itu, tesseract hanya dapat bekerja dengan file bmp yang tidak terkompresi. Oleh karena itu, jika ImageMagick digunakan untuk mengonversi .pdf ke .bmp, berikut ini akan berfungsi:

convert -density 300 -quality 100 mypdf.pdf BMP3:mypdf.bmp
tesseract mypdf.bmp -psm 6 mypdf txt
0
randomSampling 31 Desember 2017, 06:46