CARA EKSTRAK TEKS DARI PDF dan GAMBAR

gImageReader adalah antarmuka grafis GTK Tesseract-ocr, sebuah mesin software gratis optical character recognition (OCR).


Tesseract is a raw OCR engine, with no document layout analysis, no output formatting and no graphical user interface (GUI).

 
gImageReader memproses file gambar atau PDF yang kemudian dijadikan sebuah teks. Mendukung pemilihan kolom dan bagian dari dokumen, dapat membuka file PDF multipage atau gambar, mendukung semua format, dapat mengirimkan area yang dipilih ke Tesseract untuk recognition dan spell check output.
 

Optional: Install Tesseract OCR 3.0 SVN

Tesseract OCR 3.0 masih dalam pengembangan, tetapi dalam sebuah tes, bekerja jauh lebih baik pada versi stabil saat ini. Selanjutnya, PPA berikut dilengkapi dengan banyak tambahan file bahasa Tessaract jadi saya sarankan menginstal versi terbaru Tesseract OCR 3.0 SVN. Namun ini adalah sebuah opsional!

lihat selengkapnya disini
 

Leave a Reply

Your email address will not be published. Required fields are marked *