Kostenlose OCR-Software, die einen PDF durchsuchbar (mit durchsuchbaren Text an der richtigen Stelle) macht - Software

Gibt es eine Freeware OCR-Software (für Linux und / oder Windows), die eine PDF gescannte Dokument als Eingabe und Ausgabe eine durchsuchbare PDF-Dateien wie Adobe Acrobat tut nehmen?

Mit durchsuchbare PDF bedeuten, dass ich, dass der OCRed Text über den ursprünglichen Text ist unsichtbar und kann mit der Maus und kopiert ausgewählt werden.

Die neuere Version von Tesseract (3,03 RC zum Zeitpunkt der Abfassung dieses) kann dies tun:

  • frei, Opensource und Quer plarform
  • ab Version 3.03 PDF-Ausgabe beginnt, ist verfügbar
  • CLI-Software
  • Unterstützung mehrerer Sprachen
  • leides Eingangseinzelbild, so ein komplettes Dokument zu machen, muss man eine Batch-Skript erstellen, jede Seite Bild in durchsuchbare PDF zu konvertieren. Nach dass PDF-Seiten sollten mit Tools wie pdftk zu einem einzigen PDF kombinieren.

Dies ist der Befehl:

pdfsandwich erzeugt „Sandwich“ OCR PDF-Dateien, das heißt von PDF-Dateien, die nur Bilder (kein Text) enthalten wird durch optische Zeichenerkennung (OCR) verarbeitet werden, und der Text wird unsichtbar „hinter“ der Bilder, die auf jeder Seite hinzugefügt werden.

Dadurch wird eine Datei alice_ocr.pdf erzeugen, die wie die ursprüngliche Datei aussieht, aber die erkannte Text wird hinter den gescannten Bildern platziert werden. Sie können jetzt eine Volltextsuche machen oder Textbereiche auswählen.

Eine weitere Option könnte OCRmyPDF werden.

pypdfocr ist das, was für mich gearbeitet. Es ist ein Python-Skript, um die ganze Tesseract Nutzung optimieren. Nach Abhängigkeiten installiert bekommen (auf Linux, es ist ein viel einfacheres Verfahren) es ist so einfach wie die Eingabe:

Und Öffnung myfile_ocr.pdf eine Weile später.

Sie können durchsuchbare Text mit Google Drive erhalten.

Zuerst eine wichtige Einstellung wählen. Unter „Allgemein“ in den Einstellungen von Google Drive, das Kontrollkästchen neben „uploads konvertieren: Konvertieren Sie hochgeladene Dateien in Google Docs-Editor-Format.“

Jetzt das pdf auf Ihrem Google Drive hochladen (klicken Sie auf "Neu", dann "Datei-Upload"). Wenn der Upload abgeschlossen ist (vielleicht eine oder zwei Minuten dauern), klicken Sie es richtig. (Wenn Sie Probleme haben, es zu finden, versuchen Sie „Neue“ in der linken Seitenleiste zu schlagen.) Wie ich sagte, Rechtsklick auf das pdf Sie hochgeladen haben, und wählen Sie „Öffnen mit. Google Docs“. Nun werden Sie durchsuchbaren Text haben.

beantwortet 7. September '16 um 14:18 Uhr

Disclaimer: Ich bin der pdf2pdfocr Entwickler.

Deine Antwort

In Verbindung stehende Artikel