• Hallo,


    ich habe ca. 320 Seiten eingescannt. Der Inhalt besteht primär aus Text sowie einigen s/w Grafiken. Gespeichert ist das Dokument als PDF.
    Nun würde ich gern den Text per OCR in richtigen Text umwandeln, das Layout und die Grafiken aber so belassen. Gibt es dazu Software die einfach aus dem Text als Grafik richtigen Text macht? Ziel ist es, das Dokument vom Aussehen her so zu belassen, den Text jedoch durchsuchbar zu machen.


    Grüße,
    Sebastian

  • Habe mal vor einigen Jahren mit verschiedenen OCR Programmen gespielt und es dann sein lassen, weil der nötige korrekturaufwand bei Scan zu Word Dokument zu hoch war -zumindest zum Archivieren.
    Allerdings ist das auch schon eine Zeit her und evtl hat sich ja da was entwickelt.


    Das einzige was relativ gut Sinn gemacht hat, und was du wohl auch suchst, ist die "Paper Capture" Funktion von Adobe Acrobat (Professional?) - nicht zu verwechseln mit dem Acrobat Reader!


    Hier bleibt dein gescanntes PDF grafisch quasi fast unangetastet, es wird mittels OCR nur die reine Textinformation dem PDF hinzugefügt. Danach kann man das PDF nach Text durchsuchen. Vorteil: wenn das OCR versagt kann man selber den Text ja noch (grafisch) lesen. Nachteil: Man darf sich nicht auf die Textsuche verlassen, denn es kann trotzdem immernoch ein Treffer im PDF sein, denn das OCR einfach nicht korrekt erkannt hat und z.B. ein Buchstabe im Wort falsch erkannt wurde.


    Im PDF Reader kann man sich im "Textmodus" ansehen was das OCR so verzapft hat. Bei guten Scans (z.B. vom ADF Seitenscanner) liegt die trefferquote sehr hoch, aber halt nie bei garantierten 100%


    Adobe ACrobat ist halt nicht billig, aber es gab von Adobe zum testen mal AFAIR einen Onlineservice, den man ein paar mal kostenlos nutzen konnte

  • Aktuell sieht es auch nicht so doll aus. Der Aufwand ist wirklich ziemlich hoch.


    Ich habe eine Software. Du kannst mir gerne eine PDF Seite (nicht das ganze Dokument) irgendwo uploaden, mir den Download Link geben (zB wikifortio) und ich gebe dir das Ergebnis der Software. Dann kannst du sehen, wie gut/schlecht die Software ist.


    Meine Software kann nur Text ausgeben, sprich: es übersetzt alles in txt File. Grafiken & Co werden nicht so belassen. Geht ja auch nicht.


    Wie gesagt, ziemlich hoher Aufwand und das bei 320 Seiten!

    Dodge This!
    Rules of Acquisition: Free advice is seldom free. [Nov2011-Marke7000 // Nov2012- Marke 8000 // Inventar-Status seit Januar 2012-Juchu]

Jetzt mitmachen!

Sie haben noch kein Benutzerkonto auf unserer Seite? Registrieren Sie sich kostenlos und nehmen Sie an unserer Community teil!