MS Office Formate mdi und/oder tiff verarbeiten

  • Zitat

    Original geschrieben von frank_aus_wedau
    Wie schaffst Du es, durchsuchbare Texte auf Rechnern zu verarbeiten, bei denen MODI nicht installiert ist? Kann man diesen MSPVIEWER auf Systemen nutzbar machen, auf denen kein passendes Office-Paket installiert ist? Das muss möglich sein; gelungen ist mir das aber nicht (obwohl ich zugebe, hier noch keine besondere Energie investiert zu haben, weil ich noch auf eine anderweitige Lösung hoffe).


    Hm.. ich sag mal so.. ich nutze MODI um etwas Text von einem Screenshot (der in der Zwischenablage liegt) per OCR zu erkennen. Dazu muss ich IICR das Bild als TIFF zwischenspeichern, aber anschließend schmeiß ich das wieder weg, ich will ja nur den Text haben. :)


    Es gibt da auch ne ActiveX-Komponente die man z.B. zur Anzeige von TIFF-Dateien nutzen kann (AxMODI.axMiDocView), diese funktioniert bei mir auch nur auf Rechnern, bei denen das "Microsoft Office Document Imaging" vollständig installiert ist.


    Ohne es genau zu wissen würde ich schätzen, dass dieser Viewer (MSPVIEWER) genau die gleiche Komponente benutzt.

    mutt : "All mail clients suck. This one just sucks less."
    Es gibt Threads die braucht man nichtmal lesen um zu wissen was ab geht - /me 2004-01-05 20:54


    Registriert seit: 05/2002 => 10 Jahre TT :)

  • Hmm ... dann werde ich demnächst versuchen, den MS-Viewer mobil nutzbar zu machen. Ohne Weiteres kann ich das leider nicht, weil auf all meinen Windows-Rechnern entweder MS Office 2003 oder 2007 installiert ist, so dass ich den "Ernstfall" auf ihnen leider nicht simulieren kann, weil möglicherweise fehlende Treiber auf diesen Rechnern zwangsläufig (und dauerhaft) vorhanden sind.


    Die Linux-Variante hilft momentan leider nicht wirklich, weil auf den Rechnern meiner Adressaten ausschließlich Windows läuft.


    Die einfachste Lösung wäre, einen tiff-Viewer für Windows zu finden, der die Textsuche in MODI-tiffs unterstützt. Nun ja ... auf einen Tag kommt es (noch) nicht an und vielleicht hat ein TT-Mitglied noch die zündende Idee. Bis dahin müssen Empfänger meiner Dateien auf die Textsuche verzichten. Bloßes Sichten der gescanten Dokumente im tiff-Format läuft natürlich völlig problemlos - ein Zustand, den man im Format PDF/A genau so vorfindet. Auch das Wandeln der tiffs in PDF/A (ohne Textsuche) lässt sich problemlos umsetzen.


    Mein "Endziel" bleibt aber weiterhin ein anderes - kommt Zeit kommt Rat?


    Frankie

  • Also ich hab mir das mal angeschaut und eine solche TIFF erstellt, OCR laufen lassen und dann mal im TiffTagViewer [1] geöffnet.
    Einen "transparenten Layer" gibt es nicht, aber es gibt spezielle Tiff-Tags. Neben denen die wohl aus dem Tiff-Standard kommen hatt dieses Dokument u.a. für jede Seite einmal den Tag "37679" welcher den Klartext aus der OCR-Erkennung enthält. Weiterhin gibt es noch den Tag "37681", der enthält etwas kryptisches, wahrscheinlich die zugehörigen Koordinaten für die Anzeige im MODI-View-Control (wenn dann das blaue Rechteck gezeichnet wird welches den Suchtreffer markiert). Nur auf Seite 1 gibt es außerdem "37680", da steht so allgemeines "Blafasel" drin, sieht so aus wie Metadaten für MODI, also wahrscheinlich allgemeine Dokumenteneigenschaften.


    D.h. MS hat hier wohl das Konzept der Tiff-Tags für eigene Zwecke erweitert, ist zwar nicht Standardkonform, aber folgt diesem zumindest so ungefähr...


    PS: Öffne so eine Datei mal mit einem Texteditor... zwischen dem ganzen Gewusel an wilden unlesbaren Codes steht der Klartext aus der OCR drin.


    PS2: Die MODI-Installation einfach auf'm USB-Stick zu kopieren dürfte mit Sicherheit den Lizenzvertrag verletzen, den Du beim Installieren von MS Office akzeptiert hast.




    [1] http://www.awaresystems.be/imaging/tiff/astifftagviewer.html

    mutt : "All mail clients suck. This one just sucks less."
    Es gibt Threads die braucht man nichtmal lesen um zu wissen was ab geht - /me 2004-01-05 20:54


    Registriert seit: 05/2002 => 10 Jahre TT :)

  • Zitat

    Original geschrieben von stendate
    ...
    D.h. MS hat hier wohl das Konzept der Tiff-Tags für eigene Zwecke erweitert, ist zwar nicht Standardkonform, aber folgt diesem zumindest so ungefähr...
    ...


    So ist es. Der Klartext mit zugehörigen Koordnianten bilden diesen sog. zweiten Layer, der transparent über das TIFF gelegt wird, damit die Treffer der Volltextsuche auch am passenden Ort im Bild farbig hinterlegt werden können. Dieses Verfahren ist mit dem PDF/A-Standard m.W. nicht vereinbar. Wandle ich meine Tiffs in PDF/A um, fragt der Konverter natürlich jedesmal brav, ob er den transparenten Teil des Objekts entfernen/umwandeln darf. Damit hat sich diese Form der Suche naturgemäß erledigt; stimmt man nicht zu, wird die Konvertierung natürlich abgebrochen.


    Zitat

    Original geschrieben von stendate
    ...
    PS: Öffne so eine Datei mal mit einem Texteditor... zwischen dem ganzen Gewusel an wilden unlesbaren Codes steht der Klartext aus der OCR drin.
    ...


    Wie das Ganze technisch umgestzt wird, ist mir schon klar.


    Zitat

    Original geschrieben von stendate
    ...
    PS2: Die MODI-Installation einfach auf'm USB-Stick zu kopieren dürfte mit Sicherheit den Lizenzvertrag verletzen, den Du beim Installieren von MS Office akzeptiert hast.
    ...


    Wenn ich eine Mail von Microsoft richtig interprtiere, hat man wegen des Debakels um MODI (insbesondere mit MS Office 2010) eigens die Software "MS SharePointDesigner 2007" als Free-Edition freigegeben, damit Betroffene das in diesem Paket enthaltene MODI auf beliebigen Windows-Rechnern nachinstallieren können. Allerdings entbindet das nicht von der Notwendigkeit einer Installation, weil MS hier keinen der üblichen Viewer zu Verfügung stellen kann. Aber nicht jeder einfache Nutzer kann "mal eben" was nachinstallieren. ;)


    Frankie

  • Inbezug auf den zusätzlichen transparenten Layer zu Suchzwecken ist mir folgende Erläuterung begegnet, die die Funktionsweise recht anschaulich erklärt:


    >>>>> Searchable PDF <<<<<


    Die von MODI erstellten TIFFs (bzw. MDIs) arbeiten nach demselben Prinzip.


    Dieses auf zwei getrennten Ebenen basierende Archivformat geht leider nicht konform mit dem zur Archivierung verabschiedeten Standard PDF/A - aus meiner Sicht ein echtes Versäumnis, weil diese Norm eine Textsuche in originalgetreu archivierten (historischen) Dokumenten kategorisch ausschließt.


    Frankie

  • Hier handelt es sich wohl eher um Werbeaussagen von pdfa.org.


    Ich habe bis jetzt nur den DAK-Artikel gelesen. Darin verborgen die Aussage: "Die genutzten Schriften müssen komplett eingebunden sein." Und zwar mitsamt allen Teilen der Schriftart, also auch den Datensätzen der einzelnen Zeichen, die zur Darstellung benötigt werden.


    Scanne ich also Dokumente ein, deren Schriftart auf dem PC nicht vorhanden ist oder sogar nicht vorhanden sein kann, weil die Schriftart des eingescanten Dokuments nicht zu den im PDF/A-Format zugelassenen Standardschriftarten gehört, kann das überhaupt nicht funktionieren.


    Daher wird wie folgt verfahren:
    Das eigescante Original des Dokuments wird ersetzt durch eins, in dem der originale Text ersetzt wird durch den, den die OCR-Routine ermittelt hat. Letzterer wird dann mit einer Schriftart erzeugt, die auf dem PC vorhanden und standardkonform ist (OCR-Fehler inklusive). Die (rein optische) Lesbarkeit des Textes wird dadurch natürlich - wie im Bericht als purer Vorteil gepriesen - verbessert.


    Für die Archivierung von Schriftstücken, denen Authenzität zukommen soll, doch wohl ein mehr als bedenkliches Verfahren - potenzielle Urkundenfälschung inklusive.


    Oder ich muss was grundsätzliches falsch verstanden haben - was ich mir aber nicht vorstellen kann, weil alles andere dem Sinn der PDF/A-Spezifikation zuwiderliefe.


    Für die Archivierung von Schriftstücken, die nicht originär mit einer der im PDF/A-Standard vorgesehenen Schriftarten erzeugt wurden, halte ich diesen Standard weiterhin für ungeeignet. Wenn die pdfa.org versucht, diesench Nachteil zu vertuschen, halte ich das für höchst bedenklich und lässt mich an der Seriosität des gesamten Projekts zweifeln.


    Frank



    Edit:
    Ich überlege gerade das Szenario der Verarbeitung per Schreibmaschine vor Jahren erstellter Krankenakten (meinetwegen mit einer speziellen IBM-Type). Interpretetiert hier eine OCR-Software das (in den verarbeiteten tiffs zugegebenermaßen zum Teil nur schwer lesbare) Zahlenwerk von Gesundheitsdaten auch nur in einzelnen Ziffern falsch, bin ich froh, dort nicht versichert zu sein.

  • So ... einen langweiligen Fernsehkrimi habe ich dazu genutzt, die "DAK-Lösung" mit einem Aktenauszug und vorhandener Software zu testen.


    Herrlich:
    Das Ergebnis ist vom Original (fast) nicht zu unterscheiden.


    Aber:
    Tippfehler inklusive. So etwa bei Eigennamen, die nicht wörterbuchtauglich sind. Da wird mal schnell ein V zum U und ein G zum O, wenn die so entstehenden Begriffe im Wörterbuch verzeichnet sind. In Tabellen mit Zahlenaufstellungen, bei Sonderzeichen wie § und $ etc. wird gern mal was vertauscht.


    Zudem:
    Die von der Software gewählten systemeigenen Schriftarten und -größen kommen dem Original wirklich sehr nah, so dass ein Beobachter ohne Detailinformationen in aller Regel gar nicht bemerken wird, dass etwas "ausgetauscht" wurde. Das ändert aber nichts daran, dass es sich bei den archivierten Schriftstücken nicht um eine originalgetreue Reproduktion des Originals handelt (so man hierauf Wert legen sollte). Schleichen sich Fehler ein, die als solche gar nicht erkannt werden, dürfte das in Einzelfällen durchaus zu (zumindest vorläufig) unerkannten Problemen führen können. Kein angenehmer Gedanke. :rolleyes:


    Auch ich war insoweit zunächst einem Irrtum aufgesessen. Persönlich war ich stutzig geworden durch eine fehlerhafte Formatierung der Zieldokuments (was ich in einem meiner vorherigen Threads mal angesprochen hatte, als ich den Fehler noch woanders vermutete). Unter anderem befand sich die untere Zeile eines Urspungsdokuments damals oben auf der Folgeseite - was für eine originalgetreue Kopie sehr ungewöhnlich ist. Der gesamte Hintergrund hat sich mir erst in den letzten Tagen offenbart (im Verlauf dieses Threads).


    Fazit:
    Für diejenigen, die auf eine originalgetreue Archivierung angewiesen sind, halte ich dieses Verfahren nicht geeignet.


    Frank



    Edit - Vorteil der "Dual-Layer"-Lösung:
    Hier wird der per OCR erkannte Text unsichtbar vor den erhalten bleibenden Originaltext gelegt. Die hier ebenso gelegentlich entstehenden Fehler wirken sich - wie bei der PDF/A-Lösung - auf die Textsuche aus; aber auch nur hierauf. Das sichtbare Ergebnis ist aber weiterhin eine unverfälschte Reproduktion des Originals - wie bei den durchsuchbaren MODI-TIFFs.

  • Inzwischen werde ich fast wahnsinnig. Die Suche nach Software zur Erstellung dieser "zweischichtigen" PDFs (unter Beibehaltung der originalen Optik) macht mich noch irre.


    Gab es früher einige Anbieter profesioneller Lösungen, deren Produkte auch zu gebrauchen waren, sind diese Verhältnisse tiefste Vergangenheit. Aberdutzende von PDF-Programmen werden angeboten in Preislagen zwischen 20,- € und über 2.000,- €.


    Die üblichen Tipps wie "PaperPort" und "Abbyy Fine Reader" haben sich auch schon als Ente erwiesen. Von beiden Programmen besitze ich zwischenzeitlich eine Vollversion.


    Ergebnis:
    NEIN, sie können es NICHT. Es hat sich nämlich herausgestellt, dass das, was früher der vollen Funktionalität wegen unter dem Namen Vollversion lief, zwischenzeitlich zur erweiterten Demo-Ausgabe verkommen ist. Voll ist nur noch der Ärger über solchen Schrott einstmals seriöser Hersteller.


    Von jedem Programm sind aktuell mindestens ein Dutzend Versionen in verschiedenen Ausführungen erhältlich ... von den "Plug-Ins" ganz zu schweigen. Da gibt es parallel die Verisionen 10, 11 und 12 und von jeder dann noch die Vollversion, die Personal-, Personal-Advanced, Home-, Small-Busines-, Big-Business-, Corporate-, Special-, Ultimate- und Sonstwas-Edition. :mad:


    Prüft man Vergleichstabellen, finden sich die blumigsten Versprechungen. Nach dem Kauf wird man stets feststellen, dass das, was man sucht, doch noch ein wenig anders heißt, und in der erworbenen Version selbstverständlich nicht enthalten ist. Unnötig zu betonen, dass ein Upgrade auf die höhere Version natürlich teurer ist als ein Neukauf.


    Hat die höhere Version dann die gewünschte Funktionalität, stellt man fest, dass andere dafür fehlen. Die Erwartung, dass die höhere Version stets die bisherige Funktionaltität "plus X" hat, ist auch längst Geschichte.


    Ich möchte wissen, wie die Software-Industrie mit dieser Masche noch Geld verdienen will - ich persönlich fühlte mich schon häufiger regelrecht verar***t, mit der Folge, dass ich mir außer der Grundaussattung von MS kaum noch Software kaufe, weil in dreiviertel aller Fälle die Versprechungen nicht eingehalten werden oder einfach nur irreführend sind. Inzwischen habe zur Lösung meines konkreten Problems ich knapp dreißig mehr oder weniger unbrauchbare Trial- und Freeware-Progs installiert und dann wieder deinstalliert.


    Mein Problem ist nun immer noch nicht gelöst: Belasse ich es bei den MODI-tiffs oder kaufe ich noch eine Professional-Version von PaperPort? In der Hoffnug, dass diese die richtige Version ist. Einen Acrobat-Pro für 300,- € und mehr kaufe ich mir jedenfalls nicht, weil ich mich schwarz ärgern würde, wenn ich feststellen müsste, dass ich für ein notwendiges Plug-In dann noch einmal 250,- € draufsatteln soll. Solches Szenario entspräche inzwischen sogar meiner Erwartungshaltung.


    Nach über einer Woche und der Investition von vielen Stunden intensiver Suche, weiß ich immer noch nicht, wie ich mein Problem lösen soll. :confused:


    Wat nu? Finde ich heute oder morgen keine Lösung werde ich mich auf Dauer für Tiffs entscheiden und wer sie dann nicht lesen/verarbeiten kann, hat dann eben Pech gehabt. Ein Office 2003 oder 2007 werde ich persönlich noch lange in künftigen Windows-Versionen zum Laufen bekommen - und Gedanken betreffend einen Umstieg auf Office 2010 und später müsste ich mir auch nie wieder machen.


    Frank

  • So, ich bins nochmal ... in der Hoffnung, kurz vor Ende der mir selbst gesetzten Frist noch den entscheidenden Tipp zu bekommen.


    Meine Recherchen im Netz förderten zwei Lösungen hervor, die zur Estellung von Searchalbe-PDFs geeignet sein müssten und dennoch "bezahlbar" sind:


    1. Nuance PaperPort 12 Professional und
    2. Nuance PDF-Create 5.


    Vom ersten habe ich die Vorversion 11 in der Standard-Vollversion, die das nicht kann. Eine zufriedenstellende Dokumentenverwaltungssoftware, deren Version 12 für mich vielleicht noch etliche andere Neuerungen bringt, wenn ... ja wenn es die Erstellung durchsuchbarer Bild-PDFs beherrscht.


    Das Zweite, das lediglich einen Bruchteil kostet, soll mein spezielles Problem ebenfalls lösen können. Aber weiß man's?


    Auch mit dem Abbyy FineReader kann ich durchsuchbare PDFs erstellen - aber leider nur solche, in denen der gepixelte "dumbe" Text der Bilder durch "echte" Buchstaben komplett ersetzt wird, was einen editierbaren Text zur Folge hat (den ich aber nicht benötige, weil ich das Original erhalten will). Leider gehen bei dieser Variante handschriftliche Anmerkungen in den Texten verloren, die - sofern sie in die Schrift hereinreichen - insoweit zu abstrusen Erzeugnissen führen, die mit dem Original wenig gemein haben. Eben der Nachteil dieser "Königsklasse", der sie für meine Zwecke unbrauchbar macht. :(


    Gibt es ein Mitglied, das eines dieser beiden vorgenannten Nuance-Programme nutzt und die Funktionalität bestätigen kann?


    Frank

Jetzt mitmachen!

Sie haben noch kein Benutzerkonto auf unserer Seite? Registrieren Sie sich kostenlos und nehmen Sie an unserer Community teil!