MS Office Formate mdi und/oder tiff verarbeiten

  • Auf dem Weg zu meinem papierarmen Büro hatte ich zuletzt auf das MS Document Imaging gebaut. Bei diesem in Office-Pakten enthaltenen Tool werden eingescante Schriftstücke mit einem zweiten Layer versehen, mit dessen Hilfe eine Volltextsuche in den gescanten Dokumenten möglich ist. Exakt, wie man es von durchsuchbaren Text-PDFs her kennt.


    Weil das OCR von MS wirklich vorzüglich arbeitet (deutlich besser als viele andere Lösungen) und das Document-Imaging im Preis des Office-Pakets enthalten ist, sprach in meinen Augen nichts dagegen, diese gelungene und kostengünstige Lösung für mein Projekt zu Nutzen.


    Für den Fall, dass derart erstellte Docs an Dritte weitergegeben werden sollen, empfiehlt MS, das tiff-Format zu nutzen, welches neben PDF eines der Standardformate in der Archivierung ist bzw. war. Als fester Bestandteil zumindest seit Office 2003 schien mir das Ganze für die Nutzung eines im Gesamtrahmen eher kleinen Projekts auch in ausreichendem Maße zukunftssicher (muss ja nicht für die Nachwelt sein).


    Die Weitergabe der Dokumente an Dritte entwickelt sich nun aber zum wirklichen Problem:


    Ich finde keine Möglichkeit, diese Dokumente mit Rechnern zu nutzen, auf denen kein Office-Paket installiert ist. Zum zweiten geht es selbst mit Office-Paket oft nicht, weil das Doc-Imaging häufig nicht installiert ist und die Nachinstallation durch einen Administrator erst einmal skeptisch gesehen wird. Nun der Gau: Seit Office 2010 gibt es dieses Programm gar nicht mehr! Ein Lesen der Dokomente ist ausschließlich dann möglich, wenn man Teile aus Office 2007 nachinstalliert (so von MS empohlen).


    Auch das vermeintlich sichere tiff-Format hat seine Tücken. Ich habe selbst nach einem guten Dutzend Installationen keinen einzigen tiff-Viewer gefunden, dessen (prinzipiell vorhandene) Volltextsuche mit den MS-tiffs harmoniert. Auch die von mir getesteten tiff2pdf-Konverter, die zahlreich existieren, ignorieren den von Doc-Image erzeuten Klartext.


    Wat nu? Letzte nacht habe ich mehr als ein Dutzend Programme installiert und auch wieder deinstalliert, ohne fündig geworden zu sein. Dieser Weg scheint mir im Weiteren unpraktikabel.


    Jetzt die Frage: Wie kann man diese Dokumente auf Rechnern verwenden/verwendbar machen, auf denen kein Office-Paket bis einschl. 2007 instatlliert ist???


    Frankie :(

  • Da gibt es eigentlich nur einen brauchbaren Ansatz: PDF/A

    mutt : "All mail clients suck. This one just sucks less."
    Es gibt Threads die braucht man nichtmal lesen um zu wissen was ab geht - /me 2004-01-05 20:54


    Registriert seit: 05/2002 => 10 Jahre TT :)

  • PDF/A ist leider eines der wenigen Formate, die für meine Zwecke überhaupt nicht geeignet sind. In der Spezifikation von PDF/A ist nämlich der zweite (transparente) Layer, der zum Zweck der Volltextsuche über das eingescante Dokument gelegt wird, nicht zulässig. In PDF/A müssen die alphanumerischen Zeichen des Textes selbst und zusätzlich noch die verwendeten Schriftzeichen eingebettet werden.


    Wird Text am PC originär erzeugt, ist das natürlich kein Problem; wird aber Text eingescant, dessen Schriftart nicht bekannt und vielleicht nicht einmal Standardkonform ist, ist das natürlich nicht möglich, so dass PDF/A für diese Art der Archivierung definitiv ausscheidet. PDF/A ist eine tolle Sache - aber nicht unbedingt für bereits (auf Papier) vorhandenes Schrifttum.


    Bei der Inventarisierung alter Schriftstücke in Bibliotheken hält sich das tiff-Format daher hartnäckig. Gerade deshalb verstehe ich nicht, warum ich keinen (günstigstenfalls portablen) tiff-Reader finden kann, der die Textsuche per zusätzlichem OCR-Layer unterstützt. Oder nutzt Microsoft hier ein proprietäres Verfahren, das mit den üblichen Standards nicht konform geht? Denkbar wäre das ... aber nicht vereinbar mit dem Hinweis von MS, man möge für herauszugebende Dateien das tiff-Format wählen. Der machte dann nämlich wenig Sinn, weil die Nutzer von Office 2003 und 2007 auch das mdi-Format nutzen können.


    Frankie :confused:

  • Willkommen in der geschlossenen MS-Welt :)

    Original geschrieben von bernbayer:
    "Eine Kampagne in ZUsammenhang mit Guttenberg kann man der Bild-Zeitung nicht vorwerfen."

  • Mein lieber Freund raix ... wie Du weißt, läuft einer meiner Rechner auf Linux ... welche Lösung für mein Problem hast Du anzubieten?


    Wie Du auch weißt, bin ich flexibel. ;)


    Frankie

  • Daten nie in irgendeinem obskuren Format abspeichern. Ganz vorne dabei natürlich die MS Office-Teile.
    Ideal ist natürlich ASCII-Text, aber das geht bei Scans ja schlecht.


    Von daher bleibt wohl nur PDF oder ein gut dokumentiertes Bildformat.

    Original geschrieben von bernbayer:
    "Eine Kampagne in ZUsammenhang mit Guttenberg kann man der Bild-Zeitung nicht vorwerfen."

  • Zitat

    Original geschrieben von raix
    ...
    Ideal ist natürlich ASCII-Text, aber das geht bei Scans ja schlecht.


    Von daher bleibt wohl nur PDF oder ein gut dokumentiertes Bildformat.


    Ich dachte eher an einen konkreten Vorschlag. Eine (obskure) Lösung von MS ist immer noch besser als gar keine.


    Wohl unnötig, an dieser Stelle zu betonen, dass ich im Linux-Bereich keine Vorschläge erwarte, bei denen ich mit drei- bis vierstelligen Summen hantieren muss ...


    Frankie

  • Zitat

    Original geschrieben von frank_aus_wedau
    PDF/A ist leider eines der wenigen Formate, die für meine Zwecke überhaupt nicht geeignet sind. In der Spezifikation von PDF/A ist nämlich der zweite (transparente) Layer, der zum Zweck der Volltextsuche über das eingescante Dokument gelegt wird, nicht zulässig.


    Ich bin jetzt kein Experte in diesem Thema, allerdings verwundert mich das schon.... wie auch immer, dann denk doch mal in die Richtung "normale PDFs".


    Zitat

    Original geschrieben von frank_aus_wedau
    Wird Text am PC originär erzeugt, ist das natürlich kein Problem; wird aber Text eingescant, dessen Schriftart nicht bekannt ist...


    ... kommt i.d.R. ohnehin nur Müll raus, und die MODI-OCR von MS kann mit Allem was so in Richtung Handschrift geht gar nix anfangen. Zugegeben, Standard-Schriftarten werden hervorragend erkannt.


    Aber sei froh, Du bist nicht allein... ein Programm was ich geschrieben habe nutzt auch die MODI-OCR, in ein paar Jahren muss ich das dann halt durch ne andere Engine ersetzen.

    mutt : "All mail clients suck. This one just sucks less."
    Es gibt Threads die braucht man nichtmal lesen um zu wissen was ab geht - /me 2004-01-05 20:54


    Registriert seit: 05/2002 => 10 Jahre TT :)

  • Zitat

    Original geschrieben von stendate
    ..., und die MODI-OCR von MS kann mit Allem was so in Richtung Handschrift geht gar nix anfangen. Zugegeben, Standard-Schriftarten werden hervorragend erkannt.


    Das ist es!


    Die Erkennung von Druckschriften ist in MODI wirklich vorzüglich. Deutlich besser als in allen anderen Lösungen, die ich getestet hatte.


    Das mit der Handschrift ist für mich nicht verwunderlich. Die Windows Handschrifterkennung funzt aber erstklassig bei Inhalten, die originär auf einem Touchscreen oder Schriftpad (ohne Display) eingegeben wurden. Ohne es konkret zu wissen, gehe ich davon aus, dass die in solche Gerätschaften eigegebenen handschriftlichen Texte auf Vektorbasis erkannt werden. Völlig freie Handschrift aus "Bildern" zu erkennen (ohne die zugehörigen Bewegungsvektoren) dürfte aktuell noch zu schwierig für "Jedermannhardware" sein.


    Wenn ich fragen darf:
    Wie schaffst Du es, durchsuchbare Texte auf Rechnern zu verarbeiten, bei denen MODI nicht installiert ist? Kann man diesen MSPVIEWER auf Systemen nutzbar machen, auf denen kein passendes Office-Paket installiert ist? Das muss möglich sein; gelungen ist mir das aber nicht (obwohl ich zugebe, hier noch keine besondere Energie investiert zu haben, weil ich noch auf eine anderweitige Lösung hoffe).


    Edit: Hatte einen Beitrag von raix übersehen.


    Mein gestriges Probieren (auch kostenpflichtiger Trial-Versionen) hat sich als müßig erwiesen. :(


    Frank

Jetzt mitmachen!

Sie haben noch kein Benutzerkonto auf unserer Seite? Registrieren Sie sich kostenlos und nehmen Sie an unserer Community teil!