Juni 2010 - Deutsche Fraktur-Schrift ist sehr selten geworden.
Und die jungen Menschen unter 40 (wir schreiben Juni 2010) können die sowieso nicht mehr lesen. Da ist es um so erfreulicher, daß sich Schriftspezialisten zusammengetan haben, um die historischen Druckwerke in unser elektronisches Zeitalter zu übernehmen. Und das Ganze ist auch noch als Freeware erstellt, sodaß kleinere Museen und motivierte Webseitenbetreiber sich das überhaupt leisten können.
Ich will nicht verschweigen daß es den Finereader 19 mit deutschem Fraktur Modul gibt, doch ist der für mich unerschwinglich teuer. Hier est einmal die allererste Musterseite, mit der ich das probiert hatte.
Ich hatte viel zu lange gebraucht, um zu verstehen . . .
Bereits vor einem Jahr bin ich auf "tesseract" für Linux gestoßen und hatte gehört, es gäbe ein Windos 32 "Compilat", das wäre aber als CLI (Command Line Interface) sehr komplex oder kompliziert. Weiterhin gäbe es die ganzen Deutschen Frakturschrift Datensätze ebenfalls frei zur Verfügung. Etwas später las ich von einem Windows GUI für diese OCR Engine, genannt freeocr (Version 2.6).
Nach dem Installieren solle man einfach die deutschen Zeichensatz Dateien "da" mit rein kopieren und es ginge dann. Es ging natürlich nicht bzw. nie. Es fehlte das kleine i-Tüpfelchen beim Verständnis.
Wie es funktioniert - aus einem Forum
Also: der "Englische Schriftsatz" ist immer dabei und die Schriftdateien fangen mit eng.xxx an. Und von der Deutschen Variante gibt es derer 2, die "Deutsche" und die "Deutsche-Fraktur" !!
Man lade also nicht beide runter, es sei denn, man braucht wirklich beide. Man lade nur die Fraktur-Variante und entpacke die in einem eigenem (Fraktur-) Verzeichnis, also nicht im Verzeichnis Deutsch. Dann benenne man die Dateien alle von "deu-f.xxxx" in "deu.xxx" um, sonst erkennt (laut Forumseintrag) das "freeocr" GUI diese Deutsche Schriftart nicht. (Mit tesseract auf CLI Ebene sollte es auch so gehen.)
Ich hatte immer wieder die beiden Deutschen Schriftarten in das Schriften-Vorratsverzeichnis kopiert und es hatte nie funktioniert. "freeocr 2.6" konnte Fraktur Schrift so gut wie nicht erkennen, es sieht offensichtlich nur Schriften-Vorlagen mit den 3 Anfangsbuchstaben vor dem ersten Punkt !!!
Jetzt hat es endlich funktioniert
Jetzt hat es endlich funktioniert, es wäre so einfach gewesen. Doch mit 5 laufenden Regal-Metern Funkschau im Rücken war der Leidensdruck so erheblich gewachsen, daß ich mehrere Stunden gegoogelt hatte.
Die beiden ersten Seiten aus 1936/37 hatte ich dann mit Corel Photo Paint 10 gescannt und von optischem Schmutz, dem grauen Hintergrund, bereinigt und alle Bilder ausgeschnitten und dann gelöscht. Man muß also seine Fraktur- Text-Vorlagen sorgfältig grafikfrei und fleckenfrei vorbereiten und etwas ins Weiß hochziehen.
Mit dem Photoshop geht das natürlich auch. Dieses GUI verarbeitet mehrere Grafikformate. Gescannt werden sollte mit 300dpi, mehr würde laut Entwickler "nichts bringen", also eher das System verlangsamen. Es ist toll, die Erkennungsrate dieser beiden (ersten Test-) Seiten war durchaus bei 97%.
Anmerkung: Die "freeocr" Version 3.0 läßt sich unter Windows 2000 nicht mehr installieren, da ist (noch) ein Bug im Installer drinnen.



