OCR

Was hat die Büroschreibmaschine mit professioneller Texterfassung zu tun?



Einfache Antwort: Sie ist, bzw. war in der Vergangenheit, das populärste Schreibgerät – relativ billig und einfach bedienbar. Wundert es da, dass die Satzprofis in den 1970er-Jahren nach Wegen suchen, die Schreibmaschine neben dem Briefeschreiben auch zur Texterfassung für den Fotosatz einzusetzen?
Eine Büroschreibmaschine, auch wenn es eine „edle“ Kugelkopfschreibmaschine von IBM ist, kostet ja nur einen Bruchteil eines speziellen Lochstreifenperforators, der zudem speziell geschulte Taster und Tasterinnen voraussetzt. Eine Schreibmaschine kann (fast) jeder bedienen.

In der Tat ist die OCR-Technologie, die auf Schreibmaschinenschriften aufbaut, der erste Versuch, das Büro enger an die Satzproduktion heranzuführen – oder umgekehrt: um vom Büro aus Texte in die Setzerei liefern zu können, ohne dass diese dort nochmals abgeschrieben (neu erfasst) werden müssen. OCR-Manuskripte sind maschinenlesbar ...

OCR heißt Optical Character Recognition, optische Zeichenerfassung –

... allerdings nur unter ganz bestimmten Bedingungen.



Die Lesemaschine, links im Bild eine Compuscan „Alpha“, wird für die Fotosetzmaschine, rechts, ein interessanter Partner. Vor allem bei Mengentext, wie Zeitungs- oder Zeitschriftenartikel, Bücher. Sind die Manuskripte nach bestimmten Regeln geschrieben – an einer Kugelkopf-Schreibmaschine, mit einer bestimmten Schrift, Einmal-Karbonband und vorgegebenem Zeilenabstand –, gibt man sie der Lesemaschine ein, die sie mit Licht zeilenweise abtastet, die gelesenen Zeichen interpretiert und als Codes für den Fotosatz ausgibt. Heraus kommt z.B. ein gestanzter Lochstreifen, der die Fotosetzmaschine steuert.

Welche Schrift(en) automatisch gelesen werden, hängt von der Lesemaschine ab. Breit durchgesetzt haben sich genormte Schriften wie „OCR-A“, vor allem im Formular-(Beleg-)wesen mit relativ beschränktem Zeichenrepertoire, und die „OCR-B“, die sich in der industriellen OCR-Texterfassung bestens bewährt. Aber auch die Schreibmaschinenschriften „Pica“, „Prestige“, „Courier“ und „Elite“ eignen sich fürs OCR-Verfahren. Das alles sind sogenannte „mono-spaced“ Schriften, mit einheitlicher Breite aller Zeichen. Schriften mit variablen Zeichenbreiten, ja beliebige Druckschriften können erst später automatisch erfasst werden.

OCR in 2 Schritten:



Die optische Zeichenerkennung läuft in 2 Phasen ab: Erst werden die Zeichen vom Manu- oder Typoskript abgescannt und in einzelne Punktmuster (jedes Zeichen = eine Punktmatrix) gewandelt, dann werden diese Muster mit im Programm gespeicherten Referenzmustern verglichen und bei weitgehender Übereinstimmung richtig erkannt. Unsauber geschriebene Zeichen oder Zeichen, für die der Lesemaschine keine Referenzmuster vorliegen, können nicht richtig oder gar nicht interpretiert werden. Im letzteren Fall gibt die Maschine ein Fehlerzeichen aus, das bei der weiteren Textbearbeitung manuell durch das richtige Zeichen ersetzt werden muss.

Was spart man also durch Texterfassung per OCR?
Den manuellen Aufwand für das Abschreiben von Manuskripten (Blättern).




Die OCR-Lesemaschine, der Blattleser übernimmt die Texte automatisch und überführt sie in die Produktion:




Das OCR-Verfahren hat sich, wie schon erwähnt, im Mengensatz bewährt. Für kurze und gestaltungsintensive Arbeiten ist die direkte, interaktive Texteingabe in den Rechner vorteilhafter. Und nicht zu vergessen: Die Schreibmaschinen werden, auch im OCR-Workflow, meist von Bürodamen bedient, die keine speziellen Satzkenntnisse haben. Codierte Satzbefehle können zwar mit aufs OCR-Typoskript geschrieben werden, ebenso wie nachträgliche Textkorrekturen (in den Zeilenzwischenräumen), was aber manche Typistin überfordert. Andererseits schreiben diese flüssiger als ein Taster oder Setzer mit Ein-Finger-System.

Mit dem Desktop Publishing wird alles anders

Die meisten OCR-Lesemaschinen stammen aus den USA. Bekannte Hersteller sind Compuscan und ECRM. Kurzweil, eine Xerox-Tochter, macht die Lesemaschinen „intelligenter“, indem sie nicht nur gleichbreite Zeichen, sondern auch Schriften mit variablen Zeichenbreiten lesen und interpretieren lernen. Und sogar beliebige Druckschriften (wenn sie nicht zu exotisch sind) ohne Serifen – wie „Helvetica“, „Arial“ und „Futura“ – und mit Serifen – wie „Times“, „Garamond“, „Bodoni“ und viele andere mehr.

Mit dem Desktop Publishing (DTP) kommen Personal Computer und Scanner, Apple- und Microsoft-Betriebssysteme, Layout-, Grafik- und Bildbearbeitungsprogramme an den Markt – und OCR-Software. Die populärste OCR-Anwendung ist „OmniPage“ von Caere, kostet anfangs über 1000 DM und läuft wahlweise auf dem „Mac“ oder „Windows“-PC.
Desktop-Scanner sind in den ersten Jahren über eine spezielle Steckkarte oder im „SCSI“-Bus mit dem Computer verbunden, später auch über „USB“ – und werden heute oft nicht mehr gebraucht, weil Texte per Datenträger oder eMail übertragen werden und Bildmaterial, das früher ab Foto oder Dia mit einer Scansoftware digitalisiert wurde, von Digitalkameras wiederum auf kürzestem Weg in die Druckerei gelangen.

OCR adieu, Scanner adieu? Nun, zum Digitalisieren älterer, gedruckter Vorlagen sind Scanner mit Software zur automatisierten Zeichen-, Grafik-, Bild- oder gar Layouterfassung nach wie vor erforderlich.

Eine ausführlichere Beschreibung der OCR-Technologie können Sie sich als PDF-Dokument herunterladen.


(C) 2011 - Alle Rechte vorbehalten

Diese Seite drucken