Computer & Technik

Standard-Software

OCR-Software

Der Markt für OCR-Software ist in Bewegung geraten. Nachdem jahrelang nur einige wenige Produkte den Markt beherrschten, erscheinen jetzt immer mehr Produkte, die dank eines günstigen Preis-/Leistungs-Verhältnisses Büros und Archivierungsabteilungen im Sturm erobern.

Aber nicht als was glänzt ist Gold und die teuer erstandene OCR-Software bringt nicht selten Frust und Ärger. Meistens ist dies auf eine mangelhafte Information vor dem Kauf zurückzuführen. Denn nicht jede Software ist für alle Zwecke einsetzbar.

So ist für den Büroeinsatz, wo unterschiedliche und vor allem kurze Texte eingelesen werden sollen, eine Software auf Omnifont-Basis zwingend erforderlich. Die für Matrix-orientierte Erkennungs-Algorithmen nötige Trainingsphasen sind nämlich nicht zu unterschätzen. Bevor ein Zeichensatz richtig trainiert ist, vergeht schon mal ein knappes halbes Stündchen. In dieser Zeit hätte man den Text schneller und sicherer eintippen können. Richtig interessant werden lernfähige Systeme deshalb erst dann, wenn längere Texte mit gleichen Zeichensätzen eingelesen werden müssen oder ein und der selbe Zeichensatz wiederholt vorkommt.

Aber auch Omnifont-gestützte Systeme haben ihre Schwächen. In der Regel werden nur wenige Schriftarten unterstützt, die zudem einen festgelegten Zeichenvorrat beherrschen. Das automatische Einlesen mit diesen System wird spätestens dann zur Qual, wenn ein Text nicht nur aus Buchstaben besteht, sondern auch Sonderzeichen enthält, wie sie beispielsweise in Lexika vorkommen. Vor solchen Vorlagen kapituliert (derzeit noch) jeder Omnifont.

Einen Ausweg aus dieser zweigeteilten OCR-Welt verspricht ReadStar 6, das sowohl mit einem Omnifont, als auch mit frei trainierbaren Zeichen auf Matrix-Ebene arbeiten kann. Die für den Test zur Verfügung gestellte Beta-Version konnte in der Praxis jedoch nicht überzeugen. Das ältere ReadStar III+ des gleichen Herstellers lieferte deutlich bessere Ergebnisse.

Ebensfalls lernfähig und merkmalsgestützt arbeitet Recognita PLUS. Auch die Entwickler der deutschen Software SCOUT entwickeln in diese Richtung. Eine erste serienreife Version wird zur Cebit 91 erwartet.

Etwas mager ist derzeit die Unterstützung von MS-WINDOS als Oberfläche für OCR-Software. Lediglich Omnipage und TopScan sind fest in WINDOWS integriert. Recognita ist in zwei Versionen erhältlich, eine reine DOS-Version und eine speziell für WINDOWS entwickelte. Für ReadStar 6 und SCOUT sind ebenfalls WINDOWS-Versionen angekündigt, die aber sicherlich erst zur nächsten Cebit vorgestellt werden.

Wichtiger als die Oberfläche ist jedoch die Qualität der Texterkennung. Die Erkennungsquote ist für alle Produkte erstaunlich hoch. Dabei sollte man jedoch nicht vergessen, daß die Matrix-orientierten Systeme diese Quoten erst nach intensivem Training erreichen.

Anders die Omnifont-Systeme, die sofort Traumergebnisse liefern. Allen voran TopScan. Das Programm, das als einziges der getesteten Produkte über eine Hardware-Unterstützung verfügt, lieferte im Test die besten Ergebnisse. Bei guten Vorlagen darf man eine absolut korrekte Erkennung erwarten. Als einziges System liefert TopScan auch gute Ergebnisse von FAX-Ausdrucken. Sogar die Schrift der 9- und 24-Nadeldrucker wird in der Regel korrekt erkannt. Dafür ist TopScan mit gut 16000.- aber auch das teuerste System der Marktübersicht. Die in Punkto Erkennung ebenbürtige Software TrueScan des gleichen Herstellers arbeitet mit der gleichen Hardware, aber ohne WINDOWS-Oberfläche. Daneben gibt es weitere unwesentliche Einschränkungen, die an der generellen Leistungsfähigkeit des Systems zwar nichts ändern, aber nicht den Bedienungskomfort von TopScan bieten.

TopScan kann uneingeschränkt für den universellen Einsatz empfohlen werden. Von der schnellen Bürolektüre bis hin zur Texterfassung als gewerbliche Dienstleistung meistert das System alles mit akzeptabler Geschwindigkeit.

Für den reinen Büroeinsatz bieten sich Omnipage, ReadStar Express und Recognita an. Letzte ist sogar lernfähig.

AutoREAD, SCOUT, SPOT und ReadStar III+ benötigen eine intensive Trainingsphase, bevor sie brauchbare Ergebnisse liefern. Aus diesem Grund kommen diese Systeme nur dann in Frage, wenn längere Texte erfaßt weren sollen oder immer wieder die selben Zeichensätze verwendet werden.

Vor dem Kauf sollten Sie sehr genau überlegen, welcher Art die einzulesenden Vorlagen sind. Erst dann sollten Sie mit einigen typischen Textvorlagen zum Händler gehen und Probelesen. Einen ersten Eindruck über die Leistungsfähigkeit der gängigsten Systeme bietet Ihnen die nachfolgende Marktübersicht.

Zur Ermittlung der Erkennungsquoten wurden alle Programme einer Testreihe unterzogen. Die Probeseiten bestanden zu gleichen Teilen aus Korrespondenz (Schreibmaschine, Laser- und 24-Nadel-Drucker), Buchseiten unterschiedlicher Druck- und Papierqualität, sowie Zeitschriften. Die ermittelten Quoten stellen einen Durchschnittswert bezüglich dieser Haupteinsatzgebiete dar. Dabei sollten Sie allerdings nicht vergessen, daß für alle Matrix-orientierten Systeme zunächst eine längere Trainigsphase notwendig war.





Sachgebiet


© 2009-2012 by Alojado Publishing. Alle Rechte vorbehalten. Ausgewiesene Marken gehören ihren jeweiligen Eigentümern.
Mit der Benutzung dieser Seite erkennen Sie die Nutzungsbedingungen und die Datenschutzerklärung an. Der Betreiber übernimmt keine Haftung für den Inhalt verlinkter externer Internetseiten.
Seite erzeugt 2012-05-20 02:48:54 von textarchiv.alojado.de