Projekt Tesseract: Texterkennung von Google

Jens

» Web-Version «
vor 18 Jahren

Das Google-Team hat eine freie Texterkennungs-Software namens Tesseract freigegeben und bietet es bei SourceForge zum Download an. Die Software ist bisher nur in der Lage einfache und mehrspaltige Texte zu erkennen, kann aber mit einfachen und gar aufwendigen Layouts noch nicht viel anfangen.

Das „noch“ ist fett geschrieben weil diese Funktion noch so sehr in den Kinderschuhen steckt dass Google es nicht für die Öffentlichkeit freigegeben hat – aber es ist in Entwicklung und soll teilweise schon funktionieren. Außerdem wäre noch zu erwähnen dass Google das Projekt Tesseract nur fortführt und nicht selbst entwickelt hat. Den Anstoß dazu hat Hewlett Packard in den Jahren 1985 – 1995 gegeben.

Das ganze besitzt auch noch keinerlei Benutzeroberfläche und steht nur als einfaches Modul für Programmierer zur Verfügung. Ich könnte mir aber vorstellen dass Google gerade schon dabei ist den Code in seine Programme zu integrieren und mit der nächsten Version auszuliefern. Google Desktop könnte dann auch Texte in Bildern durchsuchen und Picasa natürlich genau das gleiche.

Es wird auch wirklich Zeit dass sich im Bereich der Texterkennung mal etwas tut und es endlich eine so sehr funktionierende Methode gibt dass man sich komplett auf das verlassen kann was die Software da ausspuckt. Im Laufe der Jahre habe ich viele Programme ausprobiert, und jedes hat mir durch das korrigieren der zahlreichen Fehler mehr Arbeit bereitet als wenn ich es selbst abgetippt hätte…

» Projekt Tesseract
» Ankündigung im Google Code Blog

Keine Google-News mehr verpassen:
GoogleWatchBlog bei Google News abonnieren | Jetzt den GoogleWatchBlog-Newsletter abonnieren