News
Neues aus der Welt der Wissenschaft
 
ORF ON Science :  News :  Technologie 
 
Texterkennung: So helfen Menschen dem Computer  
  Deformierte Buchstaben oder Ziffern erkennen und korrekt eingeben - viele Webseiten, E-Mail Provider oder Blogs verwenden diesen einfachen Test, um sicherzustellen, dass tatsächlich ein Mensch vor der Maschine sitzt. US-Computerwissenschaftler haben nun eine praktische Variante dieses Tests entwickelt. Ihre Software sorgt nicht nur für die Sicherheit von Webseiten, sondern spannt die Nutzer zum Entziffern alter unlesbarer Texte ein.  
Durch den weltweiten Einsatz des Programms wird täglich ein Textkorpus im Umfang von etwa 160 Büchern transkribiert, obwohl der Einzelne nicht mehr als ein paar Sekunden für die Aufgabe braucht.
...
Der Artikel "reCAPTCHA: Human-Based Character Recognition Via Web Security Measures" von Luies von Ahn et al. ist in der aktuellen Ausgabe von "Science" (14. August 2008, DOI: 10.1126/science.1160379) erschienen.
->   Artikel (sobald online)
...
Wie der Computer einen Mensch erkennt
CAPTCHA steht für "Completely Automated Public Turing test to tell Computer and Humans Apart". Dabei handelt es sich um einen Test im World Wide Web, der feststellen soll, ob der Nutzer auch tatsächlich menschlich ist und kein Computerprogramm.

Typischerweise ist ein CAPTCHA ein Bild von verzerrten Zeichen. Der Mensch muss die Folge von Buchstaben oder Ziffern korrekt eingeben, quasi um seine Menschlichkeit zu beweisen, denn unsere Erkennungsfähigkeiten sind der maschinellen Verarbeitung noch immer weit überlegen.

So wurde diese Methode zu einer effizienten Sicherheitsmaßnahme, die etwa freie E-Mail Provider vor Spam-Mails und viele Webseiten vor automatisierten Zugriff schützen soll.
->   CAPTCHA (Wikipedia)
Automatische Texterkennung sehr fehleranfällig
Die Forscher rund um Luis von Ahn von der Carnegie Mellon University in Pittsburgh haben nun versucht, dieser menschlichen Anstrengung einen zusätzlichen Sinn zu geben, nämlich bei der Erkennung alter gedruckter Texte.

Die Archivierung alter Zeitschriften und Bücher ist für den Erhalt menschlichen Wissens wesentlich, allerdings auch sehr aufwändig. Dabei werden die einzelnen Seiten zuerst eingescannt, danach wandeln spezielle Zeichenerkennungsprogramme die Bilder in Textdateien. Diese Umwandlung ist sehr nützlich, da die Texte dann problemlos indiziert, durchsucht oder weiter verwendet werden können.

Der Haken an der Sache: Diese Programme sind relativ fehleranfällig, vor allem bei älteren Druckwerken, wenn die Tinte bereits verblasst ist oder das Papier gelb geworden ist. In diesen Fällen kann der Computer laut den Wissenschaftlern nur etwa 20 Prozent der Wörter erkennen.
Menschliche Fähigkeiten nutzen
Der Mensch hingegen kann, wenn er mit einem zweiten als Kontrollperson arbeitet, ein zu etwa 99 Prozent korrektes Ergebnis liefern. Leider ist die menschliche Arbeitskraft ziemlich teuer und nur für ganz besondere Texte leistbar.

Nicht zuletzt dieses Argument brachte die Forscher auf die Idee, die "vergeudete" Arbeitsleistung bei den Sicherheitstests nutzen. Das Programm "reCAPTCHA" wurde entwickelt.
"Verdächtige" Wörter werden dem Nutzer gezeigt
 


Es funktioniert folgendermaßen: Sobald zwei Zeichenerkennungsprogramme ein gescanntes Wort unterschiedlich "lesen", wird es als "verdächtig" markiert. reCAPTCHA kombiniert diese Wort mit einem bekannten Kontrollwort. Beide werden dem Nutzer am Computer gezeigt.

Wenn er das Kontrollwort richtig eingibt, wird er quasi als Mensch akzeptiert und seine Vermutung bezüglich des unbekannten Wortes ernst genommen. Sobald drei Nutzer dasselbe Wort erkennen, wird es als korrekt in den Korpus aufgenommen (siehe Bild oben).

Das Programm ist seit letztem Jahr in Einsatz. Es wird bereits von tausenden Webseiten verwendet. Dabei wurden insgesamt schon etwa 440 Millionen Worte entziffert.
Korrekt, sicher und effizient
Das Team rund um von Ahn hat die Anwendungen nun genauer analysiert. Eine Vergleichsprobe bei 50 zufällig ausgewählten Artikeln ergab die gleiche Ergebnisqualität, die sonst nur ein zweiköpfiges menschliches Team erreichen kann.

Ein interessanter Nebeneffekt: reCAPTCHA ist laut den Forschern sicherer als konventionelle CAPTCHAs, bei welchen es immer nur limitierte Möglichkeiten der Manipulation gibt, da die Wörter ja auch lesbar bleiben müssen. reCAPTCHA hingegen verwendet Zeichenfolgen, die von Programmen definitiv nicht gelesen werden konnten.

Insgesamt ist dieses Projekt für die Wissenschaftler nur Teil eines größeren Ziels. Menschliche Leistungen, die eigentlich verschwendet worden wären, für Aufgaben heranzuziehen, die Maschinen nicht lösen können. Zu diesem Zweck entwickelt das Team unter anderem auch diverse Online-Spiele. Eines davon analysiert Fotos oder Audiodateien, bei einem anderen arbeiten die Mitspieler an einer idealen Proteinstruktur. So wird quasi weltweit kooperativ gearbeitet, bezahlt wird man dafür allerdings nicht.

Eva Obermüller, science.ORF.at, 14.8.08
->   Luis von Ahn
->   Carnegie Mellon University
Mehr dazu in science.ORF.at:
->   Erster Computer, der Wienerisch spricht (23.6.08)
->   Computer erkennt Tierstimmen (15.3.06)
->   Wer hat Geist - wer nicht? (5.2.07)
 
 
 
ORF ON Science :  News :  Technologie 
 

 
 Übersicht: Alle ORF-Angebote auf einen Blick
01.01.2010