PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : Technik - Software unterscheidet Forschertexte von Nonsens-Aufsätzen



vamp
27.04.2006, 10:38
Komplizierter wissenschaftlicher Fachjargon ist für Laien oft nicht von sinnlosem Kauderwelsch zu unterscheiden. Doch auch Fachleute wurden schon mit Nonsens-Aufsätzen verladen. Jetzt unterscheidet eine Software automatisch - und versteht doch selbst kein Wort.

Die Website kommt schlicht und freundlich daher: "Willkommen zum Detektor für unauthentische Aufsätze". Kopieren, Einfügen und Klicken - der Server rechnet einige Sekunden, dann meldet sich das Programm mit kühler Präzision: "Dieser Text wurde als authentisch eingestuft". Mit einer Wahrscheinlichkeit von exakt 86,7 Prozent handele es sich um einen echten wissenschaftlichen Aufsatz.

sxcre Wyatt Clark, Jim Costello, Mehmet Dalkilic und Predrag Radivojac von der Indiana University haben eine Software geschrieben, um sinnvolles Kauderwelsch (vulgo wissenschaftliche Fachsprache) von sinnfreiem Gequassel zu trennen. Für beide Textsorten gilt: Das Programm versteht vom Inhalt nicht die Bohne.

Am Wochenende präsentierten die Informatiker ihre Arbeit bei einer Fachkonferenz in Maryland. Der Anstoß dazu war selbst eine deftige Zote über Sinn und Unsinn im akademischen Soziotop: Im April vergangenen Jahres hatten drei Studenten des Massachusetts Institute of Technology (MIT), einer US-Eliteuniversität, für Schlagzeilen gesorgt, indem sie sich mit einem computergenerierten Nonsens-Aufsatz für eine Fachkonferenz angemeldet hatten - und angenommen wurden. "Die Torwächter der Wissenschaften lassen sich leicht aufs Kreuz legen", spottete die Zeitschrift "Wired" auf ihrer Website. Das Magazin "New Scientist" kommentierte hämisch: "Künstliche Intelligenz war das nun wirklich nicht."

Nonsens-Text fällt im Fach-Gequassel nicht auf

"Wir haben uns der denkbar einfachsten Methode bedient", sagte Jeremy Stribling, einer der Autoren. Mit seinen Kommilitonen Daniel Aguayo und Maxwell Krohn ließ er den Computer Skelettsätze, also leere grammatikalische Strukturen, mit zufälligen Nomen, Verben, Adjektiven und Adverbien füllen - darunter eine Zufallsauswahl aus dem Informatik-Jargon. Schließlich sollte ja ein Fachaufsatz für eine Konferenz von Computerwissenschaftlern entstehen. Auf der Website SCIgen ("An Automatic Computer Science Paper Generator") steht das Programm allen Internetnutzern zur Verfügung.

Der errechnete Beitrag " Rooter: a methodology for the typical unification of access points and redundancy" bestand dementsprechend aus formal korrekter Sprache - und scheinbar aus hoch speziellem Experten-Gequassel, zu Englisch "gibberish". Keinem der Gutachter der Konferenz "2005 World Multi-Conference on Systemics, Cybernetics and Informatics" fiel der Bluff auf. Die nun verfügbare Software aus Indiana hingegen stuft den Text als "unauthentisch" ein.

"Einige Arten technischer Texte, von Maschinen erzeugt und völlig sinnfrei, können mit authentischen technischen Texten verwechselt werden, die Menschen verfasst haben", folgerte das Team aus Indiana. Jedem Laien erschließt sich dieser Eindruck leicht, wenn er in einer beliebigen Uni-Bibliothek eine (natur-)wissenschaftliche Fachzeitschrift durchblättert.

Während das "gibberish" von Stribling, Aguayo und Krohn eher als Satire gewertet werden muss und deshalb noch nicht mit einer Flut dadaistischer Veröffentlichungen in der B- und C-Klasse wissenschaftlicher Fachzeitschriften zu rechnen ist, stellten die MIT-Studenten Informatiker und Erforscher Künstlicher Intelligenz vor ein veritables Problem: Wie kann man mit Hilfe eines Computers sinnvollen von sinnlosem Text unterscheiden? Kann man überhaupt?

Wie soll ein Computer Sinn von Unsinn unterscheiden?

Das Team aus Indiana umging eher erkenntnistheoretische Fragen nach Sinn und Seele einer Buchstabenfolge. Wyatt Clark, Jim Costello, Mehmet Dalkilic und Predrag Radivojac bedienten sich für ihre Software Inauthentic Paper Detector vielmehr des indifferenten Werkzeugs der Statistik, gepaart mit tumber Rechenkraft.

"Wir glauben, dass es subtile Wiederholungen innerhalb von Wortfolgen in menschlichen Texten gibt, die zu einer Unterscheidung nach Sinn geeignet sind", schreiben sie in ihrer Veröffentlichung. Sinnvoller, von Menschenhand verfasster Text müsse charakteristische Muster hinterlassen, lautet ihre Hypothese. Um sie zu überprüfen, komprimierten sie 1300 wissenschaftliche Fachtexte und 1000 von Computern zusammengewürfelte Nonsens-Manuskripte.

"Die Kompressionsprofile waren unterschiedlich", berichten die Informatiker. Weil sich sinnvolle und sinnlose Texte unterschiedlich stark komprimieren ließen, konnten authentische Aufsätze mit fast hundertprozentiger Wahrscheinlichkeit von solchen der drei MIT-Satiriker unterschieden werden, schreiben Clark und seine Kollegen.

Nun überlegen die vier Forscher, ob sich per Kompressionsvergleich nicht auch andere Textsorten automatisch unterscheiden ließen. Als Beispiele nennen sie "andere hochkomplizierte Strukturen wie etwa Blog oder Nichtblog oder unterschiedliche Artikelkategorien wie Unterhaltung oder Nachrichten".

"Natürlich könnte es auch eine Klasse erklärender Texte geben, die kaum einen oder überhaupt keinen Sinn enthalten und dennoch authentischen Manuskripten ähnlich sind", räumen die Informatiker aus Indiana ein. "Wie man diese aber erzeugen könnte, ist uns unklar." Womit der Ball dann wieder im Feld der MIT-Satiriker läge.