
Wer hat es geschrieben? Die amerikanische National Security Agency (NSA) betreibt Spurensuche in Text und Code und will damit anonymen Programmierern auf die Schliche kommen – kein einfaches Vorhaben.
Programmieren lässt sich erlernen wie Sprachen. Deshalb kann man Software-Entwickler an ihrem Programmierstil genauso gut erkennen wie Romanautoren an ihrem Schreibstil. Die Computerlinguisten haben sich bei der Entwicklung der „stilometrischen“ Analysen zur Identifizierung von Programmierern bei den Literaturwissenschaftlern bedient. Die haben nämlich mit einer Software fur die Mustererkennung und Algorithmen maschinellen Lernens zum Beispiel herausgefunden, dass Joanne K. Rowling die Autorin des Romans „Der Ruf des Kuckucks“ ist. Auf dem Buchdeckel steht zwar der Name Robert Galbraith. Es gab aber sofort nach dem Erscheinen des Romans Geruchte, dass ein ganz anderer Autor als der bis dato unbekannte Galbraith den Roman geschrieben habe.
Eine Gruppe junger Literaturwissenschaftler hatte daraufhin den Schreibstil des Romans und die Textstruktur analysiert. Sie fanden große ähnlichkeiten zu den Harry-Potter-Romanen. Und tatsächlich stellte sich heraus, dass Frau Rowling ein neues Pseudonym gewählt hatte. „Autoren konnen identifiziert werden, indem die Struktur ihres Textes und ihre individuellen Ausdrucksformen mathematisch analysiert werden“, sagt Aylin Caliska-Islam von der Princeton University, die sich seit ihrer Dissertation mit der Frage beschäftigt, wie Software-Entwickler mit ihrem Programmierstil identifiziert werden konnen.
Programmtext statt Literaturwerk
Dafur ist mittlerweile eigene Analyse-Software entwickelt worden. Sie wird mit besonderen Stil-Beispielen trainiert. Bisher unbekannte Texte werden so auf ähnlichkeiten zu Schreibstilen bekannter Autoren analysiert. Wie ein Romanautor seinen Text in deutscher oder englischer Sprache schreibt, verfasst ein Software-Entwickler seinen Programmtext in C++, Java oder PHP.
„Weil wir wissen, dass Programmieren genauso gelernt wird wie Sprachen, konnen wir die stilometrischen Methoden zur Identifizierung eines Autors nutzen, um herauszufinden, wer ein bestimmtes Programm geschrieben hat“, berichtet Caliska-Islam. Die Art, Klammern zu setzen, Variablennamen zu vergeben, Leerzeichen einzufugen und die Struktur, die ein Programm-Quelltext aufweist, geben den einzigartigen Stil eines Programmierers wieder. Allerdings kann der Programmierer nur dann identifiziert werden, wenn schon bekannte Programme von ihm vorliegen – bei Autoren ist das nicht anders.
Millionenbeträge fur die Aufstockung der Datenbank
Die Verantwortlichen des technischen Geheimdienstes der Vereinigten Staaten, der National Security Agency (NSA), nehmen deshalb viel Geld in die Hand, um flächendeckend Arbeitsproben von Programmierern in ihrer Stilometrie-Datenbank zu erfassen. Die Rede ist von einem zweistelligen Millionenbetrag. So will die NSA noch stärker als bisher Programmierwettbewerbe an Colleges und Universitäten finanzieren, deren Ergebnisse sie verwerten darf. Die Software-Experten aus Fort Meade veranstalten sogar eigene Sommerschulen furs Programmieren, mit denen sie vor allen Dingen junge Informatiker ansprechen wollen. Mit Barcamps, die im Umfeld von Hackerveranstaltungen wie der Black Hat Conference veranstaltet werden, wollen die NSA-Verantwortlichen Quelltexte von bisher unbekannten Hackern fur ihre Datenbank ergattern.
