Inna

Computerlinguistik

Auch die cleversten Internet-Kriminellen hinterlassen digitale Spuren. Computerlinguistin Inna Vogel verbindet in der „digitalen Text-Forensik“ ihre beiden Leidenschaften Sprache und Technik. Sie erkennt die Spuren illegaler Handlungen und wertet sie aus. Und sie ist der Beweis dafür, dass man seinen Traumjob über Umwege finden kann, indem man auf die eigene Intuition vertraut.

Eines Ihrer Forschungsgebiete sind Social Bots. Was versteht man darunter und was ist gefährlich an ihnen?

Social Bots sind vor allem nach der amerikanischen Präsidentenwahl in den Fokus geraten. Das sind Programme, die sich in den sozialen Netzwerken als echte User ausgeben und Kommentare posten. Anders als bei Printanzeigen oder TV-Spots sind diese Beiträge jedoch nicht gekennzeichnet und werden immer häufiger anonym für Manipulationen eingesetzt.

Wie identifiziert man so einen falschen Account?

Ich setze maschinelle Lernverfahren ein, um die Social Bots anhand ihrer Sprache zu entlarven. Sie kommunizieren mitunter täuschend echt auf Twitter oder Facebook und teilen Links. Laut dem Magazin WIRED entwickelt sich ein Thema in Deutschland schon zum Trending Topic auf Twitter, wenn sich 10.000 Menschen darüber unterhalten. Das kann man relativ einfach mit einer kleinen Bot-Armee erreichen, die immer wieder unter demselben Hashtag postet – und schon bestimmen die Bots die Agenda. So werden Themen plötzlich viel größer und echte Nutzer teilen die Links, weil sie glauben, einer echten Mehrheit zu folgen.

Wie gehen Sie konkret vor, um die „gefakten“ Nutzer zu finden?

Es gibt so unfassbar viele Daten, dass sich die Informationen nur mithilfe von IT-forensischen Werkzeugen effizient durchsuchen, analysieren und auswerten lassen. Um solche Tools zur Aufdeckung von Social Bots zu entwickeln, beschaffe ich mir als erstes Daten von Hundertausenden von Texten. Das ist aufwendig, denn wenn wir ein gutes Ergebnis erhalten wollen, müssen es gute Daten sein, die auch entsprechend gelabelt sind. Der nächste und wichtigste Schritt ist das sogenannte Preprocessing, das Vorverarbeiten der Daten, die zunächst unstrukturiert vorliegen.

Was sind Ihre neuesten Erkenntnisse?

Ich habe an einem Wettbewerb teilgenommen, bei dem wir Social Bots in Twitter-Texten erkennen sollten. Hierbei hat sich gezeigt, dass URLs, @-Mentions und Hashtags die typischsten Merkmale zur Erkennung von Social Bots sind. Diese wurden beim Preprocessing durch Platzhalter ersetzt bzw. vereinheitlicht, so haben zum Beispiel alle URLs den Token <URL> bekommen. Durch diese Methode konnten wir eine Genauigkeit bei der Erkennung, ob ein Tweet von einem Menschen oder Social Bot verfasst wurde, von 92 Prozent erreichen. Damit konnten wir den 8. Platz von 55 belegen.

Legt das maschinelle Lernverfahren dann von selbst los?

Nicht ganz. Ich trainiere Algorithmen, indem ich sie laufend mit neuen Merkmalen füttere, die signifikant für Social Bots oder Menschen sind – so lange, bis die Unterscheidung zwischen Maschine und echtem User zuverlässig klappt. Das ist eine sehr kreative Arbeit, die viel Fantasie erfordert. Ich muss mir immer wieder überlegen: Mit was kann ich das Lernsystem noch füttern? Natürlich werden auch die Social Bots immer besser. Die neueren Versionen halten zum Beispiel einen normalen Tagesrhythmus ein oder zögern bei einer Antwort, damit es so wirkt, als würden sie nachdenken. All das muss ich bedenken, es liefert mir aber auch wieder neue „Futter-Ideen“.

Wie stehen Sie zum Thema Künstliche Intelligenz?

Wir sollten KI nicht überbewerten. Sie hat eindeutig Grenzen, wie der Social Bot von Microsoft gezeigt hat. Den hatte man mit guten Absichten auf Twitter eingesetzt. Weil er dort aber ganz schnell rassistische und frauenfeindliche Äußerungen von anderen Usern übernahm, wurde er nach nur 24 Stunden schon wieder abgeschaltet. Wir Forschende versuchen, den Grenzen der KI entgegenzuwirken, etwa indem wir Maschinen einen Moralkodex beibringen. KI hat es zwar mittlerweile geschafft, die Menschen beim Schachspielen zu schlagen. Wenn es aber um Sprache geht, kann sie uns bislang nicht täuschen. Das sind die Grenzen, die ich irgendwann überwinden möchte.

Wollten Sie schon immer im Bereich Machine Learning arbeiten?

Oh nein! Nach dem Abitur habe ich erst mal den Bachelor in Sprach- und Kommunikationswissenschaften in Marburg gemacht. Direkt im Anschluss folgte der Master in Medienmanagement. Aber mir hat immer irgendetwas gefehlt. Weil auch im Medienbereich mittlerweile viele Online-Angebote kursierten, lernte ich HTML und erstellte Webseiten. Und dann hörte ich von dem Master-Studiengang Computerlinguistik an der TU Darmstadt. Ich habe mich in eine Vorlesung gesetzt, um zu sehen, ob das etwas für mich wäre. 90 Prozent habe ich nicht verstanden. Aber die restlichen 10 Prozent haben genügt, um mich zu überzeugen: Ich will noch mal studieren!

Wie hat ihr Umfeld auf diesen Neuanfang reagiert?

Die Begeisterung hielt sich in Grenzen. Was ich denn damit machen wolle, wurde ich gefragt, und ob mein Abschluss denn nicht genüge? Nein, entschied ich dann und schrieb mich ein – das habe ich nie bereut. Computerlinguistik ist so vielfältig und wird von so vielen Unternehmen eingesetzt, da mache ich mir um meine Zukunft keine Sorgen.

Sie forschen jetzt am Fraunhofer-Institut für Sichere Informationstechnologie SIT in Darmstadt. Wie kamen Sie dorthin?

Ein Freund hat mir von dem Institut erzählt und ich fand, das klang spannend. Also habe ich nachgefragt, wie dort gearbeitet und geforscht wird, bewarb mich direkt nach der Masterarbeit und fing dann als wissenschaftliche Mitarbeiterin an. Das ist wunderbar, in der Forschung habe ich eine andere Freiheit als in der Industrie. Ich kann im Rahmen meiner Projekte sehr selbstbestimmt arbeiten und meine Zeit frei einteilen. Dazu habe ich viel Abwechslung, jeder Tag ist anders.

Klingt, als wäre das ihr Traumjob. Was raten Sie jungen Menschen, die gerade auf der Suche sind?

Es ist gut, sich eigene Ziele zu setzen und die auch zu verfolgen. Vertraut auf euer Gefühl!

Gilt das auch für Ihr Leben neben der Arbeit?

Ich lebe gesund, weil mir das gut tut. Ich koche und esse wenn möglich vegan, treibe viel Sport, fahre mit dem Fahrrad und stemme zu Hause Gewichte. Auch hier vertraue ich meiner Intuition – das ist einfach der beste Schutz vor Manipulationen, sei es durch andere Menschen oder durch Social Bots.

Text: Ines Bruckschen

Foto: Fraunhofer SIT