Unerwünschte Beiträge, generell als Spam bezeichnet, sind ein Problem. Hautnah spür- und erfahrbar zumindest für jeden E-Mail Nutzer. Aber auch in sozialen Netzwerken, allen voran Bewertungsplattformen, Facebook-Pages oder Ratgeberforen, werden Inhalte veröffentlicht, die man als unerwünscht qualifzieren kann: verdeckte Werbung, gefakte Produktbewertungen, Stimmungsmache gegen Mitbewerber etc. Stichwort: Social Media Spam.

Bezahlte Beiträge: Ein eigener Geschäftszweig
Dass hinter diesen Beiträgen eine richtige Industrie steckt, ist quasi ein offenes Geheimnis. Das Community Management kämpft dabei an vorderster Front, um die Plattformen so sauber wie möglich zu halten. Verständlicherweise, leben doch gerade Bewertungsplattformen oder Themencommunitys von ihrer Glaubwürdigkeit. Wird diese dauerhaft untergraben, ist das Geschäftsmodell gefährdet.

Gegenstand der Studie: Automatisierte Erkennung von unterwünschten Inhalten
Was bisher durch die Administratoren, Social Media Verantwortlichen und natürlich Community Manager meist in mühevoller Handarbeit, teilweise zumindest unterstützt von Technik, herausgefiltert wird, soll zukünftig automatisiert erkannt werden. Dies hat sich zumindest ein Forscherteam von der Universität in Victoria in der kanadischen Provinz British Columbia auf die Fahnen geschrieben:

We initiate a systematic study to help distinguish a special group of online users, called hidden paid posters, or termed “Internet water army” in China, from the legitimate ones.

Basis der Studie sind Analysen des Verhaltens (offensichtlich) bezahlter Beitragsschreiber in zwei großen chinesischen Foren. Eine Erkenntnis: Bezahlte Beitragsschreiber legen ein anderes „Postingverhalten“ an den Tag, als der normalersterbliche Nutzer. So ist nach Erkenntnissen der Forscher beispielsweise die Postingfrequenz vergleichsweise hoch und es werden bevorzugt neue Threads eröffnet und seltener in bestehenden Threads geantwortet. Da die Arbeit faktisch nach Akkord bezahlt wird, werden auch Passagen häufiger wiederverwendet, sprich es wird verstärkt Copy & Paste genutzt. Auch die Bestands- bzw. Nutzungsdauer der einzelnen Accounts ist vergleichsweise kürzer.

Vergleichsweise hohe Trefferquote: > 88%
Die am 18.11.2011 unter dem Titel Battling the Internet Water Army: Detection of Hidden Paid Posters veröffentlichten Erkenntnisse sind nicht der erste Versuch, missliebige Spammer und deren Beiträge zu identifizieren. Interessant an der aktuellen Studie ist vor allem die Trefferquote, basierend auf semantischen Analysen, welche die Forscher mit einer Genauigkeit von bis zu 88,79% angeben. Zum Vergleich: Vorhergehende Studien kommen nach Aussage der Forscher nur auf eine Trefferquote um die 50%. Oder klarer ausgedrückt: Kommissar “Zufall” hat eine ähnliche hohe Zuverlässigkeit. Anzumerken ist allerdings, dass die untersuchte Grundgesamtheit in der vorliegenden Studie aus lediglich 775 Usern und knapp 22.000 Beiträgen bestand.

Im nächsten Schritt ist eine weitere Verfeinerung und Erweiterung der Systematik geplant:

As future work, we plan to further improve our detection system and extend our research to other relevant areas, such as network marketing.

Spam-Erkennungssoftware für jedermann?
Ob und in welcher Form aus dieser Studie ein marktreifes Produkt in Form einer “Spam-Erkennungssoftware” entstehen kann und soll, steht bisher in den Sternen. Zum aktuellen Zeitpunkt ist die Studie aber zumindest mit dem Prädikat „lesenswert“ für alle Community & Social Media Manager zu versehen, die ihre eigene Trefferquote beim Kampf gegen die Spammer gerne erhöhen würden.

Wer die Ergebnisse gerne im Original sichten und bewerten möchte, kann die 10-seitige Studie auf der folgenden Seite herunterladen: