Koniec z hejterami? AI sprawdzi i ujawni kim są naprawdę

Nowe badania pokazują, że anonimowość w sieci może wkrótce odejść do przeszłości. Naukowcy z ETH Zurich oraz firmy Anthropic wykazali, że duże modele językowe (LLM) potrafią identyfikować użytkowników mediów społecznościowych nawet wtedy, gdy korzystają oni z pseudonimów. Analiza swobodnych wpisów, wzorców językowych i działań online pozwala przypisać konta konkretnym osobom z dokładnością sięgającą 90% i czułością 68%. Badacze ostrzegają w związku z tym przed zagrożeniami dla prywatności.

AI kończy z anonimowością w sieci

Badania przeprowadzone przez naukowców z Szwajcarskiej Wyższej Szkoły Technicznej w Zurychu (ETH Zurich) oraz firmy Anthropic pokazują, że anonimowe konta w mediach społecznościowych przestają być skuteczną formą ochrony prywatności. Duże modele językowe (LLM) są w stanie analizować swobodny tekst, styl wypowiedzi, tematy poruszane w postach oraz subtelne sygnały behawioralne użytkowników, a następnie przypisywać je konkretnym osobom. W testach skuteczność tych modeli w identyfikacji użytkowników osiągała nawet 90%, a wskaźnik czułości – 68%.

Eksperymenty obejmowały m.in. analizę aktywności na Reddicie oraz zestawienie wpisów z Hacker News z profilami zawodowymi na LinkedIn. Pokazały, że nawet przy braku bezpośrednich identyfikatorów LLM potrafią odtworzyć tożsamość użytkownika. Anonimowość w sieci może się więc wkrótce okazać mitem.

Jak LLM-y łączą rozproszone informacje?

Modele językowe nowej generacji nie ograniczają się do prostego dopasowywania danych. Potrafią wnioskować, tworzyć hipotezy i weryfikować je poprzez analizę kolejnych źródeł. Przykładowo, w badaniach uwzględniono aktywność użytkowników subredditów r/movies, r/horror czy r/TrueFilm.

Im więcej filmów omawiał dany użytkownik, tym łatwiej było go zidentyfikować. Przy analizie dziesięciu i więcej tytułów niemal połowę autorów udało się wskazać z 90-procentową precyzją. Dodatkowo w przypadku 17% użytkowników dokładność sięgała nawet 99%. W osobnych eksperymentach analizie poddano pojedyncze anonimowe odpowiedzi na ankiety Anthropic. Na ich podstawie modele językowe potrafiły wydobyć subtelne informacje dotyczące wykształcenia, używanych narzędzi i stylu komunikacji. Na tej podstawie przypisały je konkretnym osobom. Dzięki temu LLM umożliwiają deanonimizację na skalę, która wcześniej była nieosiągalna dla klasycznych metod opartych na ręcznej analizie czy ustrukturyzowanych bazach danych.

Jakie wnioski z tego płyną?

Oczywiście skuteczność modeli językowych w deanonimizacji użytkowników niesie ze sobą poważne konsekwencje dla prywatności. Badacze ostrzegają, że technologia może być wykorzystywana przez państwa do identyfikowania krytyków w sieci czy przez firmy do tworzenia szczegółowych profili konsumenckich w celach marketingowych. Sięgnąć mogą po nie także przestępcy w celu przeprowadzania spersonalizowanych ataków phishingowych lub oszustw socjotechnicznych.

Aby przeciwdziałać nadużyciom, autorzy pracy sugerują wprowadzenie ograniczeń w dostępie do API, monitorowanie automatycznego scrapowania danych oraz blokowanie prób wykorzystania modeli językowych do celowej deanonimizacji. Jednocześnie podkreślają znaczenie cyfrowej higieny użytkowników. Regularne usuwanie starych wpisów oraz ograniczanie udostępnianych informacji może stać się nowym standardem w obecnych czasach.

Źródło: ETH Zurich

AI Badania sztuczna inteligencja