Πώς οι φίλοι σας στο Twitter μπορούν να σας δώσουν την ανωνυμία σας

Καθώς περιηγείστε στο διαδίκτυο, οι διαδικτυακοί διαφημιστές παρακολουθούν σχεδόν κάθε ιστότοπο που επισκέπτεστε, συγκεντρώνοντας ένα πλήθος πληροφοριών για τις συνήθειες και τις προτιμήσεις σας. Όταν επισκέπτεστε έναν ιστότοπο ειδήσεων, μπορεί να δουν ότι είστε λάτρης του μπάσκετ, της όπερας και των μυθιστορημάτων μυστηρίου και, κατά συνέπεια, επιλέγουν διαφημίσεις προσαρμοσμένες στα γούστα σας.

Οι διαφημιστές χρησιμοποιούν αυτές τις πληροφορίες για να δημιουργήσουν εξαιρετικά εξατομικευμένες εμπειρίες, αλλά συνήθως δεν γνωρίζουν ακριβώς ποιος είστε. Παρατηρούν μόνο την ψηφιακή σας διαδρομή, όχι την ίδια την ταυτότητά σας, και έτσι μπορεί να αισθάνεστε ότι έχετε διατηρήσει έναν βαθμό ανωνυμίας.

Όμως, σε μια εφημερίδα που συνέταξα με τους Ansh Shukla, Sharad Goel και Arvind Narayanan, δείχνουμε ότι αυτές οι ανώνυμες εγγραφές περιήγησης στον ιστό μπορούν στην πραγματικότητα συχνά να συνδέονται με ταυτότητες του πραγματικού κόσμου.

Για να δοκιμάσουμε την προσέγγισή μας, φτιάξαμε μια ιστοσελίδα όπου οι άνθρωποι θα μπορούσαν να δωρίσουν το ιστορικό περιήγησής τους για τους σκοπούς αυτής της μελέτης. Στη συνέχεια προσπαθήσαμε να δούμε αν μπορούσαμε να συνδέσουμε τα ιστορικά τους πίσω με τα προφίλ τους στο Twitter χρησιμοποιώντας μόνο δημόσια διαθέσιμα δεδομένα. Το εβδομήντα δύο τοις εκατό των ατόμων που προσπαθήσαμε να αποανωνυμοποιήσουμε προσδιορίστηκαν σωστά ως οι κορυφαίοι υποψήφιοι στα αποτελέσματα αναζήτησης και το 81 τοις εκατό ήταν μεταξύ των 15 κορυφαίων υποψηφίων.

ιδιωτικότητα2 2 8Στιγμιότυπα οθόνης του ιστότοπου αποανωνυμοποίησης.

Αυτή είναι, εξ όσων γνωρίζουμε, η μεγαλύτερη επίδειξη αποανωνυμοποίησης μέχρι σήμερα, καθώς επιλέγει τον σωστό χρήστη από εκατοντάδες εκατομμύρια πιθανούς χρήστες του Twitter. Επιπλέον, η μέθοδός μας απαιτεί μόνο ένα άτομο να κάνει κλικ στους συνδέσμους που εμφανίζονται στις ροές των μέσων κοινωνικής δικτύωσης και όχι να δημοσιεύει οποιοδήποτε περιεχόμενο – επομένως ακόμη και άτομα που προσέχουν τι μοιράζονται στο διαδίκτυο εξακολουθούν να είναι ευάλωτα σε αυτήν την επίθεση.


εσωτερικά εγγραφείτε γραφικό


Πώς λειτουργεί

Σε υψηλό επίπεδο, η προσέγγισή μας βασίζεται σε μια απλή παρατήρηση. Κάθε άτομο έχει ένα ιδιαίτερα χαρακτηριστικό κοινωνικό δίκτυο, που περιλαμβάνει οικογένεια και φίλους από το σχολείο, την εργασία και διάφορα στάδια της ζωής του. Κατά συνέπεια, το σύνολο των συνδέσμων στις ροές σας στο Facebook και στο Twitter είναι ιδιαίτερα διακριτικό. Κάνοντας κλικ σε αυτούς τους συνδέσμους αφήνει ένα ενδεικτικό σημάδι στο ιστορικό περιήγησής σας.

Εξετάζοντας το σύνολο των ιστοσελίδων που έχει επισκεφτεί ένα άτομο, μπορέσαμε να διαλέξουμε παρόμοιες ροές μέσων κοινωνικής δικτύωσης, δίνοντας μια λίστα υποψηφίων που πιθανότατα δημιούργησαν αυτό το ιστορικό περιήγησης. Με αυτόν τον τρόπο, μπορούμε να συνδέσουμε την πραγματική ταυτότητα ενός ατόμου με το σχεδόν πλήρες σύνολο συνδέσμων που έχει επισκεφτεί, συμπεριλαμβανομένων συνδέσμων που δεν δημοσιεύτηκαν ποτέ σε κανένα ιστότοπο μέσων κοινωνικής δικτύωσης.

Η υλοποίηση αυτής της στρατηγικής περιλαμβάνει δύο βασικές προκλήσεις. Το πρώτο είναι θεωρητικό: Πώς ποσοτικοποιείτε πόσο παρόμοια είναι μια συγκεκριμένη ροή κοινωνικών μέσων με ένα δεδομένο ιστορικό περιήγησης στον ιστό; Ένας απλός τρόπος είναι να μετρήσετε το κλάσμα των συνδέσμων στο ιστορικό περιήγησης που εμφανίζονται επίσης στη ροή. Αυτό λειτουργεί αρκετά καλά στην πράξη, αλλά υπερεκτιμά την ομοιότητα για μεγάλες ροές, καθώς αυτές απλώς περιέχουν περισσότερους συνδέσμους. Αντίθετα, ακολουθούμε μια εναλλακτική προσέγγιση. Θέτουμε ένα σχηματοποιημένο, πιθανολογικό μοντέλο συμπεριφοράς περιήγησης στον ιστό και, στη συνέχεια, υπολογίζουμε την πιθανότητα ένας χρήστης με αυτήν τη ροή κοινωνικών μέσων να δημιουργήσει το παρατηρούμενο ιστορικό περιήγησης. Στη συνέχεια επιλέγουμε τη ροή των μέσων κοινωνικής δικτύωσης που είναι πιο πιθανή.

Η δεύτερη πρόκληση περιλαμβάνει τον εντοπισμό των πιο παρόμοιων ροών σε πραγματικό χρόνο. Εδώ στραφούμε στο Twitter, αφού οι ροές Twitter (σε αντίθεση με το Facebook) είναι σε μεγάλο βαθμό δημόσιες. Ωστόσο, παρόλο που οι ροές είναι δημόσιες, δεν μπορούμε απλώς να δημιουργήσουμε ένα τοπικό αντίγραφο του Twitter στο οποίο μπορούμε να εκτελέσουμε τα ερωτήματά μας. Αντίθετα, εφαρμόζουμε μια σειρά τεχνικών για να μειώσουμε δραματικά τον χώρο αναζήτησης. Στη συνέχεια, συνδυάζουμε τεχνικές προσωρινής αποθήκευσης με ανιχνεύσεις δικτύου κατ' απαίτηση για να δημιουργήσουμε τις ροές των πιο υποσχόμενων υποψηφίων. Σε αυτό το μειωμένο σύνολο υποψηφίων, εφαρμόζουμε το μέτρο ομοιότητας για να παράγουμε τα τελικά αποτελέσματα. Λαμβάνοντας υπόψη το ιστορικό περιήγησης, μπορούμε συνήθως να εκτελέσουμε όλη αυτή τη διαδικασία σε λιγότερο από 60 δευτερόλεπτα.

Η μέθοδός μας είναι πιο ακριβής για άτομα που περιηγούνται πιο ενεργά στο Twitter. Το ενενήντα τοις εκατό των συμμετεχόντων που έκαναν κλικ σε 100 ή περισσότερους συνδέσμους στο Twitter θα μπορούσαν να αντιστοιχιστούν με την ταυτότητά τους.

Πολλές εταιρείες έχουν τους πόρους παρακολούθησης για να πραγματοποιήσουν μια επίθεση όπως αυτή, ακόμη και χωρίς τη συγκατάθεση του συμμετέχοντος. Προσπαθήσαμε να καταργήσουμε την ανωνυμία καθενός από τους συμμετέχοντες στο πείραμά μας χρησιμοποιώντας μόνο τα τμήματα του ιστορικού περιήγησής τους που ήταν ορατά σε συγκεκριμένες εταιρείες παρακολούθησης (επειδή οι εταιρείες διαθέτουν ιχνηλάτες σε αυτές τις σελίδες). Διαπιστώσαμε ότι αρκετές εταιρείες είχαν τους πόρους για να προσδιορίσουν με ακρίβεια τους συμμετέχοντες.

απόρρητο 2 8Άλλες μελέτες αποανωνυμοποίησης

Αρκετές άλλες μελέτες έχουν χρησιμοποιήσει δημόσια διαθέσιμα αποτυπώματα για την ανωνυμοποίηση ευαίσθητων δεδομένων.

Ίσως η πιο διάσημη μελέτη προς αυτή την κατεύθυνση έγινε από Latanya sweeney στο Πανεπιστήμιο του Χάρβαρντ το 2002. Ανακάλυψε ότι Το 87 τοις εκατό των Αμερικανών ήταν μοναδικά αναγνωρίσιμο με βάση έναν συνδυασμό του ταχυδρομικού κώδικα, του φύλου και της ημερομηνίας γέννησής τους. Αυτά τα τρία χαρακτηριστικά ήταν διαθέσιμα τόσο στα δημόσια δεδομένα εγγραφής ψηφοφόρων (τα οποία αγόρασε για 20 $ ΗΠΑ) όσο και στα ανώνυμα ιατρικά δεδομένα (τα οποία διανεμήθηκαν ευρέως, επειδή οι άνθρωποι πίστευαν ότι τα δεδομένα ήταν ανώνυμα). Συνδέοντας αυτές τις πηγές δεδομένων, βρήκε τα ιατρικά αρχεία του κυβερνήτη της Μασαχουσέτης.

Σε 2006, Το Netflix έκανε έναν διαγωνισμό να βελτιώσει την ποιότητα των προτάσεων ταινιών του. Δημοσίευσαν ένα ανώνυμο σύνολο δεδομένων με τις αξιολογήσεις ταινιών των ανθρώπων και πρόσφεραν 1 εκατομμύριο δολάρια στην ομάδα που θα μπορούσε να βελτιώσει τον αλγόριθμο συστάσεων κατά 10%. επιστήμονες πληροφορικής Άρβιντ Ναραγιανάν και Vitaly Shmatikov παρατήρησε ότι οι ταινίες που παρακολούθησαν οι άνθρωποι ήταν πολύ διακριτικές και τα περισσότερα άτομα στο σύνολο δεδομένων ήταν μοναδικά αναγνωρίσιμα με βάση ένα μικρό υποσύνολο των ταινιών τους. Με άλλα λόγια, με βάση τις επιλογές ταινιών του Netflix και τις κριτικές του IMDB, οι ερευνητές μπόρεσαν να προσδιορίσουν ποιοι ήταν στην πραγματικότητα αυτοί οι χρήστες του Netflix.

Με την άνοδο των μέσων κοινωνικής δικτύωσης, όλο και περισσότεροι άνθρωποι μοιράζονται πληροφορίες που φαίνονται αβλαβείς, αλλά στην πραγματικότητα αποκαλύπτουν πολλές προσωπικές πληροφορίες. Μια μελέτη με επικεφαλής τον Μιχάλ Κοσίνσκι στο Πανεπιστήμιο του Κέιμπριτζ χρησιμοποίησε τα likes του Facebook για να προβλέψει τα like των ανθρώπων σεξουαλικό προσανατολισμό, πολιτικές απόψεις και χαρακτηριστικά προσωπικότητας.

Μια άλλη ομάδα, με επικεφαλής Γκίλμπερτ Γουόντρατσεκ στο Τεχνολογικό Πανεπιστήμιο της Βιέννης, κατασκεύασε μια «μηχανή αποανωνυμοποίησης» που ανακάλυπτε σε ποιες ομάδες ανήκαν οι άνθρωποι στο κοινωνικό δίκτυο Xing και το χρησιμοποίησε για να καταλάβει ποιοι ήταν – καθώς οι ομάδες στις οποίες συμμετέχετε είναι συχνά αρκετές για να προσδιορίσουν μοναδικά εσείς.

Τι μπορείς να κάνεις

Οι περισσότερες από αυτές τις επιθέσεις είναι δύσκολο να αμυνθούν, εκτός εάν σταματήσετε να χρησιμοποιείτε το διαδίκτυο ή να συμμετέχετε στη δημόσια ζωή.

Ακόμα κι αν σταματήσετε να χρησιμοποιείτε το διαδίκτυο, οι εταιρείες μπορούν να συλλέγουν δεδομένα για εσάς. Εάν αρκετοί από τους φίλους σας ανεβάζουν τις επαφές του τηλεφώνου τους στο Facebook και ο αριθμός σας βρίσκεται σε όλες τις λίστες επαφών τους, τότε το Facebook μπορεί να κάνει προβλέψεις για εσάς, ακόμα κι αν δεν χρησιμοποιείτε την υπηρεσία τους.

Ο καλύτερος τρόπος για να αμυνθείτε ενάντια σε αλγόριθμους αποανωνυμοποίησης όπως ο δικός μας είναι να περιορίσετε το σύνολο των ατόμων που έχουν πρόσβαση στα ανώνυμα δεδομένα περιήγησής σας. Οι επεκτάσεις προγράμματος περιήγησης όπως Ghostery αποκλεισμός ιχνηλατών τρίτων. Αυτό σημαίνει ότι, παρόλο που η εταιρεία της οποίας ο ιστότοπος επισκέπτεστε γνωρίζει ότι την επισκέπτεστε, οι διαφημιστικές εταιρείες που εμφανίζουν διαφημίσεις στη σελίδα τους δεν θα μπορούν να συγκεντρώσουν τα δεδομένα περιήγησής σας και να τα συγκεντρώσουν σε πολλούς ιστότοπους.

Εάν είστε webmaster, μπορείτε να βοηθήσετε στην προστασία των χρηστών σας, επιτρέποντάς τους να περιηγηθούν στον ιστότοπό σας χρησιμοποιώντας HTTPS. Η περιήγηση με χρήση HTTP επιτρέπει στους εισβολείς να λάβουν το ιστορικό περιήγησής σας ανιχνεύοντας την κυκλοφορία δικτύου, κάτι που τους επιτρέπει να πραγματοποιήσουν αυτήν την επίθεση. Πολλοί ιστότοποι έχουν ήδη αλλάξει σε HTTPS. Όταν επαναλάβαμε το πείραμα αποανωνυμοποίησης από την οπτική γωνία ενός ανιχνευτή κίνησης δικτύου, μόνο το 31 τοις εκατό των συμμετεχόντων μπορούσε να αποανωνυμιστεί.

Ωστόσο, υπάρχουν πολύ λίγα που μπορείτε να κάνετε για να προστατεύσετε τον εαυτό σας από επιθέσεις αποανωνυμοποίησης γενικά, και ίσως ο καλύτερος τρόπος δράσης είναι να προσαρμόσετε τις προσδοκίες σας. Τίποτα δεν είναι ιδιωτικό σε αυτήν την ψηφιακή εποχή.

Σχετικά με το Συγγραφέας

Jessica Su, Ph.D. Φοιτητής στο Στάνφορντ, Πανεπιστήμιο του Στάνφορντ

Αυτό το άρθρο δημοσιεύθηκε αρχικά στις Η Συνομιλία. Διαβάστε το αρχικό άρθρο.

Σχετικά βιβλία

at InnerSelf Market και Amazon