У рядового интернет-пользователя может сложиться обманчивое впечатление о собственной анонимности во всемирной сети. В действительности, пользуясь интернетом, человек оставляет о себе огромное количество информации. Рекламные платформы отслеживают практически каждый сайт, который посещает пользователь, собирая информацию о его поведении и предпочтениях, и используют эти данные для таргетинговой рекламы.
Как это работает?
Рекламщики собирают своеобразный «профиль» пользователя, отслеживая цифровой след, но, обычно его личность им не известна. Поэтому многие люди уверены, что сохраняют анонимность. Тем не менее, исследователи из Стэндфордского университета считают, что пользователя можно идентифицировать по его истории посещений.
Для проверки своей теории специалисты создали веб-сайт, на котором все желающие могли предоставить свою историю просмотров в браузерах. Затем исследователи попытались соотнести истории посещений с профилями в соцсети Twitter и проверить, возможно ли идентифицировать пользователя только при наличии общедоступных данных. Как оказалось, можно. Исследователям удалось деанонимизировать 72% участников эксперимента.
Метод ученых основан на простом наблюдении. У каждого человека есть своя характерная социальная сеть, которая включает родственников, одноклассников, место работы и фрагменты, обрисовывающие разные этапы жизни. Выявить эти связи можно при помощи ссылок в лентах пользователя в соцсетях, например, Facebook и Twitter.
Путем анализа интернет-страниц, на которых побывал пользователь, ученые смогли определить похожие ленты в соцресурсах и составить список возможных кандидатов, которым может принадлежать исследуемая история просмотров. Таким образом возможно идентифицировать человека по просмотренным им ссылкам, включая никогда не публиковавшиеся в социальных ресурсах.
При использовании данного подхода возникают две основные проблемы. Первая связана с количественной оценкой отношения определенной ленты к данной истории просмотра браузера. Проще всего будет проанализировать фрагменты ссылок в истории просмотров и в ленте, однако данный метод не эффективен в отношении длинных лент, содержащих большое количество ссылок. Исследователи применили альтернативный подход, в рамках которого создали модель поведения пользователя в интернете и вычислили вероятность отношения данной ленты в социальной сети к данной истории просмотров.
По словам ученых, разработанный метод демонстрирует более точные результаты в отношении активных пользователей Twitter. Так, исследователи смогли идентифицировать 90% участников эксперимента, открывших 100 или более ссылок в Twitter.
Значительное количество компаний обладает необходимыми ресурсами для отслеживания пользователей без их согласия, причем некотрые из них могут с точностью определить личность человека.
За последнее десятилетие был проведен ряд исследований, в ходе которых специалисты использовали публично доступные цифровые отпечатки для деанонимизации конфиденциальных данных. В 2002 году доктор Латанья Свини из Гарвардского университета провела исследование, показавшее, что 87% американцев могут быть идентифицированы на основе анализа данных об их ZIP-коде, поле и дате рождения. Эта информация была доступна в базе данных избирателей, которую Свини приобрела всего за $20.
В 2006 году Netflix провела открытое соревнование на лучший алгоритм предсказания оценки, которую зритель поставит фильму, на основе предыдущих оценок этого и других зрителей. Компания предложила $1 млн тому, кто сможет на 10% повысить эффективность рекомендательной системы Netflix. Компьютерные специалисты Арвинд Нараянан и Виталий Шматиков заметили, что большинство пользователей Netflix могут быть идентифицированы с помощью анализа данных о выбранных фильмах и обзоров на портале IMDb (крупнейший в мире сайт о кинематографе).
С развитием социальных медиа все больше людей делятся казалось бы безобидной информацией, которая в действительности раскрывает большое количество персональных сведений. К примеру, специалист Кембриджского университета Майкл Косински провел исследование, в ходе которого использовал лайки на Facebook для того, чтобы определить сексуальную ориентацию, политические взгляды и черты характера пользователей.
В апреле 2010 года группа специалистов Венского технического университета под руководством доктора Гилбрета Вондрачека разработала «инструмент деанонимизации», позволяющий определить участников различных групп в соцсети Xing и на основе этой информации идентифицировать пользователя.
Можно ли защититься?
Защититься от «деанонимизирующих атак» довольно сложно, по крайней мере до тех пор, пока вы не прекратите пользоваться интернетом или участвовать в общественной жизни. В качестве одного из лучших способов защиты специалисты рекомендуют ограничить число людей, которые имеют доступ к вашей анонимной истории просмотров и использовать расширения браузеров (например, Ghostery), блокирующие сторонние трекеры. Таким образом, при просмотре сайтов рекламные компании не смогут собирать данные о вашей истории посещений.
Владельцы сайтов могут обезопасить посетителей от подобных атак путем перехода на использование безопасного протокола HTTPS. При применении протокола HTTP передача всех данных происходит в абсолютно незащищенном виде и злоумышленник может получить доступ к истории посещений, перехватив сетевой трафик.
Нет комментарий