Стоит ли жертвовать конфиденциальностью в Сети?

Стоит ли жертвовать конфиденциальностью в Сети?

Онлайн-экономика – от поискового запроса до социальных сетей – во многом основана на том, что потребители готовы отдать свои личные данные в обмен на ИТ-продукты, которые являются бесплатными и удобными в использовании. Исходная посылка, лежащая в основе этого компромисса, заключается в том, бесплатные продукты должны быть не слишком полезными, иначе они бы продавались за деньги.

Но Лесли Чио из Западного колледжа и Кэтрин Такер из Массачусетского технологического института, предполагает, что компромисс необязателен. Они попытались определить, влияет ли анонимность и деидентификация данных поиска на качество результатов поиска. Большинство поисковых систем захватывают пользовательские данные, включая IP-адреса, местоположение и другие данные. Эти данные затем хранятся, чтобы идентифицировать пользователя в следующие посещения. Это позволяют поисковым компаниям улучшать алгоритмы и персонализировать результаты поисковой выдачи для каждого пользователя. По крайней мере, так должно быть.

Чтобы определить, улучшает ли хранение личных данных пользователей результаты поиска, Чиу и Такер рассмотрели, как результаты поиска от Bing и Yahoo отличались до и после изменений в правилах Европейской комиссии по сохранению данных электросвязи. В 2008 году комиссия рекомендовала, чтобы поисковые системы сократили период, в течение которого поисковые системы хранят записи пользователей. В ответ Yahoo решила анонимизировать данные пользователя через 90 дней. В 2010 году Microsoft тоже изменила свою политику и начала удаление IP-адресов, связанных с поиском в Bing, через шесть месяцев, и всех данных, предназначенных для идентификации пользователя через посещения, через 18 месяцев. В 2011 году Yahoo снова изменила свою политику, на этот раз решив хранить личные данные дольше – 18 месяцев, а не 90 дней. (Google не изменял свою политику в течение этого периода, и поэтому не был включен в исследование.)

Исследователи изучили данные истории посещения веб-сайтов жителями Великобритании до и после изменений. Чтобы измерить качество поиска, они просмотрели количество повторных поисков в Yahoo и Bing, которые сигнализируют о неудовлетворенности результатами поиска. Во всех случаях они не обнаружили статистически значимого влияния на качество результатов поиска после изменений в политике хранения данных. Другими словами, обезличенные данные о пользователях, по-видимому, не ухудшали поисковый опыт. «Наши результаты свидетельствуют о том, что владение историческими данными не столь выгодно для компаний, которые ими владеют, чем это иногда предполагается. Следовательно, их затраты на обеспечение конфиденциальности хранимых данных могут быть ниже, чем приято считать в настоящее время», – пишут авторы.

Эта интерпретация заслуживает оговорки. Даже если долгосрочное хранение больших объемов исторических данных само по себе не является преимуществом, другие аспекты сбора данных могут по-прежнему приносить пользу заинтересованным лицам. Например, возможно, поисковые гиганты быстрее внедряют новую информацию в результаты поиска. Это означает, что, хотя данные были ценны для заинтересованных лиц, это не было воспринято исследованием.

Не стоит забывать и о развивающейся индустрии искусственного интеллекта (AI). Если для любого достойного поискового решения AI требуются большие данные, вероятно, что в отрасли будут доминировать существующие технологические гиганты, у которых есть возможности собирать и анализировать большие данные. Если новички смогут приобрести достаточно данных для обучения интеллектуальных систем, то сектор будет более конкурентоспособным. Авторы отмечают, что, по их мнению, исторические данные могут быть менее ценными для выдачи результатов поиска, чем более свежие данные, и значительная часть поиска настолько уникальна, что сбор достаточно больших свежих данных может оказаться непосильным даже для крупных компаний.

Нынешний уровень энтузиазма в отношении AI лишь усилил стремление к сбору огромных массивов данных, которые являются большой проблемой для обеспечения конфиденциальности. Неизбежно те, кто собирают данные, будут утверждать, что выигрывают от этого сами пользователи. Но исследование Чио и Таккер вызывает сомнения в этом утверждении. Да, люди выигрывают от множества отличных и бесплатных технических продуктов. Да, они, вероятно, выиграют от новых решений на базе AI. Но отказ от собственной конфиденциальности и преследование назойливой рекламы не слишком ли дорогая плата за них?

Использованы материалы статьи Вальтера Фрика на hbr.org