Хитрецы-советчики

Ну что, вот и прошла первая рабочая неделя, как рекомендательные алгоритмы у нас в правовом поле. 1 октября вступили в силу поправки в ФЗ «Об информации, информационных технологиях и о защите информации» и там теперь есть статья 10.2-2. Особенности предоставления информации с применением рекомендательных технологий. В связи с чем владельцы сайтов и приложений с механикой рекомендаций начали понятным языком объяснять пользователям, как все это у них работает. Зачем это пользователю? Ну наверное кому-то реально хочется знать, как условные Ягодки на основе их покупок и «избранного» предлагают еще что-то докупить.

Хотя целевой вроде была другая идея. Противоборство манипулированию мнением, продвижению угодных конкретным корпорациям идей и прочие действия против инфо-пузырей, надуваемых вокруг пользователей. Но пока что какие-то шаги в направлении раскрытия технологических подробностей сделали только отечественные игроки – Яндекс, Wildberries, Ozon, VK и так далее. Что ж, давайте посмотрим, что у них там такое под капотом.

Яндекс (включая Музыку, Кинопоиск, Букмейт, Лавку, Маркет и Такси) анализирует историю поисковых запросов пользователя, клики по ссылкам в выдаче, время возврата на страницу поиска, информацию об устройстве пользователя, геолокацию, cookie-файлы, язык запросов и страниц в выдаче.

Дополнительно Я.Музыка считает лайки и следит за «настроением» треков, а Кинопоиск – запоминает историю поиска соответственно фильмов, их оценки и добавления в коллекцию. Как впрочем и Start с ivi. Предпочитаемые жанры, частота просмотра, процент досмотра до конца и избранное. Все предсказуемо.

Другие ТОП-продавцы, Ozon и Wildberries, интересуются в основном характеристиками товаров, и строят рейтинги продавцам и покупателям, на основе их поведения. Ну и плюс трейсят техническую информацию о провайдере, браузере и операционной системе пользователя, и так далее. Сбермаркет тоже, но у него создание рекомендаций – это пять этапов: сбор, систематизация, применение методов машинного обучения, проверка и выведение рекомендаций.

Отдельный ныне Дзен поинтереснее. Он собирает и анализирует «части общедоступного контента, например, векторизованных представлений текста, включая посты, фото, видео и иные информационные материалы. Проводится оценка метаданных и иной информации (включая сведения о предположительной тематике материала, общей популярности информационного материала у других пользователей)». Для этого применяются математические модели, которые и решают что кому показать. При этом Дзен обещает не показывать «материалы, содержащие, среди прочего, тенденциозные заголовки (т.н. «кликбейт»), откровенный и шокирующий контент».

Пожалуй наиболее релевантное с точки зрения борьбы с появлением инфопузырей место – это VK. Там собирают данные о действиях пользователя на сайте: «Мне нравится», «Поделиться», «Подписаться», «Это не интересно», «Скрыть из ленты» и «Пожаловаться».

Что из этого можно сказать? Да ничего. Все выполнили предписание, но все по-своему. Как поняли, так и выполнили. У кого-то общие слова как будто из статьи с Википедии про рекомендательные сервисы, у кого-то поглубже, как с Хабра. Сможет ли из этого понять что-то отдельно взятый пользователь? Ну что-то может, что обрабатывают его всячески. Ну так он и до этого, в массе своей, это подозревал.

Соответствует ли написанное реально применяемым технологиям? А почему бы и нет, в них ведь нет ничего секретного. Или есть? Но это мы не узнаем. Как минимум до первой проверки РКН и блокировки за несоответствие заявленному.

Как РКН будет проверять? Не наличие самой информации об алгоритмах на сайте, а именно соответствие описания реальности. А вот тут варианта два: первый – изучат код, а если надо и матмодели посмотрят, определят реальный функционал и сопоставят с заявленным. В целом ничего необычно для компьютерно-технической экспертизы.

А вот второй вариант в том, что все эти нейросети и ИИ, они такие запутанные, что даже их создатели сами объяснить не могут как это работает. И это реальная техническая проблема. Так что пока просто ждем первого прецедента.