Facebook рассказал как работает алгоритм искусственного интеллекта, определяющего фейковые аккаунты на платформе

04.03.2020
450
0
0.0
Facebook приоткрыл занавес на ключевую технологию, которая позволила ему решить одну из своих самых сложных задач: уничтожить фальшивые аккаунты, используемые для всего: от спам-рекламных кампаний до распространения дезинформации.

В среду Интернет-гигант раскрыл подробности того, как он спроектировал систему искусственного интеллекта и обучил ее быть достаточно точной, чтобы автоматически обнаруживать аккаунты, нарушающие политику сайта.
Защита обширной соцсети становится все более существенной проблемой для компании, поскольку она сталкивается с растущими угрозами регулирования по всему миру. Общественность и законодатели были встревожены той ролью, которую социальная сеть сыграла во всем: от вмешательства России в президентские выборы 2016-го в США до геноцида в Мьянме против мусульман-рохинджа. Правительственные чиновники и пользователи также встревожены хейтерскими высказываниями, издевательствами, фишингом и финансовым мошенничеством, которое процветает на платформе.

Пять лет назад Facebook в основном полагался на пользователей-рецезентов, которые помечали аккаунты, нарушающие правила. Но объем проблемных аккаунтов, с которыми приходится сталкиваться Facebook сегодня просто огромен. В третьем квартале 2019 года, в последний период, за который компания опубликовала цифры, Facebook заблокировал около 1,7 миллиарда аккаунтов-нарушителей. И это даже не включает в себя учетные записи, которые компания вообще запрещает создавать, сказал Бохра Гарбауи, менеджер по науке о данных в команде сообщества Facebook Integrity. Facebook считает, что в любое время 5% его активных аккаунтов являются мошенническими.

Опора на людей-рецензентов создала и другие проблемы. Facebook использовал контрактных работников для проверки подозрительного содержания и поведения в соцсети, но эти работники часто бывают низкооплачиваемыми и страдают от проблем с психическим здоровьем из-за постоянного контакта с сомнительным контентом, постами, изображениями и видео.

Глава Facebook, Марк Цукерберг, в 2018-м на слушаниях Конгресса США заявил, что ИИ поможет компании справиться с потоком проблемного контента. Но только недавно исследователи и инженеры компании начали добиваться выполнения обещаний Цукерберга.

Благодаря инструментам с поддержкой ИИ, в третьем квартале 2019-го Facebook принял меры против 99,7% фальшивых аккаунтов, которые он заблокировал, прежде чем другие пользователи отметили их в группе по анализу, сообщила компания .
Facebook достаточно тяжело отслеживать и блокировать фейковые аккаунты, но компания хочет пойти дальше: искать и пресекать все нарушения политики, в том числе и каждый фальшивый аккаунт, без непреднамеренной блокировки реальных пользователей. Однако, если его критерии для выявления нарушений и принятия мер будут слишком свободными, другие пользователи станут жертвами, а сама компания может оказаться в центре другого скандала: разрыва связей с добропорядочными пользователями.

Проблема еще сложна и потому, что мошенники и даже некоторые правительства всегда пытаются найти способы обхода защитных механизмов Facebook, говорит Брэд Шаттлворт, менеджер по продуктам Facebook для обеспечения целостности сообщества.

Техника машинного обучения, созданная Facebook, которую она называет «глубокой классификацией объектов», или сокращенно DEC, может быть адаптирована другими компаниями, которым необходимо модерировать общение и контент, такими как конкурирующие социальные сети, мессенджеры или компании, занимающиеся видеоиграми. Facebook опубликовал общие алгоритмы ИИ DEC и подробности о том, как была обучена система, но не сделал саму обученную модель доступной для других компаний.

DEC опирается на несколько хитрых идей и инженерных решений. Первым было признание Facebook, что он пытался обучить алгоритм, проверяя стандартные функции учетной записи, такие как IP-адрес, использованный для создания учетной записи, возраст учетной записи, количество лайков на странице или количество других пользователей. Учетная запись была подключена - это привело бы к модели скрининга, которая либо была бы слишком простой для кого-то со злым умыслом, либо создала бы слишком много ложных срабатываний.

Решение Facebook состояло в том, чтобы рассматривать каждую учетную запись не в отдельности, а в контексте всех других учетных записей и страниц, с которыми она была связана, расширенных до двух степеней разделения. И затем, вместо использования прямых функций этого отдельного аккаунта, таких как «лайки» или «друзья», он отправлял совокупные параметры системы, такие как среднее число друзей в Facebook через все эти соединения первого и второго порядка. Эти параметры сами по себе не указывают на то, является ли учетная запись настоящей. Это просто способ значительно увеличить количество парамтеров, анализируемых ИИ, чтобы можно было создать гораздо более подробную статистическую картину аккаунта. Эти данные, которые Facebook называет «глубокими характеристиками», по своей сути, злоумышленнику сложнее подправить и привести к гораздо меньшему количеству ложноположительных или ложноотрицательных результатов.

Несмотря на свои огромные размеры и тысячи рецензентов, которые кампания использует для скрининга своего контента, Facebook заявил, что это непозволительно много времени и затрат для создания высококачественного, маркированного человеком набора данных, достаточно большого для обучения алгоритма ИИ с целью обнаружения каждого из них. Тип злоупотребления (например, фальшивые аккаунты, спамеры, финансовые мошенничества или скомпрометированные аккаунты) с точностью до 99% плюс потребность в Facebook.

Таким образом, второй хитрый замысел Facebook заключался в том, чтобы выяснить, как взять небольшой высококачественный набор данных, помеченный человеком, который, как правило, слишком мал, чтобы обучить высокоточный алгоритм ИИ, и усовершенствовать его, используя гораздо больший, помеченный компьютером, но менее точный, набор данных. Это делается путем разделения системы на два отдельных модуля.
В первом модуле Facebook использует набор глубоких характеристик для каждой учетной записи и запускает их через многослойную нейронную сеть, своего рода программное обеспечение для машинного обучения, в основе которого лежит человеческий мозг. В этом случае алгоритм должен выяснить, с каким типом аккаунта соотносится конкретная модель глубоких характеристик: это обычный аккаунт, спам-аккаунт или фишинговый аккаунт и т. д.? И он учится делать это, обращаясь к 5 миллионам примеров фейковых аккаунтов, которые сами по себе довольно грубо помечены отдельными частями существующего программного обеспечения.

Затем Facebook берет этот статистический шаблон для каждого типа учетной записи и передает его во второй модуль, где различный тип алгоритма машинного обучения, называемый «дерево решений с градиентным усилением», оценивает каждую учетную запись по тем же категориям - спам, фейковый аккаунт, фишинг, буллинг и т. п., но основанные на гораздо меньшем наборе высококачественных данных, помеченных человеком.  Результаты этого подсчета определяют, какие действия Facebook будет предпринимать в отношении проверямого аккаунта.

Таким образом, система классификации с точностью более 97% лучше, чем другие методы.

По словам Шаттлворта, система не предназначена для выявления политических кампаний по дезинформации. Вместо этого в Facebook есть отдельная команда по «информационным операциям», работающая над решением этой проблемы, включая, в некоторых случаях, использование алгоритмов машинного обучения, созданных по-разному.

Facebook - не единственная компания, работающая с искусственным интеллектом, которая извлекла выгоду из разделения проблемы на два отдельных модуля, которые подпитывают друг друга. DeepMind, исследовательская компания по искусственному интеллекту, принадлежащая основателю Google Alphabet, использовала похожий двухэтапный подход, когда разработала систему для обнаружения более 50 угрожающих зрению состояний при сканировании сетчатки глаз. Один модуль, который выполняет функции компьютерного зрения, определяет функции сканирования, а второй модуль выполняет диагностику на основе этих характеристик. Система имеет дополнительное преимущество, заключающееся в том, что она гораздо более понятна, чем отдельный модуль.
Аватар enr091 Наталия Ришко
Журналист/Midgardinfo



Комментарии (0)
avatar