Количество ботов растет каждый год и динамика распространения очень высока. В Barracuda technology подсчитали, что за 6 месяцев 2021 года автоматизированные сессии составили почти две трети интернет-трафика. Четверть из них — это хорошо известные специалистам боты (поисковые роботы, боты социальных сетей, боты мониторинга). Почти 40% — это не естественные переходы, такие боты несут угрозу сайтам.
Главная опасность плохих ботов — это выполнение вредоносных действий. Поведение их хорошо изучено. Прежде всего они атакуют учетные записи пользователей, собирают персональные и финансовые данные, напрямую влияют на органический трафик, воруют контент, искажают аналитику, воздействуют на системы рекомендаций. Также влезают в кошелек — тратят маркетинговые бюджеты на отправку SMS, могут даже вывести из строя сервера. Чтобы понять, как бороться с ботами начнем с их классификации.
Simple. Такие идут с одного IP-адреса и провайдера. Переходы происходят с использованием автоматических сценариев. Главное, что не добавляются различные данные для имитации человека, называемые fingerprint — это данные: user-agent, размер экрана, тип устройства.
Medium. Более сложные боты, они используют программное обеспечение, которое похоже на технологию браузера, в том числе могут выполнять JavaScript.
Hard. Такие боты могут совершать движение мыши и щелчки, они обманывают сложные системы обнаружения, им удается даже мимикрировать под поведение человека и красиво уклоняться. Эти плохие боты используют программное обеспечение для автоматизации, могут взламывать сайты по типовым уязвимостям CMS.
Hardcore представляют с собой комбинацию Medium и Hard. Главная особенность — это периодически менять IP — адреса, использовать анонимные закрытые прокси, менять конфигурацию сетей и хранить свой уникальный fingerprint. Боты развивают его с помощью «белых» посещений сайтов аналогично простому пользователю. После получения качественной истории fingerprint, бота практически невозможно отследить при правильной настройке. И главное — почему они и называются Hardcore — очистить сайт на 100% от таких переходов невозможно!
Теперь разберем виды неестественного трафика.
Он используется для накрутки поведенческих факторов. Переходы происходят по заданном алгоритму. Для того чтобы боты были похожи на нормальный трафик прокачивают профили. Любой сайт может попасть в файл нагула профилей определённой тематики. В следствии чего, можно заметить рост прямых заходов (type-in) или реферальных переходов из социальных сетей. Эти 2 метода наиболее популярные для выполнения первого перехода для прокачки профиля.
В целом реферальным источником может быть любая площадка, не обязательно социальные сети. Если присутствует аномальный рост (от 50% и более) ботного трафика с большим процентом отказов на свой ресурс, то на это стоит обратить внимание. Ориентироваться на «Яндекс метрику» не стоит. Бот умело вводит ее в заблуждение.
Часть такого трафика получается срезать по средствам настройки и подключения сервиса CloudFlare. На тарифах Pro и Business есть раздел Bots.
Отчет бота включает в себя 4 типа трафика:
Автоматический трафик (Automated) — плохие боты. Используется эвристика, машинное обучение и другие методы для определения таких запросов. В большинстве случаев такой трафик вредит сайту.
Вероятно, автоматический трафик (Likely Automated).
Человеческий (Likely Human).
Проверенный трафик ботов (Verified bot) — поступает от поисковых ботов, платёжных систем в Интернете (Google, Yandex, PayPal и так далее).
Все эти данные также доступны через GraphQL и вы можете выгружать их через API.
Важно: на тарифе Pro — программа будет защищать только от автоматизированного трафика (Automated).
На тарифе Business — есть доступ к новой версии Bot Analytics, предназначенной для защиты от ботов. Бизнес версия программы глубже сортирует ботный трафик и имеет больше настроек.
Самая главная разница между Pro и Business версией в фильтрации на автоматический трафик и вероятно автоматический трафик.
В чем разница? Последнее включает запросы, распознанные механизмом машинного обучения CloudFlare. Эти запросы часто поступают от сложных ботов — тех, которые обходят простые инструменты безопасности, меняя IP-адреса, User-agent, входят через анонимные прокси и убедительно имитируют людей.
В бесплатной версии нет защиты от ботов (кроме базовой от DDoS-атак с пропускной способностью до 90 Тбит/с), отчёта и настроек фильтрации — Configure Super Bot Fight Mode. В ней только можно делать маски и правила вручную.
Зачастую, полностью, этот сервис проблему не решает.
Так как эксперты в работе с поведенческими факторами научились очень грамотно работать с прокачкой профилей (нагулом). Они меняют: user-agent, IP-сети, устройства, длину сессии, разрешения и так далее. В следствии чего никакая система защиты не может сматчить весь этот трафик, как ботные переходы. В этом случае рекомендуем дополнительно не подгружать счетчик Яндекс Метрики для type-in и реферальных переходов без куки. Обычно просят выбрать город или другой аналогичный функционал.
Эти 2 подхода вместе дали положительную динамику и восстановление видимости проектов в поисковых системах.
В работе с поведенческими факторами так же могут применять технологию скликивания конкурентов. В счётчике метрики можно заметить кратный рост переходов, по ключевым словам, с большим процентом отказов.
Такой вид переходов наносит сильный урон сайту с точки зрения влияния на ранжирование в поисковых системах. В случае выявления данной проблемы (на больших объёмах от общего трафика), рекомендуется подключить сервис CloudFlare (метод описан выше) и параллельно выравнивать CTR, сессии и глубину при помощи собственной накрутки ПФ.
Эти типы атак объединяет большое количество запросов на сайт, близкое к срабатыванию традиционной защиты от DDoS. Такие атаки могут приводить не только к проблемам в работоспособности сайта, но и к прямым финансовым или репутационным потерям. Самые популярные атаки выглядят так:
На большинстве ресурсов есть форма регистрации или авторизации по номеру телефона с подтверждением по SMS. Пользователь вводит номер телефона и ему приходит sms сообщение с секретным кодом.
Многие крупные компании имеют достаточно большие бюджеты на отправку sms-сообщений. При этом они даже не подозревают, что их сайт активно используется ботом. Итог — репутационные и финансовые потери. Достигается это путём бесконечной отправки кодов на все существующие номера телефонов.
На github есть множество готовых программ для рассылки sms-спама. Вот некоторые из популярных программ и их баз данных сайтов, используемых при атаках:
Один из самых популярных видов мошенничества — это вывод в рекомендации сайта определённых товаров или бренда. Делается все просто: с помощью ботов искусственно накручиваются просмотры товаров или действия по добавлению товара в корзину.
Пользователи видят в рекомендациях не популярные товары или услуги, а те, которые были накручены ботом. Все это может обернуться большими убытками для владельца сайтов.
Веб-скрейпинг (web scraping) — это парсинг доменов при помощи ботов, которые воруют контент. Обычно они выполняют GET-запросы на целевой URL, c целью извлечения данных.
Важно: защититься от парсинга и кражи контента полностью просто невозможно. Но это не значит, что защищаться бесполезно. Например, если у вас интернет-магазин с 100 000 SKU и у вас нет никакой защиты от парсинга, то это вопрос времени, когда ваш сайт начнёт испытывать проблемы с доступностью т.к. вам будут неожиданно прилетать тысячи запросов в секунду, создавая проблемы с доступом для нормальных клиентов.
Здесь задачи у парсеров и владельцев сайтов полностью противоположные:
Задача парсеров: собрать всю информацию с минимальными затратами и за максимально короткие сроки.
Задача владельцев ресурсов: сделать парсинг максимально дорогим, долгим и трудоёмким.
Есть интересная деталь: крупные парсеры не так страшны, т.к. они стараются быть незаметными, а вот средние и мелкие максимально опасны, т.к. могут в миг положить сайт проводя свои эксперименты.
Традиционные способы защиты от DDoS тут будут не эффективны, т.к. общее количество запросов от ботов будет не сильно выбиваться из общей статистики, но эти запросы буду наверняка самыми тяжелыми для обработки backend или дорогими, как в случае атак через SMS bomber.
В борьбе с этим типом атак поможет активная проверка через Java Script. Она при первом заходе будет незаметно для пользователя проверять, что браузер реальный и если это подтвердится, то покажет сайт.
На платных тарифах CloudFlare также доступен WAF, который позволяет гибко ограничивать доступ к сайту для определённых стран. Например, если ваш сайт ориентирован на аудиторию СНГ, то вы можете ввести требование вводить Captcha для пользователей из других стран.
Повторимся, что вышеуказанные ограничения сделают парсинг сайта максимально дорогим и сложным, но гарантировать 100% никто не даст. Это вопрос времени.
Ddos — целенаправленная атака за счет резкого увеличения запросов к сайту, с целью нарушения работы сервера.
Сервис CloudFlare даже на бесплатной версии предоставляет неограниченное предотвращение DDoS-атак с пропускной способностью до 90 Тбит/с. В Pro и Business версиях добавляются оповещения и WAF защита.
Подобный сервис защиты предоставляет и компания Qrator, но уже на платной основе, где в зависимости от тарифа доступны следующие опции:
Предотвращение DDoS-атак с пропускной способностью до 3000 Гбит/с
Скорость реакции: от 30 секунд до 3 минут
< 5% ложных срабатываний в процессе нейтрализации DDoS-атаки и около 0% в обычное время
SLA: до 99,95% (в зависимости от тарифа)
В Qrator появилась еще и собственная система защиты от ботов. Она даёт по сравнению с CloudFlare возможность задавать более гибкие и сложные правила блокировки или разрешения трафика. Для опытных пользователей эта система управления будет более привычна и удобна из-за своей схожести с типичными Firewall, удобством управления большим количеством правил и тестированию правил на % трафика. Но вот для людей далёких от IT, интерфейс может показаться сложнее, чем у CloudFlare.
Есть и другие компании, которые специализируются конкретно на защите от ботов — например Variti. У них, несомненно, есть свои фишки, которые лучше помогают отфильтровывать ботов, но, к сожалению, этому есть цена — увеличение ложных срабатываний, когда ваши нормальные клиенты не могут получить доступ к сайту.
Есть различные сервисы краулинга, анализа и мониторинга сайтов.
Пример такого рода ботов:
ltx71 — (http://ltx71.com/)
ias-va/3.1 (+https://www.admantx.com/service-fetcher.html)
WinHttp-Autoproxy-Service/5.1
Expanse, a Palo Alto Networks company, searches across the global IPv4 space multiple times per day to identify customers' presences on the Internet. If you would like to be excluded from our scans, please send IP addresses/domains to: scaninfo@paloaltonetworks.com
SeopultContentAnalyzer/1.0
UserAgent не заполнен
Mozilla/5.0 (compatible; SemrushBot/7~bl; +http://www.semrush.com/bot.html)
Mozilla/5.0 (compatible; Adsbot/3.1; +https://seostar.co/robot/)
В целом на большинстве серверов и сайтов данные переходы никак не отражаются. Но если вы хотите сократить нагрузку на ваш сервер или защитить контент от копирования, то рекомендуется понизить приоритет для таких ботов или вовсе заблокировать их. Сделать это можно на стороне сервера (анализируя логи), автоматически в бизнес версии CloudFlare или в бесплатной, используя правила.
Анализируя все сказанное можно сделать следующий вывод:
Нужно понять природу трафика, его количество и метрики. Нужно помнить, что не все виды и объёмы ботных переходов критичны для проекта.
Верный анализ проблемы позволяет с минимальными ресурсами найти нужное решение.
Плохие боты составляют значительную часть трафика веб-сайтов. Их оперативное обнаружение и блокировка имеет важное значение для бизнеса.
Проведите конкурс среди участников CMS Magazine
Узнайте цены и сроки уже завтра. Это бесплатно и займет ≈5 минут.