
Reddit подала в суд на компании SerApi, OxyLabs, AWMProxy и Perplexity за предполагаемый сбор данных из результатов поиска и их использование без лицензии, как сообщает The New York Times. Этот иск последовал за судебным иском против стартапа в области ИИ Anthropic, который, как утверждается, использовал контент Reddit для обучения своего чат-бота Claude.
С 2023 года Reddit взимает плату с компаний, желающих получить доступ к постам и другому контенту, в надежде заработать на данных, которые могут быть использованы для обучения ИИ. Компания также заключила лицензионные соглашения с такими компаниями, как Google и OpenAI, и даже создала собственный механизм ответов на базе ИИ для использования знаний из постов пользователей. Сбор данных из результатов поиска контента Reddit позволяет избежать этих платежей, поэтому компания требует финансовой компенсации и судебного запрета, который запретит компаниям продавать ранее собранные материалы Reddit.
Некоторые из компаний, на которые сосредоточился Reddit, такие как SerApi, OxyLabs и AWMProxy, не являются широко известными, но все они сделали сбор данных из результатов поиска и их продажу ключевой частью своего бизнеса. Включение Perplexity в иск может быть более очевидным. ИИ-компании нужны данные для обучения своих моделей, и ее уже уличили в явном копировании и пересказе материалов, за лицензирование которых она не платила. Это также включает предполагаемое игнорирование протокола robots.txt, который позволяет веб-сайтам сообщать, что они не хотят, чтобы их материалы собирались.
Согласно копии иска, предоставленной Engadget, Reddit уже направил Perplexity требование о прекращении незаконной деятельности, прося прекратить сбор постов без лицензии. Компания утверждала, что не использует данные Reddit, но при этом продолжала ссылаться на платформу в ответах своего чат-бота. Reddit заявляет, что смог доказать использование Perplexity собранных данных Reddit, создав «тестовый пост», который «мог быть проиндексирован только поисковой системой Google и больше нигде в интернете не был доступен». Через несколько часов запросы к движку ответов Perplexity смогли воспроизвести содержание поста.
«Единственный способ, которым Perplexity могла получить этот контент Reddit и затем использовать его в своем ‘движке ответов’, — это если она и/или ее соответчики собрали данные из Google [результатов поиска] по этому контенту Reddit, а Perplexity затем быстро включила эти данные в свой движок ответов», — говорится в иске.
На просьбу прокомментировать ситуацию, Perplexity предоставила следующее заявление:
Perplexity еще не получила судебный иск, но мы всегда будем решительно бороться за право пользователей свободно и справедливо получать доступ к общественным знаниям. Наш подход остается принципиальным и ответственным, поскольку мы предоставляем фактические ответы с помощью точного ИИ, и мы не потерпим угроз открытости и общественным интересам.
Этот новый иск соответствует агрессивной позиции Reddit по защите своих данных, включая ограничение скорости для неизвестных ботов и веб-краулеров в 2024 году, и даже ограничение доступа Wayback Machine Архива Интернета к своему сайту в августе 2025 года. Компания также стремится определить новые условия для сканирования веб-сайтов, приняв стандарт Really Simple Licensing, который добавляет лицензионные условия к robots.txt.