gdgt

Skip to Content

Reddit, Yahoo, Medium и другие платформы приняли новый стандарт лицензирования для компенсации за сбор данных для ИИ

В условиях кризиса среди онлайн-издателей новый открытый стандарт позволяет им устанавливать правила для ИИ-скрейперов. (Или, по крайней мере, он попытается.) Новый стандарт Really Simple Licensing (RSL) создает условия, которым, как ожидается, будут следовать ИИ-компании. Хотя вопрос об обеспечении соблюдения остается открытым, тот факт, что его поддерживают некоторые крупные игроки, не может не радовать. Среди них — Reddit, Yahoo (материнская компания Engadget), Medium и People Inc.

RSL добавляет условия лицензирования к протоколу robots.txt — простому файлу, который содержит инструкции для веб-краулеров. Поддерживаемые варианты лицензирования включают бесплатное использование, использование с указанием авторства, подписку, оплату за сканирование и оплату за инференс. (Последнее означает, что ИИ-компании платят издателям только тогда, когда контент используется для генерации ответа.)

Одновременно с запуском стандарта начала свою работу новая управляющая некоммерческая организация — RSL Collective. Она позиционирует себя как аналог некоммерческих организаций, таких как ASCAP и BMI, которые управляют роялти в музыкальной индустрии. Новая группа утверждает, что ее стандарт может «установить справедливые рыночные цены и усилить переговорную позицию для всех издателей».

Среди участвующих брендов много представителей «старой гвардии» интернета. Reddit, People Inc., Yahoo, Internet Brands, Ziff Davis, wikiHow, O’Reilly Media, Medium, The Daily Beast, Miso.AI, Raptive, Ranker и Evolve Media — все они присоединились к инициативе. Бывший генеральный директор Ask.com Даг Лидс и соавтор RSS Эккарт Вальтер возглавляют группу.

«Стандарт RSL предоставляет издателям и платформам четкий и масштабируемый способ установки условий лицензирования в эпоху ИИ», — написал генеральный директор Reddit Стив Хаффман в пресс-релизе. «RSL Collective предлагает путь к этому совместному действию. Reddit поддерживает оба направления как важные шаги в направлении защиты открытого веба и сообществ, которые делают его процветающим». (Стоит отметить, что Reddit имеет лицензионные соглашения с OpenAI и Google.)

Неясно, будут ли ИИ-компании соблюдать этот стандарт. В конце концов, они известны тем, что просто игнорируют инструкции robots.txt. Но группа считает, что ее условия будут юридически обязывающими.

В интервью Лидс указал в беседе с Ars Technica на недавнее $1,5-миллиардное урегулирование Anthropic, предполагая, что «есть реальные деньги на кону» для ИИ-компаний, которые не обучаются «легитимно». (Однако это урегулирование находится под вопросом после того, как судья отклонил его.) Лидс сообщил The Verge, что коллективный характер стандарта также может помочь распределить судебные издержки, делая оспаривание нарушений более осуществимым.

Что касается технического обеспечения, то сам по себе стандарт RSL не может блокировать ботов. Для этого группа сотрудничает с облачной компанией Fastly, которая может выступать в роли своего рода привратника. (Возможно, Cloudflare, которая недавно запустила систему оплаты за сканирование, тоже сможет сыграть свою роль.) Лидс сказал, что Fastly может служить «вышибалой у входа в клуб».

Лидс предположил в беседе с Ars, что существуют и стимулы для ИИ-компаний. В финансовом плане для них это может быть проще, чем заключение индивидуальных лицензионных соглашений. Это может помочь избежать проблемы в ИИ-контенте: использование нескольких источников для ответа, чтобы не использовать слишком много из одного. Если контент лицензирован легально, ИИ-приложение может просто использовать лучший источник, что обеспечивает пользователю более высокое качество ответа и минимизирует риск галлюцинаций.

Он также упомянул жалобы от ИИ-компаний о том, что нет эффективных средств для лицензирования контента в масштабах всего интернета. «Мы их выслушали, и они сказали нам… нам нужен новый протокол», — сказал Лидс Ars Technica. «Со стандартом RSL ИИ-компании получают «масштабируемый способ получить весь контент», который они хотят, при этом устанавливая стимул, по которому они будут платить только за лучший контент, на который реально ссылаются их модели. Если они используют его, они платят, а если не используют, то не платят».