Гарвардский университет опубликует около 1 млн книг для обучения ИИ

Объем новой базы данных примерно в пять раз превышает известный датасет Books3, который ранее использовался для обучения моделей ИИ

Фото: Kenny Eliason на Unsplash

Гарвардский университет анонсировал создание и скорый выпуск масштабного датасета, который включает около 1 млн книг со статусом общественного достояния. Этот проект предложила Институциональная инициатива данных (Institutional Data Initiative, IDI) и финансируется Microsoft и OpenAI. Все книги в датасете ранее были оцифрованы в рамках проекта Google Books и больше не охраняются авторским правом.

Объем новой базы данных примерно в пять раз превышает известный датасет Books3, который ранее использовался для обучения моделей искусственного интеллекта, таких как Llama от Meta (компания признана экстремистской на территории РФ и ее деятельность запрещена). В ее состав входят произведения, которые охватывают разнообразные жанры, эпохи и языки, включая:

произведения Уильяма Шекспира;
романы Чарльза Диккенса;
«Божественную комедию» Данте Алигьери;
чешские учебники по математике;
валлийские карманные словари.

Эксперты подчеркивают, что проект направлен на устранение неравенства в доступе к качественным данным для обучения ИИ. Обычно такие ресурсы оказываются доступны только крупным технологическим корпорациям с обширными бюджетами. По словам одного из руководителей IDI, предоставление широкой общественности возможности использовать тщательно отобранный и проверенный материал создает более равные условия для независимых исследователей и стартапов.

Kelly Sikkema на Unsplash

Хотя доступ к этому датасету обещает революцию в обучении ИИ, он, скорее всего, будет применяться совместно с другими лицензированными материалами, чтобы создавать уникальные модели. Один из инициаторов проекта сравнивает его с Linux — бесплатной операционной системой, которая стала основой для множества технологических разработок.

Microsoft, один из главных спонсоров IDI, подчеркивает важность проекта для создания доступных пулов данных, которыми можно управлять в интересах общества. При этом представители корпорации уточняют, что компания продолжит использовать другие публичные данные в обучении собственных моделей, а новый датасет станет дополнительным ресурсом. OpenAI также приветствовала проект, называя его значимым шагом к развитию прозрачных и этичных подходов в обучении ИИ.

В условиях судебных разбирательств, связанных с использованием данных, защищенных авторским правом, внимание к инициативам вроде гарвардской растет. Если компании, разрабатывающие ИИ, проиграют эти дела, им придется изменить подход к сбору и обработке данных. Новые проекты на основе общественного достояния могут стать альтернативой для продолжения развития технологий.

Drew Coffman на Unsplash

В дополнение к коллекции книг IDI сотрудничает с Бостонской публичной библиотекой для оцифровки миллионов газетных статей, которые также перешли в общественное достояние. Ожидается, что выпуск датасета книг будет сопровождаться дальнейшими совместными проектами с другими институтами. Гарвард уже предложил Google поддержать публичное распространение данных, но детали остаются нерешенными.

На фоне появления гарвардской базы данных активизируются и другие инициативы. Например, французский стартап Pleias при поддержке Министерства культуры Франции разработал датасет Common Corpus, который включает 3—4 млн книг и периодических изданий со статусом общественного достояния. Этот ресурс, который доступен на платформе Hugging Face, уже скачали более 60 тыс. раз. Другие проекты, такие как Source.Plus от Spawning, предлагают аналогичные решения для изображений, включая материалы из Wikimedia Commons и музейных архивов.

Эти инициативы, как утверждают специалисты, демонстрируют, что использование защищенных авторским правом данных нельзя назвать необходимым условием для создания высококачественных моделей ИИ. Однако критики предупреждают, что успех таких проектов зависит от того, насколько активно они будут использоваться в обучении вместо нелицензированных данных. Если общественные ресурсы лишь дополнят уже существующие базы, которые включают материалы без разрешения правообладателей, основная выгода останется за крупными корпорациями.

Все важное о книжной индустрии и литературе читайте в нашей рубрике «Книжная полка».