- Национальный корпус русского языка, другие корпусы
- Предобученные вектора для русского языка и интерактивные примеры RusVectōrēs
- Список популярных датасетов
- NLPub – русскоязычный каталог ресурсов для обработки естественного языка
- Brown corpus
- Корпуса для английского
- HotspotQA Dataset – датасет вопросов-ответов
- Amazon Reviews – около 35 млн отзывов на Amazon за 18 лет: информация о продукте и пользователе, оценки и сам текст отзыва
- Google Books Ngrams – коллекция слов из Google Книги
- Blogger Corpus – коллекция из 600 тыс. постов с Blogger
- Wikipedia Links data – каждая из страниц содержит хотя бы одну ссылку на Википедию и текст якоря совпадает или похож на заголовок целевой страницы
- Gutenberg eBooks List – аннотированный список электронных книг проекта «Гутенберг»
- Hansards text chunks of Canadian Parliament – датасет 1.3 млн пар текстовых файлов, записанных на дебатах 36-го Канадского Парламента
- Jeopardy – архив 200 тыс. вопросов телевикторины Jeopardy
- Rotten Tomatoes Reviews – архив 480 тыс. рецензий на фильмы
- SMS Spam Collection in English – 5574 спам-смс на английском
- Yelp Reviews – датасет от Yelp из 5 млн отзывов
- UCI’s Spambase – датасет спам-писем
- Apache Software Foundation Public Mail Archives – архив открытых писем, связанных с поддержкой программного обеспечения Apache
- HotspotQA Dataset. Датасет с вопросами-ответами, позволяющий создавать системы для ответов на вопросы более понятным способом.
- Enron Dataset. Данные электронной почты от высшего руководства Enron.
- Amazon Reviews. Содержит около 35 млн отзывов с Amazon за 18 лет. Данные включают информацию о продукте и пользователе, оценки и сам текст отзыва.
- Google Books Ngrams. Коллекция слов из Google Книги.
- Blogger Corpus. Коллекция из 681 288 постов с Blogger. Каждый блог содержит как минимум 200 вхождений часто используемых английских слов.
- Wikipedia Links data. Датасет, состоящий из веб-страниц, которые удовлетворяют следующим двум условиям: каждая из них содержит хотя бы одну ссылку на Википедию и текст её якоря совпадает или похож на заголовок целевой страницы.
- Gutenberg eBooks List. Аннотированный список электронных книг проекта «Гутенберг».
- Hansards text chunks of Canadian Parliament. Датасет с 1.3 миллионами пар текстовых файлов, записанных с дебатов 36-го Канадского Парламента.
- Jeopardy. Архив с более чем 200 000 вопросов с телевикторины Jeopardy.
- Rotten Tomatoes Reviews. Архив из более чем 480 000 рецензий с Rotten Tomatoes.
- SMS Spam Collection in English. Датасет, состоящий из 5574 спам-смс на английском.
- Yelp Reviews. Датасет от Yelp, содержащий более 5 млн отзывов.
- UCI's Spambase. Большой датасет спам-писем.
- Penn Treebank
- SynTagRus -- корпус синтаксической разметки для русского языка, есть версия с разметкой для универсальных зависимостей
- Multidomain sentiment analysis dataset. Немного устаревший датасет, который содержит отзывы на товары с Amazon.
- IMDB reviews. Староватый, относительной небольшой (25 000 отзывов к фильмам) датасет для бинарного анализа тональности.
- Stanford Sentiment Treebank. Стэнфордский датасет для анализа тональности.
- Sentiment140. Популярный датасет с 160 000 твитов с удалёнными смайликами.
- Twitter US Airline Sentiment. Набор данных из Twitter об авиакомпаниях США, датируемый февралём 2015 года, разделённый на положительные, негативные и нейтральные твиты.
- WordNet-Affect – семантический тезаурус, в котором понятия, связанные с эмоциями («эмоциональные концепты», англ. «affective concepts»), представлены с помощью слов, обладающих эмоциональной составляющей («эмоциональные слова», англ. «affective words») (вики)
- SenticNet – семантический тезаурус для работы с наборами эмоциональных понятий (вики)