Лингвистические и филологические данные

Национальный корпус русского языка, другие корпусы
Предобученные вектора для русского языка и интерактивные примеры RusVectōrēs

Параллельные корпуса

Parallel corpora
Europarl
UN Corpus
LDC Un Parallel text
Opus

Международные базы данных, корпусы и датасеты

Список популярных датасетов
NLPub – русскоязычный каталог ресурсов для обработки естественного языка
Brown corpus
Корпуса для английского
HotspotQA Dataset – датасет вопросов-ответов
Amazon Reviews – около 35 млн отзывов на Amazon за 18 лет: информация о продукте и пользователе, оценки и сам текст отзыва
Google Books Ngrams – коллекция слов из Google Книги
Blogger Corpus – коллекция из 600 тыс. постов с Blogger
Wikipedia Links data – каждая из страниц содержит хотя бы одну ссылку на Википедию и текст якоря совпадает или похож на заголовок целевой страницы
Gutenberg eBooks List – аннотированный список электронных книг проекта «Гутенберг»
Hansards text chunks of Canadian Parliament – датасет 1.3 млн пар текстовых файлов, записанных на дебатах 36-го Канадского Парламента
Jeopardy – архив 200 тыс. вопросов телевикторины Jeopardy
Rotten Tomatoes Reviews – архив 480 тыс. рецензий на фильмы
SMS Spam Collection in English – 5574 спам-смс на английском
Yelp Reviews – датасет от Yelp из 5 млн отзывов
UCI’s Spambase – датасет спам-писем
Apache Software Foundation Public Mail Archives – архив открытых писем, связанных с поддержкой программного обеспечения Apache

Обработка естественного языка

HotspotQA Dataset. Датасет с вопросами-ответами, позволяющий создавать системы для ответов на вопросы более понятным способом.
Enron Dataset. Данные электронной почты от высшего руководства Enron.
Amazon Reviews. Содержит около 35 млн отзывов с Amazon за 18 лет. Данные включают информацию о продукте и пользователе, оценки и сам текст отзыва.
Google Books Ngrams. Коллекция слов из Google Книги.
Blogger Corpus. Коллекция из 681 288 постов с Blogger. Каждый блог содержит как минимум 200 вхождений часто используемых английских слов.
Wikipedia Links data. Датасет, состоящий из веб-страниц, которые удовлетворяют следующим двум условиям: каждая из них содержит хотя бы одну ссылку на Википедию и текст её якоря совпадает или похож на заголовок целевой страницы.
Gutenberg eBooks List. Аннотированный список электронных книг проекта «Гутенберг».
Hansards text chunks of Canadian Parliament. Датасет с 1.3 миллионами пар текстовых файлов, записанных с дебатов 36-го Канадского Парламента.
Jeopardy. Архив с более чем 200 000 вопросов с телевикторины Jeopardy.
Rotten Tomatoes Reviews. Архив из более чем 480 000 рецензий с Rotten Tomatoes.
SMS Spam Collection in English. Датасет, состоящий из 5574 спам-смс на английском.
Yelp Reviews. Датасет от Yelp, содержащий более 5 млн отзывов.
UCI's Spambase. Большой датасет спам-писем.

Синтаксический анализ

Penn Treebank
SynTagRus -- корпус синтаксической разметки для русского языка, есть версия с разметкой для универсальных зависимостей

Анализ тональности текста

Multidomain sentiment analysis dataset. Немного устаревший датасет, который содержит отзывы на товары с Amazon.
IMDB reviews. Староватый, относительной небольшой (25 000 отзывов к фильмам) датасет для бинарного анализа тональности.
Stanford Sentiment Treebank. Стэнфордский датасет для анализа тональности.
Sentiment140. Популярный датасет с 160 000 твитов с удалёнными смайликами.
Twitter US Airline Sentiment. Набор данных из Twitter об авиакомпаниях США, датируемый февралём 2015 года, разделённый на положительные, негативные и нейтральные твиты.
WordNet-Affect – семантический тезаурус, в котором понятия, связанные с эмоциями («эмоциональные концепты», англ. «affective concepts»), представлены с помощью слов, обладающих эмоциональной составляющей («эмоциональные слова», англ. «affective words») (вики)
SenticNet – семантический тезаурус для работы с наборами эмоциональных понятий (вики)

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

data_nlp.md

data_nlp.md

Лингвистические и филологические данные

Параллельные корпуса

Международные базы данных, корпусы и датасеты

Обработка естественного языка

Синтаксический анализ

Анализ тональности текста

Files

data_nlp.md

Latest commit

History

data_nlp.md

File metadata and controls

Лингвистические и филологические данные

Параллельные корпуса

Международные базы данных, корпусы и датасеты

Обработка естественного языка

Синтаксический анализ

Анализ тональности текста