Skip to content

Latest commit

 

History

History
62 lines (52 loc) · 9.27 KB

data_nlp.md

File metadata and controls

62 lines (52 loc) · 9.27 KB

Лингвистические и филологические данные

Параллельные корпуса

Международные базы данных, корпусы и датасеты

Обработка естественного языка

  • HotspotQA Dataset. Датасет с вопросами-ответами, позволяющий создавать системы для ответов на вопросы более понятным способом.
  • Enron Dataset. Данные электронной почты от высшего руководства Enron.
  • Amazon Reviews. Содержит около 35 млн отзывов с Amazon за 18 лет. Данные включают информацию о продукте и пользователе, оценки и сам текст отзыва.
  • Google Books Ngrams. Коллекция слов из Google Книги.
  • Blogger Corpus. Коллекция из 681 288 постов с Blogger. Каждый блог содержит как минимум 200 вхождений часто используемых английских слов.
  • Wikipedia Links data. Датасет, состоящий из веб-страниц, которые удовлетворяют следующим двум условиям: каждая из них содержит хотя бы одну ссылку на Википедию и текст её якоря совпадает или похож на заголовок целевой страницы.
  • Gutenberg eBooks List. Аннотированный список электронных книг проекта «Гутенберг».
  • Hansards text chunks of Canadian Parliament. Датасет с 1.3 миллионами пар текстовых файлов, записанных с дебатов 36-го Канадского Парламента.
  • Jeopardy. Архив с более чем 200 000 вопросов с телевикторины Jeopardy.
  • Rotten Tomatoes Reviews. Архив из более чем 480 000 рецензий с Rotten Tomatoes.
  • SMS Spam Collection in English. Датасет, состоящий из 5574 спам-смс на английском.
  • Yelp Reviews. Датасет от Yelp, содержащий более 5 млн отзывов.
  • UCI's Spambase. Большой датасет спам-писем.

Синтаксический анализ

Анализ тональности текста

  • Multidomain sentiment analysis dataset. Немного устаревший датасет, который содержит отзывы на товары с Amazon.
  • IMDB reviews. Староватый, относительной небольшой (25 000 отзывов к фильмам) датасет для бинарного анализа тональности.
  • Stanford Sentiment Treebank. Стэнфордский датасет для анализа тональности.
  • Sentiment140. Популярный датасет с 160 000 твитов с удалёнными смайликами.
  • Twitter US Airline Sentiment. Набор данных из Twitter об авиакомпаниях США, датируемый февралём 2015 года, разделённый на положительные, негативные и нейтральные твиты.
  • WordNet-Affect – семантический тезаурус, в котором понятия, связанные с эмоциями («эмоциональные концепты», англ. «affective concepts»), представлены с помощью слов, обладающих эмоциональной составляющей («эмоциональные слова», англ. «affective words») (вики)
  • SenticNet – семантический тезаурус для работы с наборами эмоциональных понятий (вики)