Skip to content

Tweets miner service to populate the KeepCalm training database

Notifications You must be signed in to change notification settings

maiquelcraash/KeepCalm

Folders and files

NameName
Last commit message
Last commit date

Latest commit

8a2b801 · Jun 20, 2018

History

42 Commits
Jun 5, 2018
May 9, 2018
Jun 20, 2018
Jun 5, 2018
Jun 5, 2018
Mar 7, 2018
Apr 9, 2018
Apr 24, 2018
Apr 20, 2018
Jan 23, 2018
Mar 13, 2018
Mar 14, 2018

Repository files navigation

#KeepCalm Conjunto de serviços para a mineração a partir do Twitter, pré-processamento, armazenamento, treinamento e classificação de textos da internet.

Twitter API Documentation

https://developer.twitter.com/en/docs/tweets/search/api-reference/get-search-tweets.html

Natural Node API Documentation

https://github.com/NaturalNode/natural

Serviços

Todos os serviços podem ser localizados e iniciados a partir da pasta main-services/:

  • miner.js:
    • Responsável por obter tweets com base em palavras-chave agressivas configuradas no arquivo config/properties.js
    • O serviço também processa tweets não agressivos para fim de treinamento nos dois viéses
    • Todos os dados são salvos na coleção rawTweets no mongodb
  • preProcessor.js:
    • Responsável por retirar símbolos inúteis
    • Padronizar o texto e remover palavras não relevantes (stop words)
    • Extrair o radical das palavras (processo de steeming)
    • Salvar dados processados na coleção posTweets no mongodb
  • classifier.js
    • Responsável por treinar os algoritmos e classificar textos requeridos
    • Cria um servidor que escutará na porta indicada no arquivo config/properties.js
  • server.js
    • Responsável por tratar as requisções provenientes das extenções.
    • Cria um servidor que escutará na porta indicada no arquivo config/properties.js

Informações adicionais

  • Deve-se iniciar o mongoDB previamente após configurar sua URL e porta no arquivo config/properties.js:
    • $ mongod
  • Deve-se incluir mais memória ao V8 para rodar o algoritmo:
    • $ node --max-old-space-size=4096 classifier.js
  • Para rodar no modo de teste (utiliza apenas 500 registros do banco)
    • $ NODE_ENV=test node classifier.js

Conclusões Prévias

  • O método da regressão logística consome muito mais memória que o método de Bayes, pois precisa manter o campo amostral completo. Exito obtido apenas com uma limitação em 5 mil registros no treinamento e leva muitos minutos para treinar.

Agradecimentos

About

Tweets miner service to populate the KeepCalm training database

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published