News
- 所有原始新闻的文件夹
Pretreatment
- 预处理.py
- 处理原始新闻,得到每类新闻的词典dict.txt与分词表示.txt,放在Ngrams/Processed的对应文件夹下
- 处理原始新闻,得到每类新闻的词典dict.txt与分词表示.txt,放在Ngrams/Processed的对应文件夹下
Ngrams
- Processed目录
- feature目录
- 存放计算出的ngram特征
- 存放计算出的ngram特征
- main.py
- 得到ngrams和计算特征的主模块
- onegram.py
- 定义了AGram的类,记录ngram;以及计算ngram的函数
- news.py
- 定义了新闻类,主要根据1gram的tfidf来计算每篇新闻向量表示
- punc.txt
- 标点符号
Regression
- regre.py
- 利用/feature中的特征,进行回归训练