数据来源:知乎关注人数最高的1000个问题
感谢陈鹏举的数据!
- 特别说明
- 该数据集是2016年的数据,2018年可能已经发生较大变化,但是仍不失为一个好的数据分析练习的素材!
- 我目前还是一个数据分析入门者,整个分析过程存在诸多漏洞,望批评指正!
- Window10操作系统
- Anaconda3
- 第三方库
- zhihu-oauth(知乎API)
- jieba(中文分词)
- wordcloud(生成词云)
- 保存知乎关注人数最高的1000个问题的网页源码
- 用正则表达式分别提取1000个问题的
ID
Name
Type
(参考文件info.csv),为进一步分析做准备(具体代码以及文件参考original data) - 对1000个问题的Type(问题类别)进行汇总统计(具体代码以及文件参考wd)
- 从1000个问题中筛选出100个具有代表性的,对每一个问题的回答的赞同数进行分析(具体代码以及文件参考res)