12306有预售30天的车票,所以每一次都能获取最近30天的车次数据
可以获取到车次的详情数据,包括停车站,停车时间以及停车顺序等
可定时抓取,每日更新数据
基于webmagic实现
- 初始化需要获取所有车站站点编码数据,在/images/station_code.csv 需导入数据库
- /src/com/crawler/train/Train12306Page 类为获取最近30天全国车次数据,简略数据仅仅包含车次号,出发站和终点站以及时间
- /src/com/crawler/train/TrainDetail12306Page 为根据第二步获取的简略数据进一步获取车次的详细数据,因数据量大会有失败的情况,需要重试抓取