-
Notifications
You must be signed in to change notification settings - Fork 0
04. scraping
HoeJeongJang edited this page Nov 29, 2022
·
2 revisions
트랙의 기본 정보를 데이터로 사용하기 위해 웹 스크래핑을 진행하였습니다.
-
데이터 출처
-
사용 패키지 :
BeautifulSoup
,Request
트랙 정보 | 설명 |
---|---|
난이도 | 넥슨에서 트랙을 출시할 때 설정한 난이도 (1~6) |
출시 일자 | 트랙이 출시된 년, 월, 일 정보 |
랩 수 | 트랙을 완주할 때까지 도는 바퀴수 (1~3) |
트랙 길이 | 트랙의 총 길이 |
진행 방향 | 트랙의 주행 방향 (시계방향, 반시계방향, 워프형 등) |
테마 | 트랙의 분위기를 결정하는 디자인적 요소 |
현재까지 약 30여개의 테마가 존재 |
구분 | 처리 방법 |
---|---|
표기 오류 | 난이도, 랩 등이 아예 잘못 입력되어있는 트랙 → 삭제 처리 (전체 305개 트랙 중 1개) |
결측치 대치 | 전체 결측치 ‘missing’ 문자열로 대치 후 변수마다 개별 처리 |
데이터 타입 변경 | 문자로 입력되어있는 난이도, 랩, 트랙 길이 데이터 → 숫자 형태로 변경 |
날짜 데이터 처리 | 1. 결측치와 오 기입 데이터 수정 후 년/월/일 데이터로 분할 2. ‘출시일’ 파생변수 생성 |
중복 데이터 처리 | 모든 열에 대해 동일한 값을 가지는 행 30건 삭제 |
- 넥슨 개발자 센터에서 제공하는 카트라이더 meta 데이터 중 트랙 세부 정보 데이터와 scraping 데이터를 ‘트랙 이름’을 기반으로 merge하였습니다.
- 대부분의 트랙은 띄어쓰기를 포함하여 동일한 트랙 이름을 가졌으나, 리버스 트랙 (기존 맵을 거꾸로 달리도록 설계된 특수 트랙)의 경우 [R], [reverse] 등 meta데이터 내에서도 통일되지 않은 모습을 하고 있어, 리버스 트랙 표기를 동일하게 전처리 후 merge 작업을 거쳤습니다.