Skip to content

Final Project for DS105: Data Analysis and Visualization

Notifications You must be signed in to change notification settings

minhphuongzzz/DS105-final-project

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

XÂY DỰNG MÔ HÌNH DỰ ĐOÁN QUY MÔ SẠT LỞ ĐẤT.

Thông tin môn học

  • Môn học: Phân tích và trực quan dữ liệu .
  • Lớp: DS105.M11.
  • Năm học: HKI NH 2021-2022.
  • Giảng viên: ThS. Phạm Thế Sơn.

Thông tin nhóm

STT Họ tên MSSV Github
1 Nguyễn Thị Minh Phương 19522065 https://github.com/minhphuongzzz
2 Chu Hà Thảo Ngân 19521882 https://github.com/thaongan251
3 Thái Minh Triết 19522397 https://github.com/triet2397

PIPELINE

img

1. Dataset

Source code: here

2. Data preprocessing

Source code: here

Các bước tiền xử lý bao gồm: xử lý các thuộc tính dạng datetime, loại bỏ các cột chứa thông tin không cần thiết, và xử lý missing values.

3. EDA

Source code: here

Các bước phân tích thăm dò bao gồm: thống kê mô tả, phân tích trực quan dữ liệu theo thời gian (time series), phân tích tổng hợp thuộc tính, phân tích trực quan trên bản đồ địa lý.

4. Feature selection, Feature engineering and Model development

Source code: here

Feature selection

Các thuộc tính được lựa chọn để đưa vào mô hình dựa vào kết quả sau khi phân tích thăm dò, kết hợp với hai phương pháp thống kê là One way ANOVAChi-square test.

Feature engineering

Các kỹ thuât để biến đổi dữ liệu trước khi đưa vào mô hình bao gồm: kết hợp các nhóm thuộc tính có độ tương quan cao, kết hợp và mã hóa các cột chứa thông tin mô tả (text description), mã hóa one-hot cho các thuộc tính phân loại, và feature scaling.

Model development

Bài toán: dự đoán quy mô sạt lở đất (landslide size).

Biến mục tiêu bị mất cân bằng (imbalanced class), nên chúng tôi sử dụng kỹ thuật ADASYN để oversampling cho các lớp có ít dữ liệu hơn nhằm xử lý vấn đề mất cân bằng trước khi đưa vào mô hình huấn luyện.

Mô hình phân lớp: Logistic Regression, Support Vector Machine, Random Forest và PassiveAggressiveClassifier.

Độ đo đánh giá: macro F1-score và accuracy.

Sau khi thử nghiệm và đánh giá, chúng tôi tinh chỉnh siêu tham số cho mô hình đang có được kết quả tốt nhất và thu được kết quả sau:

img

About

Final Project for DS105: Data Analysis and Visualization

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Contributors 4

  •  
  •  
  •  
  •