- Môn học: Phân tích và trực quan dữ liệu .
- Lớp: DS105.M11.
- Năm học: HKI NH 2021-2022.
- Giảng viên: ThS. Phạm Thế Sơn.
STT | Họ tên | MSSV | Github |
---|---|---|---|
1 | Nguyễn Thị Minh Phương | 19522065 | https://github.com/minhphuongzzz |
2 | Chu Hà Thảo Ngân | 19521882 | https://github.com/thaongan251 |
3 | Thái Minh Triết | 19522397 | https://github.com/triet2397 |
Source code: here
-
Bộ dữ liệu gốc: Global Landslide Catalog
Nguồn: here
-
Dữ liệu thu thập thêm:
Source code: here
Các bước tiền xử lý bao gồm: xử lý các thuộc tính dạng datetime, loại bỏ các cột chứa thông tin không cần thiết, và xử lý missing values.
Source code: here
Các bước phân tích thăm dò bao gồm: thống kê mô tả, phân tích trực quan dữ liệu theo thời gian (time series), phân tích tổng hợp thuộc tính, phân tích trực quan trên bản đồ địa lý.
Source code: here
Các thuộc tính được lựa chọn để đưa vào mô hình dựa vào kết quả sau khi phân tích thăm dò, kết hợp với hai phương pháp thống kê là One way ANOVA và Chi-square test.
Các kỹ thuât để biến đổi dữ liệu trước khi đưa vào mô hình bao gồm: kết hợp các nhóm thuộc tính có độ tương quan cao, kết hợp và mã hóa các cột chứa thông tin mô tả (text description), mã hóa one-hot cho các thuộc tính phân loại, và feature scaling.
Bài toán: dự đoán quy mô sạt lở đất (landslide size).
Biến mục tiêu bị mất cân bằng (imbalanced class), nên chúng tôi sử dụng kỹ thuật ADASYN để oversampling cho các lớp có ít dữ liệu hơn nhằm xử lý vấn đề mất cân bằng trước khi đưa vào mô hình huấn luyện.
Mô hình phân lớp: Logistic Regression, Support Vector Machine, Random Forest và PassiveAggressiveClassifier.
Độ đo đánh giá: macro F1-score và accuracy.
Sau khi thử nghiệm và đánh giá, chúng tôi tinh chỉnh siêu tham số cho mô hình đang có được kết quả tốt nhất và thu được kết quả sau: