-
Notifications
You must be signed in to change notification settings - Fork 4
/
Copy path06-statgarten.Rmd
127 lines (68 loc) · 6.58 KB
/
06-statgarten.Rmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
# Statgarten
## CUI보다 GUI가 좋을 때
CUI의 가장 멋진 점은 대충 해도 엄청난 전문가처럼 보인다는 것이다(잘 모르는 사람이 봤을 때). 하지만 검은 화면에 커서만 깜빡거리는 CUI와 달리 GUI는 비전문가나 데이터 분석 경험이 적은 사람들에게 더 쉽고 직관적인 접근 방법을 제공한다. GUI 도구를 사용하면 더욱 편리하게 탐색적 데이터 분석을 수행할 수 있다. GUI 도구는 사용자와 상호작용하며 실시간으로 데이터를 분석할 수 있고 비 숙련자가 데이터를 원하는 방식으로 필터링하거나 조작하기 편리하다. 이를 통해 데이터의 다양한 측면을 보다 빠르고 쉽게 탐색하고 분석 결과를 동적으로 확인할 수 있다. 복잡한 분석 기법을 사용해야 하는 경우에도 GUI 도구는 사용자에게 쉽게 접근 가능한 메뉴, 버튼, 설정 등을 제공하여 분석 과정을 단순화하고 사용자의 부담을 줄일 수 있다.
## Statgarten 소개
Datatoys 패키지의 bloodTest 데이터를 이용해서, "총 콜레스테롤 수치가 높은사람이 빈혈 및 뇌혈관질환을 진단받은 경우가 많은가? / 발생하는 정도가 성별별로 차이가 있는가" 라는 주제의 연구를 수행 해 보겠습니다.
본 문서에서는 ML은 다루지 않습니다.
### Data Loading and Modification
#### Load Data
<img src="image/bloodtest/step1.png" width="300"/>
데이터를 불러옵니다. 원하는 데이터 업로드/선택 후 Import Data나 Load Example Data를 클릭하면 됩니다.
본 예제에서는 Datatoys 패키지의 bloodTest(1,000,000 x 9) 데이터를 사용 할 예정입니다.
<img src="image/bloodtest/step2.png"/>
데이터 로드 후 위 스크린샷과 같은 화면이 나오게 됩니다.
#### Update Data
주제에 맞게, 필요한 데이터(SEX, TCHOL, ANE, STK)를 제외하고 체크를 해제합니다.
또 위 데이터 중, SEX, ANE, STK값이 Factor 이므로 해당 값을을 Factor로 변환해야 합니다.
하단의 Update Data를 클릭하고,
<img src='image/bloodtest/step3.png' width="400">
위와 같이, 각자의 데이터에 맞게 설정한 다음 하단의 Apply Changes 버튼을 클릭하면 데이터 형태가 변경됩니다.
참고로, Integer과 Numeric의 차이는 Integer은 정수만 표현할 수 있고, Numeric은 소숫점 표현이 가능하다는 것입니다.
#### Transform Data
<img src='image/bloodtest/step4.png' width ='300'>
<img src='image/bloodtest/step5.png' width ='300'>
성별이 1, 2로 표기되어 있으므로 원활한 데이터 파악을 위해, Transform Data 의 Replace 기능을 통해 SEX column의 1을 M, 2를 F로 변경 해 줍니다.
#### Export Data
<img src='image/bloodtest/step6.png' width ='400'>
가공한 데이터를 Export Data 기능으로 저장할 수 있습니다. 추후 동일한 데이터로 다시 작업할 때 사용 가능합니다.
### Visualization
간략한 데이터의 분포를 파악하기 위해, Statgarten에 포함된 Visualization 기능(colorpen 패키지)를 활용합니다.
데이터를 불러오면, 기본적으로 Vis 탭으로 이동되게 됩니다. 스크롤을 내려 X, Y에 원하는 값을 드래그합니다.
<img src='image/bloodtest/esquisse-plot.png' width ='500'>
이 그래프는, 뇌혈관질환 여부에 따른 총 콜레스테롤을 Boxplot으로 나타낸 것이고,
<img src='image/bloodtest/esquisse-plot2.png' width ='500'>
이 그래프는 빈혈 여부에 따른 총 콜레스테롤을 Boxplot으로 나타낸 것입니다.
그래프 상 큰 차이가 없는 것을 알았으니, 통계적으로도 그러한지 알아보겠습니다.
### EDA
EDA의 Variables탭에서는 존재하는 column에 대한 간단한 요약을 보실 수 있습니다.
<img src="image/bloodtest/step7.png"/>
빈혈과 뇌혈관질환 변수에서, 0(진단 받은 이력 없음)이 각 92.2%, 93.7%로, 1(진단 받은 이력 있음)이 각 7.8%, 6.3%임을 알 수 있습니다.
<img src="image/bloodtest/step8.png"/>
연속 변수는 분포 또한 볼 수 있는데, EDA의 Distribution 탭에서 연속 변수를 선택하면 위 그림과 같은 분석 결과가 나오는 것을 보실 수 있습니다.
<img src="image/bloodtest/step9.png"/>
빈혈 여부를 기준으로 Table 1를 구해 보았습니다. Table 1이란, 연구에서 주요 변수를 포함하는 전체 연구 표본에 대한 기술통계량을 나타낸 표입니다.
빈혈을 기준으로, 총 콜레스테롤의 p값이 0.05보다 작으므로, 빈혈 여부과 총 콜레스테롤 양은 관계가 있습니다.
<img src="image/bloodtest/step10.png"/>
뇌혈관질환 여부를 기준으로 Table 1를 구해 보았습니다.
뇌혈관질환 여부를 기준으로, 총 콜레스테롤의 p값이 0.05보다 작으므로, 뇌혈관질환 여부과 총 콜레스테롤 양은 관계가 있습니다.
<img src="image/bloodtest/step11.png"/>
다음으로, 성별에 따른 Table 1입니다.
남성과 여성의 빈혈, 뇌혈관질환 발생 정도가 유의미한 차이가 있음을 알 수 있습니다.
구체적으로, 빈혈과 뇌혈관질환 발생 정도 모두 여성에서 더 높았습니다.
## 참고영상
### 1: statgarten 기초 (datatoys to **linechart**)
<p align = 'center'>
<iframe width="560" height="315" src="https://www.youtube.com/embed/_f2uLsMHbdc?si=MxXrBKyKxJEUR5be" title="YouTube video player" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share" allowfullscreen></iframe>
</p>
### 2: datatoys to **Multiple linechart**
<p align = 'center'>
<iframe width="560" height="315" src="https://www.youtube.com/embed/ZOL9ngRtRc8?si=73NgHcQ38qj0q6hB" title="YouTube video player" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share" allowfullscreen></iframe>
</p>
### 3: datatoys to **linechart with Facet**
<p align = 'center'>
<iframe width="560" height="315" src="https://www.youtube.com/embed/KuW_tfgVY78?si=AwpD70TRSGDmCkG6" title="YouTube video player" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share" allowfullscreen></iframe>
</p>
### 4: datatoys to **linechart with Facet** (2)
<p align = 'center'>
<iframe width="560" height="315" src="https://www.youtube.com/embed/K-wB72VIpNg?si=c8OB0ujyF6Pd1Qez" title="YouTube video player" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share" allowfullscreen></iframe>
</p>