-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathabstract.tex
280 lines (184 loc) · 21.4 KB
/
abstract.tex
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
\begin{abstract}[
language=ukrainian,% мова анотації
% chapter=Реферат, % заголовок розділу або false, щоб не робити заголовок (типово Анотація/Abstract)
% header=false % автоматична генерація опису дисертації (типово true)
]
У \textbf{вступі} обґрунтовано актуальність удосконалення систем автоматизованого скринінгу (виявлення та класифікації нетипових об'єктів або процесів) шляхом створення моделей наборів даних та методів їх генерації, а також моделей нейронних мереж та методів багатозадачного навчання з метою підвищення достовірності класифікації та сегментації планарних зображень без підвищення витрат часу.
Визначено об'єкт, предмет, задачі і методи дослідження; показано зв'язок з науково-дослідними роботами; наведено наукову новизну та практичне значення одержаних результатів; висвітлено особистий внесок здобувача.
В \textbf{першому розділі} дисертаційної роботи проведено аналіз проблем аналізу планарних зображень (які не мають виміру глибини, та в яких можна знехтувати масштабом об'єктів) в системах автоматизованого скринінгу на основі нейромережевих технологій.
Проаналізовано існуючі системи автоматизованого скринінгу в предметних областях медицини, метеорології та віддаленого зондування та особливості їх функціонування шляхом аналізу планарних зображень. Показано, що ефективність роботи таких систем безпосередньо залежить від достовірності класифікації та сегментації зображень, оскільки хибно-позитивні результати можуть призвести до передчасного реагування, а хибно-негативні результати - до пропуску наявних проблем та пізнього реагування.
Крім того, не менш важливим фактором, що впливає на ефективність скринінгових систем є витрати часу на реалізацію процесу навчання, що в свою чергу пов’язано з якістю попередньо створених навчальних вибірок даних. Але, в задачах скринінгу, отримання достатньої кількості даних та проведення якісного анотування професіоналами є, як правило, затратним, а іноді неможливим через малу кількість та різний вигляд навчальних прикладів, суб’єктивність під час формування анотацій в наборах даних. Ці фактори негативно впливають на достовірність класифікації та сегментації при навчанні глибинних нейронних мереж стандартними методами. Для усунення такого впливу запропоновано при побудові моделей класифікації та сегментації вирішити задачу навчання з урахуванням частково-помилкових анотацій.
Показано, що в таких умовах доцільне використання глибинних нейронних мереж, через можливість автоматизації процесу навчання та застосування методів багатозадачного навчання, які підвищують достовірність класифікації та сегментації.
Проведений аналіз наявних моделей наборів даних та методів їх генерації показав обмеженість моделей наборів даних, які б дозволяли формувати частково-помилкові анотації, які характерні для реальних задач автоматизованого скринінгу.
Таким чином, вирішення важливої науково-практичної задачі підвищення достовірності класифікації та сегментації в задачах аналізу планарних зображень для систем автоматизованого скринінгу шляхом удосконалення моделей нейронних мереж та методів їх багатозадачного навчання, особливо за умови частково-помилково анотованих даних навчальної вибірки.
У \textbf{другому розділі} розроблено метод генерації наборів даних для забезпечення можливості тестування нейронних мереж при навчанні з використанням частково-помилкових анотацій та запропоновано параметричну формалізацію моделі набору даних із частково-помилковими анотаціями, які характерні для реальних задач автоматизованого скринінгу.
Оскільки одержання достовірних анотацій класифікації та сегментації для тестувальних вибірок часто є неможливим або дуже затратним, запропоновано використання модельних наборів даних для оцінки достовірності моделей та методів навчання глибинних нейронних мереж. Такі набори даних дають можливість проводити навчання та тестування в контрольованих умовах шляхом штучного додавання помилок до анотацій навчальної вибірки даних (як правило, тестова вибірка залишається з достовірними анотаціями).
Запропонована модель набору даних $\mathcal{M}$ має наступне представлення:
\begin{equation}
\label{eqn:abstract_model_Def}
\mathcal{M} \in \{ \mathcal{X}_{b}, \mathcal{X}_{tex}, N, S_{img}, S_{obj}, \Delta_{max}, N_{obj}, P_e, P_d, S_e, S_d \}
\end{equation}
де $\mathcal{X}_{b}$ - набір зображень фону,
$\mathcal{X}_{f}$ - набір об'єктів,
$\mathcal{X}_{tex}$ - набір зображень текстур об'єктів,
$N$ - кількість зображень в генерованому наборі даних,
$S_{img}$ - розмір генерованих зображень в пікселях,
$S_{obj}$ - середній розмір об'єкта в пікселях,
$\Delta_{max}$ - максимальне відхилення розміру об'єкта в відсотках,
$N_{obj}$ - максимальна кількість об'єктів на зображенні,
$P_e$ та $P_d$ - ймовірності зменшення та збільшення маски кожного з об'єктів,
$S_e$ та $S_d$ - допустимі масштаби збільшення та зменшення масок всіх об'єктів.
Останні чотири параметри введено для контрольованого створення помилок в анотаціях.
Сформульовано \textbf{перший пункт наукової новизни}: вперше запропоновано параметричну формалізацію моделі набору даних із частково-помилковими анотаціями, які характерні для реальних задач автоматизованого скринінгу, що дозволило розробити метод генерації навчальних, тестових та валідаційних наборів даних.
На основі запропонованої параметричної моделі (\ref{eqn:abstract_model_Def}) розроблено метод генерації наборів даних із частково-помилковими анотаціями, який містить наступні кроки:
1. Вибрати випадкове зображення фону: $x_{bg} \sim \mathcal{X}_b$
2. Вибрати кількість об'єктів на зображенні: $N_{obj} \sim \mathcal{U}(1, N_{obj})$
3. Провести ініціалізацію маски сегментації: $M = 0 \; \text{так що} \; M \in \mathcal{R}^{C \times S_{img} \times S_{img}}$
4. Виконати наступні кроки $n_{obj}$ разів:
\qquad 4.1 Вибрати розміри об'єкта: $s \sim \mathcal{U}(S_{obj} - \Delta_{max}, S_{obj} + \Delta_{max})$
\qquad 4.2 Вибрати координати розміщення об'єкта:
\begin{align*}
i_f &\sim \mathcal{U}(0, S_{img} - s)\\
j_f &\sim \mathcal{U}(0, S_{img} - s)
\end{align*}
\qquad 4.3 Вибрати зображення об'єкта $x_{fg} \sim \mathcal{X}_f$ та відповідний клас об'єкта $c_{fg} \sim \mathcal{Y}_f$
\qquad 4.4 Змінити розмір зображення об'єкта за допомогою білінійної інтерполяції:
\begin{align*}
\hat{x}_{fg} = R_{bilinear}(x_{fg})
\end{align*}
\qquad 4.5 Вибрати зображення текстури $x_{tex} \sim \mathcal{X}_{tex}$
\qquad 4.6 Модифікувати зображення об'єкта за допомогою текстури:
\begin{equation*}
\hat{x}_{fg} = x_{fg} \circ x_{tex}[i_f:i_f+s, j_f:j_f+s]
\end{equation*}
\qquad 4.7 Розмістити зображення об'єкта на зображенні фону:
\begin{equation*}
x_{bg}[i_f:i_f+s, j_f:j_f+s] = (1 - x_{fg}) \circ x_{bg} + \hat{x}_{fg}
\end{equation*}
\qquad 4.8 Сформувати маску сегментації об'єкта:
\begin{equation*}
M_{seg} = x_{fg} > \theta_{seg}
\end{equation*}
де $\theta_{seg}$ - поріг бінаризації вихідного зображення об'єкта. Для набору даних MNIST $\theta_{seg} = 0.2$, для набору даних FashionMNIST $\theta_{seg} = 0.1$.
\qquad 4.9 Модифікувати маску сегментації відповідно до необхідного рівня помилок:
\begin{equation*}
M_{seg} =
\begin{cases}
M_{seg} \oplus K^{S_d \times S_d} &\text{ якщо } p_d \sim \mathcal{U}(0, 1) < P_d\\
M_{seg} \ominus K^{S_e \times S_e} &\text{ якщо } p_e \sim \mathcal{U}(0, 1) < P_e
\end{cases}
\end{equation*}
де $K^{S_d \times S_d}$ - матриця ядра $K^{S_e \times S_e}$ - матриця ядра ерозії.
\qquad 4.10 Розмістити модифіковану маску сегментації об'єкта на загальному зображенні маски сегментації:
\begin{equation*}
M[c_{fg}, i_f:i_f+s, j_f:j_f+s] = max \; \{ M[c_{fg}, i_f:i_f+s, j_f:j_f+s], M_{seg} \}
\end{equation*}
\qquad 4.11 Зберегти зображення $x_{bg}$ та маску $M$
5. Завершити генерацію
Таким чином, удосконалено метод генерації наборів даних із частково-помилковими анотаціями на основі параметричної моделі, що за рахунок що за рахунок генерації анотацій: частково-помилкових для тренувальної вибірки та достовірних - для тестової, дало можливість виконувати тестування впливу рівня помилок анотацій на роботу нейромережевих методів сегментації та класифікації.
Метод дозволяє отримати безліч наборів даних із схожими характеристиками та використовувати непараметричні статистичні методи (бутстрепінг) для оцінки моделей в умовах відсутності реальних тренувальних даних. Метод становить \textbf{другий пункт наукової новизни}.
В \textbf{третьому розділі} дисертаційної роботи розроблено модель нейронної мережі та метод багатозадачного навчання для одночасного підвищення достовірності класифікації та сегментації без зниження оперативності.
Для реалізації методів багатозадачного навчання, запропоновано удосконалити модель глибинних нейронної мережі з використанням архітектури енкодер-декодер (UNet, LinkNet) введенням додаткового декодера з шаром нормалізації. Таким чином, вдосконалена модель складається з енкодера та двох декодерів (для задач сегментації та класифікації відповідно).
Модель глибинної нейронної мережі представлено наступним виразом:
\begin{align}
\label{eqn:enc_features_abs}
& v_1, v_2 ... v_n = F_{encoder}(x, \theta_{enc}) \\
& M_{seg} = F_{seg}((v_1, v_2 ... v_n), \theta_{seg}) \\
& C_{cls} = F_{cls}((v_n), \theta_{cls})
\end{align}
де $\theta_{enc}$ - набір параметрів енкодера, $\theta_{seg}$ та $\theta_{cls}$ - набори параметрів декодерів сегментації та класифікації відповідно, $F_{seg}$ та $F_{cls}$ - нейронні мережі декодера сегментації та класифікації відповідно.
Запропонована модель складає \textbf{третій пункт наукової} новизни.
Завдяки введенню додаткового декодера класифікації з шаром нормалізації, з’явилася можливість реалізації методів багатозадачного навчання глибинних нейронних мереж та передбачення результатів.
Запропоновано метод багатозадачного навчання нейронних мереж в умовах частково-помилкових анотацій навчальних даних, який спирається на використання задач, пов'язаних з оригінальною. Показано, що для задачі сегментації існує близька задача класифікації, для якої анотації навчальних даних є якіснішими, ніж для вихідної задачі сегментації.
Метод багатозадачного навчання складається з двох етапів.
\paragraph{Етап 1: генерація похідної задачі}
В контексті багатозадачного навчання, задача класифікації зводиться до визначення набору сегментованих зразків (\textit{англ.} multiple instance learning) на планарному зображенні, замість маркування кожного з об'єктів для всіх класів. При цьому анотація вихідного планарного зображення являє собою множину з одним, чи декількома визначеними об'єктами.
Для кожної з задач (класифікація та сегментації) окремо обчислюється функція втрат. Для навчання декодера сегментації використовується обмежена зверху функція втрат $L_{seg} \rceil$, в той час як для декодера класифікації - звичайна $L_{cls}$, а загальне значення функції втрат визначається як середнє арифметичне між індивідуальними значеннями:
\begin{equation}
L_{total} = \frac{L_{seg} \rceil + L_{cls}}{2}
\end{equation}
Відповідно, загальний градієнт функції втрат буде також середнім арифметичним градієнтів складових частин $\nabla L_{seg} \rceil$ і $\nabla L_{cls}$:
\begin{equation}
\nabla L_{total} = \frac{\nabla L_{seg} \rceil + \nabla L_{cls}}{2}
\end{equation}
Таким чином, забезпечується наявність ненульових градієнтів для оновлення параметрів від хоча б однієї функції втрат для кожного вхідного прикладу.
\paragraph{Етап 2: Введення обмежень}
Для зменшення впливу помилкової частини анотацій запропоновано ввести обмеження другого роду (зверху) до функції втрат для задачі сегментації з менш якісними анотаціями даних. Це дозволило при навчанні на декількох задачах зменшити вплив градієнтів функції втрат на прикладах з помилковими анотаціями:
\begin{equation*}
\mathcal{L} \rceil = min(L, \theta)
\end{equation*}
де $\theta$ - поріг обмеження функції втрат.
Введені обмеження представлені наступним виразом:
\begin{equation*}
\mathcal{\nabla} min(L, \theta) =
\begin{cases}
1, & \text{якщо } \text{$L \in (-\infty, \theta]$}\\
0, & \text{якщо } \text{$L \in (\theta, \infty)$}
\end{cases}
\end{equation*}
Метод прогнозування містить наступні етапи:
\paragraph{Етап 1. Нормалізація}
Нехай $C_{cls} \in \mathcal{R}^{C}$ та $M_{seg} \in \mathcal{R}^{C \times H \times W}$- результати декодерів класифікації та сегментації відповідно, значення яких знаходяться на проміжку $(- \infty, + \infty)$ (логіти).
Для отримання результатів на проміжку $[0, 1]$ використовується логістична сигмоїдна функція активації:
\begin{equation*}
\sigma(x) = \frac{1}{1 + e^{-x}}
\end{equation*}
\paragraph{Етап 2. Ренормалізація}
Ренормалізація полягає у зважуванні карти сегментації за допомогою нормованих логітів класифікатора. Першим кроком є трансформація логітів сегментації та класифікації в некалібровані оцінки на проміжку $[0, 1]$:
\begin{align*}
\hat{M}_{seg} &= \sigma(M_{seg}) \\
\hat{C}_{cls} &= \sigma(C_{cls})
\end{align*}
Ці оцінки мають ті самі розмірності, що й оригінальні маска та класи, для зручності репрезентації операцій додано додаткові розмірності до вектору класів: $\hat{M}_{seg} \in \mathcal{R}^{C \times H \times W}$ та $\hat{C}_{cls} \in \mathcal{R}^{C \times 1 \times 1}$
Зважування карти сегментації відбувається за допомогою добутку Адамара між матрицями $\hat{M}_{seg}$ та $\hat{C}_{cls}$
\begin{equation*}
M_{refined} = \hat{M}_{seg} \circ \hat{C}_{cls}
\end{equation*}
В умовах відсутності розмітки для прикладів в задачах сегментації, можливе ітеративне уточнення цієї розмітки. Для цього обчислюється уточнена карта ознак класифікації шляхом добутку Адамара між нормованим за допомогою сигмоїдної функції виходом декодера сегментації та логітами класифікації:
\begin{equation}
M_{unsup} = \hat{M}_{seg} \circ C_{cls}
\end{equation}
Далі, для отримання результату класифікації виконується сумація елементів $M_{unsup}$ з нормалізацією за сумою елементів оригінальної ненормалізованої карти локалізації:
\begin{equation}
C_{unsup} = \frac{\sum_{h=0}^H \sum_{w=0}^{W} M_{unsup(h,w)}}{\sum_{h=0}^H \sum_{w=0}^{W} M_{seg(h,w)} + c}
\end{equation}
На основі запропонованих моделі нейронної мережі та методу її навчання, розроблено метод багатозадачного передбачення. Це дозволило підвищити достовірність класифікації та сегментації планарних зображень без зниження оперативності.
За допомогою моделі (\ref{eqn:abstract_model_Def}) протестовано запропоновані методи в різних умовах, виконаний аналіз внеску окремих компонентів та проведено аналіз стійкості запропонованого методу до різних рівнів помилок в анотаціях. В середньому, підвищення коефіцієнта Дайса відносно базової моделі склало 13\%.
Cформульовано \textbf{четвертий пункт наукової новизни}: удосконалено методи багатозадачного навчання та передбачення результатів на основі удосконаленої моделі згорткових нейронних мереж шляхом об’єднання класифікації та сегментації і введення обмеження другого роду (зверху) при обчисленні функції втрат сегментації, що дозволило підвищити достовірність сегментації та класифікації в задачах автоматизованого скринінгу.
У \textbf{четвертому розділі} розроблені інструментальні засоби, що реалізують запропоновані рішення. Проведено випробування розробленого методу в рамках експериментів як на синтетичних даних, що були згенеровані за допомогою запропонованої моделі, а також експерименти в реальних задачах: скринінг діабетичної ретинопатії, скринінг меланоми, та скринінг хмарних утворень.
Інструментальні засоби розроблено мовою програмування Python з використанням фреймворку автоматичного диференціювання PyTorch. На основі розроблених інструментальних засобів створено ефективні програмні модулі, які інтегровано з “хмарними” сервісами для вирішення ресурсомістких задач навчання нейронних мереж, що забезпечує високу обчислювальну потужність та швидкість прогнозування в задачах автоматизованого скринінгу.
Для задачі автоматизованого скринінгу при сегментації патернів організації хмар на супутникових знімках (в рамках проекту “Understanding Clouds from Satellite Images” на платформі для змагань з наук про дані Kaggle) було використано запропоновані моделі нейронних мереж, а також методи їх навчання та прогнозування результатів. Підвищення достовірності (міра Дайса) відносно базової моделі склало 3.9\%.
Для задачі автоматизованого скринінгу при класифікації стадій діабетичної ретинопатії (в рамках проекту “APTOS 2019 Blindness Detection” на платформі для змагань з наук про дані Kaggle) було використано запропоновані методи багатозадачного навчання та прогнозування результатів. Підвищення достовірності (F1-міра) відносно базової моделі склало 2.1\%.
Для задачі розпізнавання уражень шкіри при скринінгу меланоми (у рамках проекту SIIM-ISIC Melanoma Classification на платформі для змагань з наук про дані Kaggle) було використано запропонований локалізації важливих для класифікації ознак зображення. Використання запропонованого методу дозволило спростити процес контролю навчання нейронних мереж, що допомогло попередити перенавчання і підвищити достовірність класифікації на 3.5\%.
Розроблені в роботі методи та інструментальні засоби отримали впровадження в навчальний процес ОНПУ та програмний продукт SafetyRadar компанії VITech Lab, основним призначенням якого є скринінг наявності елементів засобів індивідуального захисту на людях в умовах будівельних майданчиків, або лікарень та лабораторій.
\keywords{аналіз зображень, модель даних, глибинні нейронні мережі, багатозадачне машинне навчання, сегментація, класифікація, функції втрат}
\end{abstract}
\newpage
\paragraph{Список публікацій здобувача за темою дисертації}
\begin{enumerate}
\item Tymchenko B., Neural network methods for planar image analysis in automated screening systems // Applied aspects information technology. 2021. Том 4, № 1. С. 71-79. (Index Copernicus)
\textit{https://aait.opu.ua/?fetch=articles\&with=info\&id=73}
\item Tymchenko B., Khvedchenya E., Marchenko P., Spodarets D. Classification of skin lesions using multi-task deep neural networks // Herald of advanced information technology. 2020. Том 3, № 3. С. 136–148. (Index Copernicus)
\textit{https://hait.opu.ua/?fetch=articles\&with=info\&id=62}
\item Tymchenko B., Marchenko P., Spodarets D. Segmentation of cloud organization patterns from satellite images using deep neural networks // Herald of advanced information technology. 2020. Том 3, № 1. С. 352-361 (Index Copernicus)
\textit{https://hait.opu.ua/\%EF\%BF\%BD\%EF\%BF\%BD\%EF\%BF\%BD\%EF\%BF\%BD\%EF\%BF\%BD\%EF\%BF\%BD\%EF\%BF\%BD\%EF\%BF\%BD\%C3\%A0/?fetch=articles\&with=info\&id=44}
\item Tymchenko B., Marchenko P., Spodarets D. Deep learning approach to diabetic retinopathy detection // Proceedings of the 9th International Conference on Pattern Recognition Applications and Methods, ICPRAM 2020, Valletta, Malta, February 22-24, 2020 / Ed. by Maria De Marsico, Gabriella Sanniti di Baja, Ana L. N. Fred. –– SCITEPRESS, 2020. C. 501–509. (Scopus)
\textit{https://www.scitepress.org/Papers/2020/89708/}
\item Tymchenko B., Hramatik A., Tulchiy H. Classifying mixed patterns of proteins in microscopic images with deep neural networks // Herald of advanced information technology. 2019. Том 2, № 1. С. 29-36 (Index Copernicus)
\textit{https://hait.opu.ua/?fetch=articles\&with=info\&id=18}
\item Tymchenko B., Antoshchuk S. Race from pixels: Evolving neural network controller for vision-based car driving // XVIII International Conference on Data Science and Intelligent Analysis of Information / Springer. 2018. С. 20–29. (Index Copernicus)
\textit{https://www.springerprofessional.de/en/race-from-pixels-evolving-neural-network-controller-for-vision-b/16003024}
\item Tymchenko B, Hramatik A., Tulchyi H., Antoshchuk S. Making money: Evolving neural network for stock prediction // VI українсько-нiмецька конференцiя «Iнформатика. Культура. Технiка». 2018. С. 34-35
\item Tymchenko B., Antoshchuk S. Evolution strategy for policy search in robotics // Сучаснi Iнформацiйнi Технологiї / Одеський Нацiональний Полiтехнiчний Унiверситет. 2018.
\textit{http://dspace.opu.ua/jspui/handle/123456789/8056}
\item Tymchenko B., Halchonkov O. Online lane detection algorithm for line scan camera // Сучаснi Iнформацiйнi Технологiї / Одеський Нацiональний Полiтехнiчний Унiверситет. 2017. C. 86-89
\textit{http://dspace.opu.ua/jspui/handle/123456789/3351}
\item Tymchenko B. Global position system sensor model for robotics simulator // Працi Одеського полiтехнiчного унiверситету. 2017. № 3. С. 88–93.
\textit{http://dspace.opu.ua/jspui/handle/123456789/7939}
\item Tymchenko B., Samodelok V., Putilina D., Galchonkov O. The robust control system for skid elimination in dynamic road environments // Електротехнiчнi та комп’ютернi системи. 2016. № 23. С. 107–112.
http://dspace.opu.ua/jspui/handle/123456789/1176
\item Komleva N., Cherneha K., Tymchenko B., Komlevoy O. Intellectual approach application for pulmonary diagnosis 2016 IEEE First International Conference on Data Stream Mining Processing (DSMP). 2016. C. 48–52.
\textit{https://ieeexplore.ieee.org/document/7583505/}
\item Cherneha K., Tymchenko B., Komleva N. Decision support system for automated medical diagnostics // Електротехнiчнi та комп’ютернi системи. 2016. № 23. С. 65–72. (Index Copernicus)
\textit{http://dspace.opu.ua/xmlui/handle/123456789/1140}
\end{enumerate}