-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy path002_drugi_dio_uvod.tex
97 lines (81 loc) · 8.66 KB
/
002_drugi_dio_uvod.tex
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
Ispitivanje statističke značajnosti rezultata često se obavlja u kontekstu strojnog učenja. Izrada novih tehnika i metoda strojnog učenja zahtjeva statističku analizu i dokazivanje.
\begin{table}
\centering
\begin{tabular}{|c||c|c|c|c|c|c|c|c|c|c|}
\hline
Riječ & lopata & život & ja & ljudi & cvijet & ili & svijet & aha & ritam & latica \\ \hline
Ispravno & T & F & F & T & F & F & T & T & T & F \\ \hline
Dobiveno & T & T & T & F & F & F & T & T & T & T \\ \hline
\end{tabular}
\caption{Rezultat klasifikatora}
\label{tab:usporedba_predict_gold}
\end{table}
\section{Algoritmi učenja u strojnom učenju}
U ovom odjeljku objasnit ćemo pojmove vezane za strojno učenje korištene u ostatku rada. Postoji mnogo referenci za upoznavanje s područjem strojnog učenja, kao što su \citep{anderson1986machine} i \citep{bishop2006pattern}. Kako se strojno učenje primjenjuje u sve više raznovrsnih područja, tako postoji i literatura za upoznavanje sa strojnim učenjem, kao što je \citep{baldi2001bioinformatics}.
Algoritmima učenja izgrađujemo klasifikatore, kojima automatski kategoriziramo stvari: klasifikacija novčanica u aparatima za kavu, klasifikacija otiska prstiju, prepoznavanje prometnih znakova \dots
Razlika između algoritma učenja i klasifikatora je u tome što je klasifikator istrenirani proizvod bez mogućnosti daljnjih modifikacija ponašanja. Algoritam učenja može proizvesti jedan ili više klasfikatora. Ponekad se uspoređuju algoritmi učenja, a ponekad klasifikatori, ovisno o primjeni. Primjerice, potrebno je izgraditi stroj za automatsko prepoznavanje vrsta riječi u obradi prirodnog teksta: moguće je pokušati uporabiti različite algoritme učenja za dobivanje klasifikatora. Moguće je uspoređivati rezultate algoritama učenja, ali i samih klasifikatora. U kontekstu učenja kod čovjeka, moguće je uspoređivati tehnike učenja, primjerice tzv.\,kampanjski način učenja s redovitim učenjem, što bi odgovaralo usporedbi algoritama učenja. Uspoređivanje rezultata studenata na ispitima odgovara usporedbi klasifikatora.
\section{Mjerenje performansi modela strojnog učenja}
Primjerice, radi se na automatskom prepoznavanju ključnih riječi u tekstu temeljem algoritama učenja baziranih na strojnom učenju. Algoritmi proizvode klasifikatore koji obavljaju prepoznavanje ključnih riječi. Cilj istraživanja je usporedba i verifikacija performansi dvaju klasifikatora ključnih riječi, u svrhu pronalska optimalnog klasifikatora. Ulaz klasifikatoru je dokument, a izlaz klasifikatora je niz ključnih riječi. Postoje referentne vrijednosti (engl.\,\textit{gold standard}), koje se smatraju ispravnim ključnim riječima pojedinog dokumenta s kojima se uspoređuje rezultat dobiven klasifikatorom. U tablici \ref{tab:usporedba_predict_gold} dan je primjer ispitivanja rezultata klasifikatora. Jedan stupac tablice govori kako je klasificirana riječ u odnosu na točan rezultat (\textit{T} je točno, \textit{N} netočno). Iz navedene tablice možemo vidjeti kako su moguće četiri kombinacije podudaranja izlaza klasifikatora i stvarne vrijednosti.
Popisivanje svih rezultata može biti nepregledno, pogotovo kod većeg broja testnih primjera, stoga se koriste tablice kontigencije \engl{contigency tables}. Njima se dobivaju agregirane vrijednosti ispitivanja klasifikatora, a daju pregled koliko ima
\begin{itemize}
\item ispravno klasificiranih pozitivnih primjera (engl.\,\textit{true positives}) --TP, \item ispravno klasificiranih negativnih primjera (engl.\,\textit{true negatives}) -- TN,
\item pozitivnih primjera pogrešno svrstanih u negativne (engl.\,\textit{false positives}) -- FP i
\item negativnih primjera pogrešno svrstanih u pozitivne (engl.\,\textit{false negatives}) -- FN.
\end{itemize} Upravo su ovo sve četiri moguće kombinacije ispitivanja rezultata klasifikatora. Općenit oblik tablice kontigencije prikazan je na tablici \ref{tab:contigency}. Tablicu kontigencije za primjer iz tablice \ref{tab:usporedba_predict_gold} moguće je vidjeti u tablici \ref{tab:contigency_example}. Ovakav oblik tablica kontigencija često se koristi u strojnom učenju, kao u radu \cite{hall1999correlation}.
\begin{table}
\parbox{.45\linewidth}{
\centering
\begin{tabular}{cc|c|c|}
\cline{3-4}
& & \multicolumn{2}{ c| }{Ispravno} \\
\cline{3-4} & & T & F \\
\cline{1-4} \multicolumn{1}{ |c| }{\multirow{2}{*}{Dobiveno} } & \multicolumn{1}{ |c| }{T} & TP & FP \\
\cline{2-4} \multicolumn{1}{ |c }{} & \multicolumn{1}{ |c| }{F} & FN & TN \\
\cline{1-4}
\end{tabular}
\caption{Oblik tablice kontigencije}
\label{tab:contigency}
}
\parbox{.45\linewidth}{
\centering
\begin{tabular}{cc|c|c|}
\cline{3-4}
& & \multicolumn{2}{ c| }{Ispravno} \\
\cline{3-4} & & T & F \\
\cline{1-4} \multicolumn{1}{ |c| }{\multirow{2}{*}{Dobiveno} } & \multicolumn{1}{ |c| }{T} & 4 & 3 \\
\cline{2-4} \multicolumn{1}{ |c }{} & \multicolumn{1}{ |c| }{F} & 1 & 2 \\
\cline{1-4}
\end{tabular}
\caption{Primjer tablice kontigencije}
\label{tab:contigency_example}
}
\end{table}
Tablica kontigencije predstavlja polaznu točku nekim naprednijim mjerama performansi, a najčešća korištena mjera je preciznost (engl.\,\textit{accuracy} -- \textit{ACC}), računa se
\begin{equation}
ACC = \frac{TP + TN}{TP + TN + FP + FN}
\end{equation}.
U praksi, koriste se i mnoga druga mjerila izvedbe klasifikatora, mnoga opisana u radu \cite{powers2011evaluation}. Mjere često ovise i o prirodi samog zadatka. Primjerice, strojni prevoditelji rangiraju se prema \textit{BLEU} rezultatu, opisanom u \citep{papineni2002bleu}. U ovome radu spominjat će se neke druge mjere, no neće se eksplicitno objašnjavati.
\section{Metodologija ispitivanja značajnosti}
Potraga za novim, optimalnim algoritmom učenja za zadatak strojnog učenja često uključuje izgradnju više modela s različitim algoritmima i promatranje ponašanja tih modela nad različitim skupovima podataka. Ciljevi takvih istraživanja mogu biti: kako konstruirati klasifikator koji u prosjeku radi vrlo dobro nad svim dostupnim skupovima podataka, koji klasifikator pruža najbolje rezultate nad malim (specifičnim) skupovima podataka, kada koristiti algoritme učenja, a kada klasifikator i sl. Ukoliko se radi o novom zadatku, ne postoji referentni sustav s kojim bi se novoizgrađeni sustav mogao usporediti. U slučaju napadanja poznatog, donekle rješenog problema potrebno je usporediti perfomanse novodobivenih postupaka s trenutno najboljim. Također, moguće je pretpostaviti da je na raspolaganju jedan ili više skupova podataka. Ti skupovi podataka možda dolaze iz različite domene. Na primjer, izdvajanje ključnih riječi iz skupova podataka $S_1$ i $S_2$, gdje je $S_1$ prikupljen uglavnom iz novinskih članaka, dok se do $S_2$ došlo sabiranjem proznih djela.
Najjednostavniji (generički) slučaj statističkog dokaza izrade klasifikatora zahtjeva:
\begin{description}
\item[istraživačku hipotezu,] \hfill \\
Novi klasifikator $C_A$ je precizniji od trenutno općeprihvaćenog klasifikatora $C_B$. Viši iznos vrijednosti znači da klasifikator radi bolje (točnije).
\item[nultu hipotezu $H_0$,] \hfill \\
Ne postoji razlika u performansama između klasifikatora \textit{A} i \textit{B}.
\item[skup podataka,] \hfill \\
Postoji jedinstven skup podataka $S$ \engl{dataset} -- populacija. Moguće je uzimati uzorke $x$ iz populacije.
\item[način mjerenja] \hfill \\
$f_A$ je rezultat klasifikatora $C_A$, $f_B$ je rezultat klasifikatora $C_B$. $d_{A,B}=f_A-f_B$ je razlika u perfomansama između klasifikatora $C_A$ i $C_B$
\end{description}
Provođenje testiranja može se odvijati na čitavoj populaciji, ili se može uzorkovati nad populacijom i ispitivati ponašanje $C_A$ i $C_B$ na uzorcima $x$ veličine $n$ iz populacije $S$. U slučaju uzorkovanja, testiranje hipoteze procjenjuje kolika je vjerojatnost:
\begin{equation}
\label{eq:vjerojatnost_nulte_hipoteze}
p(d_{C_A,C_B}(X) > d_{C_A,C_B}(x) | H_{0}) < \alpha
\end{equation}
gdje je \textit{X} slučajna varijabla mogućih dobivenih uzoraka veličine \textit{n}, a $d_{C_A,C_B}(x)$ promatrana (konstantna) vrijednost. Ako vrijedi \ref{eq:vjerojatnost_nulte_hipoteze} za odabranu vrijednost $\alpha$ (najčešće $0.05$) onda se odbacuje nulta hipoteza. Dva su osnovna načina izračuna $p$-vrijednosti:
\begin{itemize}
\item izravnim izračunom,
\item procjenom.
\end{itemize}
U idućem poglavlju bit će govora o oba načina. Prvo će se pokazati na primjerima iz strojnog učenja kako je moguće izračunati $p$-vrijednost s obzirom na različite okolnosti eksperimenta. Aproksimacija $p$-vrijednosti koristi se kao alternativa u uvjetima kada nije moguće analitički izračunati $p$-vrijednost. Na čitatelju ostaje prepoznati uvjete vlastitog istraživanja te se prema tome odlučiti za jedan od ova dva načina.