-
Notifications
You must be signed in to change notification settings - Fork 1
/
Copy pathevaluation.yaml
63 lines (59 loc) · 1.72 KB
/
evaluation.yaml
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
# Evaluation dataset parameters
dataset: "alexandrainst/coral::read_aloud"
eval_split_name: test
text_column: text
audio_column: audio
cache_dir: ".coral-cache"
# Filtering of the dataset
min_seconds_per_example: 0.5
max_seconds_per_example: 10
# Processing of the dataset
clean_text: true
lower_case: true
characters_to_keep: 'abcdefghijklmnopqrstuvwxyzæøå0123456789éü'
# Evaluation parameters
model_id: null
no_lm: false # This is only relevant for Wav2Vec 2.0 models
sampling_rate: 16_000
metrics:
- cer
- wer
batch_size: 16
bootstrap_samples: 1000
store_results: true
detailed: true # Only relevant if the evaluation dataset is CoRal
sub_dialect_to_dialect:
midtøstjysk: Østjysk
østjysk: Østjysk
amagermål: Københavnsk
nørrejysk: Nordjysk
vestjysk: Vestjysk
nordsjællandsk: Sjællandsk
sjællandsk: Sjællandsk
fynsk: Fynsk
bornholmsk: Bornholmsk
sønderjysk: Sønderjysk
vendsysselsk (m. hanherred og læsø): Nordjysk
østligt sønderjysk (m. als): Sønderjysk
nordvestsjællandsk: Sjællandsk
thybomål: Vestjysk
himmerlandsk: Nordjysk
djurslandsk (nord-, syddjurs m. nord- og sydsamsø, anholt): Østjysk
sydsjællandsk (sydligt sydsjællandsk): Sjællandsk
sydfynsk: Fynsk
morsingmål: Vestjysk
sydøstjysk: Østjysk
østsjællandsk: Sjællandsk
"syd for rigsgrænsen: mellemslesvisk, angelmål, fjoldemål": Sønderjysk
vestfynsk (nordvest-, sydvestfynsk): Fynsk
vestlig sønderjysk (m. mandø og rømø): Sønderjysk
sydvestjysk (m. fanø): Vestjysk
sallingmål: Vestjysk
nordfalstersk: Sydømål
langelandsk: Fynsk
sydvestsjællandsk: Sjællandsk
lollandsk: Sydømål
sydømål: Sydømål
ommersysselsk: Østjysk
sydfalstersk: Sydømål
fjandbomål: Vestjysk