castorini · mrkarezina · May 18, 2020 · May 18, 2020 · May 23, 2020 · May 23, 2020
diff --git a/datasets/bow_processors/reuters_processor.py b/datasets/bow_processors/reuters_processor.py
@@ -6,7 +6,7 @@
 class ReutersProcessor(BagOfWordsProcessor):
     NAME = 'Reuters'
     NUM_CLASSES = 90
-    VOCAB_SIZE = 36308
+    VOCAB_SIZE = 36311
     IS_MULTILABEL = True
 
     def get_train_examples(self, data_dir):

diff --git a/models/bert/__main__.py b/models/bert/__main__.py
@@ -136,5 +136,4 @@ def evaluate_split(model, processor, tokenizer, args, split='dev'):
         model = model.to(device)
 
     evaluate_split(model, processor, tokenizer, args, split='dev')
-    evaluate_split(model, processor, tokenizer, args, split='test')
-
+    evaluate_split(model, processor, tokenizer, args, split='test')
diff --git a/models/lr/__main__.py b/models/lr/__main__.py
@@ -58,7 +58,6 @@ def evaluate_split(model, vectorizer, processor, args, split='dev'):
     args.n_gpu = n_gpu
     args.num_labels = dataset_map[args.dataset].NUM_CLASSES
     args.is_multilabel = dataset_map[args.dataset].IS_MULTILABEL
-    args.vocab_size = min(args.max_vocab_size, dataset_map[args.dataset].VOCAB_SIZE)
 
     train_examples = None
     processor = dataset_map[args.dataset]()
@@ -71,6 +70,12 @@ def evaluate_split(model, vectorizer, processor, args, split='dev'):
         save_path = os.path.join(args.save_path, dataset_map[args.dataset].NAME)
         os.makedirs(save_path, exist_ok=True)
 
+    if train_examples:
+        train_features = vectorizer.fit_transform([x.text for x in train_examples])
+        dataset_map[args.dataset].VOCAB_SIZE = train_features.shape[1]
+
+    args.vocab_size = min(args.max_vocab_size, dataset_map[args.dataset].VOCAB_SIZE)
+
     model = LogisticRegression(args)
     model.to(device)