Difference between Fraktur_5000000_0..traineddata and frak2021_.traineddata #5

Akashic101 · 2022-11-18T12:54:15Z

I own a copy of every newspaper from the Paderborner Volksblatt from 1849 and I was looking for a way to digitalize them using OCR with Tesseract. During my research I found this project, however looking at the models online provided by UB-Mannheim I found multiple versions with no clear way to show which one is the one I should use.

For reference, this is the test-image I use:

With the OCR-result using Fraktur_5000000_0.466.traineddata

Bermifhtes.

Am 17. Jan. fand in Berlin im Englifden Haufe die erfte
Generalverfammliung der berliner gemeinnübigen Baugefell fait
Gtatt. Eroÿ der megen der jebigen Borwabhiverfammiungen nidt
günftigen Seit, war Dod der Gual anjebnlid) gefüllt. Jadbem der
provijorije Borfisende Des Romités, LRandhaumeifter Goff:
manu, femme Sreude Dariber ausgefproden batte, bab das Bo,
trob der ungünitigen Scitumftände, glüctlid bis bicrher gedieben fei, -
ergriff der bisberige Syndifus der Gefelliduft, Rammergeridtss
Ajfetfor Dr, Gaebler, das Bot, um in Furgen Sügen Die
bisberige IBirfiamfeit des Somités angudeuten. Derfelbe nabm
bierbei Gcelegeubeit, wicderbolt die grobe, fittlige Sdee bervorgu:
beben, welhe dem Unternebmen gum Grande liegt, und Die dem:
fetben cine viel tiefere Bedeutung gibt, al8 der Name der Gejele
jaft bein erften “nfeben vermutben laffen follte. Siernad) mu
man in der That anncbmen, daÿ der Plan des Gangen gecignet
ift, eine grobe, bisber dunfle Tartie unfers fogialen Lebens aufsubellen
und erfreulicher su macen. Der ,fleine Mann“ fol moralij ges
fraftigt, und burd) Den ibm in Ausficbt geftellten Grundbefig, re.
durd) Die au ermartenden Rapitals-Abfindungen, gu der fiheren und
feften Haltuns emporgeboben werden, den ein veblid) und burd
rbeit erworbener Beñh immer gemübrt. Diefer fonfervative
Gbarafter des Statuts, im edelffen @inne des Bortes, stebt fi
Dur daÿ gange Gtatut bindurd, und verbreitet bei Das gefaumte
Unternebmen den Geift der Gittlifeit und der Goliditat, Dem
Redner erfdien c8 nidt gmeifelbaft, da wenn bei der IBabl der
Micther mit Borfidt und GOewiffenbaitigfeit verfabren, und auf
die Aufredrhaitung des Statuts mit Strenge gemadt merde, für
jeben Bewobner der Gefellfhañtsbäufer die Meinung eines ordent:
lien, folidben Gefbaftmannes ermedt merden mürde. ,C8 mu
dabin fommen”, fprad berfelbe, ,das jedem fleineren Genverb:
fletbenden bei ben Gabrifanten und Grofbändlern ein offener
Rrebdit su Gebote ftebt, fobald er nadmeift, daB er Mietber der
gemeinnübigen Baugelelihaft ift!* Sntereflant war e8 guglei,
aus dem Bortrage des Gerrn Gacbler gu erfabren, daÿ nidt
allein im übrigen Deutfhland, fondern aud in der belgiféen,
franaüfifhen und italientfhen Preffe das Statut der Gefellfaft
Die wärmfte Anerfennung gefuuden bat.

The model seems to have issues with the s that looks like an f in Fraktur and some other letters as well. Is there a specific model that would fix this issue? Or would I have to train my own model for this usecase?

stweil · 2022-11-18T13:46:03Z

Generally color or grayscale images are better for OCR than binarized ones like the one above (that was different with older OCR software). If you have grayscale scans, I suggest to retry OCR with those.

stweil · 2022-11-18T13:53:37Z

With model frak2021_1.069 I get this text:

Vermiſchtes.

Am 17. Jan. fand in Berlin im Engliſchen Hauſe die erſte
Generalverſammlung der berliner gemeinnützigen Baugeſellſchaft
Statt. Trotz der wegen der jetzigen Vorwahlverſammlungen nicht
günſtigen Zeit, war doch der Saal anſehnlich gefüllt. Nachdem der
proviſoriſche Vorſitzende des Komités, Landbaumeiſter Hoff⸗
mann, ſeine Frende darüber ausgeſprochen hatte, daß das Werk,
trotz der ungünstigen Zeitumſtände, glücklich bis hierher gedieben ſei,
ergriff der bisherige Syndikus der Geſellſchaft, Kammergerichts⸗
Aſſeſſor Pr. Gaehler, das Wort, um in kurzen Zügen die
bisherige Wirkſamkeit des Komites anzudeuten. Derſelbe nahm
hierbei Geleg euheit, wiederholt die große, ſittliche Idee hervorzu⸗
heben, welche dem Unternehmen zum Grunde liegt, und die dem⸗
ſelben eine viel tiefere Bedeutung gibt, als der Name der Geſell—
ſchaft beim erſten Anſehen vermuthen laſſen ſollte. Hiernach muß
man in der That annehmen, daß der Plan des Ganzen geeignet
iſt, eine große, bisher dunkle Partie unſers ſozialen Lebens aufzuhellen
und erfreulicher zu machen. Der „kleine Mann“ ſoll moraliſch ge—
kräftigt, und durch den ihm in Ausſicht geſtellten Grundbeſitz, reſp.
durch die zu erwartenden Kapitals-Abfindungen, zu der ſicheren und
feſten Haltung emporgehoben werden, den ein redlich und durch
Arbeit erworbener Beſitz immer gewährt. Dieſer konſervative
Charakter des Statuts, im edelſten Sinne des Wortes, zieht ſich
durch das ganze Statut hindurch, und verbreitet übet das geſaumte
Unternehmen den Geiſt der Sittlichkeit und der Solidität. Dem
Redner erſchien es nicht zweifelhaft, daß wenn bei der Wahl der
Miether mit Vorſicht und Gewiſſenhaftigkeit verfahren, und auf
die Aufrechthaltung des Statuts mit Strenge gewacht werde, für
jeden Bewohner der Geſellſchaftshäuſer die Meinung eines ordent⸗
lichen, ſoliden Geſchäftmannes erweckt werden würde. „Es muß
dahin kommen“, ſprach derſelbe, „das jedem kleineren Gewerb—
treibenden bei den Fabrikanten und Großhändlern ein offener
Kredit zu Gebote ſteht, ſobald er nachweiſt, daß er Miether der
gemeinnützigen Baugeſellſchaft iſt!“ Intereſſant war es zugleich,
aus dem Vortrage des Herrn Gaehler zu erfahren, daß nicht
allein im übrigen Deutſchland, ſondern auch in der belgiſchen,
franzöſiſchen und italieniſchen Preſſe das Statut der Geſellſchaſt
die wärmſte Anerkennung gefuuden hat. ö N

stweil · 2022-11-18T13:54:55Z

Generally we try to improve the models over time, so newer ones should ideally be better.

Akashic101 · 2022-11-18T13:56:19Z

How does the naming-scheme work for the models? How can I know which one is the newest?

stweil · 2022-11-18T14:05:05Z

frak2021_0.905_1587027_9141630.traineddata and frak2021_1.069_755545_3685930.traineddata for example are from the same training process. "0.905" and "1.069" are indicators for the accuracy. That value decreases during the training. The smallest value is the last one produced, but not necessarily the best one because the training can overfit. So usually one of the smaller ones is typically best, and you have to try which one fits best for your case.

GT4HistOCR/ and Fraktur_5000000/ are older training results, frak2021/ and frak2021_09 are newer ones.

See https://github.com/tesseract-ocr/tesstrain/wiki/Training-Fraktur and https://github.com/tesseract-ocr/tesstrain/wiki/GT4HistOCR for some details on the training process.

Akashic101 · 2022-11-18T14:51:17Z

Thank you for the explanation, this is a great source of information. frak2021-09.traineddata produced following text after I replaced every occurence of ſ with s:

Vermischtes.

Am 17. Jan. fand in Berlin im Englischen Hause die erste
Generalversammlung der berliner gemeinnützigen Baugesellschast
Statt. Trotz der wegen der jetzigen Vorwahlversammlungen nicht
günstigen Zeit, war doch der Saal ansehnlich gefüllt. Nachdem der
propisorische Vorsitzende des Komités, Landbau meister Hoff—
mann, seine Frende darüber ausgesprochen hatte, daß das Werk,
trotz der ungünstigen Zeitumstände, glücklich bis hierher gediehen sei,
ergriff der biäherige Syndikus der Gesellschaft, Kammer gerich is⸗
Assessor Br. Gaehler, das Wort, um in kurzen Zügen die
bisherige Wirksamkeit des Komit es anzudeuten. Derselbe nahm
hierbei Geleg euheit, wiederholt die große, sittliche Idee hervorzu⸗
heben, welche dem Unternehmen zum Grunde liegt, und die dem—
selben eine viel tiefere Bedeutung gibt, als der Name der Gesell—
schaft beim ersten Ansehen vermuthen lassen sollte, Hiernach muß
man in der That annehmen, daß der Plan des Ganzen geeignet
ist, eine große, bisher dunkle Partie unsers sozialen Lebens aufßuhellen
und erfreulicher zu machen. Der „kleine Mann“ soll moralisch ge⸗
kräftigt, und durch den ihm in Aussicht gestellten Grundbesitz, resp.
durch die zu erwartenden Kapitals-Abfindungen, zu der sicheren und
festen Haltung emporgehoben werden, den ein redlich und durch
Arbeit erworbener Besiß immer gewährt. Dieser konservative
Charakter des Statuts, im edelsten Sinne des Wortes, zieht sich
durch das ganze Statut hindurch, und verbreitet über das gesaumte
Unternehmen den Geist der Sittlichkeit und der Solidität. Dem
Redner erschien es nicht zweifelhaft, daß wenn bei der Wahl der
Miether mit Vorsicht und Gewissenhaftigkeit verfahren, und auf
die Aufrechthaltung des Statuts mit Strenge gewacht werde, für
jeden Bewohner der Gesellschaftshäuser die Meinung eines ordent⸗
lichen, soliden Geschäftmannes erweckt werden würde. „Es muß
dahin kommen“, sprach derselbe, „das jedem kleineren Gewerb—
treibenden bei den Fabrikanten und Großhändlern ein offener
Kredit zu Gebote steht, sobald er nachweist, daß er Miether der
gemeinnützigen Baugesellschaft ist!“ Interessant war es zugleich,
aus dem Vortrage des Herrn Gaehler zu erfahren, daß nicht
allein im übrigen Deutschland, sondern auch in der belgischen,
französischen und italienischen Presse das Statut der Gesellschast
die waͤrmste Anerkennung gefunden hat.

This results looks good enough that I would be able to use it, thank you very much for your help

stweil · 2022-11-18T14:58:25Z

frak2021_1.069 might be even a little bit better. This is a case where the newer training did not improve the model.

Akashic101 · 2022-11-18T15:04:54Z

It did work slightly better, fixing previous mistakes but introducing a few newer ones as well. Here is the new text:

Vermischtes.

Am 17. Jan. fand in Berlin im Englischen Hause die erste
Generalversammlung der berliner gemeinnützigen Baugesellschaft
Statt. Trotz der wegen der jetzigen Vorwahlversammlungen nicht
günstigen Zeit, war doch der Saal ansehnlich gefüllt. Nachdem der
provisorische Vorsitzende des Komités, Landbaumeister Hoff⸗
mann, seine Frende darüber ausgesprochen hatte, daß das Wetk,
trotz der ungünstigen Zeitumstände, glücklich bis hierher gedieben sei,
ergriff der bisherige Syndikus der Gesellschaft, Kammergerichts⸗
Assessor Pr. Gaehler, das Wort, um in kurzen Zügen die
bisherige Wirksamkeit des Komites anzudeuten. Derselbe nahm
hierbei Geleg euheit, wiederholt die große, sittliche Idee hervorzu⸗
heben, welche dem Unternehmen zum Grunde liegt, und die dem⸗
selben eine viel tiefere Bedeutung gibt, als der Name der Gesell—
schaft beim ersten Ansehen vermuthen lassen sollte. Hiernach muß
man in der That annehmen, daß der Plan des Ganzen geeignet
ist, eine große, bisher dunkle Partie unsers sozialen Lebens aufzuhellen
und erfreulicher zu machen. Der „kleine Mann“ soll moralisch ge—
kräftigt, und durch den ihm in Aussicht gestellten Grundbesitz, resp.
durch die zu erwartenden Kapitals-Abfindungen, zu der sicheren und
festen Haltung emporgehoben werden, den ein redlich und durch
Arbeit erworbener Besitz immer gewährt. Dieser konservative
Charakter des Statuts, im edelsten Sinne des Wortes, zieht sich
durch das ganze Statut hindurch, und verbreitet übet das gesaumte
Unternehmen den Geist der Sittlichkeit und der Solidität. Dem
Redner erschien es nicht zweifelhaft, daß wenn bei der Wahl der
Miether mit Vorsicht und Gewissenhaftigkeit verfahren, und auf
die Aufrechthaltung des Statuts mit Strenge gewacht werde, für
jeden Bewohner der Gesellschaftshäuser die Meinung eines ordent⸗
lichen, soliden Geschäftmannes erweckt werden würde. „Es muß
dahin kommen“, sprach derselbe, „das jedem kleineren Gewerb—
treibenden bei den Fabrikanten und Großhaͤndlern ein offener
Kredit zu Gebote steht, sobald er nachweist, daß er Miether der
gemeinnützigen Baugesellschaft ist!“ Interessant war es zugleich,
aus dem Vortrage des Herrn Gaehler zu erfahren, daß nicht
allein im übrigen Deutschland, sondern auch in der belgischen,
französischen und italienischen Presse das Statut der Gesellschast
die wärmste Anerkennung gefuuden hat.

This new text has 17 differences, 10 of those were previously wrong and seem to be fixed now, so I would say it is indeed better :D I will continue to test other models and see if any improve the text even more

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Difference between Fraktur_5000000_0..traineddata and frak2021_.traineddata #5

Difference between Fraktur_5000000_0..traineddata and frak2021_.traineddata #5

Akashic101 commented Nov 18, 2022

stweil commented Nov 18, 2022

stweil commented Nov 18, 2022

stweil commented Nov 18, 2022

Akashic101 commented Nov 18, 2022

stweil commented Nov 18, 2022 •

edited

Loading

Akashic101 commented Nov 18, 2022 •

edited

Loading

stweil commented Nov 18, 2022

Akashic101 commented Nov 18, 2022

Difference between Fraktur_5000000_0.*.traineddata and frak2021_*.traineddata #5

Difference between Fraktur_5000000_0.*.traineddata and frak2021_*.traineddata #5

Comments

Akashic101 commented Nov 18, 2022

stweil commented Nov 18, 2022

stweil commented Nov 18, 2022

stweil commented Nov 18, 2022

Akashic101 commented Nov 18, 2022

stweil commented Nov 18, 2022 • edited Loading

Akashic101 commented Nov 18, 2022 • edited Loading

stweil commented Nov 18, 2022

Akashic101 commented Nov 18, 2022

Difference between Fraktur_5000000_0..traineddata and frak2021_.traineddata #5

Difference between Fraktur_5000000_0..traineddata and frak2021_.traineddata #5

stweil commented Nov 18, 2022 •

edited

Loading

Akashic101 commented Nov 18, 2022 •

edited

Loading