Opsplitsen in typen woorden mogelijk? #4

berkes · 2020-03-27T09:38:20Z

I ben op zoek naar woordenlijsten die opgesplitst in, of gemarkeerd zijn as:

meervoudsvorm
werkwoord
bijwoord
bijvoeglijk naamwoord

Dit is voor een frasegenerator die automatische "ids" kan genereren. In het Engels zijn deze veel te vinden, de software om dat te doen (en de onderliggende willekeurigheid en wiskunde is uitgewerkt).

In het Engels kun je dan eenvoudig termen maken als:
BeautifulFungiOrSpaghetti, AmazinglyScaryToy, NeitherTrashNorRifle, WolvesComputeBadly, NicePlantsObjectSteadily, NewBombayRisesCarefully

Om hiervan Nederlands te maken, zijn woordenlijsten met per categorie, enkele tien- tot hondertallen woorden die als meervoud, werkwoord, bijwoord, naamwoord, plaatsnaam, eignenaam enz aangemerkt zijn.

Mogelijk is dat binnen dit project niet mogelijk, maar weet iemand mij te verwijzen naar een openbron waar dit wel zo is opgezet?

The text was updated successfully, but these errors were encountered:

PanderMusubi · 2020-03-30T13:55:44Z

Dat is voor gegenereerde namen van chatrooms in Jitsi! :-) Was ik zelf ook naar aan het kijken. Deze informatie hebben we pas later dit jaar om te publiceren. We zijn hier ook zelf mee bezig, ook voor een lijst van Nederlandse woorden voor gegenereerde wachtwoordzinnen (passphrases).

Als je handig bent met Python en je hier aan mee wil werken kan ik je wel op weg helpen. Stuur ons een bericht op ons algemene e-mailadres.

berkes · 2020-03-30T14:09:27Z

Ik ben handig met Ruby, Rust, JavaScript en een beetje Python. Ik zie echter geen emailadres.

Het directe doel is inderdaad jitsi, al gebruik ik dit nu ook al voor mijn wachtwoordmanager[1]. En heb ik jaren terug eens een scheldwoordengenerator ter hilariteit van mijn kleine nichtje geschreven[2]. En kan ik iets dergelijks goed voor onze servernamen gebruiken[3].

In alle gevallen is een database waarbij de woorden aangemerkt zijn op "categorie" een grote verbetering. Enkel willekeurige woorden uit /usr/share/dict/nederlands pakken werkt, maar maakt niet zulke mooie frasen.

[1] https://gist.github.com/berkes/3f428f7e229df545508786446a0e7447
[2] https://gist.github.com/berkes/2c383a865eecee42ee2f1868707714b8
[3] https://git.webschuur.com/berkes/naminator

PanderMusubi · 2020-03-30T14:35:16Z

Zie onze website voor e-mailadres.

PanderMusubi · 2020-04-28T18:58:11Z

In de maand mei heb ik hier een oplossing voor.

berkes · 2020-04-29T15:42:37Z

Als er iets is wat ik ondertussen al kan bijdragen, hoor ik het graag.

jeannegoossens · 2020-05-22T10:51:32Z

Oh heel interessant! Weet niet hoe ver dit inmiddels ontwikkeld is, maar mogelijk is het nuttig hiervoor wat NLP libraries te gebruiken? Bijvoorbeeld frog is erg goed in 'part-of-speech' tagging van Nederlandse zinnen (zie het voorbeeld in het kopje 'what does it do' op hun website).

Ik heb de python binding van frog gebruikt voor een project vorig jaar. Als ik hier iets kan bijdragen hoor ik het graag! Lijkt me erg interessant.

petervandenabeele · 2020-05-23T21:54:56Z

Ook geïnteresseerd om te weten. Concreet wil ik vooral een lijst van alle Nederlandse werkwoorden maken en dan voor die werkwoorden waar relevant dt-fouten gaan opsporen.

PanderMusubi · 2020-05-24T11:00:41Z

Dank voor de interesse. We gaan ook PoS-tags ondersteunen maar voorlopig druk met nieuwe versie spellingcontrole. Mocht je willen meehelpen, we zoeken mensen die maatwerk imports willen maken voor onze OpenThesaurus. Kunnen daar de maatwerk exports weer uit komen.

berkes · 2020-05-26T11:18:15Z

@PanderMusubi hoe wil je dit het liefst aangepakt zien?

Ik zie enkele mogelijkheden, misschien zijn er meer.

een branch met uiteindelijk een pull-request met daarin meerdere tekstbestanden met het begin van enkel woordenlijsten.
een branch met uiteindelijk een pull-request met daarin één CSV bestand waarin de woordenlijsten opgenomen zijn.
een van bovenstaande opties, maar dan met een fork en een pull-request.
een van bovenstaande opties maar dan in een nieuwe repo.
een wiki waarin we woordenlijsten beginnen op te stellen.

In alle drie gevallen is nodig om te vinden welke categorieën we mee beginnen. Ik stel voor:

meervoudsvorm
werkwoord
bijwoord
bijvoeglijk naamwoord

Graag aanvullen als ik cruciale categorieën mis.

Bij losse bestanden stel ik voor per categorie een bestand te maken. Bijvoorbeeld meervouden.txt, werkwoorden.txt, bijvoeglijk-naamwoorden.txt enzovoort. Hier zullen dubbele woorden ontstaan, bijvoorbeeld werken is een meervoudsvorm (de werken aan de Antwerpse ring) en een werkwoord (ik wil graag werken).

Bij keuze voor een CSV stel ik voor die categoriën aan te merken. Dus bijvoorbeeld:

woord, meervoudsvorm, werkwoord, bijwoord, bijvoeglijk-naamwoord
werpen, n, y, n, n
werken, y, y, n, n

Bij keuze voor een wiki, stel ik voor om per categorie een wiki-pagina te maken.

Een fork maakt dat we wel los van elkaar moeten werken en elkaars werk moeten samenvoegen op het eind. Dat vereist wat coordinatie. Eventueel kan ik een fork maken waar een selecte groep lees/schrijf/etc rechten heeft.
Een branch maakt dat alles hier blijft, maar vereist dat een selecte groep (tijdelijk) lees-schrijf enzovoort rechten krijgen in de opentaal-wordlist repo.
Een nieuwe repo maakt dat het wél onder de opentaal org kan, maar in een repo waar (tijdelijk) een groepje lees- en schrijfrechten krijgt.

Mijn voorkeur gaat uit naar losse bestanden omdat deze makkelijker te parsen zijn voor nu. Vereist geen "csv-gereedschap", maar enkel de standaard tools die ieder systeem al heeft.
Mijn voorkeur gaat verder uit naar een nieuwe repo onder OpenTaal. Dit kan ik echter niet opzetten.

PanderMusubi · 2020-05-27T19:36:25Z

Bedankt voor je input. Ik ben al redelijk ver maar ander werk (de spellingcontrole hier) en werk aan Nuspell gaat even voor. Volgende week kom ik hier op terug. Nog even geduld.

jeannegoossens · 2020-06-10T08:24:00Z

@PanderMusubi Heeft u hierover een update?

PanderMusubi · 2020-06-10T12:05:20Z

Komend weekend weer tijd voor en kom er dan op terug. Excuses voor de vertraging.

PanderMusubi · 2020-06-14T19:51:43Z

Alstublieft https://github.com/OpenTaal/opentaal-wordlist/tree/master/experimenteel

KeesCBakker · 2020-07-14T06:03:55Z

@PanderMusubi Awesome work! Ik mis een paar woorden op de meervoud-lijst.

Bron: https://onzetaal.nl/taaladvies/fotograven-fotografen/

astrosofen
digrafen
fonetografen
fonosofen
mesoscafen
tomografen
xenografen
xylografen

Verder mis ik nog de woorden:

oogpotloden
autobiografen
bathyscafen
oceanografen
theosofen
halfgoden
geweerschoten
wijnvaten
hoofdwegen
zeeslagen
handwerkslieden
speellieden
dagjesmensen
dipsauzen
voetencrèmes

KeesCBakker · 2020-07-14T06:10:25Z

Er zitten ook geen 's-woorden in, zoals:

auto's
kimono's
ski's
menu's
paraplu's
villa's
firma's
baby's
pony's
hobby's
mascara's

PanderMusubi · 2020-07-16T13:00:23Z

@KeesCBakker, goed gezien. Er staan momenteel alleen woorden in die niets anders dan de letters a t/m z bevatten. Dit is gedaan voor de toepassing in Jitsi om de naam en URL van een willekeurige chatroom te genereren. Later zullen we ook het ingefilterede bestand delen. Stay tuned.

pge-01 · 2022-02-09T10:44:24Z

@PanderMusubi

Het ligt (op dit moment) misschien niet in jullie scope, maar voor het gebruik van de woordenlijst in woordspellen zou het helpen als de voorgestelde categoriën worden uitgebreid met 'afkorting', zodat deze er uitgefilterd kunnen worden.

Bijvoorbeeld: wc, lts, vmbo, mavo, vwo.

Wc en lts zijn er uit te filteren (alleen medeklinkers), daarna wordt het lastig.

Leestekens (" ", "-", "'s") en dergelijke kunnen in zo'n bestand blijven en er later naar wens uitgefilterd worden.

Is dit voor u een hele opgave of zit het eigenlijk al in de database?

PanderMusubi · 2022-02-09T18:11:46Z

Er is ook nog een verschil tussen woorden als vmbo (waar de letters los worden uitgesproken) en mavo (dat als een woord word uitgesproken). Dit is op basis van de gebruikte letters er niet uit te filteren. We hebben deze informatie deels in een oud systeem. Dat moet worden overgezet en worden aangevuld. Als over is gezet geef ik hier wel een seintje.

pge-01 · 2022-02-09T21:46:31Z

Bedankt voor de snelle reactie.
Dat is inderdaad ook een issue. Afhankelijk van het speltype kunnen de afkortingen er ook uit. Dat is natuurlijk aan de spelmaker.

berkes mentioned this issue Mar 30, 2020

Random-words-room-generator in Dutch. vc4all/jitsi-hacks#2

Open

4 tasks

BdR76 mentioned this issue Apr 2, 2022

Lijst zonder alle werkwoordvervoegingen #6

Open

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Opsplitsen in typen woorden mogelijk? #4

Opsplitsen in typen woorden mogelijk? #4

berkes commented Mar 27, 2020 •

edited

Loading

PanderMusubi commented Mar 30, 2020

berkes commented Mar 30, 2020 •

edited

Loading

PanderMusubi commented Mar 30, 2020

PanderMusubi commented Apr 28, 2020

berkes commented Apr 29, 2020

jeannegoossens commented May 22, 2020

petervandenabeele commented May 23, 2020

PanderMusubi commented May 24, 2020

berkes commented May 26, 2020

PanderMusubi commented May 27, 2020 •

edited

Loading

jeannegoossens commented Jun 10, 2020

PanderMusubi commented Jun 10, 2020

PanderMusubi commented Jun 14, 2020

KeesCBakker commented Jul 14, 2020 •

edited

Loading

KeesCBakker commented Jul 14, 2020 •

edited

Loading

PanderMusubi commented Jul 16, 2020

pge-01 commented Feb 9, 2022

PanderMusubi commented Feb 9, 2022

pge-01 commented Feb 9, 2022

Opsplitsen in typen woorden mogelijk? #4

Opsplitsen in typen woorden mogelijk? #4

Comments

berkes commented Mar 27, 2020 • edited Loading

PanderMusubi commented Mar 30, 2020

berkes commented Mar 30, 2020 • edited Loading

PanderMusubi commented Mar 30, 2020

PanderMusubi commented Apr 28, 2020

berkes commented Apr 29, 2020

jeannegoossens commented May 22, 2020

petervandenabeele commented May 23, 2020

PanderMusubi commented May 24, 2020

berkes commented May 26, 2020

PanderMusubi commented May 27, 2020 • edited Loading

jeannegoossens commented Jun 10, 2020

PanderMusubi commented Jun 10, 2020

PanderMusubi commented Jun 14, 2020

KeesCBakker commented Jul 14, 2020 • edited Loading

KeesCBakker commented Jul 14, 2020 • edited Loading

PanderMusubi commented Jul 16, 2020

pge-01 commented Feb 9, 2022

PanderMusubi commented Feb 9, 2022

pge-01 commented Feb 9, 2022

berkes commented Mar 27, 2020 •

edited

Loading

berkes commented Mar 30, 2020 •

edited

Loading

PanderMusubi commented May 27, 2020 •

edited

Loading

KeesCBakker commented Jul 14, 2020 •

edited

Loading

KeesCBakker commented Jul 14, 2020 •

edited

Loading