-
-
Notifications
You must be signed in to change notification settings - Fork 23
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Opsplitsen in typen woorden mogelijk? #4
Comments
Dat is voor gegenereerde namen van chatrooms in Jitsi! :-) Was ik zelf ook naar aan het kijken. Deze informatie hebben we pas later dit jaar om te publiceren. We zijn hier ook zelf mee bezig, ook voor een lijst van Nederlandse woorden voor gegenereerde wachtwoordzinnen (passphrases). Als je handig bent met Python en je hier aan mee wil werken kan ik je wel op weg helpen. Stuur ons een bericht op ons algemene e-mailadres. |
Ik ben handig met Ruby, Rust, JavaScript en een beetje Python. Ik zie echter geen emailadres. Het directe doel is inderdaad jitsi, al gebruik ik dit nu ook al voor mijn wachtwoordmanager[1]. En heb ik jaren terug eens een scheldwoordengenerator ter hilariteit van mijn kleine nichtje geschreven[2]. En kan ik iets dergelijks goed voor onze servernamen gebruiken[3]. In alle gevallen is een database waarbij de woorden aangemerkt zijn op "categorie" een grote verbetering. Enkel willekeurige woorden uit [1] https://gist.github.com/berkes/3f428f7e229df545508786446a0e7447 |
Zie onze website voor e-mailadres. |
In de maand mei heb ik hier een oplossing voor. |
Als er iets is wat ik ondertussen al kan bijdragen, hoor ik het graag. |
Oh heel interessant! Weet niet hoe ver dit inmiddels ontwikkeld is, maar mogelijk is het nuttig hiervoor wat NLP libraries te gebruiken? Bijvoorbeeld frog is erg goed in 'part-of-speech' tagging van Nederlandse zinnen (zie het voorbeeld in het kopje 'what does it do' op hun website). Ik heb de python binding van frog gebruikt voor een project vorig jaar. Als ik hier iets kan bijdragen hoor ik het graag! Lijkt me erg interessant. |
Ook geïnteresseerd om te weten. Concreet wil ik vooral een lijst van alle Nederlandse werkwoorden maken en dan voor die werkwoorden waar relevant dt-fouten gaan opsporen. |
Dank voor de interesse. We gaan ook PoS-tags ondersteunen maar voorlopig druk met nieuwe versie spellingcontrole. Mocht je willen meehelpen, we zoeken mensen die maatwerk imports willen maken voor onze OpenThesaurus. Kunnen daar de maatwerk exports weer uit komen. |
@PanderMusubi hoe wil je dit het liefst aangepakt zien? Ik zie enkele mogelijkheden, misschien zijn er meer.
In alle drie gevallen is nodig om te vinden welke categorieën we mee beginnen. Ik stel voor:
Graag aanvullen als ik cruciale categorieën mis. Bij losse bestanden stel ik voor per categorie een bestand te maken. Bijvoorbeeld Bij keuze voor een CSV stel ik voor die categoriën aan te merken. Dus bijvoorbeeld:
Bij keuze voor een wiki, stel ik voor om per categorie een wiki-pagina te maken. Een fork maakt dat we wel los van elkaar moeten werken en elkaars werk moeten samenvoegen op het eind. Dat vereist wat coordinatie. Eventueel kan ik een fork maken waar een selecte groep lees/schrijf/etc rechten heeft. Mijn voorkeur gaat uit naar losse bestanden omdat deze makkelijker te parsen zijn voor nu. Vereist geen "csv-gereedschap", maar enkel de standaard tools die ieder systeem al heeft. |
Bedankt voor je input. Ik ben al redelijk ver maar ander werk (de spellingcontrole hier) en werk aan Nuspell gaat even voor. Volgende week kom ik hier op terug. Nog even geduld. |
@PanderMusubi Heeft u hierover een update? |
Komend weekend weer tijd voor en kom er dan op terug. Excuses voor de vertraging. |
@PanderMusubi Awesome work! Ik mis een paar woorden op de meervoud-lijst. Bron: https://onzetaal.nl/taaladvies/fotograven-fotografen/
Verder mis ik nog de woorden:
|
Er zitten ook geen
|
@KeesCBakker, goed gezien. Er staan momenteel alleen woorden in die niets anders dan de letters |
Het ligt (op dit moment) misschien niet in jullie scope, maar voor het gebruik van de woordenlijst in woordspellen zou het helpen als de voorgestelde categoriën worden uitgebreid met 'afkorting', zodat deze er uitgefilterd kunnen worden. Bijvoorbeeld: wc, lts, vmbo, mavo, vwo. Wc en lts zijn er uit te filteren (alleen medeklinkers), daarna wordt het lastig. Leestekens (" ", "-", "'s") en dergelijke kunnen in zo'n bestand blijven en er later naar wens uitgefilterd worden. Is dit voor u een hele opgave of zit het eigenlijk al in de database? |
Er is ook nog een verschil tussen woorden als |
Bedankt voor de snelle reactie. |
I ben op zoek naar woordenlijsten die opgesplitst in, of gemarkeerd zijn as:
Dit is voor een frasegenerator die automatische "ids" kan genereren. In het Engels zijn deze veel te vinden, de software om dat te doen (en de onderliggende willekeurigheid en wiskunde is uitgewerkt).
In het Engels kun je dan eenvoudig termen maken als:
BeautifulFungiOrSpaghetti
,AmazinglyScaryToy
,NeitherTrashNorRifle
,WolvesComputeBadly
,NicePlantsObjectSteadily
,NewBombayRisesCarefully
Om hiervan Nederlands te maken, zijn woordenlijsten met per categorie, enkele tien- tot hondertallen woorden die als meervoud, werkwoord, bijwoord, naamwoord, plaatsnaam, eignenaam enz aangemerkt zijn.
Mogelijk is dat binnen dit project niet mogelijk, maar weet iemand mij te verwijzen naar een openbron waar dit wel zo is opgezet?
The text was updated successfully, but these errors were encountered: