- Notifications
You must be signed in to change notification settings - Fork23
🇳🇱🇧🇪🇸🇷 Dutch word list by OpenTaal
License
OpenTaal/opentaal-wordlist
Folders and files
Name | Name | Last commit message | Last commit date | |
---|---|---|---|---|
Repository files navigation
for English, please see below
Dit is de Nederlandse woordenlijst vanStichting OpenTaal. Mits aan volledigebronvermelding wordt gedaan en de licenties worden gerespecteerd, is deze lijstvrij te gebruiken. De exacte voorwaarden zijn te vinden in het bestandLICENSE.txt. Lees deze goed door.
Deze woordenlijst is samengesteld door ontelbare individuele bijdragen,specifieke delen uit bronnen zonder auteursrecht en intensieve eindredactie. Dewoordenlijst heeft van deTaalunie hetKeurmerk Spellinggekregen. Dit betekent dat de woorden in deze woordenlijst voldoen aan deofficiële spelling.
Het Keurmerk Spelling voor deze woordenlijst is van medio 2017, 2018. Sindseind 2018 wordt dit keurmerk niet meer uitgegeven en zal bij volgende versiesvan deze woordenlijst niet meer van toepassing zijn.
De woordenlijst bestaat, naast de documentatie en licentie, uit de volgendebestanden:
wordlist.txt
datetimeversion.txt
Deze zijn aangevuld met een aantal hulpbestanden:
elements/basiswoorden-gekeurd.txt
elements/basiswoorden-ongekeurd.txt
elements/flexies-ongekeurd.txt
elements/wordparts.tsv
elements/corrections.tsv
elements/romeinse-cijfers.txt
elements/wordlist-ascii.txt
elements/wordlist-non-ascii.txt
De complete woordenlijst is te vinden in hetUTF-8 Unicode tekstbestand genaamdwordlist.txt. Elke regel bevat een apart woord en in totaal zijndat er meer dan 400.000 woorden. Let op, een woord kan een spatie bevatten endat komt meer dan 4.000 keer voor. Alle woorden zijn alfabetisch gesorteerd metsort
. Dit bestand issamengesteld uit de volgende drie bestanden.
De datum, de tijd en het versienummer van al deze bestanden is te vinden indatetimeversion.txt.
De door de Taalunie gekeurdebasiswoorden zoalstafel
zijn te vinden inelements/basiswoorden-gekeurd.txt. Dit zijner ongeveer 200.000 stuks. Ongekeurde basiswoorden, eigennamen zoalsJansen
,toponiemen zoalsSchin op Geul
en samenstellingen met een eigennaam zoalsFacebookgroep
zijn in het bestandelements/basiswoorden-ongekeurd.txt tevinden. Dit zijn er ongeveer 41.000 stuks. In het bestandelements/flexies-ongekeurd.txt zijn erongeveer 170.000 ongekeurdeflexies zoalsstoeltjes
tevinden.
Let op dat deze verdeling in oude versies van deze woordenlijst niet heel striktwas. Daardoor kunnen in de gekeurde basiswoorden kunnen ook eigennamen enflexies zitten. Dit gaat in een volgendemajor release worden opgelost omdater dan vanaf een nieuw databasesysteem wordt gewerkt. Bijkomend voordeel is dater dan ook informatie over woordtypen beschikbaar komt. Tot die tijd is het evenbehelpen met deze verdeling.
Er is een apart bestand met delen van woorden die een spatie bevatten. Dit iseenTSV-bestand met in detweede kolom een or meer woorden waar dit deel vandaag komt. Indien dat meerderewoorden zijn, zijn die gescheiden door een puntkomma. Dit bestand heetelements/wordparts.tsv en bevat 1.000 delen vanwoorden die vaak gebruikt worden. Een voorbeeld ishoc
vanad hoc;post hoc
.Let op, in dit bestand staan ook woorden in die niet in de woordenlijst staanmaar in verkorte vorm worden gebruikt. Voorbeelden zijnvoor-
uitvoor- en nadelen
en-zus
intweelingbroer of -zus
.
Ook is er een bestand met 16.000 fout gespelde woorden. Dit iselements/corrections.tsv en is ook in TSV-formaat.In de tweede kolom staan nul of meerdere correcties, gescheiden met eenpuntkomma. De meest relevante correctie staat dan vooraan.
Verder staan in het bestandelements/romeinse-cijfers.txt 4.000 Romeinsecijfers. Een versie van de woordenlijst inASCII is te vinden inelements/wordlist-ascii.txt. Dit is geenextended ASCII, dus bevat deze lijst geen woorden meté
,ï
, etc. Let op:deze lijst heeft geen woorden waar accenten van letters zijn verwijderd! Hetwoordcafé
zit niet in deze lijst maarcafe
dus ook niet. Neemcontact op als het wenselijk is woorden van accenten te strippen en op te nemen.
Woorden met niet-ASCII-karakters zijn te vinden inelements/wordlist-non-ascii.txt. Neem contactop als ook een woordenlijst in exteded ASCII gewenst is.
Het is mogelijk om in een volgende versie meerdere bestanden op te nemen,bijvoorbeeld bestanden met woorden:
- die t.o.v. een vorige versie niet meer in de lijst voorkomen
- die een flexie zijn met bijbehorende basisvorm
- die een basiswoord zijn met bijbehorende flexies
- die alternatieven van andere woorden zijn
- die verouderd of archaïsch zijn
- die om verwarring te voorkomen niet geschikt zijn voor spellingcontrole
Zie voorlopig de directoryexperimenteel
. Het is ook mogelijk ommaatwerkbestanden in een versie op te nemen.
In het huidige tijdperk van Unicode is deze woordenlijst voorzien van karaktersdieniet deel uitmaken van (extended) ASCII. Voorbeelden hiervanzijn cijfers in super- en subscript zoals een₂
inCO₂-emissie
en³
inm³
. Let op, veelvoorkomende karakters zoalsé
,ë
enï
maken wel deel uitvan extended ASCII en Unicode maar niet van de basis ASCII.
Een ander project van OpenTaal biedt histogrammen van de letterfrequenties vande woordenlijst. Wanneer deze is bijgewerkt zal er hier een link naar wordengemaakt.
Karakters die worden gebruikt zijn:
a
t/mz
enå
ç
ñ
A
t/mZ
enÅ
ä
ë
ï
ö
ü
enâ
ê
î
ô
û
á
é
í
ó
ú
enà
è
0
t/m9
en²
³
₂
'
.
-
/
+
&
@
€
Besturingssystemen bieden softwarepakketten die deze woordenlijst installeren enautomatisch updaten. Voorbeelden hiervan zijn:
Na installatie is de inhoud vanwordlist.txt
beschikbaar als het bestand
/usr/share/dict/dutch
of via de symbolische link
/usr/share/dict/nederlands
Voor andere besturingssystemen, ziehttps://repology.org/project/dutch/versions
Deze woordenlijst moetniet gebruikt woorden voor een (zelfgebouwde)spellingcontrole. Het controleren van spelling en aanbieden van suggesties isin het algemeen en vooral voor het Nederlands verre van eenvoudig. Gebruik hierspeciale software voor zoalsHunspell ofNuspell. In veel software zoals Chrome, Firefox,Thunderbird, LibreOffice en Adobe-producten is dit al geïntegreerd.
OpenTaal maakt hiervoor de Nederlandse spellingcontrole, ziehttps://github.com/OpenTaal/opentaal-hunspell voor meer informatie.
Voor Android is er een toetsenbord dat gebruik maakt van deze woordenlijst. Zieditartikelop onze website voor meer informatie.
Of een woord wel of niet wordt geaccepteerd in Wordfeud of bepaalde anderewoordspellen is niet de verantwoordelijkheid van Stichting OpenTaal. Hiervoorkan het beste contact opgenomen worden metTaalTik.
Help ons vrije en open Nederlandse schrijftools te ontwikkelen. Doneerbelastingvrij aan onze ANBI viahttps://www.opentaal.org/vrienden-van-opentaalof contacteer ons als je woordenlijsten of databasevaardigheden te bieden hebt.
This is the Dutch word list byStichting OpenTaal.As long as full attribution is provided and the licenses are respected, thislist can be used freely. The exact conditions can be found in the fileLICENSE.txt. Please, read these carefully.
This word list has been compiled from countless individual contributions,specific parts from sources without copyright and intense final editing. Thislist has received from the Dutch Language Union(Taalunie) the Quality Mark Spelling(Keurmerk Spelling).This means that the words in this list conforms to the official spelling.
The Quality Mark Spelling for this word list has been given in 2017/2018.This quality mark has stopped since the end of 2018 and will not apply to futurereleases of this word list.
Please, see the relevant section in Dutch
Please, see the relevant section in Dutch
Please, see the relevant section in Dutch
Operating systems offer software packages which install this word list andupdate it automatically. Examples of this are:
After installation, the contents ofwordlist.txt
will be available as the file
/usr/share/dict/dutch
or via the symbolic link
/usr/share/dict/nederlands
For other operating systems, seehttps://repology.org/project/dutch/versions
This word list shouldnot be used for (self made) spell checking. Checkingspelling and offering suggestions in general and especially for Dutch is farfrom easy. Use special software for this such asHunspell orNuspell.This is already integrated in software such as Chrome, Firefox, Thunderbird,LibreOffice and Adobe products.
OpenTaal supports Dutch for these spell checkers. That is partly based on thisword list but also on many custom rules, conjugations and other special cases.Additionally, these optimized spell checkers are much faster than ownimplementations. In the second quarter of 2020, a new version of the Dutchsupport for these spell checkers will be published.
OpenTaal provides the Dutch spelling checker for this, seehttps://github.com/OpenTaal/opentaal-hunspell for more information.
A keyboard for Android which uses this word list has been developed. Please, seethisarticleon our website for more information.
Whether or not a word is accepted in the Dutch version of Wordfeud or certainother Dutch word games is not the responsibility of Stichting OpenTaal. Forthis, please contactTaalTik.
Please, help us create free and open Dutch writing tools. Donate tax free to ourfoundation athttps://www.opentaal.org/vrienden-van-opentaal or contact us isyou have word lists to database skills to offer.
About
🇳🇱🇧🇪🇸🇷 Dutch word list by OpenTaal