ISO 639 är en internationell standard för språkkoder utgiven avInternationella standardiseringsorganisationen, som anger 2–3 bokstäver långa koder för namnen på världensspråk. Genom att ersätta språkens namn är koderna användbara i många sammanhang. De används för att på ett otvetydigt och språkoberoende sätt kunna hänvisa till olika språk i biblioteksregister, webbsidor, och i många sammanhang där det förekommer informationshantering på olika språk, inklusive för datoriserade system.[1]
Språkkoder skall inte förväxlas med landskoder iISO 3166, ellertoppdomän idomännamn påInternet, som syftar till att identifiera enskildaländer. Till exempel är landskoden förSverige enligtISO 3166 ”SE”, medan språkkoden försvenska språket enligt ISO 639-1 är ”sv”. Wikipedias olika språkversioner har webbadresser vars första del i stort sett följerISO 639-1.
Standarden ges ut i fem[1] delar, som revideras individuellt. Det är också olika organisationer som är registeransvariga för de olika delarna, och som har ansvaret för granskning och uppdatering.[2] De har dock gemensamt att de alla har namn på två av ISO:s tre officiella språk[3] som följer samma mönster:
- Påengelska:ISO 639-n:yyyy Codes for the representation of names of languages — Partn: ...
- Påfranska:ISO 639-n:yyyy Codes pour la représentation des noms de langue — Partien: ...
Standard | Deltitel på engelska och franska (kursivt) | Beskrivning | Ansvarigt institut | Senaste utgåva | Senast granskad |
---|
ISO 639-1:2002 | Part 1: Alpha-2 code[4] Partie 1: Code alpha-2[5] | Koder med två bokstäver – Ursprungligen framtagna med hänsyn tillterminologi,lexikografi ochlingvistik, men är idag flitigt använda även i andra sammanhang.[4] | Austrian Standards International[2][6] | 2002-07[4] | 2019[4] |
ISO 639-2:1998 | Part 2: Alpha-3 code[7] Partie 2: Code alpha-3[8] | Koder med tre bokstäver för språken i del 1 samt ytterligare många språk.[9] Den innehåller dessutom en del språkgrupper ochspråkfamiljer.[10] Vissa språk i standarden har två koder – en förbibliografiskt syfte och en för terminologi.[9] | Library of Congress[2] | 1998-11[7] | 2021[7] |
ISO 639-3:2007 | Part 3: Alpha-3 code for comprehensive coverage of languages[11] Partie 3: Code alpha-3 pour un traitement exhaustif des langues[12] | Koder med tre bokstäver för i princip alla språk som talas eller har talats, oavsett om de saknar skriftspråk. Skall i princip täcka alla kända språk, oavsett hur stora de är, eller om de talas eller ärutdöda.[11][13] | SIL International[2] | 2007-02[11] | 2021[11] |
ISO 639-4:2010 | Part 4: General principles of coding of the representation of names of languages and related entities, and application guidelines[14] Principes généraux pour le codage de la représentation des noms de langue et d'entités connexes, et lignes directrices pour la mise en oeuvre[15] | Riktlinjer och allmänna principer för språkkodning.[14] | ISO/TC 37/SC 2 (ISO)[14] | 2010-07[14] | 2016[14] |
ISO 639-5:2008 | Part 5: Alpha-3 code for language families and groups[16] Partie 5: Code alpha-3 pour les familles de langues et groupes de langues[17] | Koder med tre bokstäver för levande och utdöda språkfamiljer och geografiskt grupperade språkgrupper.[16][13] | Library of Congress[10] | 2008-05[16] | 2022[16] |
Under perioden 2009–2014 fanns det även en sjätte del av standarden, med fyrställiga bokstavskoder, men denna del befanns inte fylla någon funktion. Den var dessutom svår att utveckla och underhålla, så den drogs tillbaka.[18]
Språkfamiljer och språkgrupper finns delvis med redan i del 2. Den listan är dock begränsad, och är bara med i syfte att kunna ange språk som inte har någon egen kod.[19] I del 5 finns betydligt fler språkfamiljer och -grupper med, och syftet är att vara, eller bli, heltäckande för levande och döda språkgrupper och -familjer.[16] Den ansvariga institutionen,Library of Congress, tar därför emot ansökningar om revideringar eller tillägg, och uppdaterar standarden efter hand.[19]
Notera dock att syftet med standarden är att angekoder för språkens, språkvarieteternas och språkfamiljernasnamn, inte att klassificera språken vetenskapligt. Även om del 5 innehåller ett förslag på hierarki inom språkfamiljerna, så är detta förslag endast en antydan, inte en fastslagen del av standarden. Det finns inte heller någon koppling av enstaka språk till någon av familjerna i standarden.[19] Syftet är snarare att vara ett hjälpmedel för forskningssamhället, och för registrering av språk.[20]
IISO 639-3 definieras många koder för språk som iISO 639-1 ochISO 639-2 är samlade under en gemensam kod. Delstandarden definierar därför begreppetmakrospråk för ett språk varsvarieteter i olikakontexter antingen kan ses som egnaspråk, eller som en varietet av ett makrospråk.[21] Till exempel är det i vissa sammanhang praktiskt att hantera alla varieteter avarabiska som ett språk(ISO 639-1:ar). I andra sammanhang är det viktigt att skilja påtourkou ochhassaniyya, ellertunisisk arabiska ochirakisk arabiska.
Redan iISO 639-1 ochISO 639-2 förekommer vissa makrospråk.[22] Till exempel förekommer förnorska följande beteckningar:[23]
Makrospråk | Språkvarietet |
---|
Språk | ISO 639-1 | ISO 639-2 | Språk | ISO 639-1 | ISO 639-2 |
---|
Norska | no | nor | Nynorska | nn | nno |
Bokmål | nb | nob |
ISO 639-2 ochISO 639-3 innehåller fyra stycken koder med speciell funktion:mis – Övrigt språk (kod saknas);mul – Flerspråkigt;und – Odefinierat språk; ochzxx – Icke-språkligt.[24] Koderna används bland annat i bibliotekskataloger för att klassificera medium som saknar språkligt innehåll, flerspråkiga verk, och verk på språk som det inte har definierats någon kod för.[25]ISO 639-1 saknar motsvarande koder.[24]
Del 2 och 3 har också reserverat ett antal koder för lokalt bruk. De 520 kodernaqaa–qtz är garanterade att aldrig definieras, så att de kan utnyttjas på ett sätt som användare behöver. De skall dock aldrig finnas med vid delning av data till andra användare, då detta motverkar syftet med dem. Del 1 har inga reserverade koder på samma sätt, menqa–qt är idag ounyttjade.[24]
Del 5, standarden förspråkfamiljer och språkgrupper, definierar också ett sätt att ange att ettspråk eller en familj eller grupp tillhör en viss angiven familj eller grupp. Denna hierarkiska ordning för släktskaper eller grupptillhörigheter anges i standarden med den större gruppen före det språk eller den familj som tillhör gruppen. Nivåerna avskiljs medkolon.[26]
Till exempel:
- Sydsamiska är ettsamiskt språk, en grupp avfinsk-ugriska språk inom denuraliska språkfamiljen.
Anges som:
urj :fiu :smi :sma
Hierarkin i sig anger inte nödvändigtvis släktskap, så "cau :ccs :kat" behöver inte betyda att författaren avser attgeorgiska tillhörfamiljenkaukasiska språk, bara attkartvelska språk tillhör den gruppen, till exempel genom geografisk närhet ellerspråkförbund.
Standarden används inom många områden där registrering av språk förekommer. ISverige används den bland annat av bibliotekskatalogenLibris (ISO 639-2[a]).[25] ochSCB (ISO 639-3) för statistik om undervisning ispråk ochhemspråk, och förSveriges nationella minoritetsspråk.[27]
För internetorganisationenIETF:s språkkoder, som är baserade bland annat på ISO 639 (del 1, 2, 3),[28] kan en språkkod från ISO 639 kombineras med en landskod frånISO 3166 för att specificera en lokal variant av ett språk, exempelvis ”fr-CH” för språketfranska i landetSchweiz, om behovet finns att skilja det från franska iFrankrike (”fr-FR”) ellerKanada (”fr-CA”). I detta fall kan en språkkod även kombineras med en skriptkod frånISO 15924 för att för skriftspråk ange vilket skriftsystem som används. Detta används främst för språk som ofta skrivs i olika skriftsystem, till exempel serbiska, som alternativt skrivs med latinska bokstäver (”sr-Latn”) eller med kyrilliska bokstäver (”sr-Cyrl”).[28]
Eftersom ävenWorld Wide Web Consortium använderISO 639-1 i standardenHTML så är den oerhört central för språkidentifiering av sidor påinternet.[29]
ISO 639-3 delar in språkkoderna iklasser(engelska:scope) efter kodens funktion, som individuellt språk, makrospråk eller specialkod.[30] Till dessa klasser tillkommerISO 639-5 med språkgrupper och språkfamiljer. Eftersom koderna i del 2 har en motsvarighet antingen i del 3 eller 5 så kan även de klassificeras enligt ovanstående schema. Detsamma gäller koderna i del 1, som definierar en delmängd av koderna i del 2.
Antalet koder varierar, främst för att nya koder tillkommer i del 3.[31] Enligt den 2022 aktuella datan i de registeransvariga institutionernas databaser för del 2,[23] del 3,[30] och del 5[32] så är följande antal koder definierade:
Klass | ISO 639-1 | ISO 639-2 | ISO 639-3 | ISO 639-5 | Kommentar |
---|
Individuellt språk | 149 | 359 | 7 844 | | Indelning enligtISO 639-3 |
Makrospråk | 34 | 58 | 62 | |
Specialkoder | | 4 | 4 | |
Språkgrupper | 1 | 65 | | 115 | Inklusive språkfamiljer |
Summa | 184 | 486 | 7 910 | 115 | |
Reserverade koder | | 520 | 659 | | Koder specifika förISO 639-2 (B) ochISO 639-5 är reserverade iISO 639-3 |
Alternativa koder | | 20 | | | De koder som är unika förISO 6339-2 (B) |
Utfasade koder | 6 | 4 | 368 | | Serbokroatiska är utfasad i del 1, men kvar i del 3 (makrospråk). |
Outnyttjade koder | 486 | 16 641 | 8 639 | 17 461 | Koder som hittills inte har blivit tilldelade språk |
Totalt | 676 | 17 576 | 17 576 | 17 576 | |
Listan är senast uppdaterad ijuni 2022, med data från följande källor: