'n Tekskorpus kan tekste in 'n enkele taal bevat (enkeltalige korpus) of in veelvuldige tale (meertalige korpus). Meertalige korpora wat spesifiek ontwerp word om met mekaar vergelyk te word, word belynde parallelle korpora genoem.
Om korpora nuttiger te maak vir taalkundige navorsing word daar gewoonlik annotasie uitgevoer. 'n Voorbeeld van korpusannotasie is woordsoortetikettering, waar inligting oor elke woord se woordsoort (werkwoord,selfstandige ofbyvoeglike naamwoord ens.) tot die korpus bygevoeg word in die vorm van etikette. Nog 'n voorbeeld is die aanduiding van die lemma (basisvorm) van elke woord. Indien die taal van die korpus nie deur die navorsers wat dit gebruik, gepraat word nie, kan 'n interlineêreglos geskep word om die annotasie tweetalig te maak.
Sommige korpora bevat bykomende gestruktureerde vlakke van ontleding. 'n Klein aantal korpora kan selfs volledige sintaktiese ontledings bevat. Sulke korpora word boombanke of sintakties geanaliseerde korpora genoem. Hierdie korpora is gewoonlik kleiner as gevolg van die feit dat dit moeilik is om te verseker dat die hele korpus op 'n volledige en konsekwente wyse geannoteer word. Ander vlakke van taalkundige gestruktureerde ontledings is moontlik. Dit sluit morfologiese, semantiese en pragmatiese ontleding in.
Korpora is die belangrikstekennisbasis in die veld vankorpuslinguistiek. Die ontleding en verwerking van verskillende tipes korpora is ook die onderwerp van heelwat studies in rekenaarlinguistiek, spraakherkenning en masjienvertaling, waar hulle gewoonlik gebruik word om versteekte Markov-modelle vir woordsoortetikettering en ander take te skep. Korpora en afgeleide frekwensielyste word ook in taalonderrig gebruik. Korpora kan gebruik word as 'n hulpmiddel vir die aanleer van vreemde tale omdat die gekontekstualiseerde grammatikale kennis wat deur leerders opgedoen word deur middel van blootstelling aan outentieke teks, hulle in staal stel om te leer hoe sinne in die doeltaal gevorm word, wat hulle weer help om hulle doeltreffender in die taal uit te druk.