I våre dager har
Tekstkorpus blitt et tema med stor interesse og relevans i dagens samfunn. Med den konstante utviklingen av teknologi og globalisering har
Tekstkorpus fått en grunnleggende rolle i våre daglige liv. Fra sin innvirkning på økonomi og politikk, til sin innflytelse på kultur og underholdning, har
Tekstkorpus klart å fange oppmerksomheten til mennesker i alle aldre og bakgrunner. I denne artikkelen vil vi utforske i dybden de ulike aspektene knyttet til
Tekstkorpus, analysere dens betydning, dens implikasjoner og dens utvikling over tid. Hva er den sanne innvirkningen av
Tekstkorpus på samfunnet vårt? Hvordan har vår måte å se og leve
Tekstkorpus på endret seg gjennom årene? Dette er noen av spørsmålene vi skal prøve å svare på gjennom denne uttømmende analysen.
Tekstkorpus (flertall: -korpora, fra latin: «legeme»), eller korpus, flertall korpora, er en samling av maskinelt lesbare tekster som tjener et bestemt formål, samt overholder regler for innhold og format.
For språkforskere (datalingvister) er tekstkorpus et stort og strukturert sett av tekster (vanligvis elektronisk lagret og prosessert), som benyttes som utgangspunkt for analyser av språk. Til støtte for analysen er tekstenes ord ofte annoterte, det vil si forsynet med opplysning om ordklasse, ordstamme eller faste vendinger. På grunnlag av dette analyseres setningers grammatiske struktur. Anvendelsesområder er oversettelse og talegjenkjennelse.
Arkeologisk korpora
Tekstkorpora er også benyttet i studiet av historiske dokumenter, for eksempel i forsøk på å tyde eller dekryptere oldtidstekster, eller i tekstkritisk bibelforskning. En del arkeologisk korpora kan være av slik kort varighet at de gir et øyeblikksbilde av tiden. En av de korteste i så måte kan være Amarnabrevene (rundt 1350 f.Kr.) som strakte seg 15-30 år i tid. Korpus til en oldtidsby, eksempelvis Kültepetekstene i Kanesj i dagens Tyrkia, kan gå gjennom en rekke av korpora, bestemt av dateringen av deres funnsteder.
Kjente tekstkorpora
- Google N-Grams Corpus, største engelske korpus bestående av 155 milliarder ord, men har også tekstkorpus for andre språk.
- American National Corpus, 22 millioner amerikansk-engelske ord skrevet og snakket siden 1990
- Bank of English, totalt 550 millioner ord per 2012, en samling av engelske tekster, men også en del amerikansk og australsk data
- British National Corpus, tekstkorpus på 100 millioner ord i testprøver fra skriftlig og muntlig engelsk fra en rekke kilder.
- German Reference Corpus Arkivert 22. april 2012 hos Wayback Machine. (DeReKo), mer enn 4 milliarder ord av tysk samtidstekster
- Tatoeba, en parallell korpus som inneholder rundt 913 000 setninger på 90 språk.
- Spansk tekstkorpus Arkivert 14. august 2013 hos Wayback Machine. ved Molino de Ideas som inneholder 660 millioner ord. (spansk)
- Oslo Multilingual Corpus, en samling av tekstkorpus på Universitetet i Oslo bestående av originaltekster og oversettelser fra flere språk. (engelsk)
- English-Norwegian Parallel Corpus, et norsk forskningsprosjekt (på engelsk) som synes å ha stoppet opp, men som fortsatt er tilgjengelig.
Referanser
- ^ Bokmålsordboka: «Korpus»; kan også henvise til den vanligste skrifttypestørrelsen i aviser og bøker.
- ^ Leech, Geoffrey; Garside, Roger; Bryant, Michael (1994): The large-scale grammatical tagging of text: Experience with the British National Corpus. Netherlands: Rodopi Publishers. s. 47-63.