Verktøy 4: Vokabular: Oversikt over ordmaterialet

Hvilke andre bearbeidelser enn dem som er nevnt under Verktøy 2 kan en gjøre med tekster?

Ressursene som omtales nedenfor finnes på ulike nettsteder. Vi tar utgangspunkt i siden om lesbarhetsindeks – lix.se. En finner også noe av det samme på skriftlig.no, men ikke alt. I den videre presentasjonen av ulike verktøy tar jeg utgangspunkt i et tidligere blogginnlegg om stedsnavnet Matstia. Teksten er mindre viktig i denne sammenhengen.

Når en sitter med en tekst som skal tilpasses en bestemt målgruppe, for eksempel personer som skal lære seg norsk, vil det være viktig å analysere teksten med hensyn til bestemte språktrekk. Hvor mange or har teksten totalt? Hvor mange forskjellige ord er det i teksten? Hvor mange lange ord inneholder den? Hvor er lang er setningene?

Den aktuelle teksten har fått liksverdien 35. ( 745 ord fordelt på 53 setninger gitt gjennomsnittlig setningslengde på 14,06 ord. 152 av ordene, 20,4 prosent,  har mer enn seks tegn. Liksblir 20,4+14,06=34,46. Avhengig av hvilken avrundingsmetode en bruker vil liksen bli 34 eller 35.

 

Hvordan lage liste over setninger?

Dette kan en gjøre i Word (søke etter punktum, og så erstatte det med punktum+ linjeskift for å få setningene listet under hverandre. En enklere måte er å gå til http://textanalysisonline.com/nltk-sentence-segmentation og lime inn teksten der. På et øyeblikk er alt klart i en egen kolonne som en kan kopiere over i det tekstbehandlingsprogrammet en bruker.

 

Hvordan lage liste over ord?

Både den norsk og svenske gir denne informasjonen direkte i og med at enkeltordene listes opp med dubletter fjernet. Totalt er det 354 forskjellige ordformer i teksten. Analysen tar imidlertid ikke høyde for at et og samme ord opptrer i ulike bøyningsformer. De ti mest frekvente ordene er:

 

Nr Ord Antall
1 det 29
2 i 23
3 en 22
4 er 19
5 navnet 18
6 16
7 av 15
8 et 15
9 som 15
10 og 14

Det er flere måter å renske ut bøyningsformer på. Metoden som følger her er litt omstendelig, men den er ikke komplisert. Fra den svenske lixsiden kopieres de tre kolonnene i Frekvensordlista over til en tekstbehandler, f.eks. Word. Marker kolonnene «Nr» og «Ord» og slett dem (først den ene kolonnen, så den andre). Marker den gjenstående kolonnen med ord, gå til Tabell og velg Konverter tabell til tekst, velg at ordene skal skilles med avsnittsmerking. Ordene står nå i samme rekkefølge som før, men de er frigjort fra tabellformatet. Det kan hende at noen av ordene er tilknyttet spesialtegn  som hermetegn eller bindestrek. Velg Søk/erstatt og søk etter det aktuelle tegnet og erstatt det med ingenting. (Vær oppmerksom på at bruk av spesialttegn påvirker ordtellingen. Et og samme ord ±hermetegn telles som to ord. Det beste hadde altså vært å fjerne slike tegn før en gjorde liksanalysen.) Marker så hele kolonnen med ord (Ctrl-A), gå til Tabell og velg Sorter. Ordene er nå sortert alfabetisk. Hvis det var tall i teksten, står de øverst. Slett dem. De første ordene i min liste er

alta
alternativ
alternative
altså
andre
annet
antall
at
av

Nå kan strykingen av bøyningsformer begynne. Det er spørsmål som dukker opp akkurat i denne listen. Det ligger i kortene at «alternativ» og «alternative» er samme ord, men hva med «annet» og «andre»?  «Andre» kan være flertallsformen av «annet» (og annen, anna) og slik må de to regnes som samme ord. «Andre» kan også være ordentallet («første, andre») og da må det regnes som et eget ord. En må altså sjekke teksten for å se hva slags ord en har med å gjøre (jeg kommer tilbake i et annet blogginnlegg med et nyttig verktøy). En gjennomgang av teksten viser at den inneholder 298 unike ord (med forbehold for feil etter en rask gjennomgang). Da er egennavn og forkortelser tatt med. Liksanalysen oppgir et såkalt type/token-forhold på 47,5 prosent. Dette tallet får en ved å sjekke antall forskjellige ord sett i forhold til alle ordene i teksten. Dette tallet øker altså når flere uker ord brukes. Store tall viser altså tekser med stor variasjon i ordforrådet. Etter å fjernet bøyningsformer av ord, faller naturlig dette tallet. I den aktuelle teksten er det på 40 prosent. Lix.se oppgir også to andre måter å regne ut variasjon på: OVIX (ordvariationsindex) og OVR (ordvariationsratio). Jeg går ikke inn på disse her. Formlene finnes på siden.

Noen av verktøyene som beskrives nedenfor gjør lignende operasjoner, noen av dem på enklere måter enn dem som er listet her.

 

Prosentvis andel av hvert ord

Nettstedet Textmechanic.com gir mulighet til å få tall på hvor hyppige de ulike ordene opptrer regnet i absolutte tall og prosent. Kopier inn teksten, trykk på knappen og tallene er klare. En får også opplysninger om hvor mange bokstaver og ord teksten inneholder i tillegg til antall setninger.

 

Hvordan sortere etter ordlengde?

Hva så med sortering etter lengde? På siden http://appincredible.com/online/list-sort/ kan man lime inn tekst og be om å få innholdet sortert etter lengde. Resultatet ser slik ut hvis en velger fra korteste til lengste:

a a i i i i i i i i i i i i i i i i i i i i i i i at at at at at at at at at at at av av av av av av av av av av av av av av av da da da da de de de de ei ei en en en en en en en en en en en en en en en en en en en en en en er er er er er

Ber en om en liste som viser ord fra lengst til kortest ser listen slik ut:

stedsnavnregister omfortolkninger landskapsformer landskapsformer facebooksidene sandnesjentene ruoššaluokta norskspråklig sandnessjøen sandnessjøen sandnessjøen rettskrivning

Dette er nyttig, men det krever ekstra arbeid for å få alt på plass slik at kan se nærmere på vokabularet. For det første vil en gjerne har ordene ordnet i kolonner. Den enkleste måten å gjøre dette på her er å kopiere teksten inn i Word, søke etter mellomrom og så erstatte mellomrommet med avsnittsmerke. Da kommer ordene under hverandre slik:

stedsnavnregister
omfortolkninger
landskapsformer
landskapsformer
facebooksidene
sandnesjentene

Det ser ut til at ord nr. 2 har kortere utstrekning enn nr. 3, men det er faktisk ikke kortere. Avviket kommer av at bokstavene i fonten er av ulik utstrekning. Dersom en bytter til en font der alle bokstaver har samme utstrekning horisontalt, f.eks. Courier, blir resultatet slik:

stedsnavnregister
omfortolkninger
landskapsformer
landskapsformer
facebooksidene
sandnesjentene

Da ser en at ord 2-5 faktisk er like lange, dvs at de har like mange bokstaver.

Listen viser at vi ikke er kvitt dubletter. De kan en enkelt få bort ved å gå til http://www.tracemyip.org/tools/remove-duplicate-words-in-text/ og kopiere inn teksten. På dette nettstedet kan en få den ferdig teksten sortert alfabetisk (forlengs og baklengs) eller i original rekkefølge. Hvis en limer inn ordene som er sortert etter lengde (jf. prosedyren ovenfor), vil en få ut en liste med enkeltforekomster etter fallende ordlengde.

stedsnavnregister omfortolkninger landskapsformer facebook-sidene sandnesjentene ruoššaluokta norskspråklig sandnessjøen rettskrivning nyfortolkning gjeterguttene

Ordene er ikke sortert som kolonne, prosedyren for å få det til er angitt ovenfor.

stedsnavnregister
omfortolkninger
landskapsformer
facebooksidene
sandnesjentene
ruoššaluokta
norskspråklig
sandnessjøen
rettskrivning
nyfortolkning
gjeterguttene

Etter dette gjenstår det bare å slette bøyningsformer (jf. ovenfor).

Om olafhusby
Språkviter, bestefar, forfatter, forlegger, blogger, reisende

Legg igjen en kommentar

Fyll inn i feltene under, eller klikk på et ikon for å logge inn:

WordPress.com-logo

Du kommenterer med bruk av din WordPress.com konto. Logg ut / Endre )

Twitter picture

Du kommenterer med bruk av din Twitter konto. Logg ut / Endre )

Facebookbilde

Du kommenterer med bruk av din Facebook konto. Logg ut / Endre )

Google+ photo

Du kommenterer med bruk av din Google+ konto. Logg ut / Endre )

Kobler til %s

%d bloggers like this: