Verktøy 4: Vokabular: Oversikt over ordmaterialet

Hvilke andre bearbeidelser enn dem som er nevnt under Verktøy 2 kan en gjøre med tekster?

Ressursene som omtales nedenfor finnes på ulike nettsteder. Vi tar utgangspunkt i siden om lesbarhetsindeks – lix.se. En finner også noe av det samme på skriftlig.no, men ikke alt. I den videre presentasjonen av ulike verktøy tar jeg utgangspunkt i et tidligere blogginnlegg om stedsnavnet Matstia. Teksten er mindre viktig i denne sammenhengen.

Når en sitter med en tekst som skal tilpasses en bestemt målgruppe, for eksempel personer som skal lære seg norsk, vil det være viktig å analysere teksten med hensyn til bestemte språktrekk. Hvor mange or har teksten totalt? Hvor mange forskjellige ord er det i teksten? Hvor mange lange ord inneholder den? Hvor er lang er setningene?

Den aktuelle teksten har fått liksverdien 35. ( 745 ord fordelt på 53 setninger gitt gjennomsnittlig setningslengde på 14,06 ord. 152 av ordene, 20,4 prosent,  har mer enn seks tegn. Liksblir 20,4+14,06=34,46. Avhengig av hvilken avrundingsmetode en bruker vil liksen bli 34 eller 35.

 

Hvordan lage liste over setninger?

Dette kan en gjøre i Word (søke etter punktum, og så erstatte det med punktum+ linjeskift for å få setningene listet under hverandre. En enklere måte er å gå til http://textanalysisonline.com/nltk-sentence-segmentation og lime inn teksten der. På et øyeblikk er alt klart i en egen kolonne som en kan kopiere over i det tekstbehandlingsprogrammet en bruker.

 

Hvordan lage liste over ord?

Både den norsk og svenske gir denne informasjonen direkte i og med at enkeltordene listes opp med dubletter fjernet. Totalt er det 354 forskjellige ordformer i teksten. Analysen tar imidlertid ikke høyde for at et og samme ord opptrer i ulike bøyningsformer. De ti mest frekvente ordene er:

 

Nr Ord Antall
1 det 29
2 i 23
3 en 22
4 er 19
5 navnet 18
6 16
7 av 15
8 et 15
9 som 15
10 og 14

Det er flere måter å renske ut bøyningsformer på. Metoden som følger her er litt omstendelig, men den er ikke komplisert. Fra den svenske lixsiden kopieres de tre kolonnene i Frekvensordlista over til en tekstbehandler, f.eks. Word. Marker kolonnene «Nr» og «Ord» og slett dem (først den ene kolonnen, så den andre). Marker den gjenstående kolonnen med ord, gå til Tabell og velg Konverter tabell til tekst, velg at ordene skal skilles med avsnittsmerking. Ordene står nå i samme rekkefølge som før, men de er frigjort fra tabellformatet. Det kan hende at noen av ordene er tilknyttet spesialtegn  som hermetegn eller bindestrek. Velg Søk/erstatt og søk etter det aktuelle tegnet og erstatt det med ingenting. (Vær oppmerksom på at bruk av spesialttegn påvirker ordtellingen. Et og samme ord ±hermetegn telles som to ord. Det beste hadde altså vært å fjerne slike tegn før en gjorde liksanalysen.) Marker så hele kolonnen med ord (Ctrl-A), gå til Tabell og velg Sorter. Ordene er nå sortert alfabetisk. Hvis det var tall i teksten, står de øverst. Slett dem. De første ordene i min liste er

alta
alternativ
alternative
altså
andre
annet
antall
at
av

Nå kan strykingen av bøyningsformer begynne. Det er spørsmål som dukker opp akkurat i denne listen. Det ligger i kortene at «alternativ» og «alternative» er samme ord, men hva med «annet» og «andre»?  «Andre» kan være flertallsformen av «annet» (og annen, anna) og slik må de to regnes som samme ord. «Andre» kan også være ordentallet («første, andre») og da må det regnes som et eget ord. En må altså sjekke teksten for å se hva slags ord en har med å gjøre (jeg kommer tilbake i et annet blogginnlegg med et nyttig verktøy). En gjennomgang av teksten viser at den inneholder 298 unike ord (med forbehold for feil etter en rask gjennomgang). Da er egennavn og forkortelser tatt med. Liksanalysen oppgir et såkalt type/token-forhold på 47,5 prosent. Dette tallet får en ved å sjekke antall forskjellige ord sett i forhold til alle ordene i teksten. Dette tallet øker altså når flere uker ord brukes. Store tall viser altså tekser med stor variasjon i ordforrådet. Etter å fjernet bøyningsformer av ord, faller naturlig dette tallet. I den aktuelle teksten er det på 40 prosent. Lix.se oppgir også to andre måter å regne ut variasjon på: OVIX (ordvariationsindex) og OVR (ordvariationsratio). Jeg går ikke inn på disse her. Formlene finnes på siden.

Noen av verktøyene som beskrives nedenfor gjør lignende operasjoner, noen av dem på enklere måter enn dem som er listet her.

 

Prosentvis andel av hvert ord

Nettstedet Textmechanic.com gir mulighet til å få tall på hvor hyppige de ulike ordene opptrer regnet i absolutte tall og prosent. Kopier inn teksten, trykk på knappen og tallene er klare. En får også opplysninger om hvor mange bokstaver og ord teksten inneholder i tillegg til antall setninger.

 

Hvordan sortere etter ordlengde?

Hva så med sortering etter lengde? På siden http://appincredible.com/online/list-sort/ kan man lime inn tekst og be om å få innholdet sortert etter lengde. Resultatet ser slik ut hvis en velger fra korteste til lengste:

a a i i i i i i i i i i i i i i i i i i i i i i i at at at at at at at at at at at av av av av av av av av av av av av av av av da da da da de de de de ei ei en en en en en en en en en en en en en en en en en en en en en en er er er er er

Ber en om en liste som viser ord fra lengst til kortest ser listen slik ut:

stedsnavnregister omfortolkninger landskapsformer landskapsformer facebooksidene sandnesjentene ruoššaluokta norskspråklig sandnessjøen sandnessjøen sandnessjøen rettskrivning

Dette er nyttig, men det krever ekstra arbeid for å få alt på plass slik at kan se nærmere på vokabularet. For det første vil en gjerne har ordene ordnet i kolonner. Den enkleste måten å gjøre dette på her er å kopiere teksten inn i Word, søke etter mellomrom og så erstatte mellomrommet med avsnittsmerke. Da kommer ordene under hverandre slik:

stedsnavnregister
omfortolkninger
landskapsformer
landskapsformer
facebooksidene
sandnesjentene

Det ser ut til at ord nr. 2 har kortere utstrekning enn nr. 3, men det er faktisk ikke kortere. Avviket kommer av at bokstavene i fonten er av ulik utstrekning. Dersom en bytter til en font der alle bokstaver har samme utstrekning horisontalt, f.eks. Courier, blir resultatet slik:

stedsnavnregister
omfortolkninger
landskapsformer
landskapsformer
facebooksidene
sandnesjentene

Da ser en at ord 2-5 faktisk er like lange, dvs at de har like mange bokstaver.

Listen viser at vi ikke er kvitt dubletter. De kan en enkelt få bort ved å gå til http://www.tracemyip.org/tools/remove-duplicate-words-in-text/ og kopiere inn teksten. På dette nettstedet kan en få den ferdig teksten sortert alfabetisk (forlengs og baklengs) eller i original rekkefølge. Hvis en limer inn ordene som er sortert etter lengde (jf. prosedyren ovenfor), vil en få ut en liste med enkeltforekomster etter fallende ordlengde.

stedsnavnregister omfortolkninger landskapsformer facebook-sidene sandnesjentene ruoššaluokta norskspråklig sandnessjøen rettskrivning nyfortolkning gjeterguttene

Ordene er ikke sortert som kolonne, prosedyren for å få det til er angitt ovenfor.

stedsnavnregister
omfortolkninger
landskapsformer
facebooksidene
sandnesjentene
ruoššaluokta
norskspråklig
sandnessjøen
rettskrivning
nyfortolkning
gjeterguttene

Etter dette gjenstår det bare å slette bøyningsformer (jf. ovenfor).

Reklamer

Verktøy 3 – Google fight

Jeg har nevnt Google fight tidligere på bloggen, men siden jeg holder på med en liste over verktøy for skrivelystne nå, tar jeg det med her også. Dersom du ønsker å finne hvilket av to alternative uttrykksmåter som er mest frekvent, kan du sette dem opp mot hverandre på http://www.googlefight.com.

Nedenfor er frekvensen av ordformene «colour» og «color» i henholdsvis engelsk og amerikansk versjon av Google (det kan velges mellom 20 språk, ikke norsk).  Figurene viser hvilke former som er mest brukt (britisk engelsk – «colour»), amerikansk engelsk –  «color». I tillegg ser en hvor ofte den andre ordformen opptrer. Talluttrykket er i prosent.

Verktøy 2 – LIKS

Hva er det som gjør en tekst vanskelig å lese? Det er åpenbart flere faktorer, men to av dem kan en observere ganske enkelt: Lange ord og lange setninger. Vanskelighetsgrad forårsaket av disse to kan uttrykkes ved hjelp av den såkalte lesbarhetsindeksen, LIKS, også kalt LIX. Den regnes ved å se på prosentandelen av lange ord i en tekst, det vil si ord med mer enn seks bokstaver, og gjennomsnittlig periodelengde, der periode defineres som det som står mellom to punktum.

Wikipedia viser grunnlaget for LIKS  ved hjelp av denne formelen

{LIX} = \frac{A}{B} + \frac{C \times 100}{A}

A = Antall ord
B = Antall setningsterminatorer (punktum, kolon, stor forbokstav)
C = Antall lange ord (flere enn 6 bokstaver)

skriftlig.no forklarer liks-verdiene slik:

< 30 – Veldig lettlest, som barnebøker
30–40 – Lettlest, som skjønnlitteratur eller ukeblader
40–50 – Middels vanskelig, som vanlig avistekst
50–60 – Vanskelig, vanlig verdi for offisielle tekster.
> 60 – Veldig tunglest byråkratspråk.

Når en skriver tekster, hender det at en ønsker å sjekke liks. Da er det litt tungvint å telle lange ord og periodelengde og så gå over til prosentregning og addisjon. Det er enklere å kopiere den ferdige teksten og så lime den inn på liks-siden til skriftlig.no. Et øyeblikk etter får en verdiene.

Verktøy 1 – ngram

Nylig kom jeg til å spørre en yngre person om hvor Sambandsstatene lå. Det kom ikke noe godt svar. I dag sier man USA.  De som har hørt gamle radioklipp, har også hørt ordet på nynorsk: «Sambandsstatane». Når gikk ordet «Sambandsstatene/-statane» ut av bruk? Nasjonalbiblioteket har et verktøy som passer her. De kaller den en ngram-søker. Adressen er

http://www.nb.no/sp_tjenester/beta/ngram_1/

Et søk der gir svaret:

Skjermbilde 2016-05-26 kl. 16.36.33

Ordet tilhører etterkrigstida, og det var i bruk fram til midten av 70-tallet. Toppunktet tidfestes til 1952.  Det var særlig i bruk på bokmål, men mot slutten av perioden økte bruken litt på nynorsk, og fram mot 1980-tallet var det oftere brukt på nynorsk enn på bokmål. Deretter forsvant det nesten.

Ønsker du å finne ut mer om ordbruk? Bruk Nasjonalbibliotekets ngram-søker!

 

Jeg – du – man – pappa

Det er mye sport på TV for tida, og mange spørsmål rettes til utøverne knyttet til deres suksess eller fiasko. De svarer etter beste evne, men til tross for at spørsmålene er personlige med eksplisitt bruk av andrepersonsformen «du», er det et fåtall av intervjuobjektene som sier noe om seg selv ved å bruke «jeg» eller ulike dialektale former.

Mange foretrekker å vise til seg selv på andre måter en ved et «jeg». Mange bruker «du» som i «Du blir jo sliten etter hvert». En tredje måte er å bruke «man» eller «en»: «Man/en blir jo sliten etter hvert.»

En annen arena hvor «jeg/meg» byttes ut, er den familiære. I tillegg til jeg kan en bruke slektkapsbetegnelser, men bare i samtale med små barn:
– «Kom til pappa/far/bestefar/farfar/morfar/oldefar/onkel.»
– «Kom til mamma/mor/bestemor/farmor/mormor/oldemor/tante.»

Ikke alle slektskapsbetegnelser kan brukes som betegnelse på seg selv. For meg er ord som «bror» og «søster» i gråsonen. Jeg kan ikke bruke dem i setninger av typen «Kom til … «. Det er nok heller ikke mulig å si «Kom til søskenbarn, fetter, kusine».

Når man man slutte å benevne seg slik i familien? Vanskelig å si, men dette brukes nok i liten grad etter at barna er begynt på skolen. Dersom en person ber sin 30-årige sønn om å  «hjelpe pappa med PC’en», er det vel lite sannsynlig at 30-åringen vil dra til den som har produsert ytringen, nemlig 30-åringens far. Sannsynligvis vil 30-åringen heller tenke på farfaren, som vil være en mye tydeligere referent for «pappa» i en slik sammenheng.

Hvorfor heter det «Matstia»?

På en av Facebook-sidene som har Sandnessjøen som tema, ble det for en tid siden vist et bilde av Matstia, og raskt kom det spørsmål om opphavet til navnet. I svaret som kom, ble navnet forklart på den mest konkrete måten: Navnet ble først brukt på ei sti der det ble fraktet mat på den tida da bøndene på Sandnes hadde felles utmark bak Høgåsen. Gårdene hadde egne gjetergutter som så etter kyrne. Maten de trengte i løpet av dagen, ble båret dit av småjenter fra Sandnes. Jentene gikk over Sandneselva og oppover mot Høgåsen. Den eneste farbare stia den gangen gikk der Kirkåsveien går i dag til den møter Botnveien lenger oppe. Den stia ble etterhvert kalt mat-stia. Etter hvert kom dette navnet til å betegne området som i dag heter Matstia.

Jeg vokste opp i dette området, og selv om vi sa «Masstia» med kort a først, og ikke «Matstia» med lang a i «Mat-«, stusset jeg ikke da jeg som barn fikk høre at navnet var knyttet til matbæring. Det hørtes jo logisk ut. Nå er jeg i sterk tvil, og av flere grunner. Hvis det var vanlig praksis å bære mat til gjetere, skulle en forvente at navnet «Matstia» dukker opp andre steder i landet der en gjorde det samme. Et søk i Sentralt stedsnavnregister (SSR) viser at navnet bare er i bruk et sted, nemlig i Sandnessjøen. Søk på Google gir samme svar. Navnet er altså særdeles sjeldent. Et søk på navnet «Sandnes» gir derimot et stort antall treff spredt over hele landet. Det er et vanlig navn. En finner landskapsformer bestående av et nes av sand mange steder i landet.

Hva så med Matstia? Hvis det ikke er snakk om ei mat-sti, hva betyr navnet da? La meg gå en liten omvei. Cirka 60 km fra Sandnessjøen ligger Luktvatnet. Hva betyr det navnet? Lukter det spesielt der (det er lansert teorier om at navnet kan komme av at det ligger «innelukt» mellom fjellene), eller kommer navnet av at den 1343 meter høye Lukttinden rager så «høgt opp i loktæ»? Vi må nok tenke i helt andre baner for å finne svaret. På sørsamisk heter vannet Luoktajavrie. Den første delen er «luokta» som betyr «bukt, vik», og ser en på kartet, ser en tydelig hvorfor Luktvatnet har det navnet det har. Det er en innsjø med bukter og viker. Den første delen av navnet er tatt fra samisk og brukt i det norske navnet, og den første delen er gitt et norskspråklig innhold. Slike omfortolkninger av samiske navn er ikke uvanlig. Ved Alta ligger Jiepmaluokta, egentlig «Selvika», som er blitt til Hjemmeluft på norsk, og Ruoššaluokta, egentlig «Russevika», som er blitt til Russeluft.

Kan en nyfortolkning med utgangspunkt i samisk være en fruktbar metode når det gjelder Matstia? Kan Matstia være et navn som egentlig har sitt opphav i sørsamisk?  Hypotesen må testes, og referansene må hentes fra de samiske språkene en finner i Norge. Under slike granskninger kan det dukke opp flere alternative tolkninger. I nordsamisk og lulesamisk finner en ordformene «máhcci» og «máhttse» som betyr «fald, brett, rynke». Brukt om landskapsformer peker dette ordet ut et sted der det er en «brett i landskapet», et sted der landskapet går fra å være flatt til å bli en helling eller stigning. Dette er en ganske god beskrivelse av hva som skjer når en har passert Sandneselva. Da starter en på stigningen oppover.

I sørsamisk finner en et annet ord, «matt» eller «mattag(a)».  Det betegner «en lavere overgang over et fjell eller bergpass». Denne beskrivelsen er heller ikke upassende. Etter stigningen opp gjennom Matstia kommer en opp på åsen, der det flater ut før det bærer nedover mot Botnfjorden.

For å komme tilhengere av «mat-stia» litt i møte kan det vises til et tredje alternativ.  Etter gjeldende nordsamisk rettskrivning brukes «má-didja» eller «máadii» om en vei som er dannet på grunn av ferdsel. Da er vi plutselig tilbake til «stia» igjen, men jeg vil ta et forbehold: Det samiske ordet sier ikke noe om formålet med ferdselen, dvs. om de var en «matvei, snarvei, krøttersti» eller lignende.

Jeg tviler altså på at stia oppstod på grunn av at Sandnesjentene sprang med mat til gjeterguttene. Kanskje er det så enkelt som at det har gått gammel ferdselsvei her, og at navnet Matstia har sitt utgangspunkt i sørsamisk. Kunne det være slik at når norsktalende hørte det sørsamiske navnet, så omfortolket de det på samme måte som når Luoktajavrie ble til Luktvatnet?

(Også publisert i Helgelands Blad 4.januar 2016)

Klasse … eh – kjønnsskille…?

«Da vil jeg få ønske påstigende passasjer velkommen om bord. Mitt navn er Lars Winge. Jeg er kaptein, og ved min side har jeg annenpilot Per Lande som vil ta dere trygt til Gardermoen. I kabinen vil Lotte, Anne og Sigrid gjøre sitt beste for at flyturen skal bli en hyggelig opplevelse.»

Lignende beskjeder sendes ut over høyttaleranleggene på SAS’ og Norwegians fly hundrevis av ganger hver dag. Jeg fører ikke statistikk, men har bitt meg merke i en ting: Personalet som sitter i cockpit har både fornavn og etternavn. De som jobber i kabinen har stort sett bare fornavn. Dette korrelerer med det faktum at pilotene er menn og kabinpersonale i hovedsak kvinner. Uttrykker denne utsagnsmåten forskjeller knyttet til status, klasse eller kjønn? Tja, si det …

I dag var jeg til stede på fusjonsfesten ved NTNU som ble ledet fra vrimlehallen på Handelshøyskolen i Trondheim. Sentrale personer fra Ålesund og Gjøvik deltok via TV-skjermen. Rektor Gunnar Bovim ble introdusert med for- og etternavn. Fra Gjøvik ble viserektor Jørn Wroldsen introdusert på samme måte.  I Ålesund skjedde noe annet. Der henvendte den lokale intervjueren seg til «viserektor Marianne». Hadde det ikke vært for at navn og tittel kom opp på skjermen, hadde jeg ikke fått vite at hun faktisk heter Marianne Synnes.

Det var som å være flypassasjer før avgang. Nå tar NTNU av med Gunnar Bovim, Jørn Wroldsen og Marianne …

Bloggen i 2015 – rapport

The WordPress.com stats helper monkeys prepared a 2015 annual report for this blog.

Here’s an excerpt:

The concert hall at the Sydney Opera House holds 2,700 people. This blog was viewed about 16,000 times in 2015. If it were a concert at Sydney Opera House, it would take about 6 sold-out performances for that many people to see it.

Click here to see the complete report.

Mer om språk? – Scoop.it/sprak

Vil du lese mer om språk? I tillegg til denne bloggen, der jeg blogger med ujevne mellomrom, har jeg en annen blogg der jeg omtrent daglig legger ut lenker til ulike artikler om språk. Finner jeg noe på nettet som er av interesse, havner det der. Pr. 1.1.2016 er noen av de siste overskriftene:

  • Electronic Baby Toys Associated with Decrease in Quality and Quantity of Language in Infants
  • Interactive phonemic chart: British English
  • Vad är et nyord?
  • Proportional Map of the World’s Largest Languages
  • 40 excellent Arabic listening resources in all dialects
  • Språkforsker avliver myte: – Det er ikke feil å si «god jul» etter julaften

De fleste artiklene er på engelsk, men det finnes også stoff på skandinaviske språk og kanskje spansk.

Adressen til bloggen er http://www.scoop.it/sprak. Lenker til artiklene publiseres også på twitter under @olafhusby.

Peter Prevc

 

Sportskommentatorene får stadig nye navn å bryne seg på. Noen av dem er enkle å uttale, andre byr på problemer. I år har skihopperen Peter Prevc vært dominerende. Hvordan uttales etternavnet hans? Det slutter jo på «-vc». En kan lures til å bruke en bokstavtro lesemåte og si «Prevs» eller kanskje «Prevk». Hoppkommentatorene har imidlertid gjort jobben sin. De sier [prewts].  Trolig har gjort noe så enkelt som å spørre hopperen eller en slovensktalende om hvordan navnet uttales. Dette er en praksis langt flere burde følge.

Det slovenske alfabetet, som inneholder 25, bokstaver ser slik ut:

a b c č d e f g h i j k l m n o p r s š t u v z ž

De fleste av tegnene er overlappende med norsk, og en kan dermed ke navn og ord etter norsk lesemåte.

Tre av bokstavene, č š ž,  er forskjellige fra norsk i og med at de inneholder  et ekstra tegn, en såkalt haček, tegnet < ˇ >. Bokstaven <č > står for /tʃ/ som i «atsjo»,  < š >  står for /ʃ/ som i «vers«,  < ž > står for /ʒ/ som ikke finnes i norsk, men for eksempel i engelsk «vision».

Tilbake til «Prevc»: Bokstaven < v > står for to ulike lyder. Foran en vokal, og kun der, uttales den på samme måte som på norsk, altså som [v] i norsk «hval», jf.  slovensk  «val» – [va:l] -«bølge».  Ellers uttales  den som den første o-aktige lyden i engelsk «what».  Denne lyden mangler i norsk, det nærmeste en kommer er lyden som knyttet til bokstaven < o>, men [w] uttales raskere. I lydskrift brukes ofte tegnet <w>.  Det slovenske ordet  «vzeti» – «å ta» uttales [wˈzéːti] eller med en tydeligere o-lyd først:  [uˈzéːti]. (I lydskriftalfabetet IPA representerer <u> en o-lyd).

Den slovenske  bokstaven < c >  representerer uttalen [ts], som i mange andre slaviske språk.

Av dette følger at uttalen av «Prevc» er [prewts]. Dette er et enstavelsesord. <ev> – [ew] er én stavelse på samme måte som diftongen <ei> – |ei], jf. ordet «vei». Hvis en sier noe a la «pre-ots» med to stavelser, blir det slovensk med aksent.

Men hva gjør gjør en hvis en bare ønsker å finne uttalen av et navn eller et ord? Er det nødvendig å søke opp detaljerte opplysninger om språket som navnet/ordet er hentet fra? Nei, det finnes et par utveier: En kan sbruke Google Translate og så klikke på høyttalersymbolet (hvis det kommer opp). Vær oppmerksom på at denne metoden ikke er pålitelig. Et bedre alternativ er å søke på forvo.com der bidragsytere fra hele verden har lagt inn uttalen av enkeltord på en lang, lang rekke språk.

Ressurser