Varför rödmarkeras inte särskrivningar eller grammatikfel?

Stavningskontrollen granskar ett ord i taget utan att ta hänsyn till sammanhanget. Därför kan inte särskrivningar eller andra grammatiska fel detekteras. Felstavade ord som är identiska med något annat relativt vanligt ord kommer inte heller att rödmarkeras.


Vissa felstavade ord rödmarkeras inte. Hur kan det komma sig?

Felstavningar som kan tolkas som ett annat ord rödmarkeras vanligtvis inte. T.ex. är "ända" felstavat i frasen "det ända som återstår". Stavningskontrollen skickar ett ord i taget till ordlistan. När ordlistan ombeds att avgöra ifall "ända" är ett korrekt ord, så måste den svara ja eftersom det är ett helt korrekt ord om än inte i just detta sammanhang.


Varför blir så många rättstavade namn rödmarkerade?

För att ordlistan inte ska använda för mycket minne har endast ett begränsat antal egennamn lagts in. En nackdel med detta är förstås att texter som innehåller många ovanliga egennamn kan få så pass många felaktiga rödmarkeringar att man lätt missar eventuella korrekta rödmarkeringar.

Lösningen på detta problem är att man låter rättstavningsprogrammet markera okända egennamn med en mer neutral färg, t.ex. gult. Denna enkla funktion finns dock tyvärr ännu inte i Firefox. Om du vill hjälpa till att bygga funktionen kan du anmäla dig som frivillig på Mozillas utvecklarsida.


Vissa sammansatta ord rödmarkeras. Varför det?

Det finns oändligt många sammansatta svenska ord. Alla får inte plats i ordlistan, så ett urval har gjorts. Ordlistan hanterar många sammansättningar med hjälp av intrikata regler för hur ord får sättas samman. Om sammansättningsreglerna görs för generella, så godkänns många felstavningar eftersom de kan tolkas som något sammansatt ord. Därför hanteras vissa typer av sammansättningar inte via regler utan genom att läggas in explicit i ordlistan, och då har bara de vanligast förekommande sammansatta orden tagit med.


Ordlistan är felaktig, för den saknar vissa ord som finns i SAOL.

Många korrekta ord, varav vissa finns i SAOL, har fullt avsiktligt utelämnats ur ordlistan. Skälet är oftast att de är lätta att stava till och relativt sällsynta i nutida text, men samtidigt mycket lika andra ord som används betydligt oftare. De flesta förekomsterna av sådana ord är därför helt enkelt felstavningar av de vanligare orden. Som exempel kan nämnas "väll", "fästig", "ula", "ör", "stuts" och t.o.m. ord som "kockan", "uppsatts" och "minde". Tack vare denna teknik hittar stavningskontrollen massor av stavfel som en strikt SAOL-baserad ordlista skulle missa. Tanken är att de som faktiskt använder de ovanliga men lättstavade orden, som exempelvis "ula", knappast kan förledas till att infoga stavfel p.g.a. rödmarkeringen.


Ordlistan är felaktig, för den godkänner ord som inte godkänns av SAOL.

Kan alla som tycker att ord som "elavtal", "app", "fysikprov", "Stockholm", "Knutbybor", "Västeråsförsamlingen", "tjugotrekronorsbiljett", "trettiosjuåring", "Nilsson", "USB", "hd", "AIK", "zorb" och "lägenhetsvisning" ska rödmarkeras räcka upp en hand? Inte det? Men dessa och miljoner andra korrekta ord saknas i SAOL, så det vore helt enkelt befängt att bygga stavningskontrollen strikt på SAOL.


Vissa ord som innehåller punkter, kolon eller bindestreck rödmarkeras felaktigt. Varför?

I en del program, t.ex. Firefox, rödmarkeras ord som "ränte-", "bl.a." och "vd:ns". Eller, rättare sagt, "ränte", "bl" och "ns" rödmarkeras. Skälet till detta är att tokenizern (dvs. den komponent som avgör vilka tecken som tillsammans bildar ett helt ord) i sådana program inte är anpassad till svenska språket. Därför skickas inte hela ordet utan bara ett fragment till stavningskontrollen, vilket leder till att detta fragment rödmarkeras. Felet ligger alltså i dessa program och inte i ordlistan. De som önskar få en mer korrekt hantering av svenska språket bör uppmuntra eller hjälpa utvecklarna av programmen ifråga att rätta sin tokenizer.


Varför rödmarkeras inte felstavningen "23-årigen"?

I Firefox och vissa andra program ignoreras ord som innehåller siffror, dvs. de skickas inte till ordlistan för stavningskontroll. Vissa andra program, t.ex. Open Office, ignorerar ord med siffror om man inte aktiverar en viss inställning för detta. Detta är olyckligt för oss svenskar som använder massvis med ord som innehåller siffror. Ordlistan i sig har dock inga som helst problem att stavningskontrollera ord med siffror.


Varför saknas ordlistan en massa vanliga ord?

Det gör den inte. Vissa ovanliga ord har dock utelämnats för att spara minne eller för att de riskerar maskera stavfel av vanligare ord. Om något tillnärmelsevis vanligt ord rödmarkeras, så beror det på att det inte är den här ordlistan som används eller på något fel i applikationen den används i.


Varför är ordlistan full av särskrivningar?

Det är den inte. Den innehåller några hundra korrekta särskrivningar, t.ex. "i akt" och "här framme". Om sammansatta ord rödmarkeras och man uppmanas till en felaktig särskrivning, så beror det på att det inte är den här ordlistan som används eller på något fel i applikationen den används i.


Varför inte använda SAOL eller någon annan riktig ordlista?

Dels av de skäl skäl som redan angivits på den här sidan; SAOL lämpar sig inte för automatisk stavningskontroll. Men även för att ordlistan skall kunna distribueras under en fri licens, vilket ingen "riktig" ordlista tillåter.


Hur kan jag hjälpa till att förbättra ordlistan?

Om du hittat något fel med ordlistan, som inte kan förklaras av de övriga svar på vanliga frågor som finns här, får du gärna rapportera in det till info@sfol.se.

Vi har idag ingen officiell process för att delta i själva utvecklingsarbetet av ordlistan. Om du är intresserad av att bidra på detta sätt så får du gärna skicka ett mail till info@sfol.se så kanske kan vi hitta någonting att fixa med.

Frågor om källkoden


Vilken licens distribueras ordlistan under?

GNU GPL version 3 eller senare.


Var finns källkoden till ordlistan?

Ordlistan distribueras som ett zip-arkiv, t.ex. med namnet swedish-0.1.xpi. Om man packar upp arkivet finner man bl.a. filerna sv.aff och sv.dic. Dessa båda filer definierar ordlistan i ett format som kan förstås av programkomponenten Hunspell som ingår i program som Firefox, Thunderbird, LibreOffice m.fl.


Jag såg i filen sv.dic att ordlistan bara innehåller 140000 ord. Många är dessutom konstiga och felstavade!

Filen har ett mycket komplicerat format som beskrivs i dokumentationen till Hunspell version 1.3. Den som försöker gissa sig till vad innehållet i filen betyder kommer att misstolka filen fullständigt. Tvärtemot vad många som inte orkar läsa dokumentationen tror, så syns inte alla ord explicit i filen. De ord som syns är ofta på grundform, men inte alltid. Ja, de "ord" som syns är inte ens alltid riktiga ord; de kan vara förkortningar, egennamn, fragment av ord eller t.o.m. felstavningar. (Två exempel på det sistnämnda är "repsekt" och "soppnedkast". De är inlagda tillsammans med en spärrkod för att de ska rödmarkeras trots att de skulle kunna tolkas som korrekta sammansättningar.)


Fungerar ordlistan i andra program än Firefox?

För att den ska fungera korrekt krävs att programmet använder Hunspell version 1.3 eller senare. Äldre versioner av Hunspell har begränsad funktionalitet och allvarliga programfel som bl.a. orsakar felaktig hantering av sammansättningar och rättstavningsförslag.


Jag vill distribuera ordlistan tillsammans med ett annat program för stavningskontroll. Är det möjligt?

Detta är tillåtet förutsatt att licensvillkoren uppfylls. För att resultatet ska bli bra, är det dock viktigt att programmet är helt kompatibelt med Hunspell 1.3. Annars måste man bearbeta ordlistan så att den fungerar optimalt i programmet. Stavningskontroll av svensk text är betydligt svårare än de flesta tror, så man bör definitivt låta bli att försöka sig på att göra någon omfattande bearbetning om man inte är expert. Om du trots allt distribuerar ordlistan i bearbetad form eller tillsammans med ett program som den inte är utformad för, så är det viktigt att du tydligt anger att det rör sig om en bearbetad version som ordlistans upphovsman inte är ansvarig för. Detta är f.ö. något som ordlistans licens kräver.


Jag vill distribuera en bearbetad version av ordlistan tillsammans med en app som inte har med stavningskontroll att göra. Är det möjligt?

Det är teoretiskt möjligt, men i praktiken vore det galet att försöka sig på något sådant. Det är oerhört svårt att filtrera ut ord ur filen sv.dic på ett sätt som är ändamålsenligt för någon som helst annan applikation. Därför är det bättre att använda någon annan fri eller kommersiell ordlista. Om du ändå gör det, så var snäll och ange tydligt att det rör sig om en bearbetad version som ordlistans upphovsman inte är ansvarig för.


Jag behöver en specialanpassad ordlista som ska användas i ett open source-program. Ska jag försöka bearbeta källkodsfilen sv.dic?

Nej! Den filen distribueras visserligen under GPL, men den är inte avsedd för manuell redigering. Den har genererats automatiskt utifrån ett oerhört omfattande råmaterial. Hör av dig till ordlistans upphovsman och berätta vilket program det gäller och vilka egenskaper ordlistan ska ha, så kan du förmodligen få en ordlista som är korrekt konstruerad för det specifika ändamålet. Om nödvändigt, så kan bearbetade versioner av ordlistan även tillhandahållas under en annan open source-licens. (Det finns även andra fria svenska ordlistor som kanske passar bättre beroende på vad man vill uppnå, t.ex. Wiktionary och Språkbankens SALDO.)