Hur vi testar

hvilkenAI.no testar AI-modeller på praktiska, vardagliga uppgifter — inte akademiska benchmarks.

🛡️

Oberoende och utan kommersiella band

hvilkenAI har inga affilieringsavtal, sponsorer eller kommersiella partnerskap med AI-leverantörerna vi testar. Vi får ingen provision, rabatter eller förmåner från någon modellleverantör. Alla rekommendationer baseras uteslutande på testresultaten. Vi finansieras av prenumerationsintäkter från Pro-användare och annonsering — aldrig av leverantörerna vi utvärderar.

Vår filosofi

Vi testar det folk faktiskt använder AI till: skriva e-post, sammanfatta text, svara på frågor, följa instruktioner för norska, svenska och danska. Om en modell får bra poäng hos oss, fungerar den bra för dig.

Vad vi mäter

Svenska språkkvalitet (0–5)

Hur bra förstår och skriver modellen svenska? Svarade den på svenska, eller föll den tillbaka till engelska?

Instruktioner (0–5)

Gör modellen det du faktiskt ber om? Rätt längd, format och innehåll räknas.

Hastighet (tokens/sekund)

Hur snabbt får du svar? Vi mäter tokens per sekund och tid till första token (TTFT).

Pris (kr per miljon tokens)

Vad kostar det i svenska kronor? Uppdateras dagligen baserat på valutakurs.

Totalpoäng (0–10)

Viktad totalbedömning som kombinerar svenska, instruktioner, hastighet och värde per krona.

Orkestrator-poäng (0–10) — unikt för hvilkenAI.no

Hur väl lämpad är modellen för att styra andra AI-modeller på svenska? Beräknas från svenska × instruktioner — multiplikation straffar svaghet i båda dimensionerna. En modell som inte skriver svenska kan inte orkestra effektivt på svenska.

Se orkestrator-rankning →

Modellurval och testfrekvens

Varje morgon utvärderar vi över 350 tillgängliga modeller via OpenRouter API. Vi väljer automatiskt de 12 modellerna som presterar bäst, fördelade på tre priskategorier: premium, mellanklass och budget. Urvalet är inte hårdkodat — nya modeller testas automatiskt när de dyker upp, och modeller som misslyckas ersätts med nästa kandidat från samma priskategori.

Daglig benchmark kl. 07:30 med standardiserade uppgifter per språk (norska, svenska, danska). Veckorapport varje fredag med trender och rekommendationer.

Fokus

Vi fokuserar på praktisk användning i Skandinavien — inte akademiska benchmarks. Vi testar det vanliga folk och företag faktiskt gör med AI i vardagen. Resultaten uppdateras dagligen, inte en gång i kvartalet.

Ändringslogg — vad vi har upptäckt

Reella observationer från daglig benchmark. Detta är det kvartalsrapporterna inte fångar.

2026-05-29 Magnum v4 72B gick in på topp-listan med norska poäng 4/5 — högsta norska-poäng bland alla modeller idag.

2026-05-28 GPT-4 (v0314) fick 0/10 — föråldrad modell ersattes automatiskt av nästa kandidat från premiumkategorin.

2026-05-28 inclusionAI: Ling-2.6-flash hoppade från 4.3 → 7.2 över natten utan meddelande från leverantören — en tyst uppdatering fångad av daglig testning.

2026-05-25 Llama 3.1 8B Instruct förbättrade sig från 7.3 → 9.0 — budgetmodell med plötslig prestationshopp, nu bland de absolut bästa.

2026-05-25 Claude Opus 4.7 (Fast) gick från 6.4 → 8.2 (+1.8) på en dag — tyst leverantörsuppdatering utan annonsering.

2026-05-21 Z.ai GLM 5.1 kraschade från 6.5 → 1.2 (-5.3) — API-ostabilitet hos leverantören. Modellen flaggades och reservkandidat aktiverades.

2026-05-20 Z.ai GLM 5.1 dök upp för första gången i benchmark med poäng 6.5/10.

2026-05-18 AionLabs: Aion-1.0 fick 0/5 för norska vid debut — premiumkategorin, men klarade inte norska. Ersattes automatiskt.

Varför daglig testning?

De flesta AI-benchmarks publiceras månadsvis eller kvartalsvis. Men AI-modeller uppdateras kontinuerligt — ofta utan att leverantören meddelar det. En modell som var bäst förra veckan kan ha fallit till plats 5 denna veckan. Daglig testning fångar dessa ändringar i realtid.

AI-marknaden förändras från dag till dag. Leverantörer uppdaterar modellerna utan förvarning — vi har fångat flera sådana "tysta uppdateringar" eftersom poängen plötsligt ändrades. En rapport i kvartalet fångar inte detta. Daglig testning gör det.

För företag som använder AI i daglig drift betyder detta att beslutsunderlaget alltid är uppdaterat. Du behöver inte vänta 3 månader på nästa rapport för att veta om du använder rätt modell.

Se även

← Tillbaka till startsidan