Am lansat AIBenchy – leaderboard AI independent axat pe probleme reale

Cristian · februarie 19, 2026, 3:58pm

Salut,

Ca mulți dintre voi, m-am săturat de leaderboard-urile AI publice care tot refolosesc aceleași benchmark-uri saturate sau overfitted (MMLU, HumanEval etc.) și care de multe ori ratează variantele rapide/ieftine sau problemele reale de zi cu zi.

Acum câteva zile am lansat AIBenchy - un leaderboard simplu, care rulează teste custom gândite pentru scenarii reale, acolo unde și modelele mari mai dau rateuri.

Testele actuale acoperă:

Anti-AI Tricks (clasicele capcane gen “count the Rs in strawberry”, logic traps)
Instruction following și consistență
Data parsing/extraction
Task-uri domain-specific
Puzzle solving și edge-case reasoning

Adăugări recente:

Reasoning score (nou):
Un LLM separat evaluează chain-of-thought pentru eficiență. Verifică dacă modelul:

se repetă
intră în bucle
“gândește la nesfârșit”
brute-force-uie toate posibilitățile

sau ajunge curat la răspuns.

Ideea este să penalizeze reasoning-ul “cheaty” cu mulți tokeni chiar dacă răspunsul final e corect și să recompenseze gândirea concisă și inteligentă.

Stability metric:
Măsoară consistența între rulări, pentru că unele modele dau rateuri pe același prompt.

Momentan leaderboard-ul are ~25 de modele (Qwen3.5 Plus e pe primul loc acum, urmat de GLM 5 și diverse variante GPT/Claude), dar proiectul este foarte early/WIP:

rulare manuală + set mic de teste
nu există încă submit public de teste (dar sunt deschis la idei)
focus pe transparență și utilitate practică, nu pe scale masiv

Mi-ar prinde bine feedback:

Ce teste custom / gotchas / use-case-uri ar trebui adăugate?
Vi se pare fair reasoning score-ul sau e prea subiectiv?
Ce modele/variante lipsesc (mai ales cele rapide și ieftine)?
Ar avea sens să permit submit de prompturi/teste de la comunitate?

Link: https://aibenchy.com

Orice feedback sau critică e binevenită.