Salut,
Ca mulți dintre voi, m-am săturat de leaderboard-urile AI publice care tot refolosesc aceleași benchmark-uri saturate sau overfitted (MMLU, HumanEval etc.) și care de multe ori ratează variantele rapide/ieftine sau problemele reale de zi cu zi.
Acum câteva zile am lansat AIBenchy - un leaderboard simplu, care rulează teste custom gândite pentru scenarii reale, acolo unde și modelele mari mai dau rateuri.
Testele actuale acoperă:
- Anti-AI Tricks (clasicele capcane gen “count the Rs in strawberry”, logic traps)
- Instruction following și consistență
- Data parsing/extraction
- Task-uri domain-specific
- Puzzle solving și edge-case reasoning
Adăugări recente:
Reasoning score (nou):
Un LLM separat evaluează chain-of-thought pentru eficiență. Verifică dacă modelul:
- se repetă
- intră în bucle
- “gândește la nesfârșit”
- brute-force-uie toate posibilitățile
sau ajunge curat la răspuns.
Ideea este să penalizeze reasoning-ul “cheaty” cu mulți tokeni chiar dacă răspunsul final e corect și să recompenseze gândirea concisă și inteligentă.
Stability metric:
Măsoară consistența între rulări, pentru că unele modele dau rateuri pe același prompt.
Momentan leaderboard-ul are ~25 de modele (Qwen3.5 Plus e pe primul loc acum, urmat de GLM 5 și diverse variante GPT/Claude), dar proiectul este foarte early/WIP:
- rulare manuală + set mic de teste
- nu există încă submit public de teste (dar sunt deschis la idei)
- focus pe transparență și utilitate practică, nu pe scale masiv
Mi-ar prinde bine feedback:
- Ce teste custom / gotchas / use-case-uri ar trebui adăugate?
- Vi se pare fair reasoning score-ul sau e prea subiectiv?
- Ce modele/variante lipsesc (mai ales cele rapide și ieftine)?
- Ar avea sens să permit submit de prompturi/teste de la comunitate?
Link: https://aibenchy.com
Orice feedback sau critică e binevenită.