Am lansat AIBenchy – leaderboard AI independent axat pe probleme reale

Salut,

Ca mulți dintre voi, m-am săturat de leaderboard-urile AI publice care tot refolosesc aceleași benchmark-uri saturate sau overfitted (MMLU, HumanEval etc.) și care de multe ori ratează variantele rapide/ieftine sau problemele reale de zi cu zi.

Acum câteva zile am lansat AIBenchy - un leaderboard simplu, care rulează teste custom gândite pentru scenarii reale, acolo unde și modelele mari mai dau rateuri.

Testele actuale acoperă:

  • Anti-AI Tricks (clasicele capcane gen “count the Rs in strawberry”, logic traps)
  • Instruction following și consistență
  • Data parsing/extraction
  • Task-uri domain-specific
  • Puzzle solving și edge-case reasoning

Adăugări recente:

Reasoning score (nou):
Un LLM separat evaluează chain-of-thought pentru eficiență. Verifică dacă modelul:

  • se repetă
  • intră în bucle
  • “gândește la nesfârșit”
  • brute-force-uie toate posibilitățile

sau ajunge curat la răspuns.

Ideea este să penalizeze reasoning-ul “cheaty” cu mulți tokeni chiar dacă răspunsul final e corect și să recompenseze gândirea concisă și inteligentă.

Stability metric:
Măsoară consistența între rulări, pentru că unele modele dau rateuri pe același prompt.

Momentan leaderboard-ul are ~25 de modele (Qwen3.5 Plus e pe primul loc acum, urmat de GLM 5 și diverse variante GPT/Claude), dar proiectul este foarte early/WIP:

  • rulare manuală + set mic de teste
  • nu există încă submit public de teste (dar sunt deschis la idei)
  • focus pe transparență și utilitate practică, nu pe scale masiv

Mi-ar prinde bine feedback:

  • Ce teste custom / gotchas / use-case-uri ar trebui adăugate?
  • Vi se pare fair reasoning score-ul sau e prea subiectiv?
  • Ce modele/variante lipsesc (mai ales cele rapide și ieftine)?
  • Ar avea sens să permit submit de prompturi/teste de la comunitate?

Link: https://aibenchy.com

Orice feedback sau critică e binevenită.