0xFFD

Follow

🐧

0xFFD

🐧

Follow

2 followers · 9 following

Achievements

Achievements

Highlights

Developer Program Member
Pro

Popular repositories Loading

flipbench flipbench Public

An LLM eval that splits measured answer instability into genuine vs. extraction-artifact components, per perturbation axis, with paired confidence intervals.

Python