| ▲ | aizk 3 hours ago | ||||||||||||||||||||||||||||
How do you guys manage regressions as a whole with every new model update? A massive test set of e2e problem solving seeing how the models compare? | |||||||||||||||||||||||||||||
| ▲ | try-working 9 minutes ago | parent | next [-] | ||||||||||||||||||||||||||||
I use a self-documenting recursive workflow: https://github.com/doubleuuser/rlm-workflow | |||||||||||||||||||||||||||||
| ▲ | bcherny 3 hours ago | parent | prev [-] | ||||||||||||||||||||||||||||
A mix of evals and vibes. | |||||||||||||||||||||||||||||
| |||||||||||||||||||||||||||||