| ▲ | AI Capabilities May Be Overhyped on Bogus Benchmarks, Study Finds(gizmodo.com) | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 43 points by Cynddl 2 days ago | 17 comments | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| ▲ | lispisok 2 days ago | parent | next [-] | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
There is way too much money being thrown at AI to not game/cheat the benchmarks | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| ▲ | vivzkestrel 2 days ago | parent | prev | next [-] | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
I am amazed not a single pro AI person on HN has anything to say or even speculate about this. This is such a serious issue | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| ▲ | Khaine a day ago | parent | prev | next [-] | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
I'm shocked, shocked, that AI is optimised to pass bogus benchmarks. Just like how GPUs were optimised to pass synthetic benchmarks. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| ▲ | simianwords a day ago | parent | prev [-] | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
“ When researchers tested the same performance on a new set of benchmark questions, they noticed that models experienced “significant performance drops.”” This is very misleading because the generalisation ability of LLMs is very very high. It doesn’t just memorise problems - that’s nonsense. At high school level maths you genuinely can’t get gpt-5 thinking to make a single mistake. Not possible at all. Unless you give some convoluted ambiguous prompt that no human can understand. If you assume I’m correct, how does gpt memorise then? In fact even undergraduate level mathematics is quite simple for gpt-5 thinking. IMO gold was won.. by what? Memorising solutions? I challenge people to find ONE example that gpt-5 thinking gets wrong in high school or undergrad level maths. I could not achieve it. You must allow all tools though. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||