| ▲ | windexh8er 3 hours ago | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
What about 15k tokens per second? [0] I remember looking at this earlier in the year and it being so fast that it feels fake. And, yes, this model is old - but still awesome for what it is. | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| ▲ | Kirby64 2 hours ago | parent | next [-] | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
It’s not just old, it’s also tiny and quantized. It’s llama 3.1 8b at 3/6-bit quant. This is the type of thing you can run on almost any device… | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| ▲ | partsch 2 hours ago | parent | prev [-] | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
They baked the LLM into a CPU | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||