Remix clone Hacker News

new | show | ask | jobs Github

	▲	unleaded 6 days ago
		ITT nobody remembers gpt2 anymore and that makes me sad
	▲	GaggiX 6 days ago \| parent [-]
		This model was trained on 6T tokens and has 256k embeddings, quite different than a gpt2 model comparable in size.