▲ | LLM Visualization(bbycroft.net) | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
636 points by gmays 5 days ago | 46 comments | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
▲ | jkingsman 5 days ago | parent | next [-] | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Wow, this is tremendously intricate and very impressive! What an awesome way to visualize the process. | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
▲ | dang 5 days ago | parent | prev | next [-] | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Related. Others? LLM Visualization - https://news.ycombinator.com/item?id=38505211 - Dec 2023 (131 comments) | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
▲ | dpflan 5 days ago | parent | prev | next [-] | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Here is another take on visualizing transformers from Georgia Tech researchers: https://poloclub.github.io/transformer-explainer/ The Illustrated Transformer: https://jalammar.github.io/illustrated-transformer/ Sebastian Raschka, PhD has a post on the architectures: https://magazine.sebastianraschka.com/p/from-gpt-2-to-gpt-os... This HN comment has numerous resources: https://news.ycombinator.com/item?id=35712334 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
▲ | th0ma5 5 days ago | parent | prev | next [-] | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
I always liked this visualization from a while ago https://alphacode.deepmind.com/ (Press play, zoom all the way out and scroll down if on mobile) | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
▲ | its-kostya 5 days ago | parent | prev | next [-] | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Fascinating visualization. To think, we can visualize the entire* process but cannot understand the inner workings of a model with regards to decision making. This was true last I looked into it a year or so ago, not aware on any advancements in that aspect. | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
▲ | southp 5 days ago | parent | prev | next [-] | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
It's fascinating, even though my knowledge to LLM is so limited that I don't really understand what's happening. I'm curious how the examples are plotted and how much resemblance they are to the real models, though. If one day we could reliably plot a LLM into modules like this using an algorithm, does that mean we would be able to turn LLMs into chips, rather than data centers? | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
▲ | aaa_2006 5 days ago | parent | prev | next [-] | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
This is awesome! Would be cool if these LLM visualizations were turned into teaching tools, like showing how attention moves during generation or how prompts shift the model’s output. Feels like that kind of interactive view could really help people get what’s going on under the hood. | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
▲ | owenversteeg 4 days ago | parent | prev | next [-] | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
This is a fantastic visualization, but it and the rest of the literature all boil down to "input text goes in, we do some linear algebra on that and the model weights together, and... magic comes out." Of course, the precise incantations of the linear algebra _are_ important, the whole thing is worthless without the attention method, but that's just a method, a fairly simple one at that relative to what it does. How does it get from the ideas to the intelligence? What if we saw intelligence as the ideas themselves? | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
▲ | m4r71n 5 days ago | parent | prev | next [-] | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Karpathy walks through this visualization in https://www.youtube.com/watch?v=7xTGNNLPyMI, well worth a watch! | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
▲ | weego 5 days ago | parent | prev | next [-] | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
I have a related question I guess, it relates to how I can visualise the foundations of this beyond just a code implementation. Where does this come from in abstract/math? Did we not have it before, or did we just not consider it an avenue to go into? Or is it just simply the idea of scraping the entirety of human knowledge was just not considered until someone said "well, we could just scrape everything?" Were there recent breakthroughs from what we've understood about ML that have lead to this current explosion of research and pattern discovery and refinement? | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
▲ | pkdpic 5 days ago | parent | prev | next [-] | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
I just want to say that this is fantastic and I'm planning to show it to my 5yo son's computer club. | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
▲ | JackYoustra 4 days ago | parent | prev | next [-] | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
I saw this back on the first HN post and man. One of my favorite pedagogical tools to use. | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
▲ | martin-t 5 days ago | parent | prev | next [-] | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
I wish n-gate was still around. He would note the high vote to comment ratio. When HN has little to say, it's always a sign of a high quality very technical article. On a more serious note, this highlights a deeper issue with HN, similar sites and the attention economy. When an article takes a lot of time to read: - The only people commenting at first have no read it. - By the time you are done reading it, it's no longer visible on the front page so new people are not coming in anymore and the discussion appears dead. This discourages people who read it from making thoughtful comments because few people will read it. - There are people who wait for the discussion to die down so they can read it without missing the later thoughtful comments but they are discouraged from participating earlier while the discussion is alive because then they'd have to wade through the constantly changing discussion and separate what they have already seen from what they haven't. --- Back on topic, I'd love to see this with weights from an actual working model and a customizable input text so we could see how both the seed and input affects the output. And also a way to explore vectors representing "meanings" the way 3blue1brown did in his LLM videos. | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
▲ | kittikitti 5 days ago | parent | prev | next [-] | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
This is really great, and I'm excited to deep dive into it. I think combined with observability tools, this resource empowers scientists to break open what people presume to be a "black box". | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
▲ | b0dhimind 4 days ago | parent | prev | next [-] | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Dangit dunno what Add-on is interfering but not working on my current Firefox profile. (same user.js in a different profile but its working fine there) | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
▲ | ksvarma 5 days ago | parent | prev | next [-] | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Wow, just incredible. What a piece of art. Thank you for your work!! | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
▲ | sema4hacker 4 days ago | parent | prev | next [-] | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Fantastic graphics that immediately make me think "what a kluge, no way this will achieve AGI". | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
▲ | nickdothutton 4 days ago | parent | prev | next [-] | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Somehow this is both useful and aesthetically pleasing/satisfying. Well done! | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
▲ | FergusArgyll 4 days ago | parent | prev | next [-] | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Is there a similar resource for understanding backprop / the training sequence? | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
▲ | felipelalli 4 days ago | parent | prev | next [-] | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Incredibly amazing. | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
▲ | gcid73 5 days ago | parent | prev | next [-] | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Ok now I get it, this is an incredible resource. Thanks for your effort. | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
▲ | navigate8310 5 days ago | parent | prev [-] | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
468 upvotes and 24 comments, something's strange. | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|