| ▲ | minimaxir 6 hours ago | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
In hindsight I may have been pedantic. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| ▲ | cortesoft 8 minutes ago | parent | next [-] | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Being pedantic isn't a bad thing in technical discussions. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| ▲ | wilkystyle 5 hours ago | parent | prev | next [-] | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
I had a similar thought to you, and found your question and the resulting discussion helpful! | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| ▲ | santiagobasulto 3 hours ago | parent | prev | next [-] | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Not at all, I had the same feeling as yours the first time I read it. I think the key is that the "encoder" they're using is just a linear projection, which is probably pretty fast and memory efficient. A single matmul vs a ViT encoder is probably a huge win. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| ▲ | alberto467 5 hours ago | parent | prev [-] | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Not at all. Getting really pedantic, tokenization is also a form of encoding, so it doesn't matter the modality you're using, you'll end up doing some type of encoding in some way. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||