▲ | whilenot-dev 5 days ago | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
User Agent "Perplexity‑User"[0]: > Since a user requested the fetch, this fetcher generally ignores robots.txt rules. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
▲ | Lerc 5 days ago | parent | next [-] | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
There's definitely a distinction between fetching data for training and fetching data as an agent on behalf of a user. I guess you could demand that any program that identifies itself as a user agent should be blocked, but it seems counterproductive. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
▲ | nine_k 5 days ago | parent | prev [-] | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
But this is more like `curl https://some/url/...` ignoring robots.txt. Crawlers are the thing that should honor robots.txt, "nofollow", etc. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|