Cloudflare valuta i tuoi siti web per le agenzie IA

I siti web hanno imparato a comunicare con i browser, poi hanno iniziato a interagire con i motori di ricerca. Cloudflare ora ritiene che i siti web debbano imparare a comunicare con le agenzie IA e offre uno strumento per aiutare in questo. Si tratta di un'iniziativa ambiziosa, ma solleva più domande che soluzioni.

In Evidenza:

Cloudflare ha lanciato un tool gratuito chiamato isitagentready.com che valuta la compatibilità dei siti web con le agenzie IA su quattro dimensioni: scopribilità, contenuto, controllo degli accessi e capacità.
Il web non è ancora pronto: solo il 4% dei 200.000 siti web analizzati comunica le proprie preferenze per l'uso dell'IA e meno di 15 siti hanno adottato gli ultimi standard come le schede dei server MCP o i cataloghi API.
L'iniziativa si basa su un ecosistema di standard in fase di costruzione, il che espone gli early adopter al rischio di frammentazione o rapida obsolescenza.
Cloudflare si trova in una posizione che determina il punteggio e offre soluzioni per migliorarlo, il che richiede interrogativi.

Strumento di valutazione per un vero problema

Il punto di partenza di Cloudflare è solido. Quando un'agenzia IA desidera accedere a un sito web, leggere la documentazione, acquistare prodotti o interagire con un'API, si trova di fronte a un'infrastruttura progettata per gli esseri umani: HTML complesso, moduli, sessioni, captcha. Di conseguenza, emergono agenzie lente, costose in termini di token e spesso errate.

Cloudflare ha misurato l'ampiezza del problema esaminando i 200.000 domini più visitati e filtrando i reindirizzamenti, i server pubblicitari e i servizi tunnel, concentrandosi su siti con cui le agenzie possono interagire in modo ragionevole.

Il risultato è sorprendente: il 78% dei siti ha un file robots.txt, ma quasi tutti sono scritti per i crawler dei motori di ricerca tradizionali, non per le agenzie. Solo il 3,9% offre contenuti in formato Markdown su richiesta. E nuovi standard come le schede dei server MCP sono disponibili in meno di 15 siti in tutto il dataset.

La soluzione proposta da Cloudflare tramite isitagentready.com offre un punteggio strutturato attorno a quattro assi.

Scopribilità (discoverability), controlla la presenza e la qualità di robots.txt, sitemap.xml e degli Link Headers.
Contenuto (content), valuta se il sito offre una versione pulita in Markdown adeguata alla richiesta di un'agenzia.
Controllo degli accessi (bot access control), verifica se il sito esprime preferenze chiare su cosa possono fare le IA con il suo contenuto.
Infine, capacità, testa la presenza di standard più avanzati come le schede dei server MCP, i cataloghi API o la scoperta OAuth per consentire alle agenzie di autenticarsi correttamente.

Standard in fase di sviluppo e adozione quasi inesistente

Qui l'entusiasmo di Cloudflare deve essere limitato. Molti degli standard in evidenza in questo punteggio sono o in fase di bozza presso l'IETF o proposte informali senza garanzia di accettazione generale. Il Catalogo API (RFC 9727), le schede dei server MCP o l'Autenticazione Web Bot sono alcuni dei nuovi standard che non hanno ancora raggiunto uno stato RFC definitivo alla data di pubblicazione.

Questa situazione non è esclusiva di Cloudflare: è la realtà di un web in fase di evoluzione. Tuttavia, questo richiede una certa onestà che è stata sottovalutata nel blog di Cloudflare. Considerando che uno standard adottato oggi potrebbe essere ristrutturato o abbandonato entro diciotto mesi, potrebbe generare un carico di lavoro che richiede una reintegrazione. Mentre i grandi attori hanno risorse per seguire queste evoluzioni, le piccole squadre o i programmatori indipendenti potrebbero non essere nella stessa situazione.

Un esempio è llms.txt. Proposto a settembre 2024, questo file standardizzato per presentare un sito a un LLM non è incluso di default nel punteggio di Cloudflare, ma è solo facoltativo. Perché? Lo standard è ancora in fase di discussione. Questa è una decisione cauta, ma dimostra anche che Cloudflare non sa ancora quali rischi debba affrontare.

Discussione sul contenuto Markdown: un guadagno reale misurato

Uno degli aspetti più concreti dell'iniziativa e probabilmente il più utile immediatamente è la capacità di un server di rispondere in formato Markdown quando un'agenzia invia l'intestazione Accept: text/markdown. Cloudflare afferma di aver misurato una riduzione fino all'80% nel numero di token necessari per leggere una pagina.

Il contesto di questo numero è importante. L'HTML di una pagina di documentazione tecnica è spesso molto pesante: navigazione, menu, script, tag annidati... tutto ciò genera solo rumore per un LLM. Un file Markdown ben strutturato è l'essenza del contenuto senza imballaggio. Il risultato diretto è una riduzione dei costi delle chiamate API per le agenzie, una diminuzione della latenza e un aumento della probabilità che l'agenzia ottenga il contesto completo senza interruzioni.

Cloudflare spiega di aver testato il proprio sito di documentazione (developers.cloudflare.com) e di aver indirizzato un'agenzia (attraverso Kimi-k2.5 OpenCode) a diversi siti tecnici. Risultato: consumo di token ridotto del 31% e risposte corrette più veloci del 66% rispetto ad altri siti non ottimizzati. Questi numeri devono essere considerati con cautela poiché derivano da condizioni di test interne non verificate. Tuttavia, l'ordine di grandezza è coerente con ciò che si sa sull'eccesso strutturale dell'HTML.

Implementazione tecnica in Cloudflare Docs: pratica e ripetibile

La parte più istruttiva dell'articolo è come Cloudflare ha ristrutturato la propria documentazione. L'approccio è interessante poiché affronta un problema reale: solo tre dei sette strumenti testati a febbraio 2026 (Claude Code, OpenCode e Cursor) inviano automaticamente l'intestazione Accept: text/markdown. Per gli altri è necessaria un'alternativa.

La soluzione scelta combina due regole di Cloudflare:

Una riscrittura dell'URL trasforma la richiesta /r2/get-started/index.md in /r2/get-started/,
E aggiunge automaticamente l'intestazione Accept: text/markdown a queste richieste riscritte.

Risultato: Qualsiasi agenzia può accedere alla versione Markdown di qualsiasi pagina aggiungendo /index.md all'URL, senza la necessità di gestire un'intestazione speciale.

Un'altra decisione degna di nota: invece di un unico grande file llms.txt (la documentazione di Cloudflare contiene oltre 5.000 pagine), ogni directory di primo livello ha il proprio file e il file radice punta a queste sottodirectory. Questo evita il ciclo grep descritto nell'articolo: un'agenzia che si imbatte in un file molto lungo inizia a perdere di vista i contorni, cerca parole chiave, aumenta le chiamate e riduce la qualità delle risposte.

La granularità è stata affrontata con attenzione: circa 450 pagine contenenti solo elenchi di collegamenti (pagine di indice) sono state escluse da llms.txt, poiché non aggiungono alcun valore semantico per un LLM per le sottopagine già elencate individualmente.

Un attore che valuta e vende preparazione al punteggio

La posizione di Cloudflare richiede un'attenta analisi. L'azienda pubblica il punteggio di riferimento per la preparazione delle agenzie, lo integra nel Browser URL, offre modelli pronti per correggere ogni punto di fallimento... e vende prodotti (Workers, Rules, Access) per applicare queste correzioni. isitagentready.com è anch'esso offerto da Cloudflare e ospita un server MCP.

Questo non è necessariamente problematico: Google ha fatto lo stesso con Lighthouse e Core Web Vitals diventando un fornitore che è sia giudice sia fornitore di strumenti per migliorare (tramite Google Cloud, Firebase, ecc.). Tuttavia, questo significa che i criteri per il punteggio possono evolversi in base agli interessi commerciali dell'azienda tanto quanto alle reali esigenze delle agenzie. Uno standard supportato da un'unica azienda, anche con buone intenzioni, può influenzare le linee guida.

Inoltre, è notevole che Cloudflare stia attivamente promuovendo standard relativi ai pagamenti delle agenzie (x402, Protocollo di Commercio Universale); alcuni di questi standard includono partner diretti come Coinbase. Questi standard non sono ancora inclusi nel punteggio, ma la loro presenza nello strumento indica già una direzione.

Cose che gli sviluppatori possono davvero fare oggi

Nonostante queste riserve, molte azioni forniscono un ritorno chiaro e immediato, indipendentemente dall'evoluzione degli standard:

Fornire Markdown su richiesta è tecnicamente semplice, riduce i costi per i consumatori API e migliora la qualità delle risposte per le agenzie. Questa è una priorità.
Modificare il robots.txt per le agenzie IA (ad esempio aggiungendo istruzioni per crawler come GPTBot, ClaudeBot, CCBot) è una buona pratica e senza costi, chiarisce i diritti di accesso.
Per i siti con molto contenuto, configurare llms.txt per sezione è una buona pratica di documentazione sia per le agenzie che per le persone che vogliono comprendere rapidamente l'architettura di un sito.

D'altra parte, implementare schede dei server MCP o cataloghi API per un sito che non ha ancora un'API pubblica o un chiaro caso d'uso per le agenzie è equivalente a costruire una sala d'attesa senza visitatori.

Adozione come indicatore di mercato, non come obbligo

Il vero valore dell'iniziativa di Cloudflare risiede forse nel dataset Radar: un set di dati che monitora settimanalmente l'adozione di ogni standard per i 200.000 siti più visitati, segmentato per categorie di nomi di dominio. Questi dati permetteranno di misurare se gli standard portano realmente guadagni o se la maggior parte dei siti rimane passiva, aspettandosi che le agenzie si adattino a loro, come già fanno da trent'anni con l'HTML.

La risposta a questa domanda dirà molto sulla dinamica di potere tra editori di siti e sviluppatori di agenzie. Le agenzie più popolari ridurranno la pressione sull'adattamento dei siti quando acquisiranno capacità di parsing HTML sufficientemente robuste. Al contrario, se i costi e i tempi del consumo di HTML non ottimizzato diventano un vantaggio competitivo misurabile per i siti conformi, l'adozione aumenterà naturalmente.

Commenti

(6 Commenti)

ZY

Zeynep Yıldırım

Questo nuovo strumento di Cloudflare è davvero entusiasmante! È certo che i siti web debbano allinearsi con le agenzie IA.
ET

Emirhan Tekin

Mi chiedo quanto sarà efficace questo sistema. Se davvero si possono risparmiare l'80% di token, sarebbe un grande successo.
SA

Sedef Arslan

L'adozione del formato Markdown potrebbe rendere la presentazione dei contenuti molto più efficiente. Tuttavia, è preoccupante che gli standard siano ancora in fase di sviluppo.
KÇ

Kuzey Çetin

Questo strumento offerto da Cloudflare potrebbe rappresentare una grande opportunità, soprattutto per le piccole agenzie. Tuttavia, i tassi di adozione sono molto bassi.
MŞ

Mavi Şimşek

All'inizio questa iniziativa sembra molto ambiziosa. Spero che nel tempo più siti web adottino questi standard.
EA

Eylül Aydın

C'è bisogno di maggiori informazioni sul controllo degli accessi e sulla qualità dei contenuti. Cloudflare dovrebbe fornire maggiore trasparenza su questo.