Gestire la visibilità di un sito web nel 2026 è come navigare in alto mare: gettare semplicemente le reti non garantirà una buona pesca; è necessario guidare con precisione le navi verso le zone di pesca. Nell’ecosistema digitale odierno, il file robots.txt funge da indispensabile capitano di porto, dettando ai motori di ricerca quali aree scansionare e quali ignorare. Molto più di un semplice file di testo, è il fulcro di una strategia SEO tecnica ben eseguita, che preserva le risorse del server massimizzando al contempo l’indicizzazione di contenuti di alto valore. Comprenderne i meccanismi garantisce che Google, Bing e altri bot concentrino le loro energie dove è veramente importante per la tua attività.

  • In breve: punti chiave da ricordare
  • Il file robots.txt è un filtro situato nella directory principale del sito web che indica ai crawler dei motori di ricerca quali URL possono e non possono visitare. Svolge un ruolo cruciale nella gestione del budget di scansione, impedendo ai motori di ricerca di perdere tempo su pagine prive di valore SEO. Una configurazione errata può deindicizzare involontariamente un intero sito web, rendendone essenziale la verifica. Questo non è uno strumento di sicurezza: le pagine bloccate possono comunque essere indicizzate se vi puntano link esterni. La sintassi si basa su direttive specifiche come User-agent, Disallow e Allow. Il ruolo fondamentale del file robots.txt nell’architettura web: il file robots.txt è spesso il primo punto di contatto tra il tuo sito e i motori di ricerca. Quando un bot, come Googlebot, arriva al tuo dominio, cerca immediatamente questo file all’indirizzo standard tuodominio.com/robots.txt
  • Si tratta di un protocollo di esclusione robots.txt che opera su un principio di fiducia: tu fornisci istruzioni e la maggior parte dei robot ben intenzionati le rispetta.
  • Il suo scopo principale è regolare il traffico dei bot. Immagina un sito di e-commerce che genera migliaia di URL per filtri o sessioni utente. Senza istruzioni chiare, i robot potrebbero esaurirsi esplorando queste varianti inutili. Il file robots.txt consente di definire zone di esclusione, garantendo che gli sforzi di scansione siano concentrati sulle pagine dei prodotti, sulle categorie principali e sui post del blog. È uno strumento tecnico essenziale per qualsiasi strategia SEO sostenibile. È importante notare la differenza tra scansione e indicizzazione. Il file robots.txt impedisce la scansione. Tuttavia, se una pagina bloccata da questo file riceve forti backlink, può comunque apparire nei risultati di ricerca, spesso con un messaggio che indica che la descrizione non è disponibile. Per impedire formalmente l’indicizzazione, sono necessari altri metodi come il meta tag noindex. Impatto diretto sul budget di scansione e sulle prestazioni SEO Il concetto di budget di scansione è fondamentale per i siti web di grandi dimensioni. I motori di ricerca non dispongono di risorse illimitate; Assegnano un tempo e una frequenza definiti per la scansione di ogni sito. Se le risorse del tuo server vengono sprecate nella scansione di pagine di amministrazione, file temporanei o duplicati, diluisci la potenza della tua SEO.Bloccando l’accesso a sezioni irrilevanti, costringi i crawler a concentrarsi su contenuti di alta qualità. Questo favorisce una scoperta più rapida delle tue nuove pagine e aggiornamenti più frequenti dei contenuti esistenti. È qui che entra in gioco l’arte di

ottimizzare il budget di scansione.

Questo ha perfettamente senso. Indirizzando i bot verso pagine strategiche, si aumentano automaticamente le possibilità di posizionamento. Inoltre, una corretta gestione tramite robots.txt riduce il carico del server. Le continue richieste dei bot a script pesanti o immagini non ottimizzate possono rallentare il sito per gli utenti reali. In questo senso, questo file contribuisce indirettamente all’esperienza utente (UX) e alle prestazioni tecniche complessive, fattori che diventeranno sempre più importanti negli algoritmi di ranking nel 2026. https://www.youtube.com/watch?v=loPR_GSpwkw

Padroneggiare la sintassi: User-agent, Disallow e Allow La scrittura di un file robots.txt si basa su una sintassi rigorosa ma accessibile. Ogni gruppo di direttive inizia definendo a chi si applica. Questo è il comando User-agent. È possibile indirizzare un bot specifico (ad esempio, Googlebot

per Google o

Bingbot

per Bing) oppure utilizzare un asterisco (*) per applicare la regola a tutti i bot indiscriminatamente.

La direttiva più comune è Disallow

. Indica ai bot

le istruzioni
Loop Marketing e HubSpot: reinventare la SEO nell’era dell’intelligenza artificiale conversazionale
→ À lire aussi Loop Marketing e HubSpot: reinventare la SEO nell’era dell’intelligenza artificiale conversazionale Referenziamento organico (SEO) · 21 Gen 2026

quali percorsi sono vietati. Ad esempio,

Disallow: /admin/ impedirà ai bot di accedere alla cartella di amministrazione. È fondamentale comprendere che questi percorsi sono relativi alla directory principale del sito. Un semplice errore di barra può modificare drasticamente l’ambito della regola. Il comandoAllow offre un blocco più dettagliato. È particolarmente utile per consentire l'accesso a un file specifico situato in una cartella generalmente bloccata. Questa è una pratica comune per consentire ai bot l'accesso a determinati file CSS o JavaScript necessari per il rendering della pagina, anche se la cartella principale è vietata. Questa granularità offre un controllo preciso sull' indicizzazione delle risorse tecniche. Uso avanzato di caratteri jolly ed espressioni regolari Per i siti web complessi, elencare ogni URL da bloccare sarebbe noioso e inefficiente. È qui che entrano in gioco i caratteri jolly. L’asterisco (*) sostituisce qualsiasi stringa di caratteri. È lo strumento ideale per gestire i parametri URL che creano contenuti duplicati. Ad esempio, la direttiva `Disallow: /*?sort=` bloccherà tutti gli URL contenenti un parametro di ordinamento, indipendentemente dalla pagina in cui appare.

Il simbolo del dollaro ($) viene utilizzato per contrassegnare la fine di un URL. È molto utile per bloccare un tipo di file specifico. Se si desidera impedire che tutti i file PDF vengano scansionati per evitare che entrino in competizione con le pagine HTML, si utilizza `Disallow: /*.pdf$`. Senza questo simbolo finale, si rischia di bloccare un URL che contiene “.pdf” al centro della sua struttura, il che raramente è l’obiettivo previsto. L’utilizzo di questi schemi richiede grande attenzione. Una regola troppo ampia può bloccare accidentalmente pagine strategiche. È quindi essenziale testare queste direttive prima di distribuirle in produzione. Per approfondire gli aspetti tecnici e ottimizzare la scansione del tuo sito, l’uso combinato di caratteri jolly e direttive Allow consente di modellare con precisione il percorso dei bot. Direttiva Funzione Esempio concreto User-agent Definisce il bot di destinazione

User-agent: * (Tutti i bot) DisallowBlocca l’accesso a un percorso Disallow: /cart/

Allow

Consente un percorso all’interno di una cartella bloccata Allow: /private-folder/public-image.jpg Sitemap

Indica la posizione della sitemap Sitemap: https://site.com/sitemap.xmlCreazione tecnica e distribuzione del file

Creare il file fisico è sorprendentemente semplice. È necessario solo un editor di testo semplice, come Blocco note su Windows o TextEdit su Mac. Non utilizzare un elaboratore di testi come Word, poiché aggiunge codice di formattazione invisibile, rendendo il file illeggibile per i crawler dei motori di ricerca. Il file deve essere nominato esattamente come robots.txt, tutto in minuscolo.

Una volta scritto, questo file deve essere posizionato nella directory principale del tuo web hosting. Se utilizzi un client FTP, lo posizionerai nella cartella public_html o
www . L’obiettivo è che sia direttamente accessibile dopo il tuo nome di dominio. Se il tuo sito è example.com , il file dovrebbe aprirsi in
example.com/robots.txt . Se si trova in una sottocartella, verrà ignorato dai motori di ricerca. Per gli utenti di piattaforme CMS come WordPress, i plugin SEO spesso gestiscono questo file virtualmente. Tuttavia, avere un file fisico sul server rimane il metodo più affidabile. Questo ti offre il controllo completo ed evita che conflitti tra plugin possano modificare le tue regole di ottimizzazione a tua insaputa. Controlla sempre la presenza e il contenuto del file dopo qualsiasi migrazione o modifica importante al sito.
Simulatore Robots.txt Testa le tue regole di indicizzazione in tempo reale. Inserisci un URL e le tue direttive per verificare l’accesso.
Standard Blocca tutto WordPress Semplice
Come l’intelligenza artificiale trasformerà la mia strategia anti-SEO in una strategia redditizia
→ À lire aussi Come l’intelligenza artificiale trasformerà la mia strategia anti-SEO in una strategia redditizia Referenziamento organico (SEO) · 28 Dic 2025

File robots.txt

modificami User-agent: *Disallow: /admin/

Disallow: /private/ Allow: /private/public/ Disallow: *.pdf$ URL o percorso da testareSimula il bot (User-Agent) Googlebot (o predefinito *)Bingbot TwitterbotEsegui test

Fai clic su “Esegui test” per visualizzare il risultato.Consentito Il robot può indicizzare:

${path}

${rule ? Regola applicata:

‘}
Il crawler NON PUÒ indicizzare: ${path}
Non consentito: ${rule.path}
/** * Templates prédéfinis pour le fichier robots.txt */ const templates = { ‘standard’: `User-agent: *nDisallow: /admin/nDisallow: /prive/nAllow: /prive/public/nDisallow: *.pdf$`, ‘block-all’: `User-agent: *nDisallow: /`, ‘wordpress’: `User-agent: *nDisallow: /wp-admin/nAllow: /wp-admin/admin-ajax.phpnSitemap: https://monsite.com/sitemap.xml` }; /** * Charge un template dans la zone de texte */ function loadTemplate(key) { const textarea = document.getElementById(‘robots-content’); textarea.value = templates[key]; // Animation flash pour feedback visuel textarea.classList.add(‘ring-2’, ‘ring-green-400’); setTimeout(() => textarea.classList.remove(‘ring-2’, ‘ring-green-400’), 300); // Mettre à jour l’URL de test suggérée selon le template if(key === ‘block-all’) document.getElementById(‘test-url’).value = ‘/nimporte-quoi’; if(key === ‘wordpress’) document.getElementById(‘test-url’).value = ‘/wp-admin/options.php’; if(key === ‘standard’) document.getElementById(‘test-url’).value = ‘/admin/config’; } /** * Fonction principale de parsing et vérification * Logique simplifiée basée sur la spécification “Longest Match” de Google */ function checkRobotsTxt() { const robotsContent = document.getElementById(‘robots-content’).value; let testPath = document.getElementById(‘test-url’).value.trim(); const userAgentSimulated = document.getElementById(‘user-agent-select’).value; const resultCard = document.getElementById(‘result-card’); // Nettoyage de l’URL pour ne garder que le chemin (path) try { // Si l’utilisateur met une URL complète, on extrait le path if (testPath.startsWith(‘http’)) { const urlObj = new URL(testPath); testPath = urlObj.pathname + urlObj.search; } // S’assurer que le chemin commence par / if (!testPath.startsWith(‘/’)) { testPath = ‘/’ + testPath; } } catch (e) { // Fallback simple if (!testPath.startsWith(‘/’)) testPath = ‘/’ + testPath; } // Parsing ligne par ligne const lines = robotsContent.split(‘n’); let currentUserAgent = null; let relevantRules = []; let appliesToMyBot = false; // Étape 1 : Extraire les règles qui s’appliquent à notre User-Agent // On cherche soit “User-agent: *” soit le nom spécifique /* Note: Dans un vrai parser complexe, on gérerait les groupes multiples. Ici, on simplifie pour l’outil éducatif : on prend le bloc ‘*’ ou le bloc spécifique s’il existe. */ let captureMode = false; // On fait une passe simple : on cherche le bloc le plus pertinent // Priorité : User-agent spécifique > User-agent * // Pour cet outil simple, on va considérer que toutes les règles sous “*” s’appliquent // sauf si on détecte un bloc spécifique. C’est une approximation pour l’UX. lines.forEach(line => { const trimmed = line.trim(); if (!trimmed || trimmed.startsWith(‘#’)) return; // Ignorer commentaires/vides const lowerLine = trimmed.toLowerCase(); // Détection du début de bloc User-agent if (lowerLine.startsWith(‘user-agent:’)) { const uaValue = trimmed.substring(11).trim(); // Si c’est *, on capture toujours (règle par défaut) if (uaValue === ‘*’) { captureMode = true; } // Si c’est un bot spécifique (ex: Googlebot) et qu’on teste *, on ignore pour l’instant dans cette démo simple // Pour rendre l’outil robuste : on capture tout ce qui est ‘*’ else { captureMode = false; } } else if (captureMode) { if (lowerLine.startsWith(‘disallow:’)) { relevantRules.push({ type: ‘disallow’, path: trimmed.substring(9).trim() }); } else if (lowerLine.startsWith(‘allow:’)) { relevantRules.push({ type: ‘allow’, path: trimmed.substring(6).trim() }); } } }); // Étape 2 : Vérifier les règles (Logique du “Longest Match”) // Une règle ‘Allow’ sur /dossier/fichier l’emporte sur ‘Disallow’ /dossier/ let winningRule = null; let isAllowed = true; // Par défaut, tout est autorisé sur le web relevantRules.forEach(rule => { // Conversion simple des wildcards robots.txt vers Regex // * devient .* // ? n’est pas standard robots.txt mais géré comme littéral, sauf regex avancée // Échapper les caractères spéciaux regex sauf * et $ let pattern = rule.path .replace(/[.+?^${}()|[]]/g, ‘$&’) // échappe tout .replace(/*/g, ‘.*’) // remet le * en wildcard regex .replace(/$/g, ‘$’); // remet le $ en fin de ligne // Si le path finit par autre chose qu’un $, c’est un préfixe (match partiel autorisé) // ex: /admin match /admin/login try { const regex = new RegExp(‘^’ + pattern); if (regex.test(testPath)) { // C’est un match ! // Vérifier si c’est le match le plus long trouvé jusqu’ici if (!winningRule || rule.path.length >= winningRule.path.length) { winningRule = rule; } } } catch(e) { console.error(“Regex error”, e); } }); // Conclusion if (winningRule && winningRule.type === ‘disallow’) { isAllowed = false; } // Affichage UI renderResult(isAllowed, testPath, winningRule); } function renderResult(allowed, path, rule) { const resultCard = document.getElementById(‘result-card’); if (allowed) { resultCard.className = “mt-4 p-6 rounded-lg border-2 border-green-200 bg-green-50 flex flex-col items-center justify-center text-center animate-pulse-once”; resultCard.innerHTML = `

`;

}

// Rimuovi l’animazione in seguito setTimeout(() => resultCard.classList.remove(‘animate-pulse-once’), 1000);

}

Best practice e strategie di esclusione Una strategia efficace inizia non bloccando le risorse di rendering. In passato, i file CSS e JavaScript venivano spesso bloccati per risparmiare tempo di scansione. Questo è un errore grave oggi. Googlebot “vede” il tuo sito come un utente moderno, soprattutto sui dispositivi mobili. Se un motore di ricerca non riesce a caricare lo stile o gli script, potrebbe considerare il tuo sito “non ottimizzato per i dispositivi mobili”, il che avrà un impatto negativo sul tuo posizionamento. Si consiglia inoltre di specificare la posizione della Sitemap XML nel file robots.txt. Sebbene sia possibile inviarla direttamente tramite Google Search Console, questa ridondanza garantisce che tutti i robot, compresi quelli che non gestisci manualmente (come quelli provenienti da strumenti SEO o motori di ricerca alternativi), possano trovare facilmente la tua Sitemap. Si tratta di una semplice direttiva:

Sitemap: https://tuodominio.com/sitemap.xml

Infine, evita inutili ridondanze. Se utilizzi già tag canonici per gestire versioni simili delle tue pagine, bloccarli tramite robots.txt non è sempre la soluzione migliore. Devi scegliere le tue battaglie: robots.txt esiste per

il blocco di accessi massivo e strutturale (cartelle di amministrazione, script), mentre la gestione dettagliata dei contenuti duplicati è spesso gestita meglio tramite tag in-page per gestire correttamente i tag canonici.

Errori critici da evitare nel 2026 L’errore più devastante è senza dubbio il comando Disallow: / Questa semplice riga indica ai robot di non scansionare nulla sul sito. Questa funzione è utile durante lo sviluppo di un sito di pre-produzione, ma è disastrosa se il file viene inserito così com’è nel sito live. Questo porta alla completa e rapida deindicizzazione della vostra presenza web. /* Petite animation custom pour le résultat */ @keyframes bounceIn { 0% { transform: scale(0.95); opacity: 0.7; } 50% { transform: scale(1.02); opacity: 1; } 100% { transform: scale(1); opacity: 1; } } .animate-pulse-once { animation: bounceIn 0.4s ease-out forwards; } ▷ I 5 libri essenziali per padroneggiare la SEO in modo approfondito
→ À lire aussi ▷ I 5 libri essenziali per padroneggiare la SEO in modo approfondito Referenziamento organico (SEO) · 21 Gen 2026

Un altro equivoco comune riguarda la sicurezza. Il file robots.txt è pubblico. Chiunque può leggerlo per vedere quali cartelle si desidera nascondere. Aggiungere `Disallow: /my-super-secret-folder/` è come mettere un cartello che indica i propri dati sensibili agli hacker malintenzionati. Per proteggere i dati privati, utilizzate password o restrizioni IP lato server, mai il file robots.txt.

Dovreste anche diffidare delle direttive contraddittorie. Se bloccate una cartella con `Disallow` ma poi inserite una regola `Allow` più specifica al di sotto di essa senza rispettare l’ordine di priorità o la specificità del robot, il risultato può essere imprevedibile. Testate sempre le vostre regole. Inoltre, non tentare di utilizzare robots.txt per manipolare il “link juice” interno (PageRank); questa tecnica è obsoleta e inefficace per una moderna strategia di scansione. Strumenti di test e manutenzione regolare

Il web è dinamico, il tuo sito si evolve e il tuo file robots.txt deve tenere il passo. Google Search Console offre un potente strumento di test per robots.txt. Ti consente di simulare la scansione di qualsiasi URL del tuo sito da parte di Googlebot e di verificare se è consentito o bloccato dalle tue regole attuali. Questo è un passaggio di convalida obbligatorio prima della pubblicazione. Si consiglia di controllare questo file a ogni aggiornamento importante della struttura del sito o all’installazione di un nuovo modulo. A volte, un plugin può generare directory virtuali che non si desidera vengano scansionate. Un monitoraggio regolare aiuta a mantenere un’igiene SEO impeccabile. Strumenti di auditing come Screaming Frog possono anche avvisare se pagine importanti vengono bloccate per errore. Infine, tieni d’occhio i messaggi di avviso negli strumenti per i webmaster. Se Google rileva un aumento anomalo di errori 403 o URL bloccati, il file robots.txt è spesso il principale sospettato. Una manutenzione proattiva previene molte insidie ​​nei risultati di ricerca e garantisce una gestione ottimale delle risorse del server.

Come utilizzare i prompt SEO di ChatGPT per migliorare il tuo posizionamento: una guida completa
→ À lire aussi Come utilizzare i prompt SEO di ChatGPT per migliorare il tuo posizionamento: una guida completa Referenziamento organico (SEO) · 03 Giu 2025

https://www.youtube.com/watch?v=DRmZjujK9QA

Robot.txt vs. Meta Noindex: la resa dei conti Spesso si fa confusione tra il blocco della scansione e l'impedimento dell'indicizzazione. Come accennato in precedenza, robots.txt impedisce al robot di leggere la pagina. Ma se questa pagina è nota a Google (tramite un link esterno), può indicizzarla senza conoscerne il contenuto (visualizzando solo l'URL nei risultati). Questo è spesso un risultato poco attraente e irrilevante.

Se il tuo obiettivo è far scomparire completamente la pagina dai risultati di ricerca (ad esempio, una pagina di ringraziamento dopo un acquisto o una pagina di accesso), il metodo consigliato è consentire ai crawler dei motori di ricerca di esplorare la pagina (in modo da evitare il blocco del file robots.txt), ma includere un tag “ nel codice HTML della pagina. Il crawler deve essere in grado di leggere il tag per applicarlo. In sintesi: usate robots.txt per risparmiare budget di scansione su sezioni tecniche o voluminose e non necessarie. Usate il tag noindex per nascondere chirurgicamente pagine specifiche dai risultati di ricerca, consentendo comunque ai crawler di accedervi. Questa distinzione è ciò che distingue un SEO principiante da un esperto. Un file robots.txt è obbligatorio?

No, non è tecnicamente obbligatorio. Se il file manca, i motori di ricerca scansioneranno l’intero sito per impostazione predefinita. Tuttavia, è altamente consigliato crearne uno per ottimizzare la scansione ed evitare di indicizzare pagine tecniche non necessarie. Come si blocca l'accesso a un'intera cartella? Per bloccare l’accesso a un’intera directory, utilizzate la direttiva “Disallow” seguita dal percorso della cartella e da una barra finale. Ad esempio: Disallow: /private-folder/ impedirà ai crawler di accedere a quella directory e alle sue sottocartelle. Il file robots.txt impedisce completamente l'indicizzazione di una pagina? Non necessariamente. Impedisce la scansione del contenuto della pagina. Se la pagina riceve link da altri siti, Google può comunque indicizzarla visualizzandone solo l'URL, senza descrizione, perché non può leggerne il contenuto. Posso usare robots.txt per nascondere pagine protette? No, non dovresti mai usare questo file per motivi di sicurezza. Il file è pubblico e rivela l’esistenza di queste pagine. Per proteggere i contenuti, utilizza la protezione con password lato server o l’autenticazione utente.

{“@context”:”https://schema.org”,”@type”:”FAQPage”,”mainEntity”:[{“@type”:”Question”,”name”:”Est-il obligatoire d’avoir un fichier robots.txt ?”,”acceptedAnswer”:{“@type”:”Answer”,”text”:”Non, ce n’est pas techniquement obligatoire. Si le fichier est absent, les moteurs de recherche exploreront l’intu00e9gralitu00e9 de votre site par du00e9faut. Cependant, il est fortement recommandu00e9 de le cru00e9er pour optimiser le crawl et u00e9viter l’indexation de pages techniques inutiles.”}},{“@type”:”Question”,”name”:”Comment bloquer l’accu00e8s u00e0 un dossier entier ?”,”acceptedAnswer”:{“@type”:”Answer”,”text”:”Pour bloquer l’accu00e8s u00e0 l’ensemble d’un ru00e9pertoire, utilisez la directive ‘Disallow’ suivie du chemin du dossier et d’un slash final. Par exemple : Disallow: /dossier-prive/ empu00eachera les robots d’entrer dans ce ru00e9pertoire et ses sous-dossiers.”}},{“@type”:”Question”,”name”:”Le fichier robots.txt empu00eache-t-il totalement l’indexation d’une page ?”,”acceptedAnswer”:{“@type”:”Answer”,”text”:”Pas nu00e9cessairement. Il empu00eache l’exploration (le crawl) du contenu de la page. Si la page reu00e7oit des liens depuis d’autres sites, Google peut tout de mu00eame l’indexer en affichant uniquement son URL, sans description, car il ne peut pas lire le contenu.”}},{“@type”:”Question”,”name”:”Puis-je utiliser le robots.txt pour cacher des pages su00e9curisu00e9es ?”,”acceptedAnswer”:{“@type”:”Answer”,”text”:”Non, il ne faut jamais utiliser ce fichier pour la su00e9curitu00e9. Le fichier est public et ru00e9vu00e8le l’existence de ces pages. Pour su00e9curiser du contenu, utilisez une protection par mot de passe cu00f4tu00e9 serveur ou une authentification utilisateur.”}}]}

📋 Checklist SEO gratuite — 50 points à vérifier

Téléchargez ma checklist SEO complète : technique, contenu, netlinking. Le même outil que j'utilise pour mes clients.

Télécharger la checklist

Besoin de visibilité pour votre activité ?

Je suis Kevin Grillot, consultant SEO freelance certifié. J'accompagne les TPE et PME en référencement naturel, Google Ads, Meta Ads et création de site internet.

Kevin Grillot

Écrit par

Kevin Grillot

Consultant Webmarketing & Expert SEO.

Voir tous les articles →
Ressource gratuite

Checklist SEO Local gratuite — 15 points à vérifier

Téléchargez notre checklist et vérifiez si votre site est optimisé pour Google.

  • 15 points essentiels pour le SEO local
  • Format actionnable et imprimable
  • Utilisé par +200 entrepreneurs

Vos données restent confidentielles. Aucun spam.