Robots.txt: Cos’è e a Cosa Serve?

da Redazione

In questo post

Cos'è il File Robots.txt Come si Comporta nel Dettaglio un Robots.txt?Utilizzare il File Robots.txt Come Creare e Dove Caricare un File Robot.txt?In Conclusione

Nel precedente articolo abbiamo parlato della Sitemap XML e della sua importanza nella SEO, ma perché un sito web e-commerce si indicizzi correttamente e scali le classifiche dei motori di ricerca è fondamentale avere e gestire correttamente anche il file Robots.txt.

Cos’è il File Robots.txt

Il file Robots.txt è un semplice file di testo che si trova nella directory principale del qualsiasi sito sito web ed e-ccommerce.

Il file Robots.txt è un file di testo che indica ai “robot” (ossia gli spider dei motori di ricerca) quali pagine deve scansionare di un sito e quali pagine deve ignorare.

Sebbene non sia essenziale a livello SEO, il file Robots.txt ti serve per dare indicazioni specifiche a Google e agli altri motori di ricerca su come devono indicizzare un sito web.

Se usato correttamente, questo può migliorare la scansione e persino avere un impatto sulla SEO molto importante. Ma come si crea esattamente un file Robots.txt efficace? Una volta creato, come si usa? E quali errori bisogna evitare durante l’utilizzo?

Come si Comporta nel Dettaglio un Robots.txt?

Come ci ricordano sempre i webmaster senior della nostra web agency durante le riunioni che facciamo in WebJet, venti anni fa e più creavano “robot” o “spider” per eseguire la scansione e indicizzare le pagine sul web.

Questi robot, ancor oggi in attività, sono noti anche come user agent: a volte, questi robot si facevano strada su pagine che i proprietari di siti non volevano che fossero indicizzate. Ad esempio, un sito in costruzione o un sito web privato.

Per risolvere questo problema, Martijn Koster, un ingegnere olandese che ha creato Aliweb, il primo motore di ricerca al mondo, propose una serie di standard a cui ogni robot dovreva aderire.

Questi standard sono stati proposti per la prima volta nel febbraio 1994. Il 30 giugno 1994, un certo numero di autori di robot e primi pionieri del web hanno raggiunto un consenso sugli standard. Questi standard sono stati adottati come REP o “Robots Exclusion Protocol”.

Il file Robots.txt è un’implementazione di questo protocollo. Il REP definisce una serie di regole che ogni crawler o spider legittimo deve seguire.

Se il file Robots.txt indica ai robot di non indicizzare una pagina web, ogni robot legittimo, da Googlebot a Bingbot, deve seguire le istruzioni. Tieni presente che alcuni robot non autorizzati (malware, spyware, strumenti di raccolta della posta elettronica e così via) potrebbero non seguire questi protocolli.

Questo è il motivo per cui potresti vedere traffico di bot sulle pagine che hai bloccato tramite Robots.txt.

Per vedere il file Robots.txt di qualsiasi sito web basta collegarsi a questo URL: http: // [dominio_sito Web] /robots.txt. Ad esempio, ecco il nostro file Robots.txt.

esempio file robots.txt Webjet

Come vede è piccolo e corto, ma nella sua semplicità contiene un url fondamentale: quello della Sitemap.XLM di cui abbiamo parlato nel precedente articolo.

Due esempi di Robots.txt famosi, che invece necessitano di maggiori dettagli:

il file Robots.txt di Facebook

file Robots.txt di Google

esempio file robots.txt Google

Utilizzare il File Robots.txt

Come abbiamo detto prima il file Robots.txt non è un documento essenziale per un sito web. Il tuo sito può classificarsi e crescere perfettamente senza questo file.

Tuttavia, l’utilizzo di Robots.txt offre alcuni vantaggi:

Scoraggia i bot dalla scansione delle cartelle private: sebbene non sia perfetto, impedire ai bot di eseguire la scansione delle cartelle private li renderà molto più difficili da indicizzare, almeno da bot legittimi (come gli spider dei motori di ricerca).
Controlla l’utilizzo delle risorse: ogni volta che un bot esegue la scansione del tuo sito, prosciuga la larghezza di banda e le risorse del server, risorse che sarebbero meglio spese per i visitatori reali. Per i siti con molti contenuti, questo può aumentare i costi e offrire ai visitatori reali un’esperienza negativa. Puoi utilizzare Robots.txt per bloccare l’accesso a script, immagini non importanti, ecc. Per risparmiare risorse.
Dai la priorità alle pagine importanti: desideri che gli spider dei motori di ricerca eseguano la scansione delle pagine importanti del tuo sito (come le pagine di contenuto), non sprecano risorse scavando tra pagine inutili (come i risultati delle query di ricerca). Bloccando queste pagine inutili, puoi dare la priorità a quali pagine si concentrano i bot.

Come Creare e Dove Caricare un File Robot.txt?

Poiché Robots.txt è un file di testo di base, crearlo è molto semplice: basta aprire un editor di testo e salvare un file vuoto rinominandolo come robots.txt.

Una volta inseriti i comandi bisogna caricare il file sul server usando un software FTP. Quindi apri la cartella public_html e apri la directory principale del tuo sito. A seconda di come è configurato il tuo host web, la directory principale del tuo sito potrebbe trovarsi direttamente all’interno della cartella public_html. Oppure potrebbe essere una cartella al suo interno. Una volta aperta la directory principale del tuo sito, trascina e rilascia il file Robots.txt al suo interno.

In alternativa, puoi creare il file Robots.txt direttamente dall’editor FTP. Per fare ciò, apri la directory principale del sito e fai clic con il pulsante destro del mouse -> Crea nuovo file. Nella finestra di dialogo, digita “robots.txt” (senza virgolette) e premi OK.

Infine, assicurati di aver impostato l’autorizzazione file corretta per il file Robots.txt. Vuoi che il proprietario – te stesso – legga e scriva il file, ma non agli altri o al pubblico. Il tuo file Robots.txt dovrebbe mostrare “0644” come codice di autorizzazione. In caso contrario, fai clic con il pulsante destro del mouse sul file Robots.txt e seleziona “Autorizzazioni file …”

In Conclusione

Ricorda che il file Robots.txt controlla essenzialmente il modo in cui i robot interagiscono con il tuo sito. Vuoi impedire ai motori di ricerca di accedere al tuo intero sito? Cambia semplicemente le autorizzazioni in Robots.txt. Vuoi impedire a Bing di indicizzare la tua pagina dei contatti? Puoi farlo anche tu.

Di per sé, il file Robots.txt non migliorerà la tua SEO, ma puoi usarlo per controllare il comportamento del crawler sul tuo sito. Per aggiungere o modificare il file, aprilo semplicemente nel tuo editor FTP e aggiungi direttamente il testo. Una volta salvato il file, le modifiche verranno applicate immediatamente.

Il file Robots.txt è un utile alleato per istruire il modo in cui gli spider dei motori di ricerca e altri robot interagiscono con il tuo sito.

Se usato correttamente, può avere un effetto positivo sul tuo posizionamento e rendere più facile la scansione del tuo sito. Usa questa guida per capire come funziona Robots.txt, come è installato e alcuni modi comuni per utilizzarlo.

Se non sei sicuro su come evitare gli errori di cui abbiamo discusso sopra contattaci senza impegno. Il nostro team sarà ben lieto di offrirti una consulenza SEO gratuita in tempo reale.

da Redazione

La redazione di WebJet.it è formata da un team di esperti SEO e marketer, appassionati di gambling e nicchie competitive. Scriviamo approfondimenti, guide e news di settore, come spunti e strumenti formativi utili per chi ci legge.

5 Strategie di Marketing per Promuovere un Gioco Responsabile

Anche se il gioco d’azzardo è un’attività molto discussa e vietata in diversi paesi, è ancora ben presente a livello globale sotto varie forme tra cui il gioco online, sicuramente la branca più popolare ed apprezzata negli ultimi tempi. L’industria del gioco d’azzardo, un mercato da sempre in forte crescita, sa che nessun business può […]

Migliorare la propria Brand Awareness con Alcuni Trucchi

Creare, far crescere e migliorare la propria Brand Awareness, ossia la consapevolezza del brand, è parte integrante di ogni strategia di marketing di successo. Per coloro che non conoscono questo termine la Brand Awareness rappresenta la familiarità che il pubblico di riferimento ha con un brand e quanto bene lo conosce e riconosce. Ecco perché […]

Più del 60% delle Ricerche su Google porta a Zero Click

Più del 60% delle ricerche su Google porta a Zero Click, ma pochi lo sanno. Per anni, la Search Engine Optimization (o SEO) è stata un fattore fondamentale per il successo digitale per i brand e tutte le attività online. Il semplice concetto che ancor oggi si “nasconde” dietro la SEO, ossia aumentare il ranking […]