Robots.txt: Cos’è e a Cosa Serve?

robot spider seo
da Redazione

Nel precedente articolo abbiamo parlato della Sitemap XML e della sua importanza nella SEO, ma perché un sito web e-commerce si indicizzi correttamente e scali le classifiche dei motori di ricerca è fondamentale avere e gestire correttamente anche il file Robots.txt.

Cos’è il File Robots.txt

Il file Robots.txt è un semplice file di testo che si trova nella directory principale del qualsiasi sito sito web ed e-ccommerce.

Il file Robots.txt è un file di testo che indica ai “robot” (ossia gli spider dei motori di ricerca) quali pagine deve scansionare di un sito e quali pagine deve ignorare.

Sebbene non sia essenziale a livello SEO, il file Robots.txt ti serve per dare indicazioni specifiche a Google e agli altri motori di ricerca su come devono indicizzare un sito web.

Se usato correttamente, questo può migliorare la scansione e persino avere un impatto sulla SEO molto importante. Ma come si crea esattamente un file Robots.txt efficace? Una volta creato, come si usa? E quali errori bisogna evitare durante l’utilizzo?

Come si Comporta nel Dettaglio un Robots.txt?

Come ci ricordano sempre i webmaster senior della nostra web agency durante le riunioni che facciamo in WebJet, venti anni fa e più creavano “robot” o “spider” per eseguire la scansione e indicizzare le pagine sul web.

Questi robot, ancor oggi in attività, sono noti anche come user agent: a volte, questi robot si facevano strada su pagine che i proprietari di siti non volevano che fossero indicizzate. Ad esempio, un sito in costruzione o un sito web privato.

Per risolvere questo problema, Martijn Koster, un ingegnere olandese che ha creato Aliweb, il primo motore di ricerca al mondo, propose una serie di standard a cui ogni robot dovreva aderire.

Questi standard sono stati proposti per la prima volta nel febbraio 1994. Il 30 giugno 1994, un certo numero di autori di robot e primi pionieri del web hanno raggiunto un consenso sugli standard. Questi standard sono stati adottati come REP o “Robots Exclusion Protocol”.

Il file Robots.txt è un’implementazione di questo protocollo. Il REP definisce una serie di regole che ogni crawler o spider legittimo deve seguire.

Se il file Robots.txt indica ai robot di non indicizzare una pagina web, ogni robot legittimo, da Googlebot a Bingbot, deve seguire le istruzioni. Tieni presente che alcuni robot non autorizzati (malware, spyware, strumenti di raccolta della posta elettronica e così via) potrebbero non seguire questi protocolli.

Questo è il motivo per cui potresti vedere traffico di bot sulle pagine che hai bloccato tramite Robots.txt.

Per vedere il file Robots.txt di qualsiasi sito web basta collegarsi a questo URL: http: // [dominio_sito Web] /robots.txt. Ad esempio, ecco il nostro file Robots.txt.

esempio file robots.txt Webjet

Come vede è piccolo e corto, ma nella sua semplicità contiene un url fondamentale: quello della Sitemap.XLM di cui abbiamo parlato nel precedente articolo.

Due esempi di Robots.txt famosi, che invece necessitano di maggiori dettagli:

il file Robots.txt di Facebook

esempio file robots.txt Facebook

  • file Robots.txt di Google

esempio file robots.txt Google

Utilizzare il File Robots.txt

Come abbiamo detto prima il file Robots.txt non è un documento essenziale per un sito web. Il tuo sito può classificarsi e crescere perfettamente senza questo file.

Tuttavia, l’utilizzo di Robots.txt offre alcuni vantaggi:

  • Scoraggia i bot dalla scansione delle cartelle private: sebbene non sia perfetto, impedire ai bot di eseguire la scansione delle cartelle private li renderà molto più difficili da indicizzare, almeno da bot legittimi (come gli spider dei motori di ricerca).
  • Controlla l’utilizzo delle risorse: ogni volta che un bot esegue la scansione del tuo sito, prosciuga la larghezza di banda e le risorse del server, risorse che sarebbero meglio spese per i visitatori reali. Per i siti con molti contenuti, questo può aumentare i costi e offrire ai visitatori reali un’esperienza negativa. Puoi utilizzare Robots.txt per bloccare l’accesso a script, immagini non importanti, ecc. Per risparmiare risorse.
  • Dai la priorità alle pagine importanti: desideri che gli spider dei motori di ricerca eseguano la scansione delle pagine importanti del tuo sito (come le pagine di contenuto), non sprecano risorse scavando tra pagine inutili (come i risultati delle query di ricerca). Bloccando queste pagine inutili, puoi dare la priorità a quali pagine si concentrano i bot.

Come Creare e Dove Caricare un File Robot.txt?

Poiché Robots.txt è un file di testo di base, crearlo è molto semplice: basta aprire un editor di testo e salvare un file vuoto rinominandolo come robots.txt.

Una volta inseriti i comandi bisogna caricare il file sul server usando un software FTP. Quindi apri la cartella public_html e apri la directory principale del tuo sito. A seconda di come è configurato il tuo host web, la directory principale del tuo sito potrebbe trovarsi direttamente all’interno della cartella public_html. Oppure potrebbe essere una cartella al suo interno. Una volta aperta la directory principale del tuo sito, trascina e rilascia il file Robots.txt al suo interno.

In alternativa, puoi creare il file Robots.txt direttamente dall’editor FTP. Per fare ciò, apri la directory principale del sito e fai clic con il pulsante destro del mouse -> Crea nuovo file. Nella finestra di dialogo, digita “robots.txt” (senza virgolette) e premi OK.

Infine, assicurati di aver impostato l’autorizzazione file corretta per il file Robots.txt. Vuoi che il proprietario – te stesso – legga e scriva il file, ma non agli altri o al pubblico. Il tuo file Robots.txt dovrebbe mostrare “0644” come codice di autorizzazione. In caso contrario, fai clic con il pulsante destro del mouse sul file Robots.txt e seleziona “Autorizzazioni file …”

In Conclusione

Ricorda che il file Robots.txt controlla essenzialmente il modo in cui i robot interagiscono con il tuo sito. Vuoi impedire ai motori di ricerca di accedere al tuo intero sito? Cambia semplicemente le autorizzazioni in Robots.txt. Vuoi impedire a Bing di indicizzare la tua pagina dei contatti? Puoi farlo anche tu.

Di per sé, il file Robots.txt non migliorerà la tua SEO, ma puoi usarlo per controllare il comportamento del crawler sul tuo sito. Per aggiungere o modificare il file, aprilo semplicemente nel tuo editor FTP e aggiungi direttamente il testo. Una volta salvato il file, le modifiche verranno applicate immediatamente.

Il file Robots.txt è un utile alleato per istruire il modo in cui gli spider dei motori di ricerca e altri robot interagiscono con il tuo sito.

Se usato correttamente, può avere un effetto positivo sul tuo posizionamento e rendere più facile la scansione del tuo sito. Usa questa guida per capire come funziona Robots.txt, come è installato e alcuni modi comuni per utilizzarlo.

Se non sei sicuro su come evitare gli errori di cui abbiamo discusso sopra contattaci senza impegno. Il nostro team sarà ben lieto di offrirti una consulenza SEO gratuita in tempo reale.


da Redazione

La redazione di WebJet.it è formata da un team di esperti SEO e marketer, appassionati di gambling e nicchie competitive. Scriviamo approfondimenti, guide e news di settore, come spunti e strumenti formativi utili per chi ci legge.

Parliamone

Fai crescere il tuo traffico SEO

CONTATTACI