Back to Question Center
0

Semalt: Come bloccare Darodar Robots.txt

1 answers:

Il file Robots.txt è un tipico file di testo che contiene le istruzioni su come i crawler web oi robot devono eseguire la scansione di un sito. La loro applicazione è evidente in motori di ricerca bot che sono comuni in numerosi siti Web ottimizzati - vendo attrezzi usati palestra. Come parte del Robots Exclusion Protocol (REP), il file robots.txt costituisce un aspetto essenziale dell'indicizzazione del contenuto del sito Web e consente a un server di autenticare le richieste degli utenti di conseguenza.

Julia Vashneva, la Semalt Senior Customer Success Manager, spiega che il collegamento è un aspetto di Search Engine Optimization (SEO), che consiste nel guadagnare traffico da altri domini all'interno della tua nicchia. Per i link "segui" per trasferire il succo di collegamento, è essenziale includere un file robots.txt nello spazio di hosting del tuo sito Web per agire da istruttore su come il server interagisce con il tuo sito. Da questo archivio, le istruzioni sono presenti consentendo o impedendo il comportamento di determinati agenti utente .

Il formato di base di un file robots.txt

Un file robots.txt contiene due linee essenziali:

Agente utente: [nome utente-agente]

Disallow: [Stringa URL da non scansionare]

Un file robots.txt completo dovrebbe contenere queste due linee. Tuttavia, alcuni di essi possono contenere più righe di user-agent e direttive. Questi comandi possono contenere aspetti come permessi, non consentiti o rallentamenti della scansione. Di solito c'è un'interruzione di riga che separa ogni serie di istruzioni. Ciascuna delle istruzioni di abilitazione o disabilitazione è separata da questa interruzione di riga, in particolare per il file robots.txt con più righe .

Esempi

Ad esempio, un file robots.txt potrebbe contenere codici come:

User-agent: darodar

Disallow: / plugin

Disallow: / API

Disallow: / _comments

In questo caso, si tratta di un file robots.txt blocco che impedisce a Darodar Web Crawler di accedere al tuo sito web. Nella sintassi precedente, il codice blocca aspetti del sito Web come plug-in, API e la sezione dei commenti. Da questa conoscenza, è possibile ottenere numerosi vantaggi dall'esecuzione efficace del file di testo di un robot. Robots. i file txt possono essere in grado di eseguire numerose funzioni. Ad esempio, possono essere pronti a:

1. Consenti il ​​contenuto di tutti i crawler Web in una pagina del sito Web. Ad esempio;

User-agent: *

Disallow:

In questo caso, tutti i contenuti degli utenti possono essere consultati da qualsiasi web crawler richiesto per accedere a un sito Web.

2. Blocca un contenuto Web specifico da una cartella specifica. Ad esempio;

User-agent: Googlebot

Disallow: / example-sottocartella /

Questa sintassi contenente il nome utente-agente Googlebot appartiene a Google. Limita il bot dall'accesso a qualsiasi pagina Web nella stringa www.ourexample.com/example-subfolder/.

3. Blocca un web crawler specifico da una pagina web specifica. Ad esempio;

User-agent: Bingbot

Disallow: /example-subfolder/blocked-page.html

Il bot Bing user-agent appartiene ai web crawler di Bing. Questo tipo di file robots.txt impedisce al crawler web di Bing di accedere a una pagina specifica con la stringa www.ourexample.com/example-subfolder/blocked-page.

Informazioni importanti

  • Non tutti gli utenti utilizzano il proprio file robts.txt. Alcuni utenti potrebbero decidere di ignorarlo. La maggior parte di questi web crawler include trojan e malware.
  • Affinché un file Robots.txt sia visibile, dovrebbe essere disponibile nella directory del sito Web di livello superiore.
  • I caratteri "robots.txt" sono case sensitive. Di conseguenza, non dovresti alterarli in alcun modo, inclusa la capitalizzazione di alcuni aspetti.
  • "/robots.txt" è di dominio pubblico. Chiunque può trovare queste informazioni aggiungendole ai contenuti di qualsiasi URL. Non dovresti indicizzare i dettagli essenziali o le pagine che vuoi che rimangano private.
November 26, 2017