Back to Question Center
0

Esperto di Semalt Islamabad - Cosa devi sapere su un Web Crawler

1 answers:

Un crawler del motore di ricerca è un'applicazione, uno script o un programma automatizzato che passa sul World Wide Web in modo programmato per fornire informazioni aggiornate per un determinato motore di ricerca. Ti sei mai chiesto perché ottieni diversi set di risultati ogni volta che digiti le stesse parole chiave su Bing o Google? È perché le pagine web vengono caricate ogni minuto. E mentre vengono caricati, i web crawler eseguono le nuove pagine web - chile guide travel.

Michael Brown, uno dei maggiori esperti di Semalt , dice che i web crawler, noti anche come indicizzatori automatici e web spider, lavorano su diversi algoritmi per diversi motori di ricerca. Il processo di web crawling inizia con l'identificazione di nuovi URL che devono essere visitati sia perché sono appena stati caricati sia perché alcune delle loro pagine web hanno nuovi contenuti. Questi URL identificati sono noti come semi nel termine del motore di ricerca.

Questi URL vengono infine visitati e ri-visitati in base alla frequenza con cui vengono caricati nuovi contenuti e alle politiche che guidano gli spider. Durante la visita, tutti i collegamenti ipertestuali su ciascuna delle pagine Web vengono identificati e aggiunti all'elenco. A questo punto, è importante affermare in termini chiari che i diversi motori di ricerca utilizzano algoritmi e politiche differenti. Questo è il motivo per cui ci saranno differenze tra i risultati di Google e i risultati di Bing per le stesse parole chiave anche se ci saranno molte somiglianze.

I web crawler fanno enormi lavori mantenendo aggiornati i motori di ricerca. In realtà, il loro lavoro è molto difficile a causa di tre motivi di seguito.

1. Il volume di pagine Web su Internet in ogni momento. Sai che ci sono diversi milioni di siti sul web e altri vengono lanciati ogni giorno. Maggiore è il volume del sito Web sulla rete, più difficile sarà l'aggiornamento dei crawler .

2..Il ritmo con cui i siti web vengono lanciati. Hai idea di quanti nuovi siti web vengono lanciati ogni giorno?

3. La frequenza con cui i contenuti vengono modificati anche sui siti Web esistenti e l'aggiunta di pagine dinamiche.

Questi sono i tre problemi che rendono difficile l'aggiornamento dei web spider. Invece di eseguire la scansione dei siti Web in base al principio "primo arrivato, primo servito", molti web spider danno la priorità alle pagine Web e ai collegamenti ipertestuali. La definizione delle priorità si basa su solo 4 politiche generali del crawler dei motori di ricerca.

1. La politica di selezione viene utilizzata per selezionare quali pagine vengono scaricate prima di eseguire la scansione.

2. Il tipo di politica di rivisitazione viene utilizzato per determinare quando e quanto spesso le pagine Web vengono riviste per eventuali modifiche.

3. Il criterio di parallelizzazione viene utilizzato per coordinare la distribuzione dei crawler per una rapida copertura di tutti i semi.

4. Il criterio di cortesia viene utilizzato per determinare il modo in cui gli URL vengono sottoposti a scansione per evitare il sovraccarico dei siti Web.

Per una copertura rapida e accurata delle sementi, i crawler devono disporre di una grande tecnica di scansione che consente la definizione delle priorità e il restringimento delle pagine Web e devono inoltre avere un'architettura altamente ottimizzata. Questi due renderanno più facile la scansione e il download di centinaia di milioni di pagine Web in poche settimane.

In una situazione ideale, ogni pagina Web viene estratta dal World Wide Web e portata attraverso un downloader multi-threaded dopo di che, le pagine Web o gli URL vengono messi in coda prima di passarli attraverso uno schedulatore dedicato per priorità. Gli URL con priorità vengono presi di nuovo tramite il downloader multi-thread in modo che i metadati e il testo siano archiviati per una corretta scansione .

Attualmente, ci sono diversi spider o crawler dei motori di ricerca. Quello utilizzato da Google è il crawler di Google. Senza i web spider, le pagine dei risultati dei motori di ricerca restituiscono zero risultati o contenuti obsoleti poiché le nuove pagine Web non verranno mai elencate. In realtà, non ci sarà nulla di simile alla ricerca online.

November 29, 2017