Motore di ricerca

Un motore di ricerca è un sistema in grado di organizzare grandi quantità di informazioni e ordinarle per rilevanza in base a diverse chiavi di ricerca ( keyword o keyphrase ) tramite degli algoritmi automatici. È anche conosciuto come search engine.

L'utente interroga il motore di ricerca digitando una parola o una frase in input, detta query.

Il search engine restituisce in output una pagina dei risultati con i link alle informazioni più rilevanti ( pagine web, immagini, documenti pdf, video, ecc. ) per soddisfare il bisogno informativo dell'utente.

I motori di ricerca sono lo strumento più utilizzato dagli utenti per cercare informazioni online. Questo rende i search engine anche un'importante leva del webmarketing dei siti web per ottenere visibilità su internet.

Tipologie di motori di ricerca

I principali tipi di motori di ricerca sono i seguenti:

  1. Motore di ricerca interno. Il sistema cerca le informazioni dentro un unico sito web o database. La ricerca può essere online oppure offline.
  2. Motore di ricerca online. Il sistema cerca le informazioni disponibili online su diversi siti web ed elenca le pagine in ordine di rilevanza.

La storia dei motori di ricerca

I motori di ricerca nascono negli anni '90 dall'esigenza di reperire informazioni sul Web.

Per agevolare le ricerche degli utenti nascono le web directory e i search engine.

Le web directory sono siti web in cui le risorse online ( siti web ) sono catalogati per argomento (es. Yahoo!).

I motori di ricerca, invece, sono siti web in grado di censire automaticamente le risorse online tramite degli algoritmi detti spider e costruire un database di link.

La differenza tra directory e search engine. Nelle directory l'utente naviga per categorie. Per giungere alla pagina con le informazioni utili deve compiere numerosi passaggi. Nei search engine, invece, l'utente digita una chiave di ricerca e ottiene immediatamente la pagina dei risultati dopo un solo passaggio. Inoltre, i search engine linkano direttamente le pagine web mentre le directory soltanto le home page. Possono censire direttamente un maggior numero di risorse online. Pertanto, i search engine sono più pratici e utili rispetto alle directory.

I primi motori di ricerca sono Aliweb ( Archie Like Indexing for the Web ) e WebCrawler nel 1993. Negli anni successivi nascono molti altri search engine, tra i quali Excite, Lycos, Inktomi, Altavista.

Sono motori di ricerca di prima generazione.

Gli algoritmi di ricerca si basano sulle parole chiave inserite nel meta tag del linguaggio Html delle pagine.

Le pagine dei risultati ( serp ) sono ancora di scarsa qualità a causa dello spam engine.

Lo spam engine è lo spam sui risultati di ricerca. Nei search engine di prima generazione è molto diffuso. È infatti sufficiente documentare delle parole chiave nei meta tag per apparire nei risultati di ricerca, anche se il documento non contiene informazioni rilevanti per l'utente finale oppure affronta argomenti diversi.

Per migliorare la rilevanza dei risultati, nella seconda metà degli anni '90 nascono i motori di ricerca di seconda generazione.

In un motore di ricerca di seconda generazione sono presi in considerazione altri fattori di rilevanza, come il link, l'anchor text, la presenza delle keyword nel contenuto del documento e nei tag considerati più rilevanti dell'ipertesto ( header, bold, underline, ecc. ).

I risultati di ricerca sono di qualità superiore.

Nel 1998 nasce Google, il principale search engine di seconda generazione.

Nota. Google si basa sull'algoritmo della link popularity sviluppato da Larry Page e Sergey Brin. Ogni pagina web ha un page rank in funzione dei backlink che riceve dagli altri siti web.

Per rispondere meglio ai bisogni degli utenti, negli anni duemila i search engine si evolvono in motori di ricerca di terza generazione.

Un motore di ricerca di terza generazione considera molteplici fattori aggiuntivi, come l'analisi semantica del testo, il luogo in cui si trova l'utente, le ricerche personalizzate, le query precedenti digitate dall'utente ( query stream ), il comportamento e l'esperienza dell'utente ( user experience ).

Nota. Con l'evoluzione dei search engine dalla prima alla terza generazione, evolve anche la SEO ( Search Engine Optimization ) ossia l'insieme delle tecniche di ottimizzazione dei siti web.

A partire dagli inizi del duemila Google afferma la propria leadership internazionale come search engine.

Altri motori di ricerca secondari o particolarmente usati in ambito nazionale sono i seguenti:

  1. Bing ( ex MSN Search ) di Microsoft negli USA
  2. Yandex in Russia
  3. Baidu in Cina

Il funzionamento del motore di ricerca

Lo schema di funzionamento di un motore di ricerca è il seguente:

  • Raccolta dati. Il motore di ricerca scandaglia automaticamente la rete internet tramite software automatici, detti spider, per censire il contenuto dei siti web e delle pagine web. Le informazioni raccolte dagli spider alimentano il database del motore di ricerca stesso. I dati sono analizzati mediante un algoritmo di indicizzazione che ne determina l'ordine di importanza in relazione alle parole chiave ( keyword ) delle ricerche.
    processo di raccolta tramite un algoritmo spider e un algoritmo di indicizzazione sul motore di ricerca
  • Indicizzazione. Gli algoritmi di indicizzazione del motore di ricerca valutano i contenuti delle risorse URL sulla base di diversi parametri di indicizzazione, al fine di associare un indicatore di utilità ( ranking ) che misura la capacità della risorsa a soddisfare una particolare domanda rivolta al search engine. I fattori di indicizzazione sono classificati in fattori interni e fattori esterni:
    • Fattori interni. Sono elementi collocati all'interno della risorsa. Ad esempio, il codice HTML, le parole chiave nei metatags o nel title, i tag headers ( H1, H2, ... ), i contenuti testuli ecc.
    • Fattori esterni. Sono elementi situati all'esterno della risorsa che ne influenzano il ranking e il posizionamento. Ad esempio, un link verso una pagina è situato all'esterno ma contribuisce a determinarne la sua importanza in termini di link popularity.
  • Classificazione. La classificazione dei contenuti è una fase successiva alla raccolta dati e all'indicizzazione. Le risorse sono classificate per tema ( topic ) e per importanza / rilevanza, allo scopo di agevolare le operazioni di ricerca. Nel caso dei search engine sul Web, la classificazione può essere eseguita soltanto in modo automatico, tramite algoritmi, poiché l'elevato tasso di crescita del Web rende impossibile qualsiasi classificazione umana. Il volume dei dati da analizzare è enorme. La classificazione può essere completamente automatica oppure automatica con assistenza umana.
  • Query. Il motore di ricerca consente ai propri utenti l'inserimento in input di una parola chiave ( keyword ) sulla base della quale il sistema estrapola in output un elenco di siti web e di pagine web disponibili online sull'argomento. La pagina dei risultati della ricerca è anche conosciuta come SERP ( Search Engine Result Page ).
    esempio di processo di ricerca in un search engine tramite query