La distanza semantica e la relazione semantica
La distanza semantica è un'euristica utilizzata negli algoritmi dei motori di ricerca per individuare la relazione tra i termini. Si basa sull'ipotesi che le parole fisicamente vicine tra loro abbiano una relazione semantica più stretta rispetto a quelle lontane.
Esempio di vicinanza semantica
Ad esempio, in un articolo le parole contenute nel titolo e nell'intestazione sono poco distanti. Tra queste si presuppone un'elevata vicinanza semantica. Lo stesso accade per le parole comprese all'interno di una frase o di un paragrafo.
I motori di ricerca determinano le connessioni tra le parole tramite la loro relazione all'interno del documento. Più vicini sono i temrini, più forte è la relazione semantica tra queste.
La distanza delle frasi in un paragrafo
Lo stesso principio può essere utilizzato per le frasi del documento. Quanto più due frasi sono vicine nel contenuto della pagina, tanto più è probabile che le frasi siano in relazione semantica tra loro. Ogni frase può essere considerata come un insieme di parole, una combinazione di termini interconnessi che permette di comunicare un messaggio.
La relazione semantica è forte per tutti i termini, essendo tutte le parole contenute in un medesimo paragrafo, ma è più forte tra le parole contenute all'interno di una stessa frase.
La distanza nel contenuto visualizzato
La distanza semantica non è determinata sulla base della vicinanza delle parole nel codice sorgente del documento ipertestuale, bensì nella vicinanza nel contenuto interpretato dal browser, quello che normalmente viene visualizzato sul browser dell'utente.
Ad esempio, per riconoscere i paragrafi, il titolo o le intestazioni del documento, l'algoritmo analizza gli elementi del codice HTML. Il tag <P> per i paragrafi, il tag <title> per il titolo e i tag headers <Hn> per i titoli delle sezioni e sottosezione più interne della pagina.
Nel caso degli indici puntati gli algoritmi considerano alla stessa distanza semantica tutte le parole della lista, indipendentemente dall'ordine e dlla posizione che occupano nell'elenco. Pur essendo fisicamente distanti, il primo e l'ultimo termine dell'elenco hanno la medesima relazione semantica dei termini contigui.