OKPEDIA SOMIGLIANZA SEMANTICA

Somiglianza letterale e somiglianza semantica

La somiglianza letterale tra due documenti è determinata dalla quantità delle parole in comune, in rapporto alle parole complessive dei documenti. Un testo è esattamente uguale a un altro quando utilizza esattamente le stesse parole, indipendentemente dalla sequenza delle stesse.

La somiglianza semantica tra due documenti è invece più complessa. Due documenti sono semanticamente simili quando veicolano la stessa informazione o la stessa comunicazione. I due testi potrebbero anche utilizzare parole differenti. Pur essendo diversi da un punto di vista letterale, i due documenti hanno lo stesso significato e sono semanticamente somiglianti.

Un esempio di somiglianza dei testi

Ad esempio, nei seguenti due testi A e B sono presenti due affermazioni descrittive. I due testi utilizzano poche parole in comune, soltanto due, ma dicono la stessa cosa. La somiglianza letterale del testo A e B è soltanto del 12,5%.

esempio di somiglianza letterale e semantica

Andando ad analizzare i testi in modo più approfondito, tenendo conto delle entità, dei sinonimi delle parole ed eliminando le parole comuni ( stop word ), si può notare che i due testi hanno ben cinque parole simili in comune. La somiglianza semantica dei due testi è pari al 62,5% ed è nettamente superiore rispetto alla loro somiglianza letterale (12,5%).

Le applicazioni della somiglianza semantica

La somiglianza semantica è utilizzata negli algoritmi dei motori di ricerca per ridurre i contenuti duplicati nelle pagine dei risultati (serp). Questi algoritmi consentono di filtrare i documenti che, pur usando parole differenti, dicono la stessa cosa.

I contenuti semanticamente duplicati sono filtrati, offrendo all'utente finale dei risultati di maggiore qualità e meno ridondanti. La combinazione finale dei risultati è composta da risorse rilevanti su un particolare argomento ma anche semanticamente differenti, di cui affrontano e approfondiscono aspetti diversi.

La diversità dei contenuti ( content diversity )

Questi algoritmi consentono indirettamente di migliorare la content diversity sui motori di ricerca, poiché aumenta la differenza semantica dei risultati. A parità di rilevanza, la diversità dei contenuti è un indicatore di qualità dei risultati di ricerca.

https://www.okpedia.it/somiglianza_letterale_e_somiglianza_semantica


Segnala un errore o invia un suggerimento per migliorare la pagina



FacebookTwitterLinkedinLinkedin