Contenuto duplicato e menzione online senza citazione
I contenuti duplicati sono un fenomeno abbastanza comune sul web, dove la pratica del copia e incolla è molto diffusa tra gli utenti e,spesso, anche tra i webmaster e persino dagli scrittori che, sempre più spesso, attingono dal web per arricchire le pagine dei loro libri, copiando interi paragrafi senza citare i siti web da cui copiano le frasi.
Perché esistono i contenuti duplicati sul web
Generalmente gli utenti copiano i testi e gli articoli in buona fede, lo fanno per commentare una notizia sui blog o sui forum o per fornire informazioni aggiuntive in un commento, in un post, ecc. I webmaster e i blogger professionisti, invece, lo fanno per sfruttare la propria autorevolezza e conquistare le prime posizioni sui motori di ricerca ( serp ) utilizzando o aggregando i contenuti di qualità già pubblicati in siti web meno importanti. In altri casi ancora, i contenuti duplicati sono il prodotto delle attività di spam.

Da un lato questo genera conoscenza, dall'altro penalizza chi produce il contenuto di qualità che, prima o poi, potrebbe essere indotto a smettere di scrivere. Il copyright è molto utile per proteggere il diritto d'autore ma, spesso, è anche molto costoso da far rispettare. È inoltre impossibile controllare tutti.
I contenuti duplicati possono riguardare un intero sito web o un'intera pagina web, in questo caso sono facilmente individuabili. Sono, invece, più difficili da riconoscere i contenuti duplicati parziali, dove soltanto alcune frasi o paragrafi sono copiate da un testo originale. Come vedremo nel prossimo paragrafo di okpedia, è molto semplice per un search engine individuare e riconoscere entrambi i casi.
Il contenuto duplicato è una chiave unica
I search engine svolgono un ruolo fondamentale nel mercato del copia e incolla illecito. Una frase, un testo, è sostanzialmente una combinazione di parole in sequenza ed è unico in sé. La stessa frase è rappresentabile sotto la forma di un vettore di parole o, più semplicemente, come un insieme di parole.

Dal punto di vista informatico è molto semplice verificare se una frase è originale oppure è stata copiata da altri siti. Quando un sito web copia una frase, il motore di ricerca lo riesce a capire immediatamente.
Lo stesso può dirsi delle immagini, le quali sono tutte riconducibili a uno schema matematico vettoriale di linee e colori che presenta caratteristiche di unicità.

Un algoritmo può facilmente stabilire sia l'uguaglianza che il grado di somiglianza tra due immagini e stabilire quale autore l'ha pubblicata prima dell'altro.
Il contenuto duplicato come menzione indiretta
Essendo il testo un elaborato unico, il copia e incolla senza citazione ( contenuto duplicato ) può essere considerato dal search engine come una menzione indiretta o una menzione senza citazione a favore dell'autore del contenuto originale.
Ad esempio, il sito web A pubblica una pagina PA in data t0 e il motore di ricerca lo indicizza in data t1. Successivamente, nell'istante t2, il sito web B pubblica una pagina PB copiando al suo interno un paragrafo della pagina PA. Il search engine indicizza la pagina PB nell'istante t3.

Un motore di ricerca è sempre in grado di stabilire la data di prima indicizzazione di un testo e il suo grado di originalità, scorporando l'articolo in singole frasi e paragrafi. Ad esempio, la pagina PB è originale per l'80% del testo ma presenta un contenuto duplicato per la parte copiata dal sito A che non può essere trascurato.
L'attribuzione automatica della paternità del testo
Quando l'algoritmo rileva il medesimo paragrafo nel sito web B, è logico ipotizzare che quest'ultimo sia stato copiato dal sito web A. Indipendentemente dalla presenza di una citazione o di un link nella pagina PB, questo testo è da considerarsi come un riconoscimento indiretto della qualità dei contenuti del sito A.

L'algoritmo conferisce al sito web A la paternità del contenuto, in quanto è stato il primo a pubblicarlo, ma anche un accredito di web popolarità per il fatto che una parte del suo testo è stata copiata e pubblicata nel sito B.
L'incremento dell'autorevolezza e della popolarità online deli sito A ( contenuto originale ) è tanto maggiore quanto più il sito che copia è autorevole. È del tutto nulla, infine se il sito che li copia non ha alcuna autorevolezza in materia e nei casi di spam.

D'altra parte, il sito web B viene riconosciuto come il soggetto che ha copiato il paragrafo. Entro certi limiti questa pratica deve essere tollerata in quanto è naturale.
Ad esempio, è normale che un sito pubblichi un articolo di legge, una breve definizione di wikipedia, treccani o okpedia, o altri contenuti che per loro natura sono unici.
Tuttavia, oltre un certo limite naturale anche la pratica dei contenuti duplicati deve essere penalizzata dai search engine, poiché produce spam engine.

Se un sito copia sistematicamente una parte del contenuto di altri siti, prima o poi rischia di vedere ridurre la propria autorevolezza oppure di essere declassato o penalizzato per spam dal search engine. Un buon monito per non copiare e non aggregare i contenuti provenienti da altri siti.
I vantaggi dell'algoritmo
Questo algoritmo risolve l'annoso problema del copia incolla e dell'abuso del diritto di autore, mettendo sullo stesso piano sia i siti più autorevoli che quelli sconosciuti.
Il vero autore di un contenuto ottiene il riconoscimento sul search engine in termini di crescita della propria autorevolezza e popolarità.

Chi pubblica un contenuto originale è premiato dal search engine ed è stimolato a pubblicarne altri. Chi, invece, li copia viene penalizzato o declassato.
Le menzioni online senza citazione tramite i contenuti duplicati sono anche una soluzione anti-spam per ridurre la presenza degli aggregatori sulle pagine dei motori di ricerca.
- (1) Su Google Book si può facilmente notare come libri di pubblicazione recente spesso abbiano dei paragrafi di testo esattamente uguali a quelli pubblicati dieci anni fa sui siti web. Un testo usato senza alcuna citazione. Un problema che in okpedia ci capita spesso e ci ha costretto a registrare legalmente ogni nostra pubblicazione.
