Latent Dirichlet Allocation ( LDA )

Il modello LDA ( Latent Dirichlet Allocation ) è un modello generativo, utilizzato nello studio del linguaggio naturale, che consente di estrarre argomenti da un insieme di documenti di origine e di fornire una spiegazione logica sulla somiglianza di singole parti dei documenti.

Ogni documento è considerato come un insieme di parole che, combinate tra loro, formano uno o più sottoinsiemi di argomenti latenti. Ciascun argomento ( topic ) è caratterizzato da una particolare distribuzione di termini.

La procedura è anche conosciuta come algoritmo LDA.

Il processo generativo della Latent Dirichlet Allocation si basa sull'analisi dei dati contenuti nel testo ( text mining ). Le combinazioni di parole sono considerate come variabili casuali.

L'algoritmo LDA può essere attuato in vari modi.

A ogni argomento ( topic ) viene associata una distribuzione di parole.
Ogni documento viene trovata una distribuzione di argomenti.
Per ogni parola del documento verifica la sua attribuzione a un argomento del documento e a una distribuzione di parole dell'argomento.

A seconda della tipologia di inferenza, l'algoritmo LDA consente di raggiungere un determinato livello di efficacia e di costo ( efficienza ) in termini di complessità temporale e spaziale.

Il modello LDA ( Latent Dirichlet Allocation ) viene presentato per la prima volta nel 2003 in uno studio pubblicato da David Blei, Andrew Ng, e Michael Jordan.

https://www.okpedia.it/latent_dirichlet_allocation

Hai una domanda? Scrivila nei commenti e ti risponderemo qui sulla pagina.