Latent Dirichlet Allocation ( LDA )
Il modello LDA ( Latent Dirichlet Allocation ) è un modello generativo, utilizzato nello studio del linguaggio naturale, che consente di estrarre argomenti da un insieme di documenti di origine e di fornire una spiegazione logica sulla somiglianza di singole parti dei documenti.
Ogni documento è considerato come un insieme di parole che, combinate tra loro, formano uno o più sottoinsiemi di argomenti latenti. Ciascun argomento ( topic ) è caratterizzato da una particolare distribuzione di termini.
La procedura è anche conosciuta come algoritmo LDA.
Il processo generativo della Latent Dirichlet Allocation si basa sull'analisi dei dati contenuti nel testo ( text mining ). Le combinazioni di parole sono considerate come variabili casuali.
L'algoritmo LDA può essere attuato in vari modi.
- A ogni argomento ( topic ) viene associata una distribuzione di parole.
- Ogni documento viene trovata una distribuzione di argomenti.
- Per ogni parola del documento verifica la sua attribuzione a un argomento del documento e a una distribuzione di parole dell'argomento.
A seconda della tipologia di inferenza, l'algoritmo LDA consente di raggiungere un determinato livello di efficacia e di costo ( efficienza ) in termini di complessità temporale e spaziale.
Il modello LDA ( Latent Dirichlet Allocation ) viene presentato per la prima volta nel 2003 in uno studio pubblicato da David Blei, Andrew Ng, e Michael Jordan.