Indipendenza condizionale ( probabilità )
L'indipendenza condizionale è una relazione di indipendenza tra due variabili X e Y data una terza variabile Z.
P(X, Y|Z) = P(X|Z) P(Y|Z)
Le variabili X e Y sono indipendenti, ossia non si influenzano reciprocamente, soltanto quando la variabile Z assume un determinato valore o stato. In tutti gli altri casi le due variabili X e Y sono dipendenti.
L'indipendenza condizionale è particolarmente utile in ambito statistico poiché permette di ridurre la distribuzione delle probabilità congiunte.
Un esempio pratico
Date tre variabili booleane X, Y e Z, per studiare la distribuzione delle probabilità di un evento Z condizionata alle variabili X e Y, si deve analizzare una matrice di 23 combinazioni.
P(Z | X ∧ Y )
In tali circostanze la complessità del problema cresce in modo esponenziale con il numero delle variabili O(2n).
Per semplificare il problema della complessità esponenziale può essere d'aiuto ricorrere alla regola di Bayes.
P(Z | X ∧ Y )=P( X ∧ Y | Z ) P ( Z )
Tuttavia, anche in questo caso si presenta una complessità esponenziale in quanto il numero delle combinazioni O(2n) cresce in modo esponenziale al crescere del numero delle variabili (n).
Come si riduce la complessità del problema?
Per ridurre la complessità del problema occorre semplificare ulteriormente il problema analizzando l'eventuale indipendenza tra le variabili.
Possono verificarsi due casi:
- Indipendenza assoluta. Le variabili sono indipendenti e il problema può essere semplificato.
- Indipendenza condizionale. le variabili sono indipendenti soltanto in particolari circostanze. Anche in questo caso il problema può essere semplificato.
Nota. Nel caso non si ravvisi nessun caso di indipendenza, né assoluta e né condizionale, il problema non può essere semplificato.
Il caso dell'indipendenza assoluta
Se le due variabili X e Y fossero indipendenti, il numero delle combinazioni si ridurrebbe a O( 2·n ).
P(Z | X ∧ Y )=P( X ) P( Y ) P ( Z )
Purtroppo la condizione di indipendenza assoluta non è molto frequente.
Il caso dell'indipendenza condizionale
Due variabili dipendenti potrebbero diventare indipendenti in particolari condizioni.
In questi casi si parla di indipendenza condizionale.
Esempio. Le variabili X e Y sono generalmente dipendenti ma in presenza di un particolare valore della variabile Z le variabili X e Y diventano indipendenti e possono essere trattate come tali.
Nei casi di indipendenza condizionale la formula di Bayes può essere riscritta nel seguente modo:
P(Z | X ∧ Y )=P( X | Z ) P( Y | Z ) P ( Z )
In questo caso di indipendenza condizionale la complessità è O( 2·n ) ed è pertanto inferiore alla complessità esponenziale O(2n) del problema di origine.
Qual è il vantaggio dell'indipendenza condizionale?
La distribuzione congiunta completa delle probabilità delle variabili è stata scomposta ( fattorizzazione ) in una serie di distribuzioni condizionate più piccole ( probabilità condizionate ).
- Modello di Bayes ingenuo. Il modello di Bayes ingenuo ( o modello di Bayes idiota o classificatore bayesiano ) è una particolare applicazione dell'indipendenza condizionale. Nel modello di Bayes ingenuo viene ipotizzato che una variabile Z ( variabile causa ) influenza direttamente gli effetti su tutte le altre variabili e tutte le variabili sono considerate indipendenti tra loro. L'indipendenza condizionale di tutte le variabili a partire da Z non è verificata bensì soltanto ipotizzata.
P(X1, ... , Xn , Z ) = P(Z) ∏ P( Xi | Z )
Si tratta di un'ipotesi semplificativa che spesso funziona anche nei casi in cui l'indipendenza non è verificata. Nel modello di Bayes ingenuo la distribuzione congiunta completa delle probabilità si riduce grazie alla presenza dell'indipendenza condizionale presunta tra tutte le variabili. La complessità del problema cresce in modo lineare.