Text Mining
Il text mining è un insieme di tecniche per estrarre conoscenza e informazioni da un documento di testo. La disciplina è conosciuta anche con l'acronimo TM ( Text Mining ), come Text Data Mining ( TDM ) o Knowledge Discovery in Text ( KDT ). Il Text Mining è una materia di studio multidisciplinare che abbraccia diversi campi di competenza, dall'informatica alla statistica, ed è un oggetto di studio del Natural Language Processing ( NLP ) e dell'Information Retrieval ( IR ). Il Text Mining si occupa della ricerca, dell'analisi e della classificazione tematica delle informazioni contenute nei documenti. A differenza dei dati, nei documenti le informazioni sono presenti in forma di testo libero ( frasi ) e soltanto in minima parte come testo strutturato ( tabelle, grafici, ecc. ). Gran parte delle comunicazioni tra esseri umani sono documentazioni non strutturate ( es. libri, giornali, discorsi, ecc. ). Le tecniche di Text Mining sono finalizzate a trovare le informazioni tematiche nascoste in un testo, per facilitare il processo di archiviazione e di costruzione di una mappa logica della conoscenza. Queste tecniche selezionano le parti rilevanti di un documento ed eliminano quelle non rilevanti ( es. stop word ). Sul sottoinsieme di termini rilevanti sono eseguiti degli algoritmi di analisi per distinguere ciò che viene detto ( sostanza ) da come viene detto ( forma ) al fine di trovare convergenze di significato tra le parole e, quindi, comprende l'informazione veicolata nel testo. I risultati di un'analisi Text Mining sono generalmente rappresentati in un diagramma cartesiano ove è possibile cogliere a colpo d'occhio i raggruppamenti dei termini in base alla loro vicinanza o meno i concetti e le relazioni tra i termini di un documento.
- Differenza tra Data Mining e Text Mining. Pur avendo un nome simile al Data Mining ( DM ), il Text Mining utilizza metodologie di analisi distinte e concentra la propria attenzione sulle parole di un testo anziché sui dati di un archivio informatico. La parola "mining" ha il medesimo significato ( estrazione ) ma l'oggetto di studio è differente. Nel Data Mining si estraggono informazioni dai dati, nel Text Mining si estraggono informazioni dai testi.