Termine:

07.07.2016 : Text-Analysen und Text-Mining mit R
Das Seminar „Text-Analysen und Text-Mining mit R“ wendet die Analysesprache R auf Texte und Sprache an. Solche Analysen gehören zum Standard-Repertoire eines Big Data Analysten.
Text-Mining bzw. Text- und Sprachanalysen sind die am häufigsten genannten Verfahren, wenn es um die Analysen in typischen Big Data Use Cases geht. Beispiele sind die Analyse von Blogs, Twitter-Nachrichten, Mails, Gesprächsmitschnitte, aber auch Patientenakten und vieles andere mehr. Der Anwendungsfall „Text“ sticht daher bei den heutigen Data Mining Projekten besonders hervor, obwohl man dazu auch klassische Mining-Methoden nutzt.
Bevor die Analyse beginnt, müssen die Texte jedoch aufbereitet werden. Die ebenfalls vorgestellten Regular Expressions sind hier sehr hilfreich.
Text-Analysen können komplex und voluminös werden. Daher ist die Einbindung des Datenbank-Servers von Vorteil.

Themen sind:
• Der analytische Umgang mit Texten – Einführung in Textanalysen
• Stringsuche und Stringverarbeitung – Regular Expressions
• Zugriff auf Texte – Web Scraping (HTML, JSON, XPath)
• Operationen an Text-Objekten (tm-Package)
• Term Document Matrix Objekte und Aufbereiten von Texten für Analysezwecke
• Supervised Learning – Verfahren (Support Vector Machines, Random Forest)
• RTextTools Package
• Unsupervised Learning – Verfahren (LDA – Latent Dirichlet Allocation)
• Verlagerung von Textanalysen auf den Datenbank-Server