Введение в анализ текстовой информации с помощью Python и методов машинного обучения

Введение

Сегодня я продолжу рассказ о применении методов анализа данных и машинного обучения на практических примерах. В прошлой статье мы с вами разбирались с задачей кредитного скоринга. Ниже я попытаюсь продемонстрировать решение другой задачи с того же турнира, а именно «Задачи о паспортах» (Задание №2).
При решении будут показаны основы анализа текстовой информации, а также ее кодирование для построения модели с помощью Python и модулей для анализа данных (pandas, scikit-learn, pymorphy).

Читать

Обработка смысловой информации или что такое Text Mining.

text-mining-googleТехнология Text Mining включает в себя множество методов обработки текста, после выполнения которых, можно найти ранее не предполагавшиеся знания.

Впервые данная технология была применена в медицине в 90-х годах прошлого века Свансоном и Смолхейзером, которые на основании анализа множества текстов нашли обоснование гипотезы, которое было неизвестно.

 

Читать