Пример решения задачи множественной регрессии с помощью Python

Введение

Добрый день, уважаемые читатели.
В прошлых статьях, на практических примерах, мной были показаны способы решения задач классификации (задача кредитного скоринга) и основ анализа текстовой информации (задача о паспортах). Сегодня же мне бы хотелось коснуться другого класса задач, а именно восстановления регрессии. Задачи данного класса, как правило, используются при прогнозировании.
Для примера решения задачи прогнозирования, я взял набор данных Energy efficiency из крупнейшего репозитория UCI. В качестве инструментов по традиции будем использовать Python c аналитическими пакетами pandas и scikit-learn.

Читать

Введение в анализ текстовой информации с помощью Python и методов машинного обучения

Введение

Сегодня я продолжу рассказ о применении методов анализа данных и машинного обучения на практических примерах. В прошлой статье мы с вами разбирались с задачей кредитного скоринга. Ниже я попытаюсь продемонстрировать решение другой задачи с того же турнира, а именно «Задачи о паспортах» (Задание №2).
При решении будут показаны основы анализа текстовой информации, а также ее кодирование для построения модели с помощью Python и модулей для анализа данных (pandas, scikit-learn, pymorphy).

Читать

Отчет о решении задачи кредитного скоринга с помощью python

Введение

Добрый день, уважаемые читатели.
Недавно, бродя по просторам глобальной паутины, я наткнулся на турнир, который проводился банком ТКС в начале этого года. Ознакомившись с заданиями, я решил проверить свои навыки в анализе данных на них.
Начать проверку я решил с задачи о скоринге (Задание №3). Для ее решения я, как всегда, использовал Python с аналитическими модулями pandas и scikit-learn.

Читать

Введение в машинное обучение на python и пакет scikit-learn

Добрый день, уважаемые читатели.  В сегодняшней статье мы с вами рассмотрим основы анализа данных с помощью Python и специального пакета для машинного обучения scikit-learn. На простеньком примере задачи классификации будет показаны основные этапы анализа, такие как:

  • предварительная обработка данных и их кодирование

  • преобразование данных к виду входных данных для применения методов машинного обучения

  • Построение и оценка точности модели.

Читать

Вышла новая версия sklearn-pandas

В репозитории PyPi выложена новая версия пакета sklearn-pandas 0.0.6.

Данный пакет позволяет вызывать методы машинного обучения Scikit-Learn для типов данных из пакета для аналитик pandas. На данный момент пакет позволяет брать объекты DataFrame, как входные данные для перекрестных проверок, а также переводит столбцы DataFrame’a в измерения, нужные для анализа.