Пример решения задачи множественной регрессии с помощью Python

Введение

Добрый день, уважаемые читатели.
В прошлых статьях, на практических примерах, мной были показаны способы решения задач классификации (задача кредитного скоринга) и основ анализа текстовой информации (задача о паспортах). Сегодня же мне бы хотелось коснуться другого класса задач, а именно восстановления регрессии. Задачи данного класса, как правило, используются при прогнозировании.
Для примера решения задачи прогнозирования, я взял набор данных Energy efficiency из крупнейшего репозитория UCI. В качестве инструментов по традиции будем использовать Python c аналитическими пакетами pandas и scikit-learn.

Читать

Введение в анализ текстовой информации с помощью Python и методов машинного обучения

Введение

Сегодня я продолжу рассказ о применении методов анализа данных и машинного обучения на практических примерах. В прошлой статье мы с вами разбирались с задачей кредитного скоринга. Ниже я попытаюсь продемонстрировать решение другой задачи с того же турнира, а именно «Задачи о паспортах» (Задание №2).
При решении будут показаны основы анализа текстовой информации, а также ее кодирование для построения модели с помощью Python и модулей для анализа данных (pandas, scikit-learn, pymorphy).

Читать

Отчет о решении задачи кредитного скоринга с помощью python

Введение

Добрый день, уважаемые читатели.
Недавно, бродя по просторам глобальной паутины, я наткнулся на турнир, который проводился банком ТКС в начале этого года. Ознакомившись с заданиями, я решил проверить свои навыки в анализе данных на них.
Начать проверку я решил с задачи о скоринге (Задание №3). Для ее решения я, как всегда, использовал Python с аналитическими модулями pandas и scikit-learn.

Читать

Введение в анализ данных с помощью pandas и scikit-learn

Добрый день уважаемые читатели. В сегодняшней посте я продолжу свой цикл статей посвященный анализу данных на python c помощью модуля Pandas и расскажу один из вариантов использования данного модуля в связке с модулем для машинного обучения scikit-learn. Работа данной связки будет показана на примере задачи про спасенных с «Титаника&quot. Данное задание имеет большую популярность среди людей, только начинающих заниматься анализом данных и машинным обучением.

Читать

576K экспериментов и 130 наборов данных для машинного обучения

Недавно открылся новый проект OpenML (open machine learning)
Цель проекта — создать экосистему для проведения экспериментов в области машинного обучения.
В настоящее время существует множество сред и систем для анализа данных и машинного обучения, в которых реализовано множество алгоритмов и моделей для работы с данными и проведения экспериментов. Недостаток таких систем, что результат их работы доступен определенному кругу лиц,и нет никаких стандартов для оформления результатов этих исследований.
OpenML является платформой проведения экспериментов и обмена детальными результаты их с сообществом. Кроме того она позволяет организовать эти результаты для использования в будущем.

OpenML работает по принципу платформ по спортивному анализу данных (например Kaggle). Т.е. Пользователь определяет задачу, которую надо решить с помощью машинного обучения. Задача содержит набор входных данных, некоторые параметры и набор ожидаемый результатов.
База данных проетка будет содержать ссылки на всю информацию по экспериментам: входные данные, используемые алгоритмы и процессы (которые загрузит пользователь), результат и автора.
Всю эту информацию можно будет получить через поисковый запрос

Подробней про принципы работы и API можно прочитать на GitHub

Вышла новая книга по анализу данных

На днях в сободном доступе появилась книга новая книга «Twitter Data Analytics» авторов by Шаман Кумар (Shamanth Kumar), Фред Морстатер (Fred Morstatter), Хуан Ли (Huan Liu)

20130830-222311.jpg
Читать