big data science обучение
7 бесплатных курсов по Data Science для начинающих
Большие данные перестали быть просто модным словом и теперь применяются в сферах от IT до ритейла. Самое время начать разбираться в моделях анализа данных, погрузиться в массивы информации и получить опыт в интересном направлении — Data Scientist. Держите курсы, в которых изучите теорию и наберетесь практики. Профи не станете, но первый шаг сделаете.
1. A crash course in Data Science
Курс хочет быстро научить разбираться в работе с большими данными. Здесь не будет кучи технических терминов — всё сосредоточено на понимании общих принципов больших данных: основные термины, роль больших данных в бизнесе, основные инструменты, используемые для работы с большими объемами информации. В общем, хороший курс для знакомства с темой.
2. Building a Data Science Team
На этом курсе речь пойдет о команде аналитики больших данных. Узнаете какие роли должны быть в команде, как управлять такими командами, как подобрать подходящих специалистов и эффективно выстроить рабочий процесс.
3. The Data Scientist’s Toolbox
Время практики! Авторы курса дают обзор типов данных, рассказывают о подходах и методологиях обработки информациии. После вводной теории, вас познакомят с инструментами для работы: Git, R и RStudio — самые популярные штуки, которые помогают обрабатывать массивы информации, и украсят резюме дата майнера!
4. Stepic Contest. Data Science
Еще одно обзорное путешествие в мир больших данных. Крутизна курса заключается в его умении автоматически адаптироваться под любой уровень знаний студента. Stepik недавно запустили самонастраиваемые программы, поэтому советуем скорее оценить на благо знаний и улучшения сервиса 🙂
5. Data Science Essentials
Как собирать данные, подготавливать массивы к обработке, извлекать из них пользу и визуализировать результаты — всему научат на курсе! Будет много практики с применением Microsoft Azure Machine Learning, R и Python. Познакомитесь с процессами передачи данных между хранилищами, поработаете со статистикой больших данных и даже прокачаетесь в машинном обучении.
6. Data Science
Если с программированием у вас не очень — не отчаивайтесь. Не одним R и Python можно проложить путь в Data Science, потому что на помощь придет Excel. В этом курсе узнаете всё про обработку данных с помощью старого доброго Excel.
Data Science: лучшие учебные курсы и программы сертификации
Можно получить два-три десятка Data Science-сертификатов, но по-настоящему стоящих программ сертификации из сферы науки о данных, по моему мнению, не так уж и много. Я хочу рассказать о нескольких таких программах, поддерживаемых авторитетными организациями. Эти программы я оцениваю по разным признакам. В частности — по объёму рассматриваемых в их рамках тем, по их «весу» в глазах потенциального работодателя, по репутации организации, реализующей программу. В последние несколько лет я являюсь и специалистом по анализу данных, и дата-сайентистом. Всё это время у меня формировалось понимание того, что сильнее всего влияет на успех человека в сфере Data Science (DS).
Здесь я рассмотрю ведущие программы Data Science-сертификации, входящие в список, собранный ресурсом Indeed. Из этого списка я выбрал четыре, которые кажутся мне наиболее достойными. Им и посвящён этот материал.
Google Certified Professional Data Engineer
Возможно, эта программа сертификации, которую я рассматриваю первой, кого-то удивит, так как она относится к сфере, отличной от Data Science. Но, несмотря на это, я уверен в том, что навыки и обязанности дата-инженера похожи на те, что характерны для дата-сайентистов. Ещё я думаю, что прохождение подобной сертификации может стать конкурентным преимуществом на рынке труда, так как дата-сайентист, получивший подобный сертификат, сможет эффективно работать не только в сфере науки о данных, но и в сфере инжиниринга данных.
Вот некоторые темы, знание которых проверяется на экзамене:
Общие сведения об экзамене:
Google Data Machine Learning Engineer
Это — ещё одна программа сертификации, которую тоже нельзя назвать программой, нацеленной исключительно на Data Science. Она, скорее, направлена на достаточно узкую тему, находящуюся в пределах науки о данных. Речь идёт о машинном обучении. Многие дата-сайентисты могут настолько привыкнуть к работе в Jupyter Notebook (ведь именно этому учат на большинстве DS-курсов), что необходимость вывода моделей в продакшн, необходимость их развёртывания на веб-сайте или в мобильной среде может вызвать у них серьёзные сложности. Поэтому тем, кто работает в сфере Data Science, весьма полезно будет ознакомиться и с вопросами практического применения моделей, что расширит их кругозор и сделает их работу эффективнее.
Вот темы, которые поднимаются на экзамене:
Общие сведения об экзамене:
IBM Data Science Professional Certificate
Это — уже не просто программа сертификации. Тут речь идёт о наборе учебных курсов, на которых можно изучить то, что проверяется во время прохождения испытаний. Эта программа сертификации, в отличие от предыдущих, ориентирована исключительно на саму науку о данных. А это, безусловно, именно та тема, которая нам особенно интересна. Ещё одной ценной особенностью этой программы является тот факт, что она подготовлена IBM, а пройти её можно на платформе Coursera. Обе эти компании известны и имеют хорошую репутацию.
Вот — 10 курсов, которые входят в состав учебной программы:
Общие сведения о программе учебных курсов:
Microsoft Certified Azure Data Scientist Associate
Как видите, в этом обзоре представлены программы сертификации от ведущих игроков IT-рынка. В их число входит и Microsoft. Если поучиться, поработать, пройти тестирование в любой из подобных компаний — это может пойти на пользу карьере дата-сайентиста. Представленная здесь программа напоминает смесь тех программ, о которых мы говорили выше. Это, с одной стороны, сертификация, но с другой — перед сертификацией тут же можно и подучиться, либо самостоятельно и бесплатно, либо — с инструктором и за деньги.
Вот темы, которые поднимаются на экзамене:
Итоги
В итоге скажу, что если вы сможете пройти все вышеописанные программы сертификации — полагаю, что вы будете более чем готовы к работе дата-сайентиста. Эти сертификации направлены на проверку знаний по популярным платформам и инструментам, а также — на проверку навыков, связанных с практическим использованием моделей. В частности, речь идёт о работе с бизнес-задачами, об анализе данных, о моделировании, о создании и развёртывании моделей. Конечно, если вы попробуете найти работу в компании, проводящей сертификацию, наличие сертификата повысит ваши шансы на успех. Подбирая себе программу сертификации учитывайте то, что те, о которых шла тут речь, я, руководствуясь собственным видением ситуации, выбрал из списка программ с ресурса Indeed. Есть ещё множество подобных программ. Вам, вполне возможно, подойдёт что-то совсем другое.
Как вы посоветовали бы учиться и сертифицироваться тому, кто хочет работать в сфере Data Science?
Самообучение в Data science, с нуля до Senior за два года
Хочу поделиться методами освоения Data science с нуля человеком из другой ИТ специальности. Цель: дать понять, подходит ли Вам эта специальность в принципе, и рассказать про эффективные подходы к самообучению, которые мне помогли (отдельно планирую потом детальные статьи по отдельным темам).
Отличные материалы уже существуют по большинству конкретных тем, я сам по ним учился.
Думаю, многим будут полезны «мета» материалы о том, как выбирать курсы и статьи, по которым учиться. Например, я пересмотрел десятки статей и книг, пробовал много разных он-лайн курсов, но полезной оказалась лишь малая часть всего доступного. Надеюсь, что смогу серьезно сэкономить вам время и помочь достигнуть большего, показав более эффективный путь самообучения.
И важно сказать сразу: я верю, что любой человек с аналитическими способностями и структурным мышлением может стать специалистом по машинному обучению/data science. Еще 4 года назад я сомневался, потеряв веру в свои математические способности из-за преподавателей университета. Теперь верю: основы машинного обучения и минимально необходимую математику сможет выучить любой сильно замотивированный человек.
Когда я понял, что скоро мне стукнет 30 лет, решил уйти в другую сферу и переехать из РФ. В своей сфере (1С) я был карьерно успешен, но стало ясно, что дальнейший рост очень затруднителен и требует выполнять работу, которая мне неинтересна и почти противна.
Через полгода перебора вариантов решил, что Data science мне интереснее всего.
Ещё через год имел достаточную квалификацию и прошёл собеседование на работу в Чехии (оговорка: у меня еще до этого было неплохое знание английского).
Ещё через год стал Senior Data scientist в Vodafone (мой LinkedIn).
Мне помогло то, что до этого я сформировал привычки к самообразованию, а экономность не позволила мне пойти по самому простому пути: найти онлайн курс с именитыми преподами, заплатить им много денег и довериться, что они всему научат лучше всего. В итоге я перебирал много бесплатно доступных книг и курсов (книги часто были найдены на b-ok.org). Из всех курсов и книг отбирал самые лучшие, забрасывая то, что казалось слишком теоретизированными или плохо структурированным.
На основе этих десятков книг и курсов я и сформировал то мнение, которым хочу поделить. Вероятно, существует еще более эффективный и быстрый способ научится этому всему. То, как учился я, было всего-лишь быстрее большинства платных программ, которые я видел, и заодно бесплатным (на многие лучшие англоязычные курсы всегда можно записаться бесплатно; покупал я только книги русских авторов и пару книг, которые иначе не смог найти).
Сначала надо понять, что такое Data science/машинное обучение и подойдет ли оно вам
Потому что если это просто модное слово и вы хотите получать много денег или работать в Гугл, то легче заработать на позиции маркетолога или веб-аналитика, и это тоже достаточно аналитичная работа.
Если вы человек творческий, возможно, разработка интерфейсов (фронтенд, мобильные приложения) вам подойдёт больше.
Если вы от природы аналитик и любите разбираться в данных, но программирование вас не заинтересует, а на изучение всей математики вам не хватает времени, стоит выбрать тот же самый учебный путь! Просто сделать акцент на мнее математических задачах, и не лезть в программироване сложных систем. Аналитики, знающие основы data science, тоже нужны в компаниях.
Важно, чтобы работа зажигала. Без искреннего интереса «грызть» Data science будет тяжело, потому что надо разобраться в куче нюансов, особенно если у вас нет за плечами хороших знаний в статистике, линейной алгебре и мат.анализе.
Как понять, будет ли вам интересно заниматься именно data science?
Мне кажется, что идеально эту роль выполняет книга Datasmart (выше писал сайт, на котором я нашёл её бесплатно). На русский она тоже переведена: «Много цифр. Анализ больших данных при помощи Excel, Джон Форман». Хотя, если вы хотите работать в data science, знание английского необходимо (технический английский выучить намного легче разговорного, и это будет очень полезно для любой работы в ИТ).
Эта книга показывет многие из технических методов Data science на уровне интуиции и даёт сразу достаточно детальное представление о решаемых задачах и где в бизнесе можно применить данные модели.
Если эта книга не вызовет интерес разобраться во всех указанных алгоритмах детальнее, вероятно, работа в data science не для вас.
Если книга интересн вызовет, но вам также хочется больше программировать, скорее всего, вам интересно будет стать machine learning engineer. Разница между data scientist и machine learning engineer в том, что первый должен общаться с людьми и понимать, какую задачу имеет смысл решать, а второй должен уметь состыковать программы с «искусственным интеллектом» с другими ИТ системами, мобильными телефонами или требованиями обрабатывать огромные объемы данных.
Что учить
Если вы решили, что готовы «грызть гранит науки», то в образовании специалиста data science есть два кита:
Непосредственные методы Data science, которые стоят на трёх математических черепахах: теории вероятностей и статистике, линейной алгебре и основах мат.анализа (только основах, там требуется минимум сверх школьного курса «алегбра и начало анализа»). Кстати, вся эта математика далеко не так сложна. Проблема в том, что её плохо и неинтересно объясняют во многих вузах. Позже поделюсь советами, как её можно легче освоить.
Программирование на Python (+SQL и подобные), которое позволит применить все изученные методы с помощью логичных и простых в своей сути библиотек готовых функций.
Даже примерный учебный план для изучения методов Data science требует отдельного поста. Ниже напишу чуть подробнее про Python и SQL
Английский необходим!
Принципы эффективного обучения
Программирование: что и как учить?
Что такое SQL и зачем его учить?
SQL является стандартом для получения данных в нужном виде из разных баз данных. Это тоже своеобразный язык программирования, который дополнительно к своему основному языку используют многие программисты. Большинство самых разных баз данных использует один и тот же язык с относительно небольшими вариациями.
Как учить SQL:
Наберите в Гугле «sql tutorial» и начните учиться по первой же ссылке. Если она вдруг окажется платной, выберете другую. По SQL полно качественных бесплатных курсов.
На русском языке тоже полно курсов. Выбирайте бесплатные.
На изучение достаточно всего лишь от 10 часов (общее понимание), до 20 часов (уверенное владение большей частью всего необходимого).
Почему именно Python?
У всех других языков программирования какие-либо специализированные библиотеки для машинного обучения есть только в зачаточном состоянии.
Как учить Python
Прочитать основы и пройти все упражнения с этого сайта можно за 5-40 часов, в зависимости от вашего предыдущего опыта.
После этого варианты (все эти книги есть и на русском):
Learning Python, by Mark Lutz (5 издание). Существует и на русском.
Есть много книг, которые сразу обучают использованию языка в практических задачах, но не дают полного представления о детальных возможностях языка.
Эта книга, наоборот, разбирает Python досконально. Поэтому по началу её чтение будет идти медленнее, чем аналоги. Но зато, прочтя её, вы будете способны разобраться во всём.
Я прочёл её почти целиком в поездах в метро за месяц. А потом сразу был готов писать целые программы, потому что самые основы были заложены в pythontutor.ru, а эта книга детально разжевывает всё.
В качестве практики берите, что угодно, когда дочитаете эту книгу до 32 главы, и решайте реальные примеры (кстати, главы 21-31 не надо стараться с первого раза запоминать детально. Просто пробежите глазами, чтобы вы понимали что вообще Python умеет).
Не надо эту книгу (и никакую другую) стараться вызубрить и запомнить все детали сразу. Просто позже держите её под рукой и обращайтесь к ней при необходимости.
Прочитав эту книгу, и придя на первую работу с кучей опытных коллег, я обнаружил, что некоторые вещи знаю лучше них.
Python Crash Course, by Eric Matthes
Automate the Boring Stuff with Python
Книга хороша примерами того, что можно делать с помощью Python. Рекомендую просмотреть их все, т.к. они уже похожи на реальные задачи, с которыми приходится сталкиваться на практике, в том числе специалисту по анализу данных.
Какие трудозатраты?
Путь с нуля до уровня владения Python, на котором я что-то уже мог, занял порядка 100ч. Через 200ч я уже чувствовал себя уверенно и мог работать над проектом вместе с коллегами.
Следующие статьи по данной теме
Для желающих могу выступить в роли ментора
Девять лучших курсов по Big Data для дата-сайентистов и менеджеров
Редактор раздела «Технологии»
Специалисты по большим данным востребованы в ритейле, банковской сфере, E-Commerce и многих других областях. Мы отобрали девять коротких курсов, которые помогут научиться применять навыки и инструменты Big Data в реальных проектах.
Дата-сайентист — одна из самых высокооплачиваемых и востребованных профессий за рубежом и в России. Специальные подразделения для разработки data science-проектов в последние годы открывают многие крупные компании: от «Яндекса» до X5 Retail Group.
В подборку Rusbase вошли самые известные курсы для руководителей таких проектов и их разработчиков — начиная с бесплатных для новичков и заканчивая углубленными программами с акцентом на проекты конкретных отраслей.
Для менеджеров и руководителей:
1. A crash course in Data Science на Coursera
Для кого этот курс: этот курс — первый из пяти курсов группы Executive Data Science («Большие данные для руководителей»), разработанный в университете Джона Хопкинса. Он предназначен для тех, кто хочет быстро разобраться в том, что такое большие данные и где можно их применять.
Слушатели изучат основные термины и инструменты, которые используют дата-аналитики, и способы оценки успешности data science-проектов. Для этого у них будут видеолекции и материалы для самостоятельного изучения. Курс идет на английском, но есть субтитры на русском языке.
Продолжительность: 1 неделя, 4-6 часов.
Даты: курс стартовал 20 августа, но на него еще можно записаться.
Стоимость: первый курс — бесплатно. Для обучения на следующем курсе придется заплатить 2468 рублей за месяц. Этого хватит на все оставшиеся четыре курса — каждый из них длится неделю.
2. Курс Business Analytics в Udacity
Для кого этот курс: для новичков. Здесь они смогут получить навыки анализа больших данных и изучить инструменты, которые помогут в любой области: будь то инженерное дело, продажи, маркетинг или что-то еще. В рамках программы они изучат Excel, SQL и Tableau, и научатся анализировать данные для того, чтобы принимать лучшие стратегические решения.
Программа является подготовительной для двух других курсов Udacity — Data Analyst и Business Analyst Nanodegree programs. Студентам доступны видеолекции, текстовые инструкции и консультации менторов. Обучение ведется на английском.
Продолжительность: 3 месяца, 10 часов в неделю. После окончания программы студентам дается еще около 4 недель (130 часов) на завершение всех проектов.
Даты: запись открывается 21 августа.
Стоимость: 599 долларов (около 40 тысяч рублей).
3.
Data MBA Школы анализа данных
Для кого этот курс: для тех, кто хочет научиться применять инструменты Big Data в зависимости от индустрии и конкретной бизнес-задачи. Среди основных тем: как повысить продажи, управлять лояльностью, рисками, предсказывать эффективность кандидата для HR-менеджеров, делать банковский скоринг и т. д.
Продолжительность: 5 недель, 10 занятий.
Даты: 28 августа.
Стоимость: 100 тысяч рублей.
4.
Курс «Аналитика для руководителей» на «Нетологии»
Для кого этот курс: для коммерческих директоров, директоров по маркетингу, а также руководителей и владельцев бизнеса. В рамках курса они должны научиться исследовать рынок и выявлять тренды, прогнозировать продажи, проводить сегментацию клиентов, а также набирать команду для проектов с использованием больших данных и ставить задачи для разработчиков.
Программа состоит из нескольких блоков: BI аналитика в Tableu (построение дашбордов и интерактивных отчетов), data-driven менеджмент (разработка стратегии улучшения бизнес-процессов на основе этих отчетов), продуктовая аналитика, машинное обучение для бизнеса и др. Лекцию в рамках программы читает директор по маркетингу сервисов компании «Яндекс» Андрей Себрант.
Для дипломной работы потребуется спроектировать аналитическую структуру для своей компании или отдельного продукта/проекта, а также настроить дашборды в BI Tableau Software по ключевым метрикам. После окончания программы обещают помощь в трудоустройстве.
Продолжительность: 8 недель. Занятия проходят офлайн в кампусе Нетологии дважды в неделю по три часа. Видеозапись и материалы после каждого занятия добавляются в личный кабинет участника.
Даты: 23 августа — 14 октября.
Стоимость: 100 тысяч рублей.
Продолжительность: 5 недель, 10 занятий.
Даты: с 28 августа.
Стоимость: 100 тысяч рублей.
5. Курс «Специалист по большим данным 9.0» от «Лаборатории Новых Профессий»
Для кого этот курс: Для разработчиков, аналитиков и продакт-менеджеров. Курс состоит из двух модулей, первый из которых посвящен технологиям больших данных и машинному обучению, а второй – рекомендательным системам для e-commerce, медиа, соцсетей, банкинга и рекламы.
Продолжительность: три месяца. Курс достаточно интенсивный: лекции и мастер-классы проходят три раза в неделю по три часа, для решения лабораторных работ надо еще минимум 5-7 часов в неделю. При желании можно заниматься онлайн.
Даты: 20 сентября — 11 декабря.
Стоимость: 200 тысяч рублей, при оплате в августе — 170 тысяч рублей.
Для разработчиков:
1. Dataquest
Для кого этот курс: для новичков в Data Science — включая тех, кому большие данные необходимы для работы над бизнес-проектами. При выборе программы студент должен определить, насколько ему знаком Python. После этого ему предлагается отнести себя к одной из пяти групп:
Если знаний Python совсем нет, начинать придется с азов. Программа будет состоять из девяти курсов, в каждом из которых — по 2-3 блока занятий по отдельным темам (каждый блок состоит из 10 уроков). Ближе к середине обучения можно будет потренироваться в разработке data science-проектов с использованием машинного обучения. Обучение ведется на английском.
Продолжительность: проходить «квест» можно в своем темпе, отслеживать свой прогресс — на инфографике.
Дата: в любое время.
Стоимость: бесплатно.
2. «Введение в машинное обучение» от «Яндекса» и ВШЭ на Coursera
Для кого этот курс: для тех, кого не пугают слова «матрица», «вектор» и «производная». Для выполнения практических заданий потребуются базовые навыки программирования. Очень желательно знать Python. Задания рассчитаны на использование этого языка и его библиотек numpy, pandas и scikit-learn.
Чтобы успешно завершить курс, нужно набрать проходную сумму баллов за тесты и практические задания, а также выполнить финальный проект, посвящённый решению прикладной задачи анализа данных.
Продолжительность: 7 недель, 3-5 часов в неделю.
Даты: курс стартовал 6 августа, но на него еще можно записаться.
Стоимость: бесплатно, сертификат для подтверждения окончания курса стоит 1835 рублей.
3. «Машинное обучение и анализ данных» от «Яндекса» и МФТИ на Coursera
Для кого этот курс: для дата-сайентистов, которые смогут применять свои навыки в бизнес-проектах. Для обучения им требуются базовые знания математики и основ программирования. Основные темы обучения: современные методы классификации и регрессии, поиск структуры в данных, построение выводов, базовая фундаментальная математика и основы программирования на Python.
В конце программы слушатели должны будут применить свои знания в работе над реальным проектом. На выбор предлагается несколько областей: E-Commerce, социальные медиа, информационный поиск и бизнес-аналитика. Выпускники могут воспользоваться программой трудоустройства «Яндекса».
Продолжительность: все зависит от собственного темпа обучения. В среднем на это надо 3-6 месяцев.
Даты: в любое время.
Стоимость: первые 7 дней — бесплатно, после этого — 5000 рублей в месяц. Можно выбрать не все курсы специализации, а только один.
4. Школа анализа данных
Для кого этот курс: для тех, кто знаком с математической статистикой и имеет навыки программирования на Python. Кроме лекций, в программу входит решение реальных бизнес-задач. Тем, у кого навыков программирования пока нет, разработчики предлагают сначала пройти курс «Введение в Data Science».
Продолжительность: 3,5 месяца. Занятия проходят по будням два раза в неделю с 19.00 до 21.00. Учиться можно онлайн.
Стоимость: 100 тысяч рублей.
Если вы вспомнили другие российские и зарубежные курсы для дата-сайентистов и менеджеров, пишите о них в комментариях.