глубокое обучение в биологии и медицине
Глубокое обучение в биологии и медицине
Глубокое обучение в биологии и медицине [2020] Рамсундар, Истман, Уолтерс
Глубокое обучение добилось впечатляющих успехов во многих отраслях. Сейчас оно все глубже проникает в прикладные научные исследования, в частности в биологию и смежные дисциплины. Эта книга рассказывает о применении глубокого обучения в геномике, химии, биофизике, микроскопии, медицине и других направлениях современных исследований всего, что связано с живыми организмами.
Представленные в книге стандартные архитектуры глубоких сетей идеально подходят для программистов-разработчиков и ученых, работающих над созданием новых лекарств или ведущих исследования в области биологии и генетики. Книга содержит множество практических примеров, включая полный цикл поиска нового лекарства – одну из самых сложных научно-прикладных задач на стыке физики, химии, биологии и медицины.
Издание будет полезно широкому кругу специалистов, связанных с анализом данных в химии, биологии и медицине, а также разработчикам программного обеспечения для них и студентам вузов.
Deep Learning for the Life Sciences [2020] Bharath Ramsundar, Peter Eastman, Patrick Walters, Vijay Pande
Нечеткое моделирование и управление [2020] Анджей Пегат
В настоящем издании дается развернутое введение в проблемы нечеткого и нейронечеткого моделирования применительно к задаче управления системами. Материал основан на новейших результатах в данной области и иллюстрируется многочисленными примерами.
При отсутствии достаточно точного знания об объекте управления традиционные методы решения задач управления оказываются неэффективными или могут быть вообще неприменимы. В этом случае можно строить нечеткие системы управления с применением аппарата нечетких множеств, нечеткой логики, нечеткого моделирования. Еще большая эффективность достигается сочетанием указанных методов с аппаратом искусственных нейронных сетей и генетических алгоритмов.
Именно этот круг вопросов рассматривается в книге «Нечеткое моделирование и управление». Ее автор, Анджей Пегат, профессор Щецинского технического университета (Польша) – видный специалист в области мягких вычислений и теории управления.
Одна из интересных особенностей книги состоит в том, что методы мягких вычислений излагаются и трактуются с позиций специалиста по системам управления.
Книга будет полезна студентам старших курсов, аспирантам, научным работникам и инженерам, специалистам по системам управления при решении задач моделирования в различных прикладных областях.
Fuzzy Modeling and Control [2020] Аndrzej Piegat
Глубокое обучение для поисковых систем [2020] Томмазо Теофили
В книге рассказывается о том, как использовать глубокие нейронные сети для создания эффективных поисковых систем. Рассматривается несколько компонентов поисковой системы, дается представление о том, как они работают, и приводятся рекомендации по использованию нейронных сетей в разных контекстах поиска. Особое внимание уделено практическому объяснению методов поиска и глубокого машинного обучения на базе примеров, большинство которых включает фрагменты кода.
Автор освещает основные проблемы, связанные с поисковыми системами, и указывает пути решения этих проблем. Он раскрывает принципы тестирования эффективности нейронных сетей, а также измерения их затрат и выгод.
Издание предназначено для читателей, владеющих программированием на среднем уровне и отлаживающих поисковые системы с целью повышения их эффективности, то есть выдачи наиболее релевантных результатов.
Python Machine Learning, 2nd Edition [2017] Sebastian Raschka, Vahid Mirjalili
Machine Learning and Deep Learning with Python, scikit-learn, and TensorFlow
Unlock modern machine learning and deep learning techniques with Python by using the latest cutting-edge open source Python libraries.
Machine learning is eating the software world, and now deep learning is extending machine learning. Understand and work at the cutting edge of machine learning, neural networks, and deep learning with this second edition of Sebastian Raschka’s bestselling book, Python Machine Learning. Thoroughly updated using the latest Python open source libraries, this book offers the practical knowledge and techniques you need to create and contribute to machine learning, deep learning, and modern data analysis.
Fully extended and modernized, Python Machine Learning Second Edition now includes the popular TensorFlow deep learning library. The scikit-learn code has also been fully updated to include recent improvements and additions to this versatile machine learning library.
Sebastian Raschka and Vahid Mirjalili’s unique insight and expertise introduce you to machine learning and deep learning algorithms from scratch, and show you how to apply them to practical industry challenges using realistic and interesting examples. By the end of the book, you’ll be ready to meet the new data analysis opportunities in today’s world.
If you’ve read the first edition of this book, you’ll be delighted to find a new balance of classical ideas and modern insights into machine learning. Every chapter has been critically updated, and there are new chapters on key technologies. You’ll be able to learn and work with TensorFlow more deeply than ever before, and get essential coverage of the Keras neural network library, along with the most recent updates to scikit-learn.
What You Will Learn
● Understand the key frameworks in data science, machine learning, and deep learning
● Harness the power of the latest Python open source libraries in machine learning
● Master machine learning techniques using challenging real-world data
● Master deep neural network implementation using the TensorFlow library
● Ask new questions of your data through machine learning models and neural networks
● Learn the mechanics of classification algorithms to implement the best tool for the job
● Predict continuous target outcomes using regression analysis
● Uncover hidden patterns and structures in data with clustering
● Delve deeper into textual and social media data using sentiment analysis
Машинное обучение и глубокое обучение с помощью Python, scikit-learn и TensorFlow. Откройте для себя современные методы машинного обучения и глубокого обучения с помощью Python, используя новейшие передовые библиотеки Python с открытым исходным кодом. Машинное обучение пожирает мир программного обеспечения, и теперь глубокое обучение расширяет машинное обучение. Поймите и работайте на переднем крае машинного обучения, нейронных сетей и глубокого обучения с помощью этого второго издания бестселлера Себастьяна Рашки» машинное обучение Python». Тщательно обновленная с использованием новейших библиотек Python с открытым исходным кодом, эта книга предлагает практические знания и методы, необходимые для создания и внесения вклада в машинное обучение, глубокое обучение и современный анализ данных.
Полностью расширенная и модернизированная, Python Machine Learning Second Edition теперь включает в себя популярную библиотеку глубокого обучения TensorFlow. Код scikit-learn также был полностью обновлен, чтобы включить последние улучшения и дополнения в эту универсальную библиотеку машинного обучения.
Уникальные знания и опыт Себастьяна Рашки и Вахида Мирджалили познакомят вас с алгоритмами машинного обучения и глубокого обучения с нуля, а также покажут, как применять их к практическим отраслевым задачам на реалистичных и интересных
Лекции по биоинформатике: анализ данных, нейросети, и их применение в биологии и медицине
Почти год назад, летом 2017 года, на базе МФТИ состоялась традиционная летняя школа от Института биоинформатики. Основной темой школы в этом году стал интеллектуальный анализ данных. Почему? Количество получаемых данных в биологии и медицине растет с невероятной скоростью. В то же время обнаружить ранее неизвестные вещи в таком объеме информации вручную физически невозможно (да и классическими алгоритмами уже тоже сложновато), поэтому приходится использовать статистику и дополнять естественный интеллект искусственным.
Именно этим активно и занимались участники летней школы. В этом посте собрано 22 видеозаписи лекций со слайдами и описанием для всех интересующихся темой анализа данных в биоинформатике. Лекции, которые можно смотреть без дополнительной подготовки, отмечены звёздочкой «*» (таких половина).
1*. Введение в биоинформатику (Александр Предеус, Институт биоинформатики)
В лекции рассмотрены основные области, в которых работают биоинформатики в науке и индустрии, особенности биоинформатики и причины ее популярности сегодня.
2*. Введение в машинное обучение (Григорий Сапунов, Intento)
Постоянный рост количества данных способствует развитию все более и более сложных процессов обработки, поиска и извлечения информации. Один из способов решения подобных задач заключается в использовании искусственного интеллекта. Эта лекция посвящена краткому введению в основы машинного обучения. Григорий рассказал общую терминологию в этой области, а также описал виды задач, решаемых машинным обучением. Помимо этого, лекция знакомит с основными этапами машинного обучения, видами моделей и метриками качества полученных данных.
3*. Введение в Deep Learning (Григорий Сапунов, Intento)
Глубокое обучение (или deep learning) в настоящее время набирает популярность из-за возможности не прописывать конкретные алгоритмы для решения задачи, а использовать обучение представлениям. Развитию этих методов также способствует увеличение вычислительной мощности процессоров. Лекция посвящена основам нейросетей: их видам (полносвязные нейросети, автоэнкодеры, свёрточные, рекуррентные) и решаемым ими задачам. Отдельно Григорий обрисовал современное состояние и тренды.
4*. Введение в онкогеномику и анализ омиксных данных в онкологии (Михаил Пятницкий, НИИ биомедицинской химии им. В.Н.Ореховича)
Секвенирование человеческого генома, изучение человеческих генетических вариаций, секвенирование метагенома человека, транскриптомный анализ человеческих тканей — все эти биологические методы в приложении к “Big Data” дали ученым большой объем ценной информации о том, что отличает человека от других животных. Эта лекция посвящена «омикам» и их практическому использованию. Отдельно Михаил затронул использование этих данных в онкологии.
5. Мультиомика в биологии: интеграция технологий (Константин Оконечников, German Cancer Research Center)
Бурное развитие экспериментальных технологий в молекулярной биологии, таких как например, секвенирование, позволили совместить в себе изучение большого спектра функциональных процессов происходящих в клетках, органах или даже целом организме. В лекции рассмотрено как правильно совмещать массивные экспериментальные данные, полученные из геномики, транксриптомики и эпигеномики для установления связей между компонентами происходящих биологических процессов. Наглядные примеры применения мультиомики выбраны из высоко востребованной области исследований раковых заболеваний с фокусом на педиатрическую онкологию.
6. Количественная генетика: история и перспективы (Юрий Аульченко, лаборатория теоретической и прикладной функциональной геномики ФЕН НГУ, группа методов генетического анализа, ИЦиГ СО РАН)
Количественная генетика — точная наука, которая основывается на небольшом числе ключевых наблюдений и базовых моделей, позволяющих дать количественное описание природных (микро)эволюционных явлений и предсказать результаты генетических экспериментов. Она использует мощный математический аппарат. Многие современные методы статистики были изначально разработаны для решения проблем количественной генетики. Прорывное развитие молекулярно-биологических технологий за последнее десятилетие позволило характеризовать сотни тысяч живых организмов по миллионам геномных и других «омиксных» параметров. Общее количество проведенных экспериментов и уже накопленных данных колоссально. Актуальная задача современной количественной генетики — разработка моделей, которые позволят описать наследования многоуровневых фенотипических высокой размерности. В своей лекции Юрий дал краткий обзор истории количественной генетики и проблем, которые стоят перед этой наукой.
7*. Технологии секвенирования (Кирилл Григорьев, Caribbean Genome Center, University of Puerto Rico)
Развитие и эволюция процессов секвенирования неразрывно связаны с эволюцией технологических возможностей. Лекция показывает историю и процесс развития технологий секвенирования от Сэнгера до наших дней. Отдельно Кирилл рассказал про преимущества и недостатки каждого из существующих в настоящее время методов, а также о характере получаемых данных и их применении в различных областях.
8. Транскриптомика: практические методы и применяемые алгоритмы (Александр Предеус, Институт биоинформатики)
Транскриптомика уверенно заняла место в списке самых популярных задач, встающих перед NGS-биоинформатиками. Дифференциальный анализ экспрессии генов, кластеризация экспрессионных данных, и интерпретация полученных данных в терминах метаболических и сигнальных каскадов позволяют получить богатейшую информацию о практически любой системе. В лекции рассмотрены лучшие пайплайны, основные проблемные места в дизайне экспериментов и обработке, а также практические случаи удачного применения транскриптомных подходов.
9. Анализ данных NGS в медицинской генетике: определение, аннотация и интерпретация генетических вариантов (Юрий Барбитов, СПбГУ, Александр Предеус, Институт биоинформатики)
Использование секвенирования нового поколения давно ушло за пределы классической науки и успешно применяется во многих других областях, в том числе в здравоохранении. Лекция посвящена ключевым аспектам анализа данных секвенирования нового поколения в медицинской генетике. Юрий показал весь путь от получения сырых ридов до постановки диагноза, с упоминанием трудностей, возникающих при определении, аннотации и интерпретации генетических вариантов. Отдельно он затронул распространенные ошибки, допускаемые на каждом из этапов обработки данных. В заключение дан краткий обзор перспективных направлений исследований, способных улучшить точность постановки диагноза с использованием методов высокопроизводительного секвенирования
10. Практическое применение ChIP-Seq и родственных методов (Александр Предеус, Институт биоинформатики)
Методы ChIP-Seq, а также «геномного футпринтинга» (ATAC-Seq, FAIRE-Seq, DNase-Seq) широко применяются для нахождения механизмов регуляции биологических процессов, в частности, для транскрипционной регуляции. Потенциальное пространство изучаемых факторов очень многомерно, однако селективный подход позволяет получить богатую информацию о регуляции в системе на основании всего нескольких экспериментов. На примере конфликтующих современных теорий, Александр показал основные сложности интерпретации регуляторной информации, и способы консолидации полученных результатов.
11*. Что можно делать с данными iScan (Татьяна Татаринова, University of La Verne )
Компания Illumina выпускает большое количество приборов под различные нужды. Чипирование позволяет быстро обнаруживать однонуклеотидные полиморфизмы (SNP) для большого количества образцов. Лекция посвящена обзору данных чипов iScan и их применению в клинической диагностике.
12. Глубокое обучение в вычислительной биологии (Дмитрий Фишман, University of Tartu)
Глубокое обучение активно используется не только для улучшения машинного перевода или распознавания речи, но и позволяет решить многие проблемы в области вычислительной биологии. Лекция посвящена применению методов глубокого обучения на конкретных биологических примерах. Дмитрий рассказал о том, что нового происходит в биологии и медицине с использованием глубокого обучения, и можно ли говорить о том, что машины революционизируют медицину и биологию.
13*. Применение методов машинного обучения для поиска потенциальных патогенных мутаций в геноме человека (Анна Ершова, МФТИ, НИИ физико-химической биологии МГУ им. М.В. Ломоносова, ФНИЦ эпидемиологии и микробиологии им. Н.Ф. Гамалеи)
Поиск патогенных мутаций стал актуальным в связи с секвенированием генома человека. Однако, вручную такую задачу решить просто невозможно. Лекция посвящена тому, как машинное обучение может помочь справиться с этой задачей.
14*. Иммуноинформатика (Вадим Назаров, НИУ ВШЭ, ИБХ РАН)
Машинное обучение уже довольно давно активно применяется в самых разных сферах жизни, но в иммунологии для него нашли место совсем недавно. В этой лекции Вадим рассказал о нескольких примерах применения машинного и глубинного обучения в иммунологии, включая задачу предсказания связывания МНС-пептид комплексов и анализа репертуаров Т-клеточных рецепторов.
15*. Изучение адаптации к хозяину и развития резистентности в вирусах ВИЧ и гепатита С с помощью методов структурной биоинформатики (Ольга Калинина, Институт информатики общества Макса Планка)
Вирус иммунодефицита человека (ВИЧ) и вирус гепатита С вызывают тяжелые заболевания, которые с трудом поддаются терапии. Как и многие другие ретро- и РНК-вирусы, эти вирусы быстро эволюционируют и, таким образом, могут приспосабливаться как к воздействию специфических антивирусных препаратов, так и к адаптивному иммунному ответу со стороны организма хозяина. В этой лекции Ольга показала, как с помощью комбинирования анализа последовательностей вирусных белков с анализом их пространственной структуры можно делать предсказания о развитии механизмов резистентности и взаимодействии вирусов с иммунной системой хозяина.
16. Предсказание эффекта мутаций (Василий Раменский, МФТИ)
Современные методы секвенирования дают огромный объем информации о полиморфизме генома, то есть отличиях индивидуальных геномов друг от друга. Эти отличия (варианты) возникают в результате мутаций при репликации ДНК и частично фиксируются в популяции. Распространенность, локализация и функциональный эффект геномных вариантов сильно различаются – от полной летальности до отсутствия какого-либо влияния на индивидуальный фенотип. В лекции рассмотрены современные подходы к предсказанию функционального эффекта вариантов, используемые в персонализированной медицине, медицинской и популяционной генетике.
17. Многомасштабное моделирование и дизайн биологических молекул (Николай Дохолян, University of North Carolina at Chapel Hill)
Жизнь биологических молекул охватывает масштабы времени и длины, соответствующие шкалам времени и длины от атомного до клеточного. Следовательно, новые подходы к молекулярному моделированию должны быть по своей сути многомасштабными. В своей лекции Николай описал несколько методологий, разработанных в его лаборатории: алгоритм быстрого дискретного молекулярного динамического моделирования, белковый дизайн и инструменты структурной доработки. Используя эти методологии, можно описать несколько приложений, которые проливают свет на молекулярную этиологию кистозного фиброза и находят новые фармацевтические стратегии для борьбы с этим заболеванием, моделируют структуру трехмерной РНК и разрабатывают новые подходы к контролю белков в живых клетках и организмах.
18. Гомологичный фолдинг белков (Павел Яковлев, BIOCAD)
В современной структурной биологии есть ряд вычислительных методов, позволяющих с высокой достоверностью характеризовать биологические молекулы, их схожесть и различия, способы взаимодействия и функции. Для построения подобных вычислений входным параметром всегда выступает пространственная структура белка, однако ее получение может быть затруднен, несмотря на полувековой прогресс в области кристаллографии. Лекция посвящена решению этой проблемы с помощью гомологичного моделирования структур белков — построения трехмерных структур из схожих фрагментов. Для примера рассмотрены вариабельные домены антител — белков, обладающих уникальным структурным разнообразием вариабельных петель.
19. Как перестать медитировать и начать моделировать (Артур Залевский, МГУ им. М. В. Ломоносова)
Большое количество данных, получаемых методом NGS, позволяет не только получать из этого биологические выводы, но и использовать их для моделирования. Построенные модели позволяют лучше понять биологические данные и получить еще больше биологического смысла из эксперимента. Лекция посвящена моделированию и начальным этапам этого процесса.
20*. Стоя на плечах гигантов, или зачем нужны консорциумы (Герман Демидов, Centre for Genomic Regulation, The Barcelona Institute of Science and Technology, Universitat Pompeu Fabra)
За последние десятилетия развитие биологии было связано с накоплением массивов данных, огромных настолько, что отдельные исследовательские группы уже не справлялись с их биоинформатическим анализом. С целью решить эту проблему начали создаваться консорциумы из десятков лабораторий, такие как Human Genome Project, 1000GP, ENCODE и другие. Благодаря таким коллаборациям, в открытом доступе есть данные разнообразных типов, полученные с помощью различных технологий. Как результат, сравнение новых экспериментальных данных с уже существующими стало стандартной частью любого исследования. Консорциумы производят не только данные, но и биоинформатические пайплайны для их обработки, и стандартные форматы, и процедуры оценки качества. На этой лекции обсуждается, как работают консорциумы, как пользоваться результатами их работы и что делать, если вы вдруг обнаружили себя членом такого консорциума и вам нужно обрабатывать терабайты данных, а потом обмениваться результатами со всеми остальными участниками.
21*. Обзор биоинформатических компаний в России и мире (Андрей Афанасьев, yRisk)
В современном мире наука и бизнес все более и более переплетаются. Не обошел этот тренд и область биоинформатики. Андрей рассказал об ожиданиях и реальности рынка, об историях успеха и историях провалов, о людях и местах, связанных с биоинформатикой.
22. Продвинутый анализ вариаций (SNV, InDel, SV) с помощью геномного браузера NGB (Геннадий Захаров, EPAM, Институт Физиологии им. И.П. Павлова, РАН)
Лекция охватывает процесс визуального анализа простых (SNV, InDel) и структурных вариаций в геномном браузере. Все примеры демонстрируются с использованием браузера NGB, отвечающего большинству требований и рекомендаций анализа структурных вариаций, в том числе различные виды визуализаций и получение аннотаций из внешних баз данных. В лекции на реальных примерах показаны сценарии валидации и анализа последствий простых и структурных вариаций.
Послесловие
Для тех, кто ничего не понял хочет развиваться в области биоинформатики — до 27 мая ещё открыт прием заявок на летнюю школу в этом 2018-м году. Сама школа пройдет 23–28 июля под Санкт-Петербургом. Есть шанс вскочить в последний вагон и гордо всем показывать пост с обзором лекций следующего года, говоря, что видели это лично.
В 2017 году школа проводилась при поддержке наших постоянных партнеров – компаний JetBrains, BIOCAD и EPAM Systems, за что им огромное спасибо.