нейросеть alphafold что это

AlphaFold: Использование ИИ для научных открытий

И снова здравствуйте! Делимся публикацией, перевод которой подготовлен специально для студентов курса «Нейронные сети на Python».

Сегодня мы расскажем о первом важном событии в истории развития DeepMind, чтобы показать, как исследования с помощью искусственного интеллекта могут стимулировать появление научных открытий. Благодаря междисциплинарному характеру нашей работы, DeepMind объединил экспертов из области структурной биологии, физики и машинного обучения, чтобы использовать передовые методы прогнозирования трехмерной структуры белка на основе исключительно его генетической последовательности.

Система AlphaFold, над которой мы работали последние два года, зиждется на многолетнем опыте исследований с использованием обширных данных генома для предсказания структуры белка. Трехмерные модели белков, которые генерирует AlphaFold, гораздо точнее, чем те, что были получены раньше. Это ознаменовало значительный прогресс в одной из основных задач биологии.

В чем заключается проблема фолдинга белка?

Белки – это большие и сложные молекулы, необходимые для поддержания жизни. Почти все функции нашего тела, будь то сокращение мышц, световое восприятие или превращение пищи в энергию, можно проследить по одному или нескольким белкам и тому, как они движутся и изменяются. Рецепты этих белков, называемых генами, закодированы в нашей ДНК.

Свойства белка зависят от его уникальной трехмерной структуры. Например, белки антител, из которых состоит наша иммунная система, имеют «Y-образную» форму и похожи на специальные крючки. Цепляясь за вирусы и бактерии, белки антител способны обнаруживать и помечать болезнетворные микроорганизмы для последующего уничтожения. Аналогично, коллагеновые белки имеют форму шнуров, которые передают напряжение между хрящами, связками, костями и кожей. Другие типы белков включают в себя Cas9, которые, руководствуясь последовательностями CRISPR, действуют как ножницы, которые разрезают ДНК и вставляют туда новые участки. Антифризные белки, чья трехмерная структура позволяет им связываться с кристаллами льда и предотвращать замерзание организмов; и рибосомы, которые действуют как запрограммированный конвейер, который участвует в построении белков.

Определение трехмерной структуры белка исключительно из его генетической последовательности – это сложная задача, над которой ученые бьются в течение десятилетий. Проблема заключается в том, что ДНК содержит только информацию о последовательности строительных блоков белка, называемых аминокислотными остатками, которые образуют длинные цепи. Предсказание того, как эти цепи будут складываться в сложную 3D-структуру белка, известно как “проблема фолдинга белка”.

Чем больше белок, тем сложнее его моделировать, поскольку между аминокислотами образуется больше связей, которые необходимо учитывать. Как следует из парадокса Левинталя, чтобы перечислить все возможные конфигурации обыкновенного белка, прежде чем будет достигнута его правильная трехмерная структура, потребуется времени больше, чем существует Вселенная.

Почему важен фолдинг белка?

Умение предсказывать форму белка крайне полезно, потому что оно имеет фундаментальное значение для понимания роли белка в организме, а также диагностики и лечения заболеваний, таких как болезнь Альцгеймера, Паркинсона, Хантингтона и муковисцидоз, которые, как полагают медики, вызваны неправильно свернутыми белками.

Мы особенно рады тому, что умение предсказывать форму белка может улучшить понимание того, как работает наш организм, это позволит эффективно разрабатывать новые лекарства. По мере того как мы получаем больше информации о формах белков и о том, как они работают с помощью моделирования, открываются новые возможности в создании лекарств, а также снижаются затраты на эксперименты. В конечном итоге эти открытия смогут улучшить качество жизни миллионов пациентов во всем мире.

Понимание процесса фолдинга белка также может помочь в разработке вида белка, который принесет существенный вклад в окружающую действительность. Например, достижения, полученные с помощью разработки белка в области биоразлагаемых ферментов, могут помочь справляться с загрязнителями, такими как пластик и масло, помогая расщеплять отходы не портя при этом окружающую среду. На самом деле, исследователи уже начали проектировать бактерии выделяющие белки, которые сделают отходы биоразлагаемыми и облегчат их обработку.

Для стимулирования исследований и оценки прогресса в области новейших методов повышения точности прогнозирования в 1994 году был учрежден масштабный двухгодичный конкурс под названием «Эксперимент сообщества по критической оценке методов предсказания структуры белка» (CASP), который стал золотым стандартом оценочных методов.

Как ИИ изменит ситуацию?

К счастью, область геномики имеет достаточно данных благодаря быстрому снижению стоимости генетического секвенирования. В результате в последние несколько лет все большую популярность приобретают подходы к проблеме прогнозирования, использующие глубокое обучение и основанные на данных генома. Работа DeepMind над этой проблемой привела к появлению AlphaFold, которую мы представили CASP в этом году. Мы гордимся тем, что являемся частью того прогресса, который эксперты CASP назвали “беспрецедентным прогрессом в способности вычислительных методов предсказывать структуру белка”. В итоге мы заняли первое место в рейтинге команд (мы — A7D).

Наша команда сосредоточилась именно на задаче моделирования целевых форм с нуля, без использования ранее решенных белков в качестве шаблонов. Мы достигли высокой степени точности при прогнозировании физических свойств структуры белка, а затем использовали два различных метода для предсказания полных белковых структур.

Использование нейронных сетей для прогнозирования физических свойств

Оба этих метода использовали глубокие нейронные сети, которые обучены предсказывать свойства белка по его генетической последовательности. Свойства, которые предсказывают сети: (а) расстояния между парами аминокислот и (б) углы между химическими связями, которые соединяют эти аминокислоты. Первая разработка стала настоящим прогрессом в использовании популярных методов, определяющих находятся ли пары аминокислот рядом друг с другом.

Мы обучили нейронную сеть предсказывать отдельное распределение расстояний между каждой парой остатков белка. Эти вероятности затем были объединены в оценку, которая показывает, насколько корректна разработанная структура белка. Мы также обучили еще одну нейронную сеть, которая использует все расстояния в совокупности, чтобы оценить, насколько близка предлагаемая структура к правильному ответу.

Новые методы предсказания структур белка

Используя эти оценочные функции, мы смогли найти структуры, соответствующие нашим прогнозам. Наш первый метод основан на методах, широко используемых в структурной биологии, он неоднократно заменял части структуры белка новыми фрагментами. Мы обучили генеративно-состязательную нейронную сеть предлагать новые фрагменты, которые используются для постоянного улучшения оценки предлагаемой структуры белка.

Второй метод оптимизировал оценки с помощью градиентного спуска, ( математического метода, обычно используемого в машинном обучении для небольших инкрементных улучшений) что привело к высокой точности структур. Этот метод применялся к целым белковым цепям, а не к кусочкам, которые должны быть уложены отдельно перед сборкой, что уменьшает сложность процесса предсказания.

Что дальше?

Успех нашей пробы пера на свертывании белка показывает, что системы машинного обучения могут интегрировать различные источники информации, чтобы помочь ученым быстро разработать творческие решения сложных проблем. Мы уже видели, как ИИ помогает людям освоить сложные игры через такие системы, как AlphaGo и AlphaZero, мы также надеемся, что однажды прорыв ИИ поможет решить человечеству фундаментальные научные проблемы.

Занимательно видеть первый прогресс в фолдинге белка, демонстрирующий полезность ИИ в совершении научных открытий. Даже несмотря на то, что нам предстоит еще многое сделать, мы точно понимаем, что сможем поспособствовать поиску лечения различных заболеваний, помощи окружающей среде и многому другому, потому что на самом деле потенциал огромен. С преданной своему делу командой, сосредоточенной на изучении того, как машинное обучение может продвигать мир науки, мы исследуем различные способы и методы, с помощью которых наша технология сможет повлиять на окружающий мир.

Источник

AlphaFold: алгоритм, который свернул туда

Emily k/Flickr/Protein Data Bank/Indicator.Ru

Парадокс Левинталя и браслеты вместо бус

Белки — невероятно разнообразные биологические молекулы, которые участвуют в огромном множестве реакций организма. Антитела на страже нашего здоровья, двигательный механизм наших мышц, клеточные «электростанции» для выработки энергии, система переноса кислорода в крови — это лишь немногие примеры систем, построенных на основе белков. Белок строится из компонентов-аминокислот, каждая из которых закодирована в ДНК организма тремя «буквами» — нуклеотидами. Полвека назад, в 1972 году, нобелевский лауреат по химии Кристиан Анфинсен в своей речи на церемонии награждения предположил, что последовательность аминокислот в белке в теории должна предопределять его структуру.

Но аминокислоты могут быть заряжены положительно, отрицательно или оставаться нейтральными, содержать серу, иметь циклы-«колечки», отличаться по форме и размеру. Поэтому цепь аминокислот уже на первом этапе сборки белковой молекулы выглядит не как нитка жемчугов (как ее часто рисуют), а скорее как браслет из Pandora: фрагменты располагаются в разных плоскостях и могут поворачиваться, как на шарнирах, да и сама «основа» выписывает зигзаги. Правда, никакой нити для нанизывания в этом случае нет: весь наш «браслет» состоит из подвесок, которые состыкованы под определенным углом, характерным для конкретной химической связи.

Первичная структура белка

Фото: Chemistry-grad-student/Wikimedia Commons

На «шармах» история не заканчивается: как мы уже говорили, многие аминокислоты имеют свой заряд и другие возможности образовывать связи (помимо тех, которыми они соединены в цепь). На выходе мы имеем вторичную структуру — чаще всего либо α-спирали, либо β-листы (слои из цепочек, уложенные стопкой). Держат такую конструкцию вместе водородные связи. Вторичные структуры организованы и уложены в пространстве и формируют третичную 3D-структуру причудливой формы, которая скреплена не только водородными, но и ионными и дисульфидными связями. В таком виде, как ежик пузико, белок прячет свои гидрофобные участки внутрь. Но и это еще не все: на следующем, четвертичном, уровне несколько свернутых в третичную структуру цепей сплетены в клубки-глобулы, канаты-фибриллы и насосы в мембране клетки. От этой окончательной формы и зависит, как белок выполняет свою работу, где его активные центры, ждущие шанса встретиться и прореагировать с какими-либо веществами, как они смогут захватить другие молекулы, поменять свою форму из-за взаимодействий и так далее. Неудивительно, что прионные белки, которые вызывают у других белков «эпидемию» неправильного сворачивания, в масштабах всего организма могут быть причиной смертельных болезней.

И здесь начинается самое интересное. В 1969 году американский молекулярный биолог Сайрус Левинталь подсчитал, что у цепочки из 150 аминокислот будет 450 степеней свободы. Таким образом, даже зная углы связей между аминокислотами с точностью до одной десятой радиана, мы получим 10 300 теоретических конфигураций белка. Проблема в том, что белок в доли миллисекунды свернется «как ему надо», почти всегда без посторонней помощи, даже если мы нарушим его четвертичную, третичную или даже вторичную структуру непривычной кислотностью или соленостью раствора, а потом вернем условия в норму. Почему и как это происходит? Очевидный, на первый взгляд, ответ на этот вопрос, что белок ищет самое низкоэнергетическое состояние, — далеко не единственный верный вариант. На сегодняшний день ученым удалось воссоздать пространственную структуру лишь малой толики из 200 миллионов известных человечеству белков. Почему так мало? Рентгеновская кристаллография, криоэлектронная микроскопия и другие методы, создателей которых наградили несколькими Нобелевскими премиями, до сих пор остаются слишком трудоемкими. Изучать с их помощью один белок можно годами, а оборудование для таких изысканий стоит миллионы долларов.

Пространственная структура белков: понять, простить

Здесь на помощь приходит компьютерное моделирование. Так, проект Rosetta предложил инструменты для расчета вариантов структур с наименьшей энергией и даже выпустил компьютерную игру Foldit (дословно — «сверни это»), где обычные участники могут поиграть с параметрами и предложить свои решения (за что не раз становились соавторами научных статей). Компания DeepMind, принадлежащая корпорации Google и известная разработкой искусственного интеллекта, обыгрывающего чемпионов в го, развила очень успешный «сворачивательный» алгоритм AlphaFold. В какой-то момент у компании появился серьезный конкурент, гарвардский ученый Мохаммед Аль-Караиши, который обучил нейросеть при помощи рекуррентного геометрического подхода сворачивать фрагменты белковой структуры «в контексте» того, что идет до и после них.

В международном соревновании 2018 года Critical Assessment of Protein Structure Prediction (что переводится как «критическая оценка предсказания белковых структур») алгоритм оказался примерно в миллион раз быстрее AlphaFold, но проиграл ему в точности. В этом чемпионате, проводящемся раз в два года, конкурсанты рассчитывают структуры белков, которые либо недавно определили экспериментально, либо пока только исследуют. Таким образом, «правильный ответ» к моменту соревнований еще не опубликован и известен только жюри.

Белок с конкурса 2018 года

Как же работает подход проекта-победителя? Первая стадия называется множественным выравниванием последовательностей. Алгоритм ищет похожие участки у других белков в базе данных и обнаруживает в них пары аминокислот, которые не лежат друг за другом в цепочке первичной структуры, но работают сообща — а значит, скорее всего, сближаются во время сворачивания. Нейросеть предсказывает расстояния между такими парами аминокислот в итоговой 3D-структуре и сравнивает свои предположения с реальными данными измерений других белков. В то же время параллельная нейросеть предсказывает углы соединений наших подвесок в браслете.

Схема архитектуры алгоритма AlphaFold

Но порой в новом белке предсказанные по известным примерам углы и расстояния оказываются физически невозможны. Для решения этой проблемы AlphaFold на второй стадии предлагает практически случайную, но «жизнеспособную» по всем физическим законам версию этого белка. При помощи элегантного и почти полностью автоматического метода оптимизации под названием градиентный спуск эта версия подгоняется к предсказаниям с первой стадии. Многие команды применяли один из подходов, но никому не удалось объединить их, да еще и упростив вторую ступень.

«Это изменит все»

Из следующего соревнования Critical Assessment of Protein Structure Prediction, которое завершилось 30 ноября, алгоритм AlphaFold вновь вышел победителем, опередив около сотни команд. Как отметил Джон Молт, вычислительный биолог из Мэрилендского университета, организовавший первый такой конкурс в 1994 году, после таких выдающихся результатов «в каком-то смысле проблема решена». По его словам, точность около 90 из 100 по оценке Global Distance Test соперничает с экспериментальными методами. В соревновании 2020 года средняя точность AlphaFold достигла 92,4 по всем мишеням — с погрешностью в 1,6 ангстрем, что сравнимо с шириной атома. Даже для самых сложных белков из категории свободного моделирования средний результат оставался высоким — 87 из 100.

Ожидания (синий) vs реальность (зеленый): предсказания AlphaFold практически идентичны реальной молекуле

«Это кардинально меняет правила игры», — считает эволюционный биолог из Института биологии развития им. Макса Планка в Германии Андрей Лупас, который оценивал выступления команд в конкурсе. Лаборатория Лупаса билась над «решением» структуры одного бактериального белка почти десять лет. Ничто не помогало превратить сырые данные рентгеновской кристаллографии, похожие на пятна Роршаха, в осмысленную пространственную конфигурацию. AlphaFold решил проблему за полчаса.

«Я и не думала, что эта проблема будет решена при моей жизни», — соглашается с коллегой Джанет Торнтон, структурный биолог в Европейском институте биоинформатики в Хинкстоне, Великобритания. «Это изменит медицину. Это изменит исследования. Это изменит все», — уверен Андрей Лупас. Каким же будет этот дивный новый мир? По мнению Лупаса, после такого прорыва в биологии потребуется «больше думать и меньше капать». Исследователи поясняют, что необходимость в лабораторных экспериментах, конечно, не исчезла. Но добавляют амбициозное «пока».

Однако не все будут рады этому успеху. «Справедливо предполагать, что это разрушительно повлияет на сферу предсказания белковых структур, — говорит Мохаммед Аль-Караиши, который теперь работает в Колумбийском университете в Нью-Йорке. — Предполагаю, многие оставят это поле, так как главная проблема в нем, судя по всему, решена. Это исключительный прорыв, очевидно, один из самых значительных научных результатов моего времени».

Сами авторы открытия считают, что их подход к расшифровке структуры (а значит, и функций) белков поможет значительно повлиять на лечение заболеваний, переработку отходов и другие сферы нашей жизни. Игры с компьютером в го, конечно, были очень увлекательны и полезны для разработки новых нейросетей и алгоритмов, но все это время компания стремилась добиться и прикладных, социально значимых результатов. Кажется, теперь это может получиться. «С мотивированной командой, которая сконцентрирована на изучении того, как машинное обучение может продвинуть вперед мир науки, мы с нетерпением ожидаем увидеть новые пути, при помощи которых наша технология может изменить мир к лучшему», — отмечают представители DeepMind в своем блоге.

Источник

AlphaFold2: глубокий разум и его правильное применение

Введение

Если вы когда-то слышали про биоинформатику, вычислительную биологию, структуру белка и проблему фолдинга, то вы знаете, о чем мы здесь будем рассказывать.

Если вы интересуетесь глубоким обучением и нейросетями, их применением для решения насущных практических задач и глубоко убеждены, что искусственный интеллект если и не завладеет миром, то точно превзойдет человека в своих когнитивных способностях, то об этой его победе над человеческим познанием вы тоже точно слышали.

Речь в нашей статье пойдет, как следует из названия, об искусственном интеллекте AlphaFold и его продолжателе AlphaFold2 от компании DeepMind, который был создан для предсказания трехмерной структуры белка. В 2020 году AlphaFold2 выполнил свою задачу так хорошо, как не удавалось никому до него, и с разгромными показателями победил своих соперников в соревновании, посвященном этой проблеме. Более подходящего слова, чем «прорыв» для описания результатов работы AlphaFold2 не нашлось ни у кого. А пресс-релиз DeepMind про победу на этом соревнований вызвал бурные обсуждения не только у профессионального сообщества и сочувствующих, но и у людей, далеких от переживаний по поводу предсказания структуры белков, биологии и всего, что с ними связано.

Здесь мы обсудим, что это за задача предсказания структуры и почему она такая сложная. Расскажем, почему она важна не только для академического сообщества, но и для того, что принято называть «индустрией». И, конечно, тоже выскажем свое мнение о том, что означает этот прорыв искусственного интеллекта для науки и индустрии в целом и для нас — простых людей, которые иногда болеют и лечатся от своих заболеваний, в частности.

Структура белка: что такое и зачем нужна

Так как Хабр — ресурс в первую очередь про IT и все, что с ним связано, для понимания всего того переполоха, который вызвал AlphaFold2, имеет смысл немного осветить предметную структурно-биологическую область.

Начнем с самого сложного — определения белка и описания его структуры. Белки, они же полипептиды, они же протеины — молекулы, обеспечивающие протекание большей части процессов в нашем организме. Они могут передавать и принимать сигналы, которыми обмениваются клетки нашего организма, могут участвовать в обмене веществ (как, например, инсулин, отвечающий за поддержание уровня глюкозы в организме). И даже антитела — те самые активные участники иммунного ответа на различные патогены — тоже являются белками. В общем белки всегда, белки везде. Но почему они такие могущественные и многопрофильные?

То, какую функцию выполняет белок и насколько хорошо он это делает, определяется его составом и структурой. Их аж целых 4 вида.

Первичная структура — так называемая последовательность белка. Белки состоят из 20 стандартных «строительных блоков», называемых альфа-аминокислотами. Каждая из аминокислот имеет обозначение в виде буквы: например, глицин — G, аланин — A, а аспарагин — N. Вот и получается, что для каждого белка мы можем записать строчку из 20-буквенного алфавита:

Зная последовательность ДНК (а точнее, РНК, можно однозначно определить эту самую последовательность букв для белков с помощью таблицы генетического кода:

Таблица перевода троек (триплетов) нуклеотидов в аминоксилоты

Но букв, и даже строк, нам не достаточно. Чтобы понять, как работает белок, с чем и как в организме он способен взаимодействовать, нам нужно знать, как он устроен в пространстве.
Каждую аминокислоту можно представить как набор атомов, определенным образом расположенный в таком привычном нам трехмерном пространстве. У каждого атома — своя координата и свой набор связей с соседними атомами. Вот так, например, выглядит треонин:

Структура аминоксиолоты треонин в атомном представлении

Последовательности аминокислот способны укладываться в пространстве в стабильные вторичные структуры — так называемые альфа-спирали и бета-слои (и еще всякие разные), которые принято визуализировать изящными лентами:

Альфа-спираль

Бета-складка

А целый белок, состоящий из множества аминокислот, и, следовательно, из множества атомов со своими координатами, может выглядеть вот так:

То, как полноценная аминокислотная цепочка уложена в пространстве, называется третичной структурой. В ней зашито все: из каких остатков и атомов состоит белок и как они друг относительно друга расположены в трехмерном пространстве.

Есть еще более сложные белки — состоящие из нескольких полипептидных цепочек и способные функционировать только в таком виде. Структура таких белков в трехмерном пространстве называется четвертичной. Яркий представитель таких белков — гемоглобин, разносящий кислород по нашим тканям:

Структура гемоглобина

Именно полная пространственная структура белка (третичная или четвертичная) называется в обиходе просто структурой. И именно она полностью определяет его функцию. По трехмерной структуре белка становится понятно, какие аминокислоты способны образовывать взаимодействия с другими веществами, насколько сильными будут эти взаимодействия и к чему эти взаимодействия приведут: например, к расщеплению других белков или поддержанию правильной формы укладки молекул ДНК в клетке.

Зная структуру белка, можно рационально подойти к созданию лекарственного препарата, который должен с ним взаимодействовать. Или скорректировать крутой существующий белок из животных так, чтобы он не вызывал иммунного ответа у человека и лечить человека им. А если обладать возможностью по последовательности строить структуру белка, то можно даже сделать свой искусственный белок, который будет выполнять функцию, для которой не существует белка природного — например, расщеплять пластик. В общем, пространство для маневра не ограничено, а горизонты широки.

Именно поэтому над проблемой получения структуры белка бьются многие научные (и не только) группы. Традиционный подход к определению структуры белка — экспериментальный. Сделать это можно, например, с помощью рентгеноструктурного анализа (РСА), ядерного магнитного резонанса (ЯМР) или криоэлектронной микроскопии (Cryo-EM). У всех этих методов есть свои плюсы и минусы. Они предоставляют довольно надежную информацию о том, как же в пространстве организован белок, как атомы в его аминокислотах расположены друг относительно друга — все, что нужно. Но есть у них и три общих минуса: дорого, долго и сложно. Иногда просто невозможно получить образец белка в виде, нужном для проведения РСА. Расшифровать результаты ЯМР для белков длиннее 200 аминокислот — все еще нетривиальная задача. А хороший криоэлектронный микроскоп стоит несколько миллионов долларов, да и специалистов, владеющих искусством его укрощения, пока даже во всем мире не так много.

Это все к тому, что вопрос “А не предсказывать ли нам структуру белка по его последовательности биоинформатическими методами?” уже давно не подкупает новизной — попыток решить эту задачу было очень много (и, уверены мы, еще много будет!). Действительно успешными до 2020 года их назвать нельзя, и почему это так, мы поговорим ближе к концу статьи. Но история того, какие подходы применялись и насколько рабочими они были, не может идти в отрыве от истории соревнования под названием CASP.

Critical Assessment of protein Structure Prediction — или просто CASP — соревнование по предсказанию трехмерной структуры белков по их последовательности. Оно проходит раз в два года, и участвуют в нем все уважающие себя группы, разработавшие новый алгоритм для решения этой задачи. Это событие проходит с 1994 года, тогда в нем приняли участие 35 групп. А вот в 2020 уже больше сотни. В чем же они соревнуются?

Организаторы предлагают участникам предсказать структуры белков, зная лишь их последовательность. Эти структуры уже получены экспериментальными методами, перечисленными выше, но пока что их никто не видел. Обычно все разрешенные структуры публикуются в базе Protein Data Bank, и там их может найти любой желающий. Но некоторые экспериментаторы приберегают свои результаты как раз для такого случая.

Участвуя в CASP, можно показать класс в разных категориях предсказания структур — например, превзойти всех в качестве предсказания упаковки неупорядоченных структур или контактов между разными участками белка. Или еще попробовать предсказать третичную структуру белка по гомологии. Например, можно найти белок, наиболее похожий по последовательности на тот, структуру которого нужно предсказать, и координаты атомов для которого уже известны. И затем всяческими модификациями довести этот «шаблон» до красивой искомой третичной структуры требуемого белка. Как выбирается шаблон и к каким ухищрениям прибегают в этой категории, можно узнать здесь: Гомологичный фолдинг белков | Павел Яковлев (BIOCAD).

Но самой престижной и волнующей общественность категорией традиционно считается предсказание третичной структуры белка de novo (или ab initio). Эти красивые латинские слова означают, что при предсказании вы не используете напрямую известные структуры белков, а пользуетесь некими закономерностями и правилами для построения структуры с нуля.

При этом организаторов не очень волнует полная структура белков с расположениями всех атомов. Им интересны только так называемые Cα атомы — те, из которых растут радикалы аминокислот (на этом рисунке обозначены голубым цветом):

Тример аминокислот. Голубым обозначены Cα атомы (атомы водорода убраны для чистоты картинки)

«Как же так?!», возмущенно спросите вы. Мы тут 20 минут читали про атомы, про координаты, про то, как это важно для функции белка, и т.д. и т.п., а теперь давайте все выкинем и будем только вот этот несвязный набор точек предсказывать!

Сейчас станет понятно, почему так можно. Давайте сначала уберем эти самые радикалы и посмотрим, как белок выглядит без них:

Полипептидная цепочка без радикало аминокислот. Голубым обозначены Cα атомы (атомы водорода убраны для чистоты картинки)

В целом общая форма белка понятна. Восстановить направление того, что растет из Cα, можно опираясь на известные структуры из PDB (а их больше 170 тысяч): просто взять и по общему строению этого белка выбрать для него более подходящие ориентации радикалов.
А если убрать вообще все, кроме Cα, то выглядеть это будет так:

Расположение Cα атомов в белке

Выглядит плохо, но все не так безнадежно. Мы знаем, что между двумя Cα всегда находятся атомы углерода и азота. А еще благодаря квантовой механике мы знаем, какие расстояния связей между ними — они всегда одинаковые. Более того, с 1963 года [10.1016/S0022-2836(63)80023-6] мы даже знаем, каковы допустимые углы между плоскостями (они же двугранные углы), которые они образуют:

Определение углов phi и psi в белке

Карта Рамачандрана — распределение наблюдаемых значений phi и psi в белках в целом

Так что зная расстояния и углы между пропавшими атомами, восстановить их координаты — дело техники.

Итак, участники CASP по имеющейся аминокислотной последовательности белка предсказывают положение Cα атомов в пространстве. Теперь пора оценить, кто же из них лучший. Для этого есть специальная метрика — GDT_TS.

В конце соревнования у организаторов есть реальные положения Cα из эксперимента, и есть предсказанные участниками. Для оценки качества предсказаний сначала следует их совместить друг с другом, например, так:

Две совмещенные структуры одного белка

Делается это с помощью алгоритмов структурного выравнивания (например, вот такого). Теперь можно оценить схожесть полученных структур как раз по этой метрике. GDT(X) — Global Distance Test от X — это доля тех Cα, которые после структурного выравнивания находятся от референса не больше, чем на заданное расстояние X. На рисунке выше, например, один из предсказанных Cα находится на расстоянии 7.3 Å от референсного. Доля, как водится, распределена от 0 до 100%. GDT_TS — Global Distance Test Total Score в CASP определяется вот так:

GDT_TS = 1/4(GDT(1 Å) + GDT(2 Å) + GDT(4 Å) + GDT(8 Å))

Поговаривают, что это позволяет стать победителями, серебряными призерами и т.д. сразу нескольким командам. Но в 2020 году победитель по всем показателям был один — AlphaFold2. Цифра 2 в конце намекает, что у этого инструмента есть история. О ней сейчас и поговорим.

CASP13, CASP14 и DeepMind

В 2018 году состоялось соревнование CASP13, в котором, пусть и не разгромную, но очень убедительную победу одержала команда под названием A7D:

Показатели Z-score команд-участниц CASP13

Этим A7D был… нет, не Альберт Эйнштейн. А команда из компании DeepMind, разработавшая алгоритм AlphaFold. DeepMind известна всем, кто интересуется искусственным интеллектом. Основаны они были всего 10 лет назад, а в 2014 году были приобретены компанией Google. За недолгие 10 лет своего существования эти ребята успели отметиться во многих сферах. Искусственный интеллект AlphaGo в 2016 году победил чемпиона мира по игре го. Эта игра требует развитого стратегического и тактического мышления, присущего ранее только человеку. В 2019 году, после ряда успехов в создании искусственного интеллекта, способного играть в видеоигры не хуже людей, нейросеть AlphaStar за 44 дня стала гроссмейстером игры Starcraft II.

В 2020 году на CASP14 результаты выглядели уже вот так:

Таких чисел на CASP не видел никто. Еще более впечатляющим выглядит показатель, не зависящий от результатов других команд: меданный по всем структурам GDT_TS у AlphaFold2 составил 92.4. А это означает (по крайней мере, по пересчетам самого DeepMind), что их точность предсказания сопоставима с точностью разрешения структуры, которую дают экспериментальные методы. Но лучше всего качество предсказания структуры отражают, конечно, красивые и действительно впечатляющие картинки:

Источник

Бесспорно, результаты крутые. Давайте разберемся, что же такого скрыто под капотом AlphaFold и AlphaFold2, что позволяет им решать эту задачу с такой потрясающей точностью.

AlphaFold

Понятно, что результаты AlphaFold2 намного более впечатляющие, и интересно было бы разобраться, как работает именно он. Но, увы, пока у нас нет никакой подробной информации от его создателей — только пресс-релиз, посвященный победе в CASP14. Тем не менее подсказки о том, как он работает, можно найти в статье про первую версию AlphaFold.

Хотя победа на CASP13 состоялась в 2018 году, статья в престижном журнале «Природа», которая описывает алгоритм работы AlphaFold, вышла только в январе 2020 года. Так что публикацию про AlphaFold2 придется еще подождать. А пока поговорим про первую версию.

AlphaFold — сверхточная нейросеть. Соответственно, у нее есть фичи, принимаемые на вход, архитектура, через которую эти фичи проходят, и итоговые предсказанные данные, которые из этой нейросети выходят. Начнем с входных фичей.

Вход AlphaFold

Напомним, задача состоит в предсказании структуры белка по его аминокислотной последовательности. Но AlphaFold не так прост: на вход нейросеть принимает не только саму последовательность, а ее множественное выравнивание на последовательности из разных больших баз данных существующих белков.

И за этим стоит очень красивая идея, которую использовала команда DeepMind. Она прекрасно демонстрирует, что для решения задач биоинформатическими методами нужно быть не только хорошим математиком и программистом, но и понимать их биологический фундамент.
Итак, идея состоит в следующем. Мы берем последовательность белка и выравниваем ее на все известные человечеству последовательности белков. Их очень-очень много, намного больше, чем структур, ведь, как мы помним, получить последовательность белка, зная последовательность ДНК, очень просто. А проекты по секвенированию — определению последовательности ДНК для разных животных — за последние годы нагенерировали столько данных, что не использовать их было бы преступлением.

И вот, мы нашли похожие друг на друга по последовательности белки. Если они похожи по последовательности, то похожи они, скорее всего, и по функции, и по структуре. Но ведь не обязательно есть структура этих похожих белков (скорее всего, ее и нет). А нам она сейчас и не нужна, ведь и схожести мы можем вывести другие закономерности.

Аминокислоты белка между собой взаимодействуют — формируют устойчивые (и не очень) связи, которые формируют, поддерживают и стабилизируют его структуру.

И если одна из взаимодействующих аминокислот внезапно поменяется, сдвинется или пропадет, то ее визави может расстроиться, сместиться и перестать поддерживать структуру. Из-за этого белок расплетется и потеряет способность функционировать. А если он потеряет возможность нормально функционировать, может сильно пострадать здоровье и качество жизни организма, в котором он живет. И такой организм вряд ли долго проживет и размножится, и вряд ли мы успеем его просеквенировать.

Какой из этого можно сделать вывод? А такой, что если пары аминокислот образуют критические взаимодействия, то в похожих белках они либо не меняются, либо меняются синхронно. Поэтому, глядя на выравнивание похожих белков, можно посчитать корреляцию каждой пары позиций и построить то, что называется матрицей коэволюции. Где корреляция выше, там, вероятнее всего, есть критические взаимодействия, а, следовательно, эти позиции, вероятнее всего, находятся в пространстве рядом друг с другом.

Иллюстрация идеи использования информации о коэволюции для предсказания структуры Источник

Идея хоть принадлежит и не DeepMind, показала себя она во все красе именно в их руках.

Читайте также: на что клюет окунь зимой

Выход AlphaFold

Поговорим теперь о том, что же AlphaFold выдает на выходе. Начнем, как обычно, издалека.
В задаче требуется предсказать положение всех Cα белка. Для решения этой проблемы можно заняться предсказанием координат атомов. Но представьте себе белок с одними координатами атомов. А теперь отнесите его на два метра вверх, один метр влево и 78 сантиметров вперед. И поверните вокруг центра масс на 15 градусов. Белок и структура остались теми же, а вот координаты сильно изменились. Поэтому предсказание трехмерных координат — дело неблагодарное, и так никто не делает. Так что надо придумать что-то другое. И прежде чем описать «другое», снова окунемся в биологическую составляющую задачи и узнаем, что такое атомы Cβ.

Cβ — атомы, связанные с Cα (обозначены розовым). Они есть у 19 аминокислот из 20. Глицин довольствуется только Cα.

Чем хорош Cβ, так это тем, что по его расстоянию до Cβ другой аминокислоты в белке можно понять, взаимодействуют ли эти остатки друг с другом. Если расстояние меньше 8 Å — взаимодействие есть, больше или равно — нет. Верно и обратное: если мы знаем, что взаимодействие между аминокислотными остатками есть, то и расстояние между их Cβ должно быть в итоговой структуре меньше 8 Å. Понимаете, куда мы клоним?

Команда AlphaFold придумала предсказывать попарные расстояния между атомами Cβ и на выходе нейросеть выдает дискретные плотности распределения вероятности попарных расстояний между этими атомами разных остатков. Для остатка под номером 29 это выглядит вот так:

Источник

Распределение вероятностей расстояний для Cβ — это очень здорово, конечно, но нам тут нужна структура или хотя бы положение Cα. Не проблема — сейчас все будет.

Из этих вероятностей для каждой аминокислоты строится дистограмма — матрица предсказанных попарных расстояний между Cβ:

Источник

Расстояния междe остатками мы знаем, можно и структуру восстановить. Для этого DeepMind сконструировали вот такой потенциал, зависящий от углов фи и пси — тех самых двугранных углов, про распределение значений которых мы говорили ранее:

Первый вклад представляет из себя потенциал, вносимый предсказанным расположением Cb — G(phi, psi). Это функция, выражающая их попарное расстояние через эти углы. Второй вклад пришел к нам из небольшого сюрприза, который можно выявить, только если очень внимательно прочитать статью. Вместе с попарными расстояниями DeepMind предсказывают и распределение вероятностей значений двугранных углов фи и пси — отсюда и вклад в потенциал. А третий вклад предназначен для того, чтобы избежать ситуации, когда все построенные атомы друг с другом сталкиваются и их координаты перекрываются.

Этот потенциал — ни что иное, как математическая модель, описывающая потенциальную энергию этого белка. Таких моделей много (вот тут можно посмотреть, какие они есть), но команда AlphaFold создала свою. Законы термодинамики говорят нам, что закрытая система стремится к минимуму потенциальной энергии. И если мы знаем функциональный вид этой энергии, и, более того, он еще и дифференцируемый, как в этом случае, то можно минимизировать его и прийти к реальной структуре. Так что на этом этапе возникает вполне себе сухая математическая задача оптимизации функционала. Для ее решения команда использует метод градиентного спуска.

И в итоге имеются значения всех фи и пси из оптимальной структуры. Расстояние между Cα, C и N мы знаем. Восстановить из этого корректные относительные положения Cα не представляет никакой трудности.

Итак, со входными фичами все понятно. С постобработкой результатов алгоритма — тоже. А что сидит внутри этой нейросети, которая столь точно предсказывает попарные расстояния Cβ и распределение двугранных углов?

Архитектура AlphaFold

В статье приведена схема нейросети:

Это сверточная нейросеть, которая относится к классу ResNet, что позволяет ей обучаться более эффективно. Обучающей выборкой служили

30 000 экспериментально полученных структур из базы PDB, про которую мы с вами говорили выше, и обучение заняло примерно 5 дней.

Вообще говоря, какого-то прорыва именно в построении архитектуры сети здесь не случилось — просто мощная и логично выстроенная нейросеть. И успех ее кроется, конечно, именно в выборе входных и выходных данных.

AlphaFold2

А что же AlphaFold2? Про его устройство мы знаем не так много. Схематично его архитектура выглядит вот так:

Из пресс-релиза мы знаем, что эта нейросеть — ‘end-to-end’, то есть (наверное) ей достаточно на вход иметь только последовательность белка, на основании которой она самостоятельно сделает множественное выравнивание и вытащит из него нужные фичи. И на выходе нас сразу будет ждать структура.

В этот раз обучение проходило на примерно 170 000 структур из PDB, и заняло оно несколько недель.

И, кажется, идея все такая же — из данных о корреляции позиций получить распределение вероятностей попарных расстояний. Или нет. В общем, будем с нетерпением ждать статью в престижном журнале.

Discussion

В отличие от парламента, пост на Хабре и комментарии к нему — вполне уютное место для дискуссии, поэтому здесь мы выскажем несколько мнений по поводу всех вышеизложенных фактов. И начать хочется с разбора того, что вызвало общее возмущение у причастных к структурной и вычислительной биологии.

Анонс DeppMind, на который мы так часто здесь ссылались, называется «AlphaFold: a solution to a 50-year-old grand challenge in biology». И в первом же абзаце там говорится о том, что этой команде удалось решить проблему фолдинга. Читая это, многие взрывались, причем по разным причинам.

Во-первых, строго говоря, никакую задачу фолдинга они не то что не решили, они ее и не решали. Фолдинг — это процесс приобретения белком его третичной структуры. То есть решение задачи фолдинга — это выявление закономерностей, приводящих последовательность белка к различным этапам формирования его структуры и к окончательной третичной структуре. И задача эта куда более сложная, ведь белки пришивают к себе по одной аминокислоте и начинают формировать свою структуру по мере своего роста в сложной многокомпонентной среде. А еще делать это они могут по-разному в зависимости от внешних условий. И путей прихода к конечной структуре у них бесконечное множество.

При этом известно, что белки не занимаются просто перебором всех возможных конформаций. Парадокс Левинталя как раз говорит о том, что если бы белок из 100 аминокислот поступал именно так, то даже при дикой скорости перебора конформаций времени жизни Вселенной для приобретения своей структуры ему бы не хватило. Основная теория, которая сейчас превалирует на полях решения задачи фолдинга, называется догмой Анфинсена и гласит, что белок последовательно идет к кинетически достижимому энергетическом минимуму.

Очевидно, что задача предсказания процесса формирования структуры намного сложнее, чем то, что делали DeepMind, ведь они решали задачу предсказания структуры. И такая подмена понятий вызвала в чем-то справедливое негодование сочувствующих процессу граждан.

Справедливости ради стоит отметить пару моментов. Во-первых, термин фолдинг очень часто употребляется вычислительными биологами именно в значении предсказание структуры. Правда, это делается в узких кругах, и в приличном обществе вслух такое не говорят. Так что можно считать, что пресс-релиз DeepMind просто содержал не к месту употребленный жаргонизм. Во-вторых, если прочитать этот релиз чуть дальше первого абзаца, его авторы как раз поясняют, что решали они именно задачу предсказания структуры, без всяких там процессов. Ну, это все демагогия и борьба за чистоту языка. Давайте перейдем к во-вторых и к размышлениям по делу.

А именно к размышлениям о слове «решение». Когда речь идет об использовании нейросетей для определения лиц или подсчета количества котиков на картинке, мы всегда можем понять, ошиблась нейросеть или нет. Просто потому что большинство людей способны по картинке определить, сколько на ней котиков и тот ли на ней человек, которого они перед собой видят. А вот когда мы используем нейросеть для решения задачи, ответа на которую не знаем, возникают вопросы. Как мы поймем, что нейросеть сработала верно и не сломалась? С какой долей уверенности мы можем использовать результаты работы этой нейросети в своей практической деятельности? Например, в проекте по разработке лекарственных препаратов, провал которого стоит несколько миллионов (иногда даже долларов)? Пока у нас нет ответа на этот вопрос, следовательно, говорить о решении, наверное, рановато.

Конечно, и в первой, и во второй версиях AlphaFold упоминается скор, призванный отличить хорошую работу алгоритма от плохой. Но вот данных по тому, насколько он соотносится с реальностью в открытом доступе, к сожалению, нет. Так что о практическом и рутинном применении речи, увы, пока не идет.

И тем не менее. Нельзя не отметить, что этот алгоритм показал работу, значительно превосходящую по результату все предыдущие попытки решить задачу предсказания структуры белка. И это означает, что потенциал метода, лежащего в основе этого алгоритма — огромный, и применять подобный метод можно не только к этой наукоемкой и сложной задаче. А значит, при должном развитии таких подходов нас ждет очень светлое и увлекательное будущее!

Заключение

В заключение хочется сказать следующее — AlphaFold2, безусловно, прорыв. Пока что есть некоторые моменты, ограничивающие его практическое применение, но, кажется, их можно преодолеть. Разумеется, для этого нужно задаться такой целью и уверенно к ней идти. И хочется верить, что DeepMind не бросит свое детище и будет и дальше его развивать и улучшать. Будет очень здорово, если это развитие будет проходить такими же семимильными шагами, как до этого.

Постзаключение

Надеемся, вас впечатлили существующие задачи, подходы к их решению и успехи этих подходов. На наш взгляд, самое красивое в таких событиях — это демонстрация того, как правильно примененные знания из разных областей могут дать невероятные результаты и помочь в решении сложнейших задач, стоящих перед человечеством.

AlphaFold появился на свет благодаря тому, что члены его команды обладали компетенциями в области биологии, физики, математики, алгоритмов глубокого обучения и оптимизации — то есть в области вычислительной биологии. Этому мало где хорошо учат в мире и пока что нигде на достаточном уровне не учат в России. Но в 2021 году в Высшая Школа Экономики совместно с компанией BIOCAD запускает магистерскую программу «Вычислительная биология и биоинформатика», в которой будут учить этим дисциплинам, столь необходимым для решения таких амбициозных задач.

В магистратуре ждут студентов с сильным физико-математическим бэкграундом, без химической и биологической подготовки. Преподаватели ВШЭ обеспечат лучшие в стране курсы по алгоритмам, программированию, анализу данных, а сотрудники индустрии расскажут спецглавы физики, молекулярной биологии, химии, а также специальные курсы по молекулярному моделированию, алгоритмам структурной биоинформатики, системной фармакологии и иным важным для области темам. И, что тоже важно, расскажут о настоящих индустриальных биологических задачах и научат использовать полученные знания и навыки для их решения.

Источник