Машинное обучение и биоинформатика, часть 1

Машинное обучение и биоинформатика, часть 1

Машинное обучение - подраздел искусственного интеллекта и информатики, который занимается извлечением знаний из данных с помощью методов математической статистики, машинное обучение особенно часто используется для решения задач, в которых структура данных и закономерности внутри этих данных нам неизвестны заранее.

Машинное обучение - это адаптивный процесс, который позволяет алгоритмам учиться на собственном опыте, учиться на примерах и учиться по аналогии. Возможность обучения необходима для автоматического повышения производительности такой системы с течением времени на основе предыдущих результатов.

Учитывая сложность и гигантский объем биологических данных, методы и алгоритмы информатики не в состоянии решить сложные биологические проблемы реального мира. Однако, существующие современные подходы и методы машинного обучения превосходят ограничения традиционных лабораторных методов.

В биоинформатике и вычислительной биологии эта возможность генерировать предсказательные модели без предварительных предположений о скрытых механизмах работы этих моделей с точки зрения биологических механизмов приходится очень кстати, потому что достаточное количество биологических механизмов недостаточно изучено или определено недостаточно точно. Давайте сначала рассмотрим основные понятия, которыми оперирует эта область.

Машинное обучение использует в своей работе алгоритмы, которые способны дать информацию о зависимостях в данных без написания специфического кода под каждую задачу, то есть вы просто передаете набор входных данных и он выстраивает свою собственную логику, основываясь на этих данных. Например, можно применить машинное обучение для определения влияния мутаций на экспрессию гена.


   Если постараться максимально упростить классификацию алгоритмов машинного обучения, то их можно разделить на две категории - обучение с учителем (supervised learning) и обучение без учителя (unsupervised learning).


Обучение с учителем


Суть этого метода заключается в том, что у нас есть обучающая выборка - набор данных прокоторые нам все известно заранее, например есть набор данных секвенирования,где известно какие именно мутации влияют на экспрессию какого-то гена, а какие нет. Другими словами, мы знаем что мы подаем на вход алгоритму машинного обучения и что получим на выходе. 

В дальнейшем,чтобы предсказать вероятность того,что в нашем образце есть мутации, которые могут иметь какое-то влияние на экспрессию гена, нам достаточно подать эти данные на вход алгоритму и получить вероятностную оценку значимости мутаций.


Обучение без учителя


В ходе обучения без учителя алгоритмумашинного обучения предоставляют только входные данные, в то время как ожидаемый результат неизвестен. Алгоритм должен попытаться ответить на вопрос,существует ли кластеризация в данных?

Например,нужно установить какие из полученных образцов секвенирования какого-либопатогенного микроорганизма обладают лекарственной устойчивостью, а какиенет.

Одним из самых популярных методов, который используется и для обучения с учителеми для обучения без учителя, является использование искусственных нейронных сетей. Наверняка, если вы следили зановостями из мира технологий ближайшие несколько лет, то вам неоднократно доводилось слышать это термин, поэтому давайте рассмотрим основные понятия связанные с данным методов более детально.


Искусственная нейронная сеть 


Человеческий мозг изучался с конца средневековья,однако его детальная структура начала быть понятной только в 19 веке. В настоящее время принято считать, что мозг представляет собой около 10 млрд. плотно взаимосвязанных клеток, называемых нейронами. 

Каждый нейрон состоит из тела клетки, называемого сомой, ряда корнеподобных расширений,связанных с тысячей соседних нейронов,называемых дендритами, и единичная линия передачи сигнала, простирающаяся от сомы, называется аксоном. Два специализированных расширения сомы несут ответственность за перенос информации из / в тело клетки. Дендриты доставляют информацию в тело клетки и аксоны извлекают информацию из тела клетки. Связь между двумя нейронами, в частности, между аксоном и другим нейроном, называется синапсом.


источник


Важной характеристикой биологических нейронных сетей является пластичность, то есть способность мозга к реорганизации с обучением, основанным на опыте или сенсорной стимуляции. Ученые считают,что существуют два типа модификаций,которые составляют основу обучения вмозге, а именно:

  1. изменение внутренней структуры синапсов;

  2. увеличение количества синапсов междунейронами.


Искусственная нейронная сеть (Artificial Neural Network, ANN) - это модель обработки информации, которая может хранить и представлять сложные отношения типа «вход-выход». Мотивация развития методики ANN возникла от желания создать интеллектуальную искусственную систему, которая могла бы обрабатывать информацию так же, как и мозг человека. Структура этой модели представлена в виде множества слоев простых обрабатывающих элементов,которые работают параллельно,чтобы решить конкретные проблемы.

ANN напоминают человеческий мозг в двух отношениях: процесс обучения и хранение экспериментальных знаний. Искусственная нейронная сеть учится и классифицирует проблему путем повторных корректировок соединяющих весов между элементами. 

Другими словами, ANN учится на примерах и обобщает обучение за пределами поданных примеров. Например, если мы обучили нейронную сеть распознавать лица людей на изображениях или видеозаписях на выборке из какого-то конечного числа цифровых изображений или видеозаписей, то она сможет распознавать лица на  изображениях или видеозаписях с которыми раньше не сталкивалась.  Принципиальная архитектура типичной искусственной нейронной сети показана на рисунке:

Каждый элемент (аналогичный нейрону) в сети связан с его соседями (но не с соседямив своем слое) с помощью связей с весами (аналогичные синапсам), которые представляют силу соединений. Как правило, один обрабатывающий элемент принимает несколько входных значений, (аналогично дендритам) через его соединения, соединяет их, выполняет операцию над результатом, а затем выдает окончательный результат (аналогичный аксону). Вход может представлять собой информацию из внешних сред или выходов других нейронов. Выход может быть либо окончательным решением проблемы, либо вводом для других нейронов. 

На рисунке показана схема искусственного нейрона.


Таким образом, мы познакомились с основными понятиями, которыми пользуются в машинном обучении. В следующих частях этого обзора мы познакомимся с непосредственными примерами применения методов машинного обучения и рассмотрим как эти методы могут решать практические и теоретические задачи из разных областей биологии и биоинформатики. 




все для dle
+6
Добавить комментарий

Оставить комментарий