Chemoinformatics News

Large scale comparison of QSAR and conformal prediction methods and their applications in drug discovery

#хемоинформатика #QSAR #биоактивность #conformalprediction #статьядня

Есть такие методы, называются Конформное предсказание (conformal prediction, CP). Давно хотел о них написать, тема как-то набирает популярность (что мне непонятно). Вот и повод нашелся.

Конформное предсказание - это такой общий подход, который с использованием обычных методов машинного обучения позволяет предсказывать не только интересующее свойство, но статистическую значимость (доверительный интервал) предсказания.

Работает конформное предсказание так: 1. Исходная выборка делится на обучающую, калибрующую (~ 20%) и тестовую (~ 10-20%). 2. Вы строите модель на обучающей выборке. Можно использовать любой классификационный метод, который возвращает вероятность принадлежности классу или эквивалентную величину. В статье использовали Random Forest. 3. Предсказываете вероятности для калибрующего набора, их называете красивым термином non-conformity scores. В калибрующем наборе должны быть активные и неактивные молекулы. Сортируете отдельно для активных и неактивных non-conformity scores. 4. Когда предсказываете для тестового набора получаете вероятности принадлежности к каждому классу каждого соединения. 5. Рассчитываете p-value предсказания активности так: берете, например, вероятность того что соединение активно, смотрите сколько активных молекул имели non-conformity scores ниже, чем у вашего, в калибровочном наборе активных. p-value - это в вашем случае отношение числа таких молекул к общему числу молекул. Понятно, что p-value большая, если модель предсказывает с высокой вероятностью. Так же поступаете для неактивных. 6. Предсказание оставляется, если p-value выше наперед заданного числа - значит предсказание хорошее. Это предсказание считаете значимым. 7. Обычно на этом все заканчивается - предсказываете активная ли молекула, и определяете значимость. Дальше сложно написать понятно, но попробую. Вообще значимость вы можете определить для каждого класса - активного и неактивного. Например, молекула на 90% активна и значит на 10% неактивна. Так вот у каждого из этих предсказаний может тоже быть значимость! Молекула может быть значимо активной, но (гипотетически) не являться значимо неактивной. То есть предсказание одного класса есть, а второго - нет. Или она может быть незначимо активной и незначимо неактивной. Тогда вообще нет предсказания ни одного из классов.

Если заинтересовало, хотите разобраться, смотрите в самом низу ссылку на статью автора В. Вовка.

В статье Эндрю Лича (помните такого?) приведено масштабное сравнение обычного QSAR и конформного предсказания. В обоих случаях использовался Random Forest. С моей точки зрения, конформное предсказание по сути - это способ оценки домена применимости (если несогласны - пишите комменты, давайте подискутируем). Таким образом, статья показывает позволяет ли конформное предсказание избавиться от плохо предсказываемых точек?

Так вот, возможности конформного предсказания смотрели на 550 мишенях, тема обсосана со всех сторон. И в целом показано, что: в принципе оба подхода - классический QSAR и конформное предсказание (CP) - работают хорошо. В большинстве мишеней CP работает лучше чем обычный QSAR, редко наоборот. На новых данных (появившихся в новой версии ChEMBL) оба подхода теряют немного в качестве, и качество становится примерно одинаковым (то есть можно обойтись без СР). НО поскольку последний дает статистический параметр качества, можно использовать.

П.С. Тут мне стало интересно, мои посты кто-то читает или нет. В качестве эксперимента - если вы это читаете - киньте в личку "+". Только (чур!) в комменты не писать, эксперимент должен быть чистый. Спасибо!

Статья Э. Лича: https://jcheminf.biomedcentral.com/articles/10.1186/s13321-018-0325-4

Tutorial по конформному предсказанию: http://jmlr.csail.mit.edu/papers/volume9/shafer08a/shafer08a.pdf

Links: