Точность прогноза каждой активности оценивается в PASS как вероят-
ность того, что для произвольной пары новых активного и неактивного со-
единений значение
Pa
для активного соединения будет выше, чем значение
Pa
для неактивного соединения. Соответствующая величина называется
инвариантной точностью прогноза (IAP). Она эквивалентна критерию пло-
щади под кривой оперативной характеристики (AUC ROC). На рис. 15 на
примере активности «противоопухолевое» показаны зависимости между
Pa
и
Pi
, чувствительностью, специфичностью, точностью и сбалансирован-
ной точностью.
Рис. 15.
Пример зависимостей меж-
ду чувствительностью («Sensitivity» ≡
1-
Pa
, черная кривая), специфичностью
(«Specificity» ≡ 1-
Pi
, красная линия),
точностью (конкордансом) («Accuracy»
(Concordance), синяя кривая), и сба-
лансированной
точностью
(«BA»,
BalancedAccuracy, BA = (Sensitivity+
Specificity)/2) как функций порога по ве-
роятности ошибок второго рода (Pi) для
активности «противоопухолевое»
Площадь под кривой зависимости 1-
Pa
от
Pi
(кривой чувствительности),
показанной на рисунке 15 черным цветом, и есть AUC ROC, совпадающая с
IAP. Точка пересечения всех кривых соответствует равенству
Pa
и
Pi
, и, со-
ответственно, равенству вероятностей ошибок первого и второго рода, ра-
венству чувствительности и специфичности, и, примерно, максимуму сба-
лансированной точности. Значение
Pa
=
Pi
в этой точке равно минимаксной
оценке точности прогноза при полном отсутствии априорной информации
как о платежной матрице, так и вероятности встречаемости активности в
какой-либо выборке.
Вероятность
Pa
отражает, прежде всего, сходство структуры молекул
данного органического соединения со структурами молекул, наиболее ти-
пичных в соответствующем подмножестве «активных» соединений в обу-
чающей выборке. Поэтому никакой прямой корреляции вычисляемых вели-
чин
Pa
с количественными характеристиками активности, как правило, нет.
Действительно активное соединение, но имеющее нетипичную для обуча-
ющей выборки структуру молекул, может иметь согласно прогнозу низкое
значение
Pa
, даже, возможно,
Pa
<
Pi
, поскольку значения величин
Pa
для
активных и
Pi
для неактивных соединений из обучающей выборки (подсчи-
танные с их исключением!) распределены строго равномерно, что следует
из способа построения функций Pa(B) и Pi(B).
Достарыңызбен бөлісу: