Важный вопрос связан с выбором порогов вероятностей для отбора «ак-
тивных» соединений. Зависимости, необходимые для получения вероятно-
стей Pa и Pi по значениям B статистики (подробнее о методе расчета см. в
работе [283]), и оценки точности прогноза PASS являются конечным ре-
зультатом процедуры обучения, которая состоит в следующем. По данным
SAR Base, сформированной на основе обучающей выборки, для каждой
активности A
k
для каждого из N
k
активных и для каждого из N-N
k
неактив-
ных соединений вычисляются значения B статистики. Вычисления прово-
дятся в режиме скользящего контроля с исключением по одному, т.е. после
«исключения» этого соединения из SAR Base. По полученным выборкам
B статистики строятся гладкие полиномиальные оценки функций Pa(B) и
Pi(B). На рис. 14 представлены распределения Pa(B) и Pi(B) для активности
«Антигипертензивное».
Ри. 14.
Зависимости
Pa
(
B
) и
Pi
(
B
) для активности «Антигипертензивное» на основе данных,
представленных в базе знаний PASS
Из приведенного на рисунке 14 примера видно, что значения
Pi
моно-
тонно убывают при возрастании значений
Pa
и сумма
Pa
и
Pi
меньше или
равна 1. Вероятности
Pa
и
Pi
являются также, по построению, оценками ве-
роятности ошибок прогноза 1-го и 2-го рода, соответственно, а 1-
Pa
и 1-
Pi
–
оценками чувствительности и специфичности. Вероятности
Pa
и
Pi
можно
рассматривать и как меры принадлежности прогнозируемого соединения к
нечетким множествам «активных» и «неактивных» органических соедине-
ний. Все эти интерпретации вероятностей
Pa
и
Pi
эквивалентны и полезны
для анализа результатов прогноза. На их основе можно сконструировать са-
мые разные критерии анализа результатов прогноза, соответствующие ре-
шению конкретных практических задач.
74
Достарыңызбен бөлісу: