Список форумов ПОЛИГРАФ - ФОРУМ ПОЛИГРАФ - ФОРУМ
Для общения по теме " Детекция лжи "
 
  На главную FAQFAQ   ПоискПоиск   ПользователиПользователи   ГруппыГруппы   РегистрацияРегистрация 
 ПрофильПрофиль   Войти и проверить личные сообщенияВойти и проверить личные сообщения   ВходВход 

Журнал Детекция Лжи, №5
На страницу Пред.  1, 2, 3
 
Начать новую тему   Ответить на тему    Список форумов ПОЛИГРАФ - ФОРУМ -> Общий форум
Предыдущая тема :: Следующая тема  
Автор Сообщение
York



Зарегистрирован: 29.09.2010
Сообщения: 2271
Откуда: Вологда

СообщениеДобавлено: Ср Ноя 23, 2022 11:28 pm    Заголовок сообщения: Ответить с цитатой

Да. Ввод данных в виде 1х4 это, не говоря лишнего, сравнение выборочных данных с теоретическим распределением, поэтому будет три степени свободы. А мы сравниваем две выборки, поэтому степень свободы равна 1. В справке Эксель все правильно.
_________________
http://skl-ol.ru
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Отправить e-mail Посетить сайт автора
$erP
Site Admin


Зарегистрирован: 29.06.2005
Сообщения: 7620
Откуда: Москва

СообщениеДобавлено: Ср Ноя 23, 2022 11:30 pm    Заголовок сообщения: Ответить с цитатой

Да... добрался до компа...

Если воспользоваться экселевской функцией ХИ2.РАСП.ПХ(0,5011;1) (значение ручной статистики Хи2 0,5011 при степени свободы 1 для таблицы 2х2), то она возвращает p-value 0,48

Функция ХИ2.РАСП.ПХ(1,8423;1) (значение ручной статистики Хи2 1,8423 при степени свободы 1 для таблицы 2х2), то она возвращает p-value 0,17

York, спасибо за задачку... узнал полезный момент... придётся пересчитать какие-то свои данные...
100 раз смотрел в одни и те же разъяснения, а важного момента не видел...

_________________
Мое почтение... $erP

................................... ЛЕГКО СОЛГАТЬ ТЯЖЕЛО
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Отправить e-mail Посетить сайт автора
$erP
Site Admin


Зарегистрирован: 29.06.2005
Сообщения: 7620
Откуда: Москва

СообщениеДобавлено: Чт Ноя 24, 2022 10:04 am    Заголовок сообщения: Ответить с цитатой

York писал(а):
Да. Ввод данных в виде 1х4 это, не говоря лишнего, сравнение выборочных данных с теоретическим распределением, поэтому будет три степени свободы. А мы сравниваем две выборки, поэтому степень свободы равна 1. В справке Эксель все правильно.


Нет... не совсем так...

Если нет контрольной эмпирической выборки, то в любом случае вне зависимости от формата исходной эмпирической выборки... будь то 1х4 или 2х5 или... 6х17... для сравнения рассчитывается выборка с теоретическими частотами.

Более того, для вычисления статистики Хи2 исходная эмпирическая таблица вида "количество строк" х "количество столбцов" в любом случае развертывается в линейную таблицу 1х {"количество строк" х "количество столбцов"} и сопоставляется с такой же развернутой таблицей с теоретическими частотами...

Разница в том, что, в отличие от "одномерных" данных, для данных "многомерного" формата число степеней свободы определяется по простой формуле
("количество строк" - 1) х ("количество столбцов" - 1)

Источник: https://gym42.ru/stat/Book/Data/page_1_4_8.htm https://gym42.ru/stat/Book/Data/page_1_4_9.htm

_________________
Мое почтение... $erP

................................... ЛЕГКО СОЛГАТЬ ТЯЖЕЛО
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Отправить e-mail Посетить сайт автора
$erP
Site Admin


Зарегистрирован: 29.06.2005
Сообщения: 7620
Откуда: Москва

СообщениеДобавлено: Чт Ноя 24, 2022 10:17 am    Заголовок сообщения: Ответить с цитатой

York писал(а):
А мы сравниваем две выборки, поэтому степень свободы равна 1. В справке Эксель все правильно.

В предшествующем сообщении я выразился не совсем ясно... поэтому добавлю, опираясь на приведённый пример...

В исследуемом случае степень свободы оказалась равной единице не потому что сравнивались две выборки... а потому что в каждой из двух выборок было всего 2 значения...

Если бы были те же две выборки, но в каждой из двух выборок было бы по 11 значений, то степень свободы была бы равной 10ти.

_________________
Мое почтение... $erP

................................... ЛЕГКО СОЛГАТЬ ТЯЖЕЛО
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Отправить e-mail Посетить сайт автора
York



Зарегистрирован: 29.09.2010
Сообщения: 2271
Откуда: Вологда

СообщениеДобавлено: Чт Ноя 24, 2022 10:53 am    Заголовок сообщения: Ответить с цитатой

Если имеем дело с одной эмпирическая выборкой c n частотами, то степень свободы df = n - 1

Если имеем m выборок с n частотами, то df = (m-1)*(n - 1)

Для m = 2 и n = 2 df = (2-1)*(2-1) = 1

Ожидаемый интервал - это теоретические частоты определенные из эмпирических частот.

_________________
http://skl-ol.ru
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Отправить e-mail Посетить сайт автора
York



Зарегистрирован: 29.09.2010
Сообщения: 2271
Откуда: Вологда

СообщениеДобавлено: Ср Ноя 30, 2022 12:34 am    Заголовок сообщения: Ответить с цитатой

В статье белорусских коллег Котенева И.В. и Прилепина В.П. озаглавленной как «Об обоснованности применения дополнительного этапа тестирования для уточнения результатов многотемного скрининга» приведены интересные данные, которые хотелось бы обсудить. Но сперва хотел бы сказать несколько слов о словах Р. Нельсона о статистике, которые приведены в статье

«Рассчитывается ли точность и уровень ошибки применения метода тестирования на основе принципов байесовской или частотной(параметрической) статистики»

Р. Нельсон американец и ему позволительно употреблять термины как ему кажется правильным, но хотелось бы, что бы отечественные полиграфологи знали о чем в действительности идет речь.
Байесовская статистика – это раздел статистики в котором разрабатываются методы оценки параметров вероятностных распределений с использованием теоремы Байеса. Параметрическая статистика так же решает эти же задачи, но другими методами, а также она занимается другими задачами, в том числе проверкой статистических гипотез. Есть еще непараметрическая статистика. Она так же занимается проверкой стат. гипотез, но без предположения о том, что данные взяты из какого-то конкретного распределения. Т.е. он не использует параметры распределений – поэтому и называется непараметрической.

Байесовская статистика не имеет никакого отношения, к задачам, которые решают полиграфологи. Полиграфологи не занимаются оценкой параметров распределений. С точки зрения анализа данных полиграфологи решают задачу классификации. Эту задачу можно, а в детекции лжи и нужно решать с использованием теоремы Байеса. Но это не дает возможности вести речь о Байесовской статистике – это другое. В психологии ведь не называют психологию труда экономической психологией несмотря на то, что труд — это основа экономики?

«И если не известно точно «частоты встречаемости признака», то никогда невозможно достоверно определить точность применяемого метода»

Вообще, говоря точность метода определить очень даже можно. Нельзя точно определить ошибку в каждом конкретном случае. Но и то надо сказать, что это справедливо в точном математическим смысле. В смысле с точностью до такой-то запятой. Но полиграфологам с практической точки зрения такая точность и не нужна. В зависимости от использованных методов и алгоритмов, в конкретном случае результат может в определенном диапазоне слабо зависеть от «частоты встречаемости признака» и поэтому с практической точки зрения его можно считать независящим от него.

«Нельсон в 2014 году заявил, что самый простой способ решение этой проблемы следующий – не применять теорему Байеса, а научится использовать параметрическую статистику, потому что она является устойчивой к изменению «частоты встречаемости признака», то есть не зависит от этого фактора».

Про статистики писал выше. Параметрическая статистика значит устойчива к изменению частоты…, а байесовская статистика, значится неустойчива…Эти слова Нельсона, извините, просто бред какой-то. Полагаю, что речь он ведет о пресловутом p-value, который по версии Нельсона есть вероятность ошибки вывода. На всякий случай напишу в сотый раз – не является он этим. Это на самом деле другое.

И проблема зависимости от частоты ... это объективная пороблема. Она не зависит от того на какие разделы статистики обращать свой взор. Как будто, если закрыть глаза и шагнуть с крыши, то не упадешь, а будешь парить...земли не вжу, а почему тогда падать вниз должен?

«Напрашивается вывод, что Р. Нельсон понимает и пытается решить проблему «частоты встречаемости исследуемого признака»»

Напрашивается вывод, что тезаурус Р. Нельсона вызывает удивление....а про вероятность неслучайности я скромно промолчу...


Теперь по данным из таблицы № 3. Авторами собран уникальный материал. Результаты несколько тысяч скрининговых проверок. 60 случаев, когда ложь была определена из независимых источников и на этих случаях дана оценка Чувствительности МНВП – 0,917. Вот с избирательностью тут не все так очевидно. Оценку избирательности в 0,781 можно считать, как оценку в первом приближении, так как в статье речь ведется о «условно правдивых»
Но что интересно. Если эти «условно правдивые» это действительно правдивые, то ценность скрининговой процедуры не в проводимых тестах МНПВ, а в предтестовой беседе. Из 4025 случаев скрининга в 445 случаях (11%) опрашиваемые признавались в совершении действий в ходе предтестовой беседы и только в 55 случаях давалось правильное заключение о лжи (1%).
Пред тестовая беседа дает в 10 раз больше положительных результатов в процентах. А тогда с практической экономической точки зрения имеет ли смысл тратить время на тесты?
Если взять данные из статьи и посчитать, то согласно теореме Байеса, в случае вывода по тесту о лжи, вероятность того, что опрашиваемый действительно лжет всего лишь 0,0675 (7%). То есть если вывод обман, то ошибка почти 93%. Причина этого в оценке априорной вероятности из данных статьи. Она очень мала – 60/580 = 0,017. Такая ситуация приводит к большому проценту ошибочно «отбракованных» кандидатов – 775/3580 = 0,22 (22%). Если имеется дефицит сотрудников, то такой подход будет идти во вред. Он может быть оправдан только в случае цена ошибки пропуска цели очень велика.
Может быть правы те полиграфологи, которые укладываются в 30-40 минут на скрининге? )
Если признался – дело сделано…Если не признался, то и тестировать со всей серьезностью мало смысла… вероятность того, что правдив намного выше вероятности что обманывает…
Но все это справедливо если предположение об «условно правдивых» не далеко от истины.
ПС Для проверки Байеса…0,675…775(Тпл) + 60 (Nл) = 835 … 835*0,0675 = 56,4 …Тлл = 55…ошибка на 1,4 из-за округлений

_________________
http://skl-ol.ru
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Отправить e-mail Посетить сайт автора
Показать сообщения:   
Начать новую тему   Ответить на тему    Список форумов ПОЛИГРАФ - ФОРУМ -> Общий форум Часовой пояс: GMT + 3
На страницу Пред.  1, 2, 3
Страница 3 из 3

 
Перейти:  
Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
You cannot attach files in this forum
You cannot download files in this forum


Powered by phpBB © 2001, 2005 phpBB Group
Рейтинг@Mail.ru Rambler's Top100