Список форумов ПОЛИГРАФ - ФОРУМ ПОЛИГРАФ - ФОРУМ
Для общения по теме " Детекция лжи "
 
  На главную FAQFAQ   ПоискПоиск   ПользователиПользователи   ГруппыГруппы   РегистрацияРегистрация 
 ПрофильПрофиль   Войти и проверить личные сообщенияВойти и проверить личные сообщения   ВходВход 

Еще раз про статистическую значимость
На страницу Пред.  1, 2, 3 ... 10, 11, 12, 13, 14  След.
 
Начать новую тему   Ответить на тему    Список форумов ПОЛИГРАФ - ФОРУМ -> Общий форум
Предыдущая тема :: Следующая тема  
Автор Сообщение
York



Зарегистрирован: 29.09.2010
Сообщения: 2600
Откуда: Вологда

СообщениеДобавлено: Пт Фев 15, 2019 8:03 pm    Заголовок сообщения: Ответить с цитатой

Александр Калафати писал(а):
Какая шкала , что обозначает?


Звиняйте за небрежность.

По оси Х - ов АВ "мафиозности", Y - ов вероятность ошибки.

Вы об этом?

Кстати, у меня вопрос: параметры распределения 2RQ ESS (6 -ки) это для трёх повторов или для пяти?

.
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Отправить e-mail Посетить сайт автора
Александр Калафати



Зарегистрирован: 12.10.2011
Сообщения: 1852
Откуда: Москва

СообщениеДобавлено: Пт Фев 15, 2019 8:17 pm    Заголовок сообщения: Ответить с цитатой

1) Да, я потом понял. Просто неудобно было.
2) Как-то они не разделяют.
Для 3 или 5 должен быть набран окончательный бал. Т.е. если для 3 не набран необходимый бал, проводят еще 2.

_________________
Быть, а не казаться.
http://polygraph-triumph.ru/
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Посетить сайт автора
York



Зарегистрирован: 29.09.2010
Сообщения: 2600
Откуда: Вологда

СообщениеДобавлено: Пт Фев 15, 2019 9:02 pm    Заголовок сообщения: Ответить с цитатой

Александр Калафати писал(а):

2) Как-то они не разделяют.
Для 3 или 5 должен быть набран окончательный бал. Т.е. если для 3 не набран необходимый бал, проводят еще 2.


В общем случае параметры для пяти повторов отличаются от 3 повторов. Иного просто быть не может. Но вот, если пять повторв только такие, что первые три повтора не имеют достаточный балл...могут ли они быть одинаковы? Это задача. Тут считать нужно. Но наверняка и в таком случае они должны отличаться
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Отправить e-mail Посетить сайт автора
York



Зарегистрирован: 29.09.2010
Сообщения: 2600
Откуда: Вологда

СообщениеДобавлено: Пн Фев 25, 2019 2:56 pm    Заголовок сообщения: Ответить с цитатой

York писал(а):



Вот вся 'физика' для правдивых и 2пв. Нижняя строка это p - value.

Подобоанные параметры нормального распределения в районе 6 и хорошо совпадают с "хвостиком"


Кстати, "кривоватость" красногоо "хвостика" ошибок говорит о том, что создатели ESS свои данные не сглаживали (это общеупотребляемый термин) , т.е. не строили теретическое распределение (тоже термин), т.е. не делали аппрокимацию, а вложили в таблицу данные те, что "набудстрепили" (или как они там их получили?) в "сыром" виде. Хотя в других таблицах присутствуют сглаженные данные. Странно это всё.

Very Happy Э - э - э, Слюшай дарагой! Папа думать не учил, да? Могли же, просто, округлить неаккуратно! Понял, да? Привыкнуть уже пора, дарагой! Понял, да?
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Отправить e-mail Посетить сайт автора
$erP
Site Admin


Зарегистрирован: 29.06.2005
Сообщения: 7851
Откуда: Москва

СообщениеДобавлено: Пн Фев 25, 2019 3:50 pm    Заголовок сообщения: Ответить с цитатой

York писал(а):
не строили теретическое распределение (тоже термин), т.е. не делали аппрокимацию, а вложили в таблицу данные те, что "набудстрепили" (или как они там их получили?) в "сыром" виде. Хотя в других таблицах присутствуют сглаженные данные. Странно это всё.

York, это не совсем так... или совсем не так... или всё так, но я это не совсем понимаю...

Ну... в общем...
Изначально Нельсон взял за основу некоторое количество "намонтекарленных" оценок ESS (я сейчас говорю за 2RQ-тесты ZCT) и высчитал из них нормативные данные.
Они получились следующие.
Для "лгущих" средний балл: -6.685, стандартное отклонение: 6.881
Для "правдивых" средний балл: 6.735, стандартное отклонение: 6.045

Полученные "некруглые" значения решил округлить, руководствуясь следующими соображениями (гугл-переводчик в помощь... достаточно понятно):

The normative Monte Carlo mean for deceptive ESS total scores of two-question ZCT normative simulation was -6.685 and the Monte Carlo standard deviation for deceptive cases was 6.881. The Monte Carlo mean for truthful cases was 6.735 and the Monte Carlo standard deviation was 6.045. Because field PDD examinations are scored in integers, not real numbers, normative parameters were truncated to integers. See Appendix A for a table of normative data for two-question ZCT examinations.

Именно таким образом, получились знаменитые круглые значения среднего "-6" и стандартного "6" для лгущих, и среднее "6" и стандартное отклонение "6" для правдивого. Так что подтвердились предположения, что эти "круглые значения" были получены методом искусственного "притягивания за уши". Аргументы, зачем это было сделано... ну... пусть будут такие...

На основе полученных нормативных данных рассчитал значения функции нормального распределения по баллам для лгущих и правдивых. Представил данные в нормативных таблицах, которые теперь всем известны.
На основе функции нормального распределения установил "альфа" для лгущих и правдивых.
На последующей выборке из 60 тестов с заведомо известными результатами 30DI/30NDI перепроверил точность результатов, получаемых на основе ESS. Что-то с ними тоже "монтекарлил", но что конкретно я до конца не понял.

Как бы вот...

Сделал для себя следующее резюме.

1) Представленные в таблице данные - данные функции нормального распределения. Той самой, которая настоящая "функция распределения", которая интегральная... лапласовская... а не функция плотности распределения... которая дифференциальная... гаусовская.

2) В нормативных таблицах представлены "выдернутые" из непрерывного ряда необходимые значения для соответствующих баллов.

3) В нормативной таблице данные в чистом виде p-value. Достаточно сравнить определение p-value с тем, что значат данные в нормативной таблице. Применительно к значениям, на основе которых принимается решение DI/NDI, представленные p-value предлагается считать "альфой". Можно руководствоваться официальным критерием 0,05 и соответствующим им +/-4 балла. А можно "кому как нравится". Поэтому там везде "альфа".

4) Данные функции плотности вероятности можно рассчитать... и на их основе рисовать "колокольчики"...
Но для Нельсона они не нужны чисто идеологически... поскольку по его подходу эти данные не принимают участие в принятии решения, а рисовать "колокольчики" без надобности нет смысла... поэтому их и нет.

5) Из всего того, что "выдал" Нельсон с данным подходом к ESS, я принципиально не согласен с тем, что он называет "альфу" ошибкой теста. Это не ошибка теста как таковая. Ее нельзя ни считать, ни называть "ошибкой теста". Ни ложноположительной, ни ложноотрицательной. Об этом еще Барланд совершенно недвусмысленно говорил... а он первым придумал и использовал подобный "нормативный" подход для оценки результатов теста...

_________________
Мое почтение... $erP

................................... ЛЕГКО СОЛГАТЬ ТЯЖЕЛО
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Отправить e-mail Посетить сайт автора
York



Зарегистрирован: 29.09.2010
Сообщения: 2600
Откуда: Вологда

СообщениеДобавлено: Пн Фев 25, 2019 4:43 pm    Заголовок сообщения: Ответить с цитатой

$erP

Спасибо за информацию! Если честно умом мне это не понять. Я вот про это:

Цитата:
The normative Monte Carlo mean for deceptive ESS total scores of two-question ZCT normative simulation was -6.685 and the Monte Carlo standard deviation for deceptive cases was 6.881. The Monte Carlo mean for truthful cases was 6.735 and the Monte Carlo standard deviation was 6.045. Because field PDD examinations are scored in integers, not real numbers, normative parameters were truncated to integers. See Appendix A for a table of normative data for two-question ZCT examinations.


Правила математического округления чисел изучают в пятом, шестом классе средней образовательной школы. Если уж надумали округлить это надо делать по математическим правилам. А тут взяли "поотрубали" лишнее - получили шестёрки и всё нормуль. И обоснование замечательное: "Поскольку полевые проверки PDD оцениваются в целых числах, а не в действительных числах, нормативные параметры были усечены до целых чисел". Это о чём? Имеется в виду, что баллы- это целые числа? И на основание этого средний балл и дисперсия усекаются до целых чисел? Это вообще что - такое есть - то ???

Я не проявляю излишней придирчивости... или как тут говорили, вспоминая Ленина об одном дураке и десяти мудрецах...

Такие вещи (обрубания до целых) не лезут ни в одни ворота. Ну, получили параметры, а как же проверка стат. гипотезы, что эти параметры действительно можно считать параметрами ген. совокупности? О каких стат. тестах можно вести речь при таком обрубании чисел???

С другой стороны на основание полученных данных "определяются вероятности ошибок". А ничего, что из - за подобного обрубания эти ошибки могут получиться с относительно точностью в десятки проценов ? Или даром это? Если даром, то зачем всё это?

Цитата:
На последующей выборке из 60 тестов с заведомо известными результатами 30DI/30NDI перепроверил точность результатов, получаемых на основе ESS


Пообрубив всё "лишнее" к едрене фене, как они могли препроверить точность полученных результатов на реальных данных??? Какими такими методами они это сделали???

Цитата:
Представленные в таблице данные - данные функции нормального распределения. Той самой, которая настоящая "функция распределения", которая интегральная... лапласовская... а не функция плотности распределения... которая дифференциальная... гаусовская.


Да. По сути в случае ESS p - value вырождается в функцию распределения вероятностей ту, что зовётся Лапласовской. С тем, что Вы написали далее я полностью солидарен.

Пусть каждый делает вывод для себя сам. А я делаю такой: ESS (асех своих модификаций), в части вычисления вероятностей, является псевдонаучным творением, которая граничит с мошенничеством, что зависит уже от мотиации авторов.

Хотел бы подробнее остановиться на стандартах предоставлениях данных как важнейшем элементе научности исследований, чтобы в очередной раз не получить титул ......, придирающегося к ерунде.

Пусть зарубежными коллегами представлен тест, стандарт оценки его результатов, основанный на распределении баллов, допустим как в ESS. Для обоснованного использования тестов необходимо провести его валидацию. Это необходимо сделать набрав необходимую подтверждённую статистику - получить своё распределение баллов. А затем необходимо выдвинуть стат. гипотезу, что наше распределение баллов принадлежит ген. совокупности, распределение баллов, которой описывается теоретическим распределением, которое имеет параметры представленные создателями ESS. В нашем случае это два числа - две шестёрки.
Чтобы проверить эту гипотезу мы должны провести стат. тест, в данном случае хи2, входом в который будут "доморощенные" частоты баллов и частоты вычисленные из теоретического распределения (с шестёрками).
Хи2 очень чувчствитен к данным. "Обрубание" параметров теоретического распределения приведёт к тому, что теоретические частоты будут сильно отличатся от реальных генеральной совокупности и Хи2 выдаст нам отрицательный результат, который вполне возможно будет ошибочным.

Т.е. мы буде лишены возможности воспроизвести результат "полученный" коллегами и произвести валидацию теста. Невоспроизводимсоть результата - признак ненаучности исследований.


Последний раз редактировалось: York (Пн Фев 25, 2019 6:44 pm), всего редактировалось 2 раз(а)
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Отправить e-mail Посетить сайт автора
$erP
Site Admin


Зарегистрирован: 29.06.2005
Сообщения: 7851
Откуда: Москва

СообщениеДобавлено: Пн Фев 25, 2019 5:09 pm    Заголовок сообщения: Ответить с цитатой

York писал(а):
Правила математического округления чисел изучают в пятом, шестом классе средней образовательной школы. Если уж надумали округлить это надо делать по математическим правилам. А тут взяли "поотрубали" лишнее - получили шестёрки и всё нормуль. И обоснование замечательное: "Поскольку полевые проверки PDD оцениваются в целых числах, а не в действительных числах, нормативные параметры были усечены до целых чисел". Это о чём? Имеется в виду, что баллы- это целые числа? И на основание этого средний балл и дисперсия усекаются до целых чисел? Это вообще что - такое есть - то ???

Согласен с Вами полностью... в том смысле, что сам _ничонипонял_...
Но кроме представленного более никаких объяснений нигде не встретил...
Знаю, что также округленные средние и стандартные отклонения используются в 3RQ тестах... наверное, в статьях по этим тестам должны быть какие-то пояснения... Но... копаться в статьях по 3RQ тестам мне не интересно...

Надо бы ради интереса глянуть на p-value, если средние и стард. откл. взять оригинальные... дробные... но это уже как нибудь потом... на досуге...

Огромное спасибо e2e4 за поднятую тему и Вам за Ваши рассуждения и разъяснения, позволившие более менее приблизиться к адекватному пониманию всего этого...

_________________
Мое почтение... $erP

................................... ЛЕГКО СОЛГАТЬ ТЯЖЕЛО
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Отправить e-mail Посетить сайт автора
$erP
Site Admin


Зарегистрирован: 29.06.2005
Сообщения: 7851
Откуда: Москва

СообщениеДобавлено: Пн Фев 25, 2019 9:26 pm    Заголовок сообщения: Ответить с цитатой

York писал(а):
Пусть зарубежными коллегами представлен тест, стандарт оценки его результатов, основанный на распределении баллов, допустим как в ESS. Для обоснованного использования тестов необходимо провести его валидацию. Это необходимо сделать набрав необходимую подтверждённую статистику - получить своё распределение баллов. А затем необходимо выдвинуть стат. гипотезу, что наше распределение баллов принадлежит ген. совокупности, распределение баллов, которой описывается теоретическим распределением, которое имеет параметры представленные создателями ESS. В нашем случае это два числа - две шестёрки.
Чтобы проверить эту гипотезу мы должны провести стат. тест, в данном случае хи2, входом в который будут "доморощенные" частоты баллов и частоты вычисленные из теоретического распределения (с шестёрками).
Хи2 очень чувчствитен к данным. "Обрубание" параметров теоретического распределения приведёт к тому, что теоретические частоты будут сильно отличатся от реальных генеральной совокупности и Хи2 выдаст нам отрицательный результат, который вполне возможно будет ошибочным.

York, моё изложение выше было очень усечено... с изложением только того, что имело отношение к обсуждению p-value и проч...
На самом деле исследование было примерно такое, как Вы говорите... с изложением исходной гипотезы о том, что надо изначально проверить способность ESS различать ложные и правдивые полиграммы, проверкой на нормальность и т.д.
По меркам журнала Polygraph очень даже вполне вполне...

З.ы. Еще бы понимать 'Монте Карло'... пытался понять по Гмурману... тяжко... теория струн...

_________________
Мое почтение... $erP

................................... ЛЕГКО СОЛГАТЬ ТЯЖЕЛО
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Отправить e-mail Посетить сайт автора
York



Зарегистрирован: 29.09.2010
Сообщения: 2600
Откуда: Вологда

СообщениеДобавлено: Вт Фев 26, 2019 12:02 am    Заголовок сообщения: Ответить с цитатой

В принципе суть метода Монте - Карло достаточно проста. Надо только в какой -то момент уловить "изюминку", что возможно путём расмотрения предмета с разных ракурсов. Сам метод появился задолго до появления компьютеров. Запамятовал - он ли именно, лень лезти в интернеты, но помню, что отчаянный рубака, выпивоха и картёжник капитан Фокс, бросая иглу и считая её пересечения с прямыми вычисли число Pi с требуемой точеностью. Но это лирическое отступление. Главное в том, что компьютеры умеют генерировать случайные числа (не будем вдаваться в псевдослучайность оных). Т.е. компьютер может выдать случайное число из равномерного распределения, оно может принять любое значение от 0 до единицы с равной вероятностью. На самом деле действительных чисел между 0 и 1 бесконечно много, поэтому вероятность того, что в результате компьютер нам выдаст какое -то конкретное число равна нулю. Вот такой парадокс. Число какое - то обязательно выпадет, но вероятность того, что выпадет именно оно равна нулю. Поэтому в случае непрерывных величин говорят о вероятности того, что число будет принадлежать определённому интервалу - вот эта вероятность уже не нулевая. Если два интервала одинаковой длины, то вероятность того, что число будет принадлежать первому интервалу равна вероятности того, что оно будет принадлежать второму. Например, если отрезок от 0 до 1 разделить на десять равных интервалов, то вероятности выпадения числа из кокретного интервала будут онинаковы и равны длине этих интервалов - 0,1. Т.е. вероятность выпадения случайного числа из конкретного интервала равна его длине. Например, вероятность того, что число будет от 0 до 0.4 равна 0.4, а вероятность того, что это число будет из интервала от 0,6 до 0,9 равна 0,3.

Теперь мы можем разыгрывать точки на квадрате единичной площади. Точка - это две координаты x и y. Мы можем дважды затребовать у компьютера случайное число, и первое значение присвоить координате х, а второе у. Таким образом мы получим случайную точку и таким образом мы уже можем уже использовать метод Монте - Карло "с пользой для народного хозяйства".

Пусть нам необходимо определить площадь фигуры изображённой ниже:



Заставим бросать компьютер случайные точки на этот рисунок. Пусть комьютер бросит три тысчи точек. Все они из равномерного распределиться, т.е. должны будут равномерно распределиться по всей площади единичного квадрата. Нетрудно понять, что площадь фигуры, которая нас интересует, будет прпорциональна колчиству точек попавших на неё. Тогда сосчитав эти точки, мы можем определить площадь фигуры (приближённо). Лень считать Very Happy , но допустим на фигуру попало 2100 точек, тогда её площадь, примерно, 2100/3000 = 0.7 ед. При этом интересующая нас фигура может быть любой самой замысловатой формы, но мы также легко можем определить её площадь.

Использование метода Монте - Карло для исследований в области полиграфа не многим сложнее изложенного выще. То. что дано у Гмурмана избыточно для понимания метода полиграфологами, достаточно отсечь лишнее и узреть "изюминку" . Но уже поздний час ... Smile
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Отправить e-mail Посетить сайт автора
$erP
Site Admin


Зарегистрирован: 29.06.2005
Сообщения: 7851
Откуда: Москва

СообщениеДобавлено: Вт Фев 26, 2019 9:50 am    Заголовок сообщения: Ответить с цитатой

York, в очередной раз большое спасибо...
как все просто и понятно... когда объяснение простое и понятное...

_________________
Мое почтение... $erP

................................... ЛЕГКО СОЛГАТЬ ТЯЖЕЛО
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Отправить e-mail Посетить сайт автора
York



Зарегистрирован: 29.09.2010
Сообщения: 2600
Откуда: Вологда

СообщениеДобавлено: Ср Фев 27, 2019 1:23 pm    Заголовок сообщения: Ответить с цитатой

Продолжу обсуждение метода Монте - Карло.

Выше мы "сделали" хорошую оценку площади фигуры. А это значит, что мы методом Монте - Kарло приближённо вычислилии определённый интеграл. Также можно вычислять двумерные и трёхмерные определённые интегралы. То есть, площади и объёмы фигур. Это "лирическое" отступление для поддержки общей математической культуры.)

Если обратится к определению обмана с помощью полиграфа и трёх - бальной системы обсчёта, то дело будет обстоять следующим образом: точки надо кидать не на квадрат единичной площади, а на отрезок длины один. Если есть желание сгенерировать выборку для одного фопроса, то еденичный отрезок надо разбить на 19 ячеек (от -9 до 9), длина каждой части равна вероятности получения конкретного балла. Нпример для балла -5 длина отрезка будет примерно 0,063 (см. рисунок для реальной выборки) и для остальных быллов аналогично. Необходимо выбрать определённое число, например, 1000 вопросов - кинутых на отрезок точек. А затем сосчитать точки которые окажуться в каждой из ячеек, определить относительные частоты. И таким образом - выборка сгенерирована. Можно сосчитать её средний балл, станд. отклонение.

Самый главный вопрос: откуда взять вероятности, т.е. дляны ячеек на которые необходимо поделить еденичный отрезок? Если б дело касалось физики, или другой точной науки, то одна из возможностей - вычислить теоретически. Т.е. необходима теория, которая бы давала бы мат. модель объектов, с которых получаются данные. Мат. модели человека не существует, не существует мат. модели его физиологии и нервной системы, поэтому любые Бозе - Эйнщтейны в нашем деле идут лесом. Вероятности можно получить только в виде оценки их на реальной выборке.

У меня завалялась реальная выборка из 394 вопросов заданных причастным лицам, что было подтверждено в дальнейшем. Смотрите на полигон частот.



Две нижние строчки это баллы (красные), а ниже относительные частоты (оценка вероятностей попадания в соотвествующую баллу ячейку)

С помощью малюхонской программулинки)) я, методом Монте - Карло, суть которого описал выше, сгененрировал восемь выборк, графическое представление которых приведено ниже:





Таких выборок можно сгенерировать сколько душе угодно, рисовать при этом их конечно необязательно. А нужны они для того, что бы усреднить их параметры: mean и SD. Полученные таким образом оценки mean и SD будут существенно ближе к параметрам генеральной совокупности.

Всё бы ничего и путём компьютерного моделирования можно было бы разрешить проблемы волнующие полиграфологов, но не тут - то было. В каждой деле есть подводный камень, которыё обязательно прилетит вам в лоб. Я не просто так привёл восемь сгенерированных выборок. Посмотрите на них внимательно. Все они имеют что - то "ненормально" общее. Например, в районе трёх баллов. 8 и 9 баллов имеют у всех частоту точно 0. Это "родовые травмы" доставшиеся сгенерированным выборкам от материнской выборки.

Вывод: методом Монте - Карло можно уменьшить случайные ошибки в определении параметров распределения, но привнести систематическую, которая сделает результаты моделирования "нежизнеспособными". Как сгладить эти "родовые травмы" это уже другой вопрос.

Но в любом случае результаты компьютерного моделирования должны заканчиваться статистическими тестами, которые бы давали ответ на вопрос: можно ли пренебречь систематической ошибкой в виду её малости?

Американ бои должны при каждом упоминании метода Монте - Карло указывать проводились ли такие тесты. Если нет то всей их работе грош цена.


Последний раз редактировалось: York (Ср Фев 27, 2019 1:33 pm), всего редактировалось 2 раз(а)
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Отправить e-mail Посетить сайт автора
$erP
Site Admin


Зарегистрирован: 29.06.2005
Сообщения: 7851
Откуда: Москва

СообщениеДобавлено: Ср Фев 27, 2019 4:15 pm    Заголовок сообщения: Ответить с цитатой

York писал(а):
Самый главный вопрос: откуда взять вероятности, т.е. дляны ячеек на которые необходимо поделить еденичный отрезок? ...
Вероятности можно получить только в виде оценки их на реальной выборке.

York, единственно что могу сказать, что в интересующих меня статьях Нельсон, также как и Вы, размножал уже баллы, полученные в результате реальной оценки.
Обсуждаемые данные для 2RQ были получены на основе размножения, дай Бог памяти, 100 случаев, из которых 50DI и 50NDI. Полиграммы были предварительно оценены 7мю оценщиками. Полученные баллы были размножены в количестве 10 000 штук... если я, конечно, контекстно-правильно интерпетирую термин "итерация"...

Хотя... ваабще не понимаю, зачем тогда надо было округлять-урезать полученные mean и std...

З.Ы. Не совсем понятно, что это...

"Например, в районе трёх баллов. 8 и 9 баллов имеют у всех частоту точно 0. Это "родовые травмы" доставшиеся сгенерированным выборкам от материнской выборки. "

Как это "в районе трех баллов. 8 и 9 баллов имеют... " далее по тексту?

_________________
Мое почтение... $erP

................................... ЛЕГКО СОЛГАТЬ ТЯЖЕЛО
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Отправить e-mail Посетить сайт автора
York



Зарегистрирован: 29.09.2010
Сообщения: 2600
Откуда: Вологда

СообщениеДобавлено: Ср Фев 27, 2019 5:06 pm    Заголовок сообщения: Ответить с цитатой

У пяти из восьми сгенерированных выборок относительная частота для 3 баллов имеет "выступ", она сравнима с частотой для двух баллов или выше. Точно также как и у "материнской" реальной выборки. Это потому, что отночительная частота для 3 баллов в реальной выборке, есть вероятность выпадения 3 баллов в выборке сгенерированой. Не удивительно, что раз вероятность для трёх баллов такая же как для 2 баллов, то в сгенерированых выборках три балла выпадают не реже чем 2 балла и таким образом "выступ" наследуется. (Иначе можно говорить, что точка, бросаемая компьютером, попадает в ячейку для 3 баллов не реже чем в ячейку для 2 баллов)

В реальной выборке ни один вопрос не "заслужил" 8 и 9 баллов. Т.е. в реальной выборке относительные частоты для 8 и 9 баллов = 0. Отсюда в сгенерированных выборка (во всех) вероятность того, что появится 8 или 9 баллов равна нулю. Что конечно же можно м наблюдать на всех 8 - ми сгенерированных выборках.

Ничего удивительного тут нет. Реальная выборка в данном случае выступает как генеральная совокупнсть из которой "выдёргиваются" сгенерированные. Если реальная выборка хорошо представляет собой генеральную совокупность, то сгенерированные из неё будут также хорошо представлять генеральную. Если реальная плохо будет представлять сосбой генеральную, то и сгенерированные на её основе - плохо. Единственное, что они хорошо представляют всегда - это реальную "материнскую выборку". Для них она - генеральная совокупность.

Чтобы наглядно это продемострировать я сгенерировал 4 выборки по 10 миллионов вопросов:



Как видно они уже почти не отличаются от реальной материнской. Всё согласно законам теорвера.

Поэтому можно сделать вывод, что именно таким образом генерировать выборки имеет малый смысл. Все искомые параметры будут сходится к параметрам реальной выборки, которые могут оказаться далеки от параметров генеральной. Надо моделировать не попадание точки в ячейки с жёстко заданными размерами, а стохастически генерировать размеры ячеек, руководствуясь, конечно определённым алгоритмом... Чем я сейчас и занимаюсь...)
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Отправить e-mail Посетить сайт автора
$erP
Site Admin


Зарегистрирован: 29.06.2005
Сообщения: 7851
Откуда: Москва

СообщениеДобавлено: Ср Фев 27, 2019 5:36 pm    Заголовок сообщения: Ответить с цитатой

Да... теперь понятно... спасибо за разъяснения...
В принципе, да... так должно и быть... Если у нас есть в качестве образца квадрат, то при увеличении случайных точек, его заполняющих, они в своей совокупности и нарисуют квадрат...
Только заполнение квадрата случайными точками служит цели - для измерения площади какой то вписанной в него сложной фигуры (вместо круга может быть кленовый лист)... и чем больше точек - тем точнее измеряемая площадь...

А в соответствии с данными Вами разъяснениям получается, что монтекарловская генерация баллов ESS на основе имеющихся реальных баллов - это аналогично заполнению квадрата случайными точками просто так... именно для заполнения... а не для вычисления чего то более сложного...

Уже прям вот захотел было тоже помонтекарлить свои данные - алгоритм то генерации прост - да стало понятно, что именно в "классическом" варианте это действительно не имеет смысла...

_________________
Мое почтение... $erP

................................... ЛЕГКО СОЛГАТЬ ТЯЖЕЛО
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Отправить e-mail Посетить сайт автора
$erP
Site Admin


Зарегистрирован: 29.06.2005
Сообщения: 7851
Откуда: Москва

СообщениеДобавлено: Ср Фев 27, 2019 6:03 pm    Заголовок сообщения: Ответить с цитатой

Я так понимаю, что основная мода на bootstarp в полиграфном исследовании пошла вот отсюда...
Теперь, когда понятно, что это такое и зачем, можно попытаться разобраться...

_________________
Мое почтение... $erP

................................... ЛЕГКО СОЛГАТЬ ТЯЖЕЛО
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Отправить e-mail Посетить сайт автора
Показать сообщения:   
Начать новую тему   Ответить на тему    Список форумов ПОЛИГРАФ - ФОРУМ -> Общий форум Часовой пояс: GMT + 3
На страницу Пред.  1, 2, 3 ... 10, 11, 12, 13, 14  След.
Страница 11 из 14

 
Перейти:  
Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
You cannot attach files in this forum
You cannot download files in this forum


Powered by phpBB © 2001, 2005 phpBB Group
Рейтинг@Mail.ru Rambler's Top100