ВАРИАЦИОННАЯ СТАТИСТИКА
ВАРИАЦИОННАЯ СТАТИСТИКА, термин, объединяющий группу приемов статистического анализа, применяющихся преимущественно в естественных науках. Во второй половине XIX в. Кетле (Quetelet, «Anthro-pometrie ou mesure des differentes facultes de 1 'hornme», 1871), а затем Гальтон (Galton, «Natural inheritance», 1889) воспользовались статистическими приемами исследования для решения естественно-научных проблем; к концу XIX в. применение статистического метода в естествознании получило уже широкое распространение. Это вызвало необходимость уточнения старых и создания новых приемов статистического анализа в связи с особенностями исследовательского материала в естествознании. Появился термин «математическая статистика» для обозначения той ветви статистики, в к-рой широко используются методы и приемы математич. анализа, преимущественно теории вероятностей. Рядом с этим, на пороге XX века получил распространение и термин В. статистика, подчеркивая своим названием преобладание вопросов изменчивости в тех областях, где применяются статистические приемы, объединяемые этим термином. Слово «вариационная» обычно производят от—вариация, вариант и вариирование (т. е. изменение, изменяющийся объект, факт изменяемости). Провести строго разграничение между математической статистикой и В. с. нельзя: и в той и в другой трактуются одни и те же методы исследования и рассматриваются одни и те же приемы. Термин В. с. распространился по преимуществу в Центральной Европе и оттуда, проник к нам. Однако, основателем ее, по справедливости, считается англ.ученый К. Пирсон (Pearson), опубликовавший, начиная с 1894 г. («Contribution to the mathematical theory of evolution»), много работ, касающихся теоретического обоснования методов статистического исследования применительно к вопросам естествознания (см. также
Биометрия). За последнее 25-летие В. с. быстро развивается, и методы ее применяются в самых разнообразных областях знания; в медицине применение В. с. получило распространение преимущественно в антропометрии, физио-метрии и психометрии, в учении о конституциях. В наст.время В. с. преподается на мед. факультетах по кафедре соц. гигиены; на биол. отделениях физ.-мат. факультетов введен специальный курс биометрики и В. с, а на математических отделениях существует специальный уклон математической статистики. В.с. применяется во многих научно-исследовательских учреждениях (Ин-т соц. гигиены,антропологические институтыи др.), широко используется в педологии; многие вопросы в специальных мед. работах, имеющие дело с массовым изменчивым материалом, решаются при помощи В. с, так что для медика В.с. становится одним из рабочих инструментов. Объяснения развитию В. с. за последние годы и широкому проникновению ее в различные науки надо искать 1) в необходимости систематизации обильного исследоват. материала, накопленного за последние годы, 2) в уточнении методов (техники) научной работы и 3) в общей тенденции научной мысли заменить качественные формулировки количественными выражениями. Изучение массового явления ведется в форме исследования статистической совокупности, которая и является основным предметом статистики. В В. с. разбираются по преимуществу вопросы изучения статистической совокупности в части количественно вариирующих признаков, и даются некоторые общие указания об оценке результатов исследования. Признаки, подвергающиеся статистическому анализу, могут быть качественными (пол, цвет, болезнь и пр.) или количественными (вес, размеры, % гемоглобина и пр.), при чем изучение статистической совокупности может вестись либо по каждому признаку в отдельности, либо одновременно по двум, трем и более признакам; в последнем случае возникает вопрос о взаимосоответствии, взаимообусловленности признаков, ставится вопрос о
корреляции (см.). Исследование совокупности по одному признаку, в случае качественного характера его, часто ограничивается простым указанием доли той или иной категории признака в обследованной совокупности (% мужчин, % лимфоцитов в крови); в случае количественного признака даются сводные характеристики всей совокупности, т. е. определяются некоторые числа, • суммарно характеризующие эту совокупность по изучаемому признаку (% объектов с определенной категорией качествен, признака также может считаться сводной характеристикой совокупности). Подлежащая изучению статистическая совокупность может быть задана в двух видах: 1. Непосредственно указываются значения признака у всех объектов совокупности: где различные
х—вариирующие значения признака, а
N—общее число объектов в совокупности, называемое объемом совокупности. Объем—основная характеристика исследуемой совокупности. Пример: х= % лимфоцитов у московских школьниц в возрасте от 9 лет до 9 лет 11 мес. (по материалам Кабинета школьной педологии Академии коммунистического воспитания, работа д-ра Четунова); а: : 23 25 26 27 27 28 28 30 30 30 31 32 32 ) 33 35 37 38 40;
> (1а). объем
N= 18.
I Так, заданной может быть совокупность небольшого объема
(N—не больше 40—50). 2. Совокупность большего объема задается в виде двойного ряда: а) значений признака и б) соответствующих каждому значению чисел наблюдений, называемых частотами
Xi, х,, х:,-",хъ I П,,
П,, П„'--,ПЦ Г (II), где
зс{—значения признака, а
щ—соответствующие частоты. Очевидно, что n,+n
2+n,+-----
hnt=N; короче это может быть записано так: 2тц-Л
(1).* Значения признака во втором случае обычно даются в виде интервалов, иначе называемых классовыми промежутками. Пример: ж=вес новорожденных, по исключении недоношенных и мацерированных, в кг.
х: 1,5 — 2 — 2,5 — 3—3,5 — 4 — 4,5 — 5 — 5,5
п: 5 53 254 558 487 127 19 2 JV-Snj= 1.505
(Иа). Ряды, подобные рядам (I) и (II), называются вариационными рядами. Вопрос о величине интервала для вариационного ряда (II) решается в зависимости от особенностей исследуемого материала. Можно только рекомендовать первичные наблюдения (измерения) вести по возможно мелким интервалам, затем, при табуляции (изображении полученных наблюдений в виде таблицы, в виде вариационного ряда), их редуцировать (из мелких интервалов образовывать более крупные). Удачное редуцирование облегчает изучение совокупности, при чем следует иметь в виду, что слишком мелкие интервалы затрудняют исследование статистической совокупности (вычисления и установление закономерности изменения частот при изменении значений признака), а слишком крупные огрубляют исследовательский материал. Для большей наглядности и более детального изучения вариационные ряды, подобные ряду (II), изображаются графически а) либо в виде ряда прямоугольников с высотами, пропорциональными частотам (гистограмма по Пирсону, см. рисунок 1), б) либо в виде многоугольника (полигон распределения частот),
1500-2000 — 2500-3000-3500 — 4000—4500—5000—5500
Рисунок 1. Гистограмма. получаемого после соединения прямыми верхних концов перпендикуляров, пропорциональных частотам и восстановленных из середин соответствующих интервалов (см. рисунок 2**). В тех случаях, когда ломаная * 2—знак суммирования. ** Оба рисунка выполнены применительно к данным вариационного ряда (На). линия вариационного многоугольника заменяется плавной кривой, последняя носит название вариационной кривой или кривой распределения. Первым шагом в изучении статистической совокупности является установление сводной характеристики типичной, вообще средней, величины признака в совокупности. Средняя величина конструируется различно, в зависимости от тех свойств, какие ей приписывать.
1500 — 2000 — 2500 — 3000 — 3500 — 4000 — 4500 — 5000 —5500 Рисунок 2. Политой.
1. Если считать типичным, характерным то, что чаще всего встречается, то в качестве средней надо принять «моду» (der dichteste Wert, обозначение:
Mo)—величину признака, имеющую наибольшую частоту [таким грубо приближен, значением моды для примера (Па) будет середина интервала от 3.000 до 3.500, т. е. Жо=3.250
г]. При этой элементарной конструкции средней не учитываются значения признака у объектов, не принадлежащих к модальной группе. Для вариационного ряда с небольшим
N [пример (1а)] моду установить трудно; иногда удается выявить моду путем повторного редуцирования, меняя границы интервалов. Точное вычисление моды связано с определением уравнения теоретической кривой распределения, соответствующей данному вариационному ряду. Геометрическое определение: мода—абсцисса наибольшей ординаты вариационной кривой. Вычисление моды может быть несколько уточнено, если принять во внимание частоты двух интервалов, смежных с модальным. Чубер (Е. Czuber) предлагает такую приближенную формулу для моды:
п.- п. Но' = Ж|_ j + Д- 2n
f где acj_j обозначает нижнюю (в сторону меньших аначений) границу модального интервала, Д —величину интервала; "
(_, ,
п{ и
nf, —соответственно частоты интервалов: соседнего перед модальным, модального и соседнего после него. Для примера (На) Мо' = 3.000 + 500--
7-
г-
;,4
!^71Т¥т4-7тт^ =3.414
г. 1.116—(254 + 487) 2. Если считать характерным и типичным для данной совокупности то, что дальше всего отстоит от крайних (нетипичных) значений, то в качестве характеристики «средней» надо принять значение признака у серединного, центрального объекта в ранжированной (объекты расположены в порядке возрастания или убывания значений признака) совокупности, называемой «медиана» (der Zentralwert, обозначение: Же).
Me рассекает совокупность на две равные половины: •14 нижнюю, со значениями меньшими Же, и верхнюю, со значениями большими
Me. В качестве сводной характеристики
Me чаще всего применяется при обработке результатов тестирования. Определение
Me для совокупности с небольшими
N сводится к непосредственному указанию значения
ДЧ-1 , признака у —j— -го объекта в ранжированной совокупности при
N нечетном, при четном
N берется среднее между значения-
N (N \ ми признака у -о—го объекта и I— + 11-го (в примере (1а) Же=30]. В случаях совокупностей с большим
N для элементарного вычисления
Me из ряда частот составляют ряд начетных сумм (к частоте первого интервала прибавляется частота второго, к полученной сумме—частота третьего и т. д.; обозначив начетные суммы через
S, имеем:
S1=n1; Sa=Sl+n1; S3 = S2+ni=nt+ni+n^, и «т. д.) и, сравнивая начетные суммы с -у. определяем, в каком из интервалов находится
Me; к его нижней границе прибавляется часть интервала, равная отношению разности между
N и начетной суммой предыдущего интервала к частоте медиа-нального интервала:
■■ *i-i+4 N—s где
xi_,—-нижняя граница интервала, в котором лежит медиана, Д—величина интервала,
S —начетная сумма предыдущего интервала, %—частота медианаль-ного интервала. Для примера (Па)
х: 1,5—2—2,5 — 3 — 3,5 — 4—4,5 — 5 — 5,5 кг п: 5 53 254 558 487 127 19 2 S: 5 58 312 870 1357 1484 1503 1505
~- 752.5; Д = 500; 2 ' Ме = 3.000 + 500-^Ь^
3—== 3.396г. При таком вычислении
Me допускается, что внутри медиана1ьного интервала значения признака распределены равномерно. Более точные вычисления
Же, как и
Мо, связаны с определением теоретической вариационной кривой. Геометрическое определение:
Же—абсцисса той ординаты вариационной кривой, к-рая делит площадь кривой пополам.
Me, учитывая значения признака у объектов в порядке их последовательности, не учитывает величин значений признака: можно как угодно вариировать значения признака в нижней половине, лишь бы они не превосходили
Me, и как угодно—в верхней, лишь бы все были больше Же; к таким вариациям
Же будет нечувствительна, останется неизменной. 3. Наиболее простой и общепризнанной сводной характеристикой «средней» величины, учитывающей и самые значения признака, является средне-арифметическое
М (das arithmetische Mittel), определяемое формулой:
Xt+Xt+X,+ ---+XN м- О), М~ (2). что короче записывается:
2х Если каждому значению признака соответствует определенная частота
(п), то
"Znx дг= (3), т.е. сумме произведений каждого
х на соответствующее
п, деленной на
N. Ж указывает ту величину признака, какая была бы у всех объектов, если значения признака распределить поровну между всеми объектами (средняя заработная плата, средний рост и т. п.). Если изменится значение хотя бы у одного из объектов, то изменится и Ж,
1 правда, всего только на js-ю изменения признака у отдельного объекта. Кроме указанных средних
Мо, Же и Ж, в В. с. иногда (сравнительно редко) применяются средне-геометрическое
Мд и средне-гармоническое
Mh. Средне-геометрическим из
N каких-либо величин называется корень JV-й степени из произведения этих величин
Mg=NyJx1.xi.x3...xN и вычисляется по формуле:
\а%Мд =
~ s log
х{; средне-гармоническое из
N чисел есть величина обратная средне-арифметической обратных величин этих чисел:
Mh =
t t ■ В специаль-
~й2-1~~х ных случаях возможны сводные характеристики средней и других конструкций. При помощи той или иной средней выявляется характерное значение признака в данной совокупности; однако, одной такой сводной характеристики недостаточно: у двух совокупностей, с различными значениями признака у объектов, средние могут быть одинаковыми (9, 10, 11, 12, 13, 14, 15—их Ж=Же = 12 и 3, 5, 9, 12, 15, 18, 22—также Ж=Же = 12). Это различие в общей форме выражается различием рассеяния значений признака. Большее или меньшее рассеяние в известной мере обусловливает надежность, значимость средней как характерной величины: чем больше рассеяны значения, тем менее надежна «средняя». Поэтому обычно вместе со средней величиной указывается и сводная характеристика рассеяния; это—второй шаг в изучении статистической совокупности. 1. Самый элементарный способ определения рассеяния—указание пределов вариации, maximum'а и minimum'а значений признака (иногда используют амплитуду, разность между maximum'оми minimum'oM). Однако, это нельзя считать сводной характеристикой рассеяния, так как maximum и minimum определяют собой только два крайних значения, наименее характерных для всей совокупности в целом. Maximum и minimum применяются только в тех случаях, когда особенно важно знать пределы вариации признака. 2. В качестве других показателей рассеяния, по аналогии с
Же, принимаются значения признака у серединных объектов в нижней и верхней половинах сово-
4SS купности, рассеченной
Же. Нижняя (первая) квартиль
(Qt)—такое значение признака, меньше к-рого имеет значения признака '/* всех объектов, а, значит, больше которого—
3/
4 всех объектов; верхняя (третья) квартиль (фз)—такое значение признака, меньше которого имеют значения признака
3/л всех объектов, а, значит, больше—
г/4 (очевидно, что
Q2—Me). Указав
Qt и
Qs, определяют этим самым пределы вариации признака у центральной (внутренней) половины совокупности. Иногда в качестве мер рассеяния пользуются величинами: «i-Afe-Q,, g'=Q,-Me и g„=
«i+e' Qi-Qi которые можно назвать нижним, верхним и средним квартильными отклонениями (в терминологии, касающейся квартилей,нет единства; в некоторых немецких руководствах нижней и верхней квартилями называют 3i и
q'\ в настоящей статье указана первоначальная , более распространенная английская терминология). В некоторых случаях пользуются также и дециля-ми и даже перцентилями. Первая дециль—такое значение признака, меньше к-poro имеет значение признака 1/ю всех объектов; перцентили—то же самое о сотых долях всех объектов. Квартили вычисляются так же, как и медиана; только Va
N должно быть заменено V* Л''для
Qt и
3/
4 Л" для
Q3. Квартили так же, как и Же, не учитывают самых величин значений признака, имея дело только с упорядоченной последовательностью их. 3. Чтобы учесть самые величины значений признака, иногда в качестве меры рассеяния применяют средне-арифметическое абсолютных (не считаясь со знаком + или —) отклонений от средней, называемое средним отклонением (die durchschnitt- liche Abweichung), # = -•-*■- — [прямые черточки указывают, что суммируются только абсолютные значения разностей
(х—М)]. Для любого ряда чисел (ж) можно указать другое, отличное от Ж, значение, среднеарифметическое абсолютных отклонений от которого также равно #; поэтому пользуются иногда формулой #'=
-^f-K т. к. Же для любого ряда чисел будет единственным значением, наименьшим по отношению к абсолютным отклонениям от него. из средне-арифметического квадратов отклонений от
М. Обозначение и формула
а=т/ £<*~м>? (4а), или, если даны частоты, (по отношению к
а средне-арифметическая величина единственная, т. к. сумма квадратов отклонений от
М для любого ряда значений меньше суммы квадратов отклонений от всякой другой, отличной от
М,величины). При посредстве
с решается вопрос о пределах типического и нормального. Меры рассеяния являются также и абсолютными мерами изменчивости признака, выраженными в тех же единицах (кг, ел» и т. д.), что и значения признака. Часто определением средней характеристики и соответствующей меры рассеяния и ограничивается изучение статистич. совокупности по одному признаку. 5. Если оказывается нужным сравнить изменчивость (рассеяние) двух различных признаков, то из Ж и а получают относит. меру изменчивости, коэфициент вариации, определяемый как выраженное в % отношение
а к М. м •100% (5). [Аналогично для медианы и средне-квартильното 2М 100% , послед- отклонения V—Sff- • юо%=
Me няя величина в случаях, близких к нормальному распределению (см. нише), в 1
у2 раза меньше V]. Вычисления
М и
в как для больших по объему совокупностей, так и для совокупностей с небольшим
N лучше вести при помощи произвольно среднего
(А). Какое-либо число (все равно какое, для удобства вычислений лучше ближе к средним значениям) принимается за
А, затем при малом
N весь ряд ж'ов переписывается в виде ряда отклонений от
А, получается ряд а, причем каждое
а—х—
А; последний ряд суммирует-
га ся, и определяется поправка:
v =
-^-; среднеарифметическое определяется по формуле:
М =
А + v (6), для вычисления
а составляется ряд а*— квадратов отклонений
от А, я пользуются формулой:
_______ (7)-
■УТ^> Для примера (1а) запись вычислений М я и + 1 + 2 + 2 + 3 + 5 + 7 + 8 40 + 10 100
N =• 18;
А = 30; So = + 12;
ч = + 0,67;
М = 30 + ( + 0,67) = 30,67% лимфоц.; So' = 372; = 20,6667; •-»= 0,4444;
я = l/20,6667 - 0,4444 = 4,50% лимфоц. 4. Однако, наиболее распространенной и общепризнанной мерой рассеяния, учитывающей и самые величины значений, является стандартное отклонение, иначе называемое средне-квадратическим отклонением, определяемое как корень квадратный В случае большого
N, когда совокупность распределена по интервалам, частоты приводятся в соответствие с серединами интервалов («метод нагруженных ординат», по Пирсону), и вычисления Ж,и
в ведутся также при помощи произвольного среднего; за
'427 произвольное среднее
(Л) принимается середина какого-нибудь интервала, и под
а подразумеваются отклонения от произвольного среднего, выраженные в числах интервалов (отклонение в один интервал, отклонение в два интервала и т. д.). Обозначив по прежнему величину интервала Д, для вычисления
М и
о получают такие формулы:
М = A+v.i, где •<=-^'
Х (8). «-^}/"^--V
(9). Вычисления располагаются так (пример На):
х (в кг) n a
па па* 1.5—2,0 —3 —15 г,0—2,5 —2 —106 2,5—3,0 —1 —254 3,0—3,5 3,5—4,0 + 1 + 487 4,0—4,5 + 2 + 254 4,5—5,0 + 3 + 57 5,0—5,5 + 4 + 8
N => 1.505; ina = + 431; Ъпа? = 1.709; А = 3.250: A = 500;v= + 0,287;Af=.3.250+( + 0,287).500 = = 3.394 г; -^1 = 1.1355: v
s= 0.0825;
ч = 500 У 1,0530 = 51 3 г. Кроме указанных простых сводных характеристик (средней и рассеяния), при изучении вариационного ряда (типа Па) иногда используются высшие-' сводные характеристики, связанные с проблемой распределения частот данной совокупности по соответствующим значениям признака. По отношению к распределению рассеяние является частным свойством; кроме рассеяния, изучаются асимметрия распределения и его большая или меньшая уплощенность или крутовершинность. Дальнейшее углубление: изучения совокупности, распределенной по одному признаку, достигается более сложным математическим анализом распределения, основанным преимущественно на теории вероятностей. Приемы изучения совокупности, распределенной по двум, трем и более признакам, составляют предмет теории
корреляции (см.), которая также является одним из отделов В. статистики. Результаты изучения статистических совокупностей сопоставляют друг с другом, и при сопоставлении намечаются и определяются те или иные выводы. Умелое и правильное сопоставление результатов изучения является делом не только статистической техники и, в известном смысле, статистического искусства, но также в большой мере обусловливается ориентировкой исследователя В области изучаемых явлений и полнотой сведений об изучаемом материале. Используя результаты изучения в выводах, следует помнить, что статистические числа по своей природе отличны от чисел арифметических, статистические числа не обладают той абсолютной значимостью (достоверностью), к-рая присуща числам в арифметике, статистические числа почти все связаны с большей или меньшей вероятностью, к-рая в конечном счете определяется делаемым вы- водом. Вместе со сводными характеристиками обычно указываются и их средние ошибки, определяемые формулами: средняя ошибка средне-арифметического
sM — —,~ > средняя ошибка стандартного отклонения г я =
/-~-д' иногда применяются вероятные ошибки
Рл/=0,67449
^=. р,=0,67449 ^=- Вероятные ошибки для медианы и квартилей
Рме = 0,8454
~ Рь= 0,9191
~ Средние и вероятные ошибки обычно приписываются со знаком ( + , —) к соответствующим характеристикам и показывают пределы возможных вариаций характеристики: средние ошибки—в пределах 0,67449 (около
2/з)
в°ех теоретически допускаемых вариаций для данной характеристики, вероятные ошибки—в пределах 0,5 всех вариаций. 513 Для
примера (На): е
м = T/Jjjfjf
= 13'
2 г; s<* = = .~~7=^= = 9,6 а, т. е. средне-арифметическое веса 1/2.1505 для новорожденных в условиях старого Петербурга лежит, примерно (два шанса против одного), в пределах 3380,2—3407,2
г, а стандартное отклонение— в пределах 503,4—522,6
г. Средние и вероятные ошибки прежде всего позволяют сравнивать относительную значимость одних и тех же характеристик нескольких совокупностей, а также могут быть использованы для оценки результатов сопоставлений; напр., для установления достоверности разности между двумя статистическими характеристиками иногда используется тройная средняя ошибка (+3 г) или 4Va вероятных ошибок (+4'/аР). Средние и вероятные ошибки вначале были введены для Гауссова закона случайных ошибок, а затем уже получили распространение в качестве оценок сводных характеристик статистической совокупности, поэтому применение их. связано с допущением в той или иной форме элемента случайности в полученных характеристиках, и при отсутствии его ошибки являются только как бы новыми выражениями рассеяния. Конкретное истолкование ошибок, связанное с теоретически допускаемыми вариациями сводных характеристик,в большой мере обусловлено своеобразием изучаемого явления и особенностями подвергающегося статистической обработке материала. В более общей форме ошибки, как и многие другие результаты статистической обработки, связаны с нек-рыми проблемами теории вероятностей. Вообще, вступая на путь статистической обработки, исследователь постоянно будет иметь дело с вероятностными суждениями, и его преимущество перед лицом, не пользующимся статистическим методом, будет также и в знании величины вероятности своих суждений, не считая ос^ новного назначения приложений статистич. метода—усмотреть в массе такие количеств. детали изучаемого явления, которые недоступны наблюдению в единичных случаях.
Лит.: Филипченко Ю.А., Изменчивость и методы ее изучения, Основы биологической вариационной статистики,М.—Л., 1926; Романовский варикозное: расширение вен В. И., Элементарный курс математической статистики, М.—Л., 1924; Johannsen W., Elemente der exakten Erblichkeitslehre, Jena, 1926; Czuber E., Die statistische Forschungsmethode, Wien, 1927; U d n у 'Yale G-.. An introduction to the theory of statistics, London, 1924.
В. Лошшский.
Смотрите также:
- ВАРИЕТЕТ, см. Разновидность.
- ВАРИКОЗНОЕ РАСШИРЕНИЕ ВЕН (vari-ces venarum), самостоятельная, своеобразная форма заболевания периферических вен, гл. образ, нижних конечностей, семенного канатика (см. Varicocele) и прямой кишки (см. Геморрои). Эта б-нь встречается часто неизвестна с древних времен; ей ...
- ВАРИКОЗНЫЕ ЯЗВЫ, осложнение венозных расширений на нижней конечности, относятся к классу идиопатических язв, в происхождении которых принимают участие местные причины. Поводом к образованию язв служат расстройства крово- и лимфообращения в конечности, ...
- ВАРИО ГЕМИСПАЗМ (Variot) нижней губы, чаще всего наследственная аномалия, заключающаяся в том, что у ребенка при крике один угол рта оттягивается вниз и соответствующая половина нижней губы кнаружи, при полном отсутствии паралича ...
- VARIOLA VERA, VARIOLOID, см. Оспа натуральная.