Критерії вибірки даних. Генеральна сукупність та вибіркове дослідження. Статистична достовірність. Практичні приклади розрахунку

Сумарна чисельність об'єктів спостереження (люди, домогосподарства, підприємства, населені пункти і т.д.), які мають певним набором ознак (стаття, вік, дохід, чисельність, оборот тощо), обмежена у просторі та часі. Приклади генеральних сукупностей

Усі мешканці Москви (10,6 млн. осіб за даними перепису 2002 року)
Чоловіки-Москвичі (4,9 млн осіб за даними перепису 2002 року)
Юридичні особиРосії (2,2 млн. початку 2005 року)
Роздрібні торгові точки, які здійснюють продаж продуктів харчування (20 тисяч початку 2008 року) тощо.

Вибірка (Вибіркова сукупність)

Частина об'єктів з генеральної сукупності, відібраних для вивчення, для того, щоб зробити висновок про всю генеральну сукупність. Для того щоб висновок, отриманий шляхом вивчення вибірки, можна було поширити на всю генеральну сукупність, вибірка повинна мати властивість репрезентативності.

Репрезентативність вибірки

Властивість вибірки коректно відбивати генеральну сукупність. Одна і та ж вибірка може бути репрезентативною та нерепрезентативною для різних генеральних сукупностей.
Приклад:

Вибірка, що повністю складається з москвичів, що володіють автомобілем, не представляє все населення Москви.
Вибірка з підприємств чисельністю до 100 людина не репрезентує всі підприємства Росії.
Вибірка з москвичів, які здійснюють покупки на ринку, не репрезентує купівельну поведінку всіх москвичів.

У той же час, зазначені вибірки (при дотриманні інших умов) можуть відмінно представляти москвичів-автовласників, невеликі та середні російські підприємства та покупців, які здійснюють покупки на ринках відповідно.
Важливо розуміти, що репрезентативність вибірки та помилка вибірки – різні явища. Репрезентативність, на відміну від помилки, не залежить від розміру вибірки.
Приклад:
Як би ми не збільшували кількість опитаних москвичів-автовласників, ми не зможемо репрезентувати цією вибіркою всіх москвичів.

Помилка вибірки (довірчий інтервал)

Відхилення результатів, одержаних за допомогою вибіркового спостереження від справжніх даних генеральної сукупності.
Помилка вибірки буває двох видів – статистична та систематична. Статистична помилка залежить від розміру вибірки. Чим більший розмір вибірки, тим вона нижча.
Приклад:
Для простої випадкової вибірки розміром 400 одиниць максимальна статистична помилка (з 95% довірчою ймовірністю) становить 5%, для вибірки у 600 одиниць – 4%, для вибірки у 1100 одиниць – 3% Зазвичай, коли говорять про помилку вибірки, мають на увазі саме статистичну помилку .
Систематична помилка залежить від різних факторів, що надають постійний вплив на дослідження та зміщують результати дослідження у певний бік.
Приклад:

Використання будь-яких ймовірнісних вибірок занижує частку людей із високим доходом, які ведуть активний спосіб життя. Відбувається це через те, що таких людей набагато складніше застати в якомусь певному місці (наприклад, вдома).
Проблема респондентів, які відмовляються відповідати на запитання (частка «відмовників» у Москві, для різних опитувань коливається від 50% до 80%)

У деяких випадках, коли відомі справжні розподіли, систематичну помилку можна нівелювати запровадженням квот або переважуванням даних, але у більшості реальних досліджень навіть оцінити її буває досить проблематично.

Типи вибірок

Вибірки поділяються на два типи:

імовірнісні
неймовірні

1. Імовірнісні вибірки
1.1 Випадкова вибірка (простий випадковий вибір)
Така вибірка передбачає однорідність генеральної сукупності, однакову можливість доступності всіх елементів, наявність повного списку всіх елементів. При відборі елементів зазвичай використовується таблиця випадкових чисел.
1.2 Механічна (систематична) вибірка
Різновид випадкової вибірки, впорядкований за якоюсь ознакою (алфавітний порядок, номер телефону, дата народження тощо). Перший елемент відбирається випадково, потім з кроком 'n' відбирається кожен 'k'-ий елемент. Розмір генеральної сукупності, у своїй – N=n*k
1.3 Стратифікована (районована)
Застосовується у разі неоднорідності генеральної сукупності. Генеральна сукупність розбивається на групи (страти). У кожній страті відбір здійснюється випадковим чи механічним чином.
1.4 Серійна (гніздова або кластерна) вибірка
При серійної вибірці одиницями відбору виступають самі об'єкти, а групи (кластери чи гнізда). Групи відбираються випадковим чином. Об'єкти всередині груп обстежуються суцільником.

2.Неймовірні вибірки
Відбір у такій вибірці здійснюється за принципами випадковості, а, по суб'єктивним критеріям – доступності, типовості, рівного представництва тощо.
2.1. Квотна вибірка
Спочатку виділяється кілька груп об'єктів (наприклад, чоловіки віком 20-30 років, 31-45 років і 46-60 років; особи з доходом до 30 тисяч рублів, з доходом від 30 до 60 тисяч рублів і з доходом понад 60 тисяч рублів ) Для кожної групи задається кількість об'єктів, які мають бути обстежені. Кількість об'єктів, які мають потрапити до кожної групи, задається, найчастіше, або пропорційно заздалегідь відомої частки групи у генеральній сукупності, або однаковим кожної групи. Усередині груп об'єкти відбираються довільно. Квотні вибірки використовуються досить часто.
2.2. Метод снігової грудки
Вибірка будується в такий спосіб. У кожного респондента, починаючи з першого, просяться контакти його друзів, колег, знайомих, які б підходили під умови відбору і могли б взяти участь у дослідженні. Отже, крім першого кроку, вибірка формується з участю самих об'єктів дослідження. Метод часто застосовується, коли необхідно знайти та опитати важкодоступні групи респондентів (наприклад, респондентів, які мають високий дохід, респондентів, що належать до однієї професійної групи, респондентів, які мають схожі хобі/захоплення тощо)
2.3 Стихійна вибірка
Опитуються найдоступніші респонденти. Типові приклади стихійних вибірок – у газетах/журналах, які віддали респонденти на самозаповнення, більшість інтернет-опитувань. Розмір і склад стихійних вибірок заздалегідь не відомий і визначається лише одним параметром – активністю респондентів.
2.4 Вибір типових випадків
Відбираються одиниці генеральної сукупності, які мають середнім (типовим) значенням ознаки. При цьому виникає проблема вибору ознаки та визначення її типового значення.

Курс лекцій з теорії статистики

Більш детальну інформацію щодо вибіркових спостережень можна отримати, переглянувши .

Поняття «репрезентативність» стосовно соціологічних опитувань - опитувань громадської думки - має майже магічну дію на людей. Сам термін «репрезентація» має, крім наукового, ще й явно політичне значення.

В чому причина? Справа в тому, що передбачається, що вибірка (група людей, відібрана для опитування) може репрезентувати (представляти) всю генеральну сукупність. Генеральною сукупністю у разі загальноросійських опитувань є населення. Тепер уявімо, що йдеться про політичне рішення - підтримку законопроекту чи голосування на виборах. За допомогою вибіркового опитування ми отримуємо відмінний механізм політичної репрезентації – механізм, у якому невелика група людей може представляти думку чи позицію населення країни. Тому репрезентативності дослідження приділяється таке важливе місце.

Поняття репрезентативності використовується, зрозуміло, у політичних дослідженнях. Термін застосовується практично завжди, коли йдеться про великі дослідження, чи то у сфері маркетингу, економічної поведінки чи освіти.

Методологія репрезентативних опитувань

Як, опитавши 1500 осіб, можна робити висновки про всіх росіян, яких понад 140 мільйонів (і навіть виборців понад 110 мільйонів)? Технологія, яка стоїть за репрезентативними опитуваннями, ґрунтується на статистичних законах. Найближчою підставою є закон великих чисел, або теорема Бернуллі.

Спрощено його сенс можна передати так. Припустимо, у нас є певна ознака, наприклад, кількість опадів за день в Єкатеринбурзі протягом ХХ століття. Якщо ми випишемо всі його значення разом з їх частотою (це називається розподілом), а потім випадково візьмемо досить велику кількість випадків (тобто не всі дні у ХХ столітті, але досить багато), то ми побачимо, що розподіл у нашій вибірці буде дуже схожим на розподіл за все ХХ століття. Таким чином, якщо ми відбираємо із сукупності деякі одиниці, вони справді можуть представляти всю сукупність, і насправді немає необхідності збирати дані з усіх випадків.

Однак є ключова умова: це вірно, тільки якщо робити відбір суворо випадковим чином. Єдиною проблемою тут може бути відхилення від випадковості. Так, якщо ми візьмемо лише дані щодо опадів за Останніми роками(Наприклад, тому що ці дані простіше знайти) або опитаємо 1500 своїх знайомих (бо з ними простіше зв'язатися), а не випадкових людей, то вибірка, звичайно, не буде репрезентативною.

Уявіть, що з 143,5 мільйонів росіян ви випадково відбираєте необхідні вам 1500 чоловік. Тоді, наприклад, частка менеджерів середньої ланки серед них приблизно дорівнює частці менеджерів середньої ланки в генеральній сукупності, що і показує, що ваша вибірка може представляти всю сукупність. Чи може так вийти, що ці два показники сильно відрізнятимуться? Наприклад, серед росіян він становить 14%, а у вибірці він становитиме лише 1%? Теоретично це можливо, проте ймовірність цього настільки мала, що її можна знехтувати (приблизно як зустріти дракона на вулиці).

Понад те, найприємніше у цій ймовірності навіть те, що вона мала, бо, що з випадкових процесів цю можливість можна обчислити. Ми можемо сказати, з якою ймовірністю наше вибіркове значення відхилиться від значення в генеральній сукупності на 13% (як у прикладі вище), а з якою, скажімо, на 2,5%. Зазвичай, втім, роблять навпаки: спочатку визначають ймовірність, з якою ми хочемо, щоб наше значення не відхилялося від значення в генеральній сукупності (найчастіше його фіксують на рівні 95%), а потім уже дивляться, яка величина відхилення при тому чи іншому розмірі вибірки. Це відхилення називається довірчим інтервалом, іноді його називають помилкою вибірки чи статистичною похибкою – його часто наводять поруч із результатами опитування.

Отже, ймовірність відхилення, величина відхилення (довірчий інтервал) та розмір вибірки пов'язані між собою. Виходячи з цього, формула для розрахунку розміру вибірки виглядає так:

де n – розмір вибірки, Δ – довірчий інтервал, z – значення функції нормального розподілу для даної ймовірності відхилення (для ймовірності 5% це значення становить 1,96).

Це спрощена формула, у реальних опитуваннях використовуються дещо складніші формули. Ця формула також може давати збій, якщо значення показника сильно відрізняється від 50% (тому, наприклад, ця формула не підійде для того, щоб оцінити частку хворих на рідкісне захворювання в країні).

Ось що буде, якщо підставити в цю формулу деякі значення:

Іншими словами, якщо ми взяли випадкову вибірку росіян розміром у 1600 осіб та оцінили якийсь показник, наприклад готовність голосувати за певного політика, то з ймовірністю 95% наша оцінка не відрізнятиметься від готовності проголосувати за нього серед усіх росіян більш ніж на 2, 45%.

Розмір вибірки

Отже, чим більший розмір вибірки, тим більша ймовірність того, що ми будемо ближчими до частки в генеральній сукупності. Здавалося б, це означає, що нам потрібно намагатися наблизити вибірку до 143,5 млн. Насправді, як можна бачити з таблиці, природа випадкових процесів така, що з певного моменту можливість потрапити в інтервал починає підвищуватися дуже повільно (і цей момент настає доволі швидко). Після того як ми відбираємо 1500 одиниць, як би ми сильно не збільшували обсяг вибірки, ймовірність, що наше значення по вибірці потрапить у значення по генеральній сукупності, зростатиме дуже й дуже повільно.

Фактично різниці між 1500 та 10 000 опитаних майже немає. Десь до 1500 ми вже можемо говорити, що наші оцінки відрізнятимуться від частки в генеральній сукупності на 2–3%. Якщо ми збільшуємо вибірку далі, ця можлива помилка буде зменшуватися, але дуже незначно. Іншими словами, вибірка у 100 000 краща, ніж вибірка у 2500, але різниця настільки мала, що не має сенсу, а у разі соціальних обстежень і економічно не обґрунтована. Зазвичай збільшення вибірки коштує дорого, і тому її немає сенсу роздмухувати заради того, щоб виграти один відсотковий пункт у розмірі довірчого інтервалу.

Важливо, що у формулі взагалі фігурує розмір генеральної сукупності. Справа в тому, що коли генеральна сукупність велика (більше 20 000), він практично не впливає на розмір вибірки. Таким чином, нам не потрібно знати, скільки людей живе у Росії, щоб побудувати репрезентативну вибірку. Зрозуміло, що вибирати 1500 із 2000, швидше за все, не має сенсу – простіше обстежити 2000 та отримати точну оцінку. Але, роблячи у разі потреби вибірку, ми маємо можливість узагальнювати її результати для генеральної сукупності. І з цієї ж причини розмір вибірки не відрізнятиметься для великих і маленьких країн.

Репрезентативність та точність

Щоб зрозуміти сенс поняття «репрезентативність», розглянемо вибірку в 15 осіб. Як не дивно, якщо ви зробили її випадково, вона також репрезентативна. Більше того, ви можете зробити вибірку на одну одиницю. Уявіть ящик з кулями, звідки ви випадково берете одну кулю. Якщо це випадково вибраний шар, то він теж буде репрезентувати всі кулі, що є в цьому ящику. Просто він буде репрезентувати їх неточно. Чому? Тому що є дуже велика можливість помилитися. Наступного разу ми можемо витягнути іншу кулю і отримати інше уявлення про кулі в ящику. Репрезентувати неточно означає мати велику кількість оцінок.

Так само і 15 людей репрезентують будь-яку генеральну сукупність, але вони репрезентують її неточно, тому що похибка, довірчий інтервал дуже великі. Нам доведеться додавати +/- 33%, щоб отримати 95% ймовірності того, що ми потрапимо в інтервал. Якщо ми готові це допустити, то беремо 15 осіб, з'ясовуємо, що 7 з них - це менеджери середньої ланки, а далі отримуємо оцінку, що 7/15 від сукупності, тобто 47% +/- 33% - це і є оцінка частки менеджерів у генеральній сукупності, і це абсолютно коректний висновок. Просто він не має жодної цінності. Це ми могли б сказати і без обстеження. Тому, плануючи вибірку, має сенс досягати такого обсягу, який буде доцільним з погляду співвідношення витрат та ефективності.

Все сказане покликане донести одну просту думку, яку часто не усвідомлюють: обсяг вибірки не пов'язаний з її репрезентативністю.

Маленька вибірка неточна, але вона все одно може бути репрезентативною. Обсяги вибірок, які використовуються сьогодні в масових опитуваннях в Росії, майже завжди мають досить високу точність.

Погрожує ж репрезентативність вибірки не її обсяг, а зміщення, тобто відхилення від принципу випадковості.

Порушення принципу випадковості

Якщо ми починаємо вибирати одиниці невипадковим чином, вибірка стає нерепрезентативною. Наприклад, якщо щось заважає нам відбирати їх випадково. Уявімо, що ми хочемо відібрати кулі з нашого ящика випадковим чином, але тут виявляється, що частина кульок кусається. Механізм, при якому ми братимемо лише ті кульки, які даються нам у руки, - це механізм, що порушує випадковість і тому порушує репрезентативність. В цьому випадку, скільки б ми кульок не взяли з ящика (навіть якщо ми візьмемо всі кульки, які не кусаються), у нас буде нерепрезентативна вибірка, тому що ми не врахуємо жодного з тих, що кусаються - вони просто пройдуть нашу вибірку .

Найбільша проблема з кулями, що кусаються, полягає в тому, що вони можуть відрізнятися від тих, які йдуть до нас в руки, і відрізнятися якраз за тією ознакою, яка нас цікавить. Така ситуація називається систематичною помилкою вибірки.

Потрібно відрізняти ситуацію неточної репрезентації, яку ми описали вище, від ситуації нерепрезентативності. Це різні проблеми, і у них різні способирішення. Не можна вирішити одну з них шляхом вирішення іншої. Якщо вибірці не вистачає репрезентативності, марно її збільшувати. Більше того, великі вибірки у соціальних обстеженнях мають властивість накопичувати помилки, тому за допомогою сильного збільшення вибірки проблему репрезентації можна лише посилити.

Чому репрезентативність неможлива

У примітках до таблиць з результатами опитувань часто можна побачити, що «обсяг вибірки становить 1600 осіб, вибірка репрезентативна за статтю та віком». Зі сказаного вище очевидно, що це два різні параметри: вказівка на репрезентативність не пов'язана з обсягом вибірки. Насправді тут мається на увазі те, що виконувались певні процедури, щоб забезпечити відповідність між вибіркою та генеральною сукупністю. Наприклад, щоб забезпечити репрезентативність за статтю, у вибірку набирають чоловіків та жінок у таких самих співвідношеннях, які існують серед росіян за даними перепису. Але репрезентативність за статтю не означає репрезентативності, наприклад, з політичних поглядів.

Чому доводиться вирівнювати вибірку за статтю та іншими соціально-демографічними категоріями? Тому що справжню репрезентативність може забезпечити лише випадкова вибірка, а реалізувати її практично неможливо з маси причин. Як тільки ви спробуєте це зробити, ви зіткнетеся з багатьма проблемами - неважливо, яким методом ви захочете скористатися. Частина респондентів взагалі виявиться недоступною для вашого методу (скажімо, для особистих інтерв'ю великою проблемою є будинки з домофонами та охороною), ще частина буде відсутня, не відповідатиме або волітиме займатися своїми справами. Є люди, які мають мовні проблеми, і вони не можуть з нами говорити. Є люди, які не розуміють, навіщо це потрібно, і вони не хочуть говорити з нами. Все це - серйозні порушення випадковості, які унеможливлюють її реалізацію.

Ті, хто зводить проблему репрезентації у масових опитуваннях до статистики, забувають про те, що люди – це дуже специфічні кульки. Є кульки, які тікають та ховаються. Є кульки, що кусаються. Вони не пасивні об'єкти, вони дають здачу. Вони кажуть: «Я не хочу брати участь у твоєму опитуванні», цим порушують випадковість. Тому в строгому значенні слова репрезентативність у масових опитуваннях, звичайно, неможлива у жодному вигляді.

Вироблено механізм, за допомогою якого зазвичай забезпечується видимість репрезентативності: ми вирівнюємо вибірку за деякими категоріями і робимо вигляд, що за рештою можливих категорій вона теж вирівняна. Насправді, у нас немає жодних підстав це стверджувати. Але проблема в тому, що немає і жодної можливості це перевірити - знову ж таки через те, що деякі кульки кусаються. Щоб перевірити наявність систематичної помилки, перевіряльнику довелося б сходити до тих, кого ми не опитали, і опитати їх. Але вони, як ми пам'ятаємо, не хочуть, щоб їх опитували. Опитати тих, хто категорично не відповідає неможливо. Тому всі працюють на припущенні, що якщо ми вирівняли вибірку за двома-трьома параметрами, вона репрезентує всю сукупність, хоча у цього припущення і немає жодних серйозних підстав.

Репрезентативна вибірка – технологія, запозичена соціологами зі статистики. Тому вона неминуче містить у собі елементи математико-статистичної картини світу. Мабуть, найсильніше припущення у тому, що саме собою вибіркове опитування політично і соціологічно нейтральний: участь і неучасть в опитуванні не несе у собі політичного сенсу і пов'язані з іншими соціологічно важливими параметрами. Але сьогодні опитування стали одним із головних політичних інститутів і перетворилися на ключового посередника між великими корпораціями та споживачами. У цих умовах вірити в їхню політичну стерильність вже неможливо. Однак ми, як і раніше, мало знаємо про те, як опитування розуміються в сучасних суспільствах і що вони насправді репрезентують.

Дослідження зазвичай починається з деякого припущення, що вимагає перевірки із залученням фактів. Це припущення - гіпотеза - формулюється щодо зв'язку явищ або властивостей в деякій сукупності об'єктів.

Для перевірки подібних припущень на фактах необхідно виміряти відповідні властивості їх носіїв. Але неможливо виміряти тривожність у всіх жінок і чоловіків, як неможливо виміряти агресивність у всіх підлітків. Тому під час проведення дослідження обмежуються лише відносно невеликою групою представників відповідних сукупностей людей.

Генеральна сукупність- це все безліч об'єктів, щодо якого формулюється дослідницька гіпотеза.

Наприклад, усі чоловіки; чи всі жінки; або всі мешканці будь-якого міста. Генеральні сукупності, стосовно яких дослідник збирається зробити висновки за результатами дослідження, можуть бути за чисельністю і більш скромними, наприклад, всі першокласники даної школи.

Таким чином, генеральна сукупність - це хоча і не нескінченне за чисельністю, але, як правило, недоступне для суцільного дослідження безліч потенційних піддослідних.

Вибірка чи вибіркова сукупність- Це обмежена за чисельністю група об'єктів (в психології - випробуваних, респондентів), спеціально відбирається з генеральної сукупності для вивчення її властивостей. Відповідно, вивчення на вибірці властивостей генеральної сукупності називається вибірковим дослідженням. Майже всі психологічні дослідження є вибірковими, які висновки поширюються на генеральні сукупності.

Таким чином, після того, як сформульована гіпотеза і визначені відповідні генеральні сукупності, перед дослідником виникає проблема організації вибірки. Вибірка має бути такою, щоб було обґрунтовано генералізацію висновків вибіркового дослідження — узагальнення, поширення їх на генеральну сукупність. Основні критерії обґрунтованості висновків дослідження— це репрезентативність вибірки та статистична достовірність (емпіричних) результатів.

Репрезентативність вибірки- Іншими словами, її представництво - це здатність вибірки представляти досліджувані явища досить повно - з точки зору їх мінливості в генеральній сукупності.

Звичайно, повне уявлення про явище, що вивчається, у всьому його діапа-зоні і нюансах мінливості, може дати тільки генеральна сукупність. Тому репрезентативність завжди обмежена тією мірою, якою обмежена вибірка. І саме репрезентативність вибірки є основним критерієм при визначенні меж генералізації висновків дослідження. Тим не менш, існують прийоми, що дозволяють отримати достатню для дослідника репрезентативність вибірки (Ці прийоми вивчаються в курсі «Експериментальна психологія»).

Перший та основний прийом – це простий випадковий (рандомізований) відбір. Він передбачає забезпечення таких умов, щоб кожен член генеральної сукупності мав рівні з іншими шанси потрапити у вибірку. Випадковий відбір забезпечує можливість потрапляння у вибірку найрізноманітніших представників генеральної сукупності. При цьому вживаються спеціальні заходи, що виключають появу будь-якої закономірності при відборі. І це дозволяє сподіватися на те, що в кінцевому підсумку у вибірці досліджувана властивість буде представлено якщо і не в усьому, то в максимально можливому його різноманітті.

Другий спосіб забезпечення репрезентативності - це стратифікований випадковий відбір, або відбір за властивостями генеральної сукупності. Він передбачає попереднє визначення тих якостей, які можуть впливати на мінливість досліджуваної властивості (це може бути стать, рівень доходу або освіти і т. д.). Потім визначається відсоткове співвідношення чисельності розрізняються за цими якостями груп (страт) у генеральній сукупності і забезпечується ідентичне відсоткове співвідношення відповідних груп у вибірці. Далі в кожну підгрупу вибірки випробувані підбираються за принципом простого випадкового відбору.

Статистична достовірністьабо статистична значимість, результатів дослідження визначається за допомогою методів статистичного виводу.

Чи ми застраховані від прийняття помилок при прийнятті рішень, при тих чи інших висновках з результатів дослідження? Звичайно, ні. Адже наші рішення спираються на результати дослідження вибіркової сукупності, а також рівень наших психологічних знань. Цілком ми не застраховані від помилок. У статистиці такі помилки вважаються допустимими, якщо вони мають місце не частіше ніж в одному випадку з 1000 (імовірність помилки α=0,001 або пов'язана з цим величина довірча вірогідність правильного виведення р=0,999); в одному випадку з 100 (імовірність помилки α=0,01 або пов'язана з цим величина довірча вірогідність правильного виведення р=0,99) або в п'яти випадках з 100 (імовірність помилки α=0,05 або пов'язана з цим величина довірча ймовірність правильного виведення р = 0,95). Саме на двох останніх рівнях і прийнято приймати рішення у психології.

Іноді, говорячи про статистичну достовірність, використовують поняття «рівень значущості» (позначається як α). Чисельні значення р і α доповнюють один одного до 1,000 - повний набір подій: або ми зробили правильний висновок, або помилилися. Ці рівні не розраховуються, вони поставлені. Рівень значущості можна розуміти як «червону» лінію», перетин якої дозволить говорити про дану подію як про невипадкове. У кожному грамотному науковому звіті чи публікації зроблені висновки мають супроводжуватися вказівкою значень р або α, у яких зроблено висновки.

Методи статистичного висновку докладно розглядаються у курсі «Математичної статистики». Зараз лише зазначимо, що вони висувають певні вимоги до чисельності, або обсягу вибірки.

На жаль, строгих рекомендацій щодо попереднього визначення необхідного обсягу вибірки не існує. Більше того, відповідь на питання про необхідну і достатню її чисельність дослідник зазвичай отримує занадто пізно - тільки після аналізу даних вже обстеженої вибірки. Проте, можна сформулювати найзагальніші рекомендації:

1. Найбільший обсяг вибірки необхідний при розробці діагностичної методики - від 200 до 1000-2500 осіб.

2. Якщо необхідно порівнювати 2 вибірки, їхня загальна чисельність повинна бути не менше 50 осіб; чисельність порівнюваних вибірок має бути приблизно однаковою.

3. Якщо вивчається взаємозв'язок між будь-якими властивостями, обсяг вибірки має бути не менше 30-35 осіб.

4. Чим більше мінливістьдосліджуваної властивості , тим більше має бути обсяг вибірки. Тому мінливість можна зменшити, збільшуючи однорідність вибірки, наприклад, за статтю, віком тощо. буд. У цьому, природно, зменшуються можливості генералізації висновків.

Залежні та незалежні вибірки.Звичайна ситуація дослідження, коли дослідника, що цікавить, властивість вивчається на двох або більше вибірках з метою їх подальшого порівняння. Ці вибірки можуть бути у різних співвідношеннях — залежно від процедури їх організації. Незалежні вибірки характеризуються тим, що ймовірність відбору будь-якого випробуваного однієї вибірки не залежить від відбору будь-якого з випробуваних іншої вибірки. Навпаки, залежні вибіркихарактеризуються тим, що кожному випробуваному однієї вибірки поставлений у відповідність за певним критерієм випробуваний з іншої вибірки.

У випадку залежні вибірки припускають попарний підбір випробовуваних у порівнювані вибірки, а незалежні вибірки — незалежний відбір піддослідних.

Слід зазначити, що випадки «частково залежних» (або «частково незалежних») вибірок неприпустимі: це непередбачуваним чином порушує їхню репрезентативність.

На закінчення відзначимо, що можна виділити дві парадигми психологічного дослідження.

Так звана R-методологіяпередбачає вивчення мінливості деякої якості (психологічного) під впливом деякого впливу, чинника чи іншого характеристики. Вибіркою є безліч піддослідних.

Інший підхід, Q-методологія,передбачає дослідження мінливості суб'єкта (одиничного) під впливом різних стимулів (умов, ситуацій і т. д.). Їй відповідає ситуація, коли вибіркою є безліч стимулів.

Вибірка

Вибіркаабо вибіркова сукупність- безліч випадків (випробуваних, об'єктів, подій, зразків), за допомогою певної процедури вибраних із генеральної сукупності для участі у дослідженні.

Характеристики вибірки:

Якісна характеристика вибірки – кого саме ми вибираємо та які способи побудови вибірки ми для цього використовуємо.
Кількісна характеристика вибірки – скільки випадків вибираємо, тобто обсяг вибірки.

Необхідність вибірки

Об'єкт дослідження дуже великий. Наприклад, споживачі продукції глобальної компанії – величезна кількість територіально розкиданих ринків.
Існує потреба у зборі первинної інформації.

Обсяг вибірки

Обсяг вибірки- Число випадків, включених у вибіркову сукупність. Зі статистичних міркувань рекомендується, щоб кількість випадків становила не менше 30-35.

Залежні та незалежні вибірки

При порівнянні двох (і більше) вибірок важливим параметром є їхня залежність. Якщо можна встановити гомоморфну пару (тобто коли одному випадку з вибірки X відповідає один і тільки один випадок з вибірки Y і навпаки) для кожного випадку у двох вибірках (і ця підстава взаємозв'язку є важливою для вимірюваної на вибірках ознаки), такі вибірки називаються залежними. Приклади залежних вибірок:

пари близнюків,
два виміри будь-якої ознаки до та після експериментального впливу,
чоловіки та дружини
і т.п.

Якщо такий взаємозв'язок між вибірками відсутня, то ці вибірки вважаються незалежними, наприклад:

Відповідно, залежні вибірки завжди мають однаковий обсяг, а обсяг незалежних може відрізнятись.

Порівняння вибірок здійснюється за допомогою різних статистичних критеріїв:

та ін.

Репрезентативність

Вибірка може розглядатися як репрезентативна або нерепрезентативна.

Приклад нерепрезентативної вибірки

Дослідження з експериментальною та контрольною групами, які ставляться у різні умови.
- Дослідження з експериментальною та контрольною групами із залученням стратегії попарного відбору
Дослідження з використанням лише однієї групи – експериментальної.
Дослідження з використанням змішаного (факторного) плану – всі групи ставляться у різні умови.

Типи вибірки

Вибірки поділяються на два типи:

імовірнісні
неймовірні

Імовірнісні вибірки

Проста ймовірнісна вибірка:
- Проста повторна вибірка. Використання такої вибірки ґрунтується на припущенні, що кожен респондент з рівною часткою ймовірності може потрапити у вибірку. За підсумками списку генеральної сукупності складаються картки з номерами респондентів. Вони поміщаються в колоду, перемішуються і їх навмання виймається картка, записується номер, потім повертається назад. Далі процедура повторюється стільки разів, який обсяг вибірки нам потрібний. Мінус: повторення одиниць відбору.

Процедура побудови простої випадкової вибірки включає наступні кроки:

1. необхідно отримати повний списокчленів генеральної сукупності та пронумерувати цей список. Такий список, нагадаємо, називається основою вибірки;

2. визначити очікуваний обсяг вибірки, тобто очікуване число опитаних;

3. Витягти з таблиці випадкових чисел стільки чисел, скільки нам потрібно вибіркових одиниць. Якщо у вибірці має бути 100 осіб, з таблиці беруть 100 випадкових чисел. Ці випадкові числа можуть генеруватись комп'ютерною програмою.

4. вибрати зі списку-основи ті спостереження, номери яких відповідають виписаним випадковим числам

Проста випадкова вибірка має очевидні переваги. Цей метод дуже простий для розуміння. Результати дослідження можна поширювати на сукупність, що вивчається. Більшість підходів до отримання статистичних висновків передбачають збирання інформації за допомогою простої випадкової вибірки. Однак метод простої випадкової вибірки має як мінімум чотири суттєві обмеження:

1. Найчастіше складно створити основу вибіркового спостереження, яка б провести просту випадкову вибірку.

2. результатом застосування простої випадкової вибірки може стати велика сукупність, або сукупність, розподілена за великою географічною територією, що значно збільшує час та вартість збору даних.

3. результати застосування простої випадкової вибірки часто характеризуються низькою точністю та більшою стандартною помилкою, ніж результати застосування інших ймовірнісних методів.

4. в результаті застосування SRS може сформуватися нерепрезентативна вибірка. Хоча вибірки, отримані простим випадковим відбором, у середньому адекватно представляють генеральну сукупність, деякі з них вкрай некоректно представляють сукупність, що вивчається. Імовірність цього особливо велика за невеликого обсягу вибірки.

Проста неповторна вибірка. Процедура побудови вибірки така сама, тільки картки з номерами респондентів не повертаються назад у колоду.

Систематична імовірнісна вибірка. Є спрощеним варіантом простої імовірнісної вибірки. За підсумками списку генеральної сукупності через певний інтервал (К) відбираються респонденти. Величина визначається випадково. Найбільш достовірний результат досягається при однорідній генеральній сукупності, інакше можливі збіг величини кроку та якихось внутрішніх циклічних закономірностей вибірки (змішування вибірки). Мінуси: такі ж, як і в простій імовірнісній вибірці.
Серійна (гніздова) вибірка. Одиниці відбору є статистичні серії (родина, школа, бригада тощо). Відібрані елементи зазнають суцільного обстеження. Відбір статистичних одиниць може бути організований на кшталт випадкової чи систематичної вибірки. Мінус: Можливість більшої однорідності, ніж у генеральній сукупності.
Районована вибірка. У разі неоднорідної генеральної сукупності, перш ніж використовувати ймовірнісну вибірку з будь-якою технікою відбору, рекомендується розділити генеральну сукупність на однорідні частини, така вибірка називається районованою. Групами районування можуть бути як природні освіти (наприклад, райони міста), і будь-який ознака, закладений основою дослідження. Ознака, на основі якої здійснюється поділ, називається ознакою розшарування та районування.
"Зручна" вибірка. Процедура «зручної» вибірки полягає у встановленні контактів із «зручними» одиницями вибірки – з групою студентів, спортивною командою, з друзями та сусідами. Якщо необхідно отримати інформацію щодо реакції людей на нову концепцію, така вибірка цілком обґрунтована. «Зручну» вибірку часто використовують із попереднього тестування анкет.

Неймовірні вибірки

Відбір у такій вибірці здійснюється за принципами випадковості, а, по суб'єктивним критеріям – доступності, типовості, рівного представництва тощо.

Квотна вибірка – вибірка будується як модель, яка відтворює структуру генеральної сукупності як квот (пропорцій) досліджуваних ознак. Число елементів вибірки з різним поєднанням ознак, що вивчаються, визначається з таким розрахунком, щоб воно відповідало їх частці (пропорції) в генеральній сукупності. Так, наприклад, якщо генеральна сукупність у нас представлена 5000 чоловік, з них 2000 жінок та 3000 чоловіків, тоді у квотній вибірці у нас будуть 20 жінок та 30 чоловіків, або 200 жінок та 300 чоловіків. Квотовані вибірки найчастіше ґрунтуються на демографічних критеріях: стать, вік, регіон, дохід, освіта та інші. Мінуси: зазвичай такі вибірки нерепрезентативні, т.к. не можна врахувати відразу кілька соціальних властивостей. Плюси: доступний матеріал.
Метод снігової грудки. Вибірка будується в такий спосіб. У кожного респондента, починаючи з першого, просяться контакти його друзів, колег, знайомих, які б підходили під умови відбору і могли б взяти участь у дослідженні. Отже, крім першого кроку, вибірка формується з участю самих об'єктів дослідження. Метод часто застосовується, коли необхідно знайти та опитати важкодоступні групи респондентів (наприклад, респондентів, які мають високий дохід, респондентів, що належать до однієї професійної групи, респондентів, які мають схожі хобі/захоплення тощо)
Стихійна вибірка - вибірка так званого "першого зустрічного". Часто використовується в теле- та радіоопитуваннях. Розмір і склад стихійних вибірок заздалегідь не відомий і визначається лише одним параметром – активністю респондентів. Мінуси: неможливо встановити якусь генеральну сукупність представляють опитані, і як наслідок – неможливість визначити репрезентативність.
Маршрутне опитування часто використовується, якщо одиницею вивчення є сім'я. На карті населеного пункту, в якому проводитиметься опитування, нумеруються всі вулиці. З допомогою таблиці (генератора) випадкових чисел відбираються великі числа. Кожна велика кількість розглядається як що складається з 3-х компонентів: номер вулиці (2-3 перших числа), номер будинку, номер квартири. Наприклад, число 14832: 14 – це номер вулиці на карті, 8 – номер будинку, 32 – номер квартири.
Районована вибірка із відбором типових об'єктів. Якщо після районування кожної групи відбирається типовий об'єкт, тобто. об'єкт, який переважно досліджуваних у дослідженні показників наближається до середні показники, така вибірка називається районованої з відбором типових об'єктів.

6.Модальна вибірка. 7. Експертна вибірка. 8.Гетерогенная вибірка.

Стратегії побудови груп

Відбір груп для їхньої участі в психологічному експерименті здійснюється за допомогою різних стратегій, які потрібні для того, щоб забезпечити максимально можливе дотримання внутрішньої та зовнішньої валідності.

Рандомізація

Рандомізація, або випадковий відбірвикористовується для створення простих випадкових вибірок. Використання такої вибірки полягає в припущенні, кожен член популяції з рівною ймовірністю може потрапити у вибірку. Наприклад, щоб зробити випадкову вибірку зі 100 студентів вузу, можна скласти папірці з іменами всіх студентів вузу в капелюх, а потім дістати з нього 100 папірців - це буде випадковим відбором (Гудвін Дж., с. 147).

Попарний відбір

Попарний відбір- стратегія побудови груп вибірки, у якому групи піддослідних складаються з суб'єктів, еквівалентних за значимими експерименту побічним параметрам. Ця стратегія ефективна для експериментів з використанням експериментальних та контрольних груп з кращим варіантом - залученням близнюкових пар (моно- та дизиготних), тому що дозволяє створити...

Стратометричний відбір

Стратометричний відбір- рандомізація із виділенням страт (або кластерів). При цьому способі формування вибірки генеральна сукупність ділиться на групи (страти), які мають певними характеристиками (стаття, вік, політичні уподобання, освіта, рівень доходів та ін), і відбираються випробувані з відповідними характеристиками.

Наближене моделювання

Наближене моделювання- Складання обмежених вибірок та узагальнення висновків про цю вибірку на ширшу популяцію. Наприклад, за участю у дослідженні студентів 2-го курсу університету дані цього дослідження поширюються на «людей віком від 17 до 21 року». Допустимість подібних узагальнень вкрай обмежена.

Наближене моделювання – формування моделі, яка чітко обумовленого класу систем (процесів) визначає його поведінка (чи необхідні явища) з прийнятною точністю.

Примітки

Література

Наслідів А. Д. Математичні методипсихологічного дослідження - СПб.: Мова, 2004.

Ільясов Ф. Н. Репрезентативність результатів опитування у маркетинговому дослідженні // Соціологічні дослідження. 2011. №3. С. 112-116.

Див. також

У деяких типах досліджень вибірку поділяють на групи:
- експериментальна
- контрольна
Когорта

Посилання

Концепція вибірки. Основні характеристики вибірки. Типи вибірки

Wikimedia Foundation. 2010 .

Синоніми:

Щепкін, Михайло Семенович
Генеральна сукупність

Дивитись що таке "Вибірка" в інших словниках:

вибірка- група піддослідних, які мають певну популяцію і відібраних для експерименту чи дослідження. Протилежне поняття - сукупність генеральна. Вибірка є частиною сукупності генеральної. Словник практичного психолога. М: АСТ, ... ... Велика психологічна енциклопедія

вибірка- Вибірка Частина генеральної сукупності елементів, що охоплюється спостереженням (часто її називають вибірковою сукупністю, а вибіркою - сам метод вибіркового спостереження). У математичній статистиці прийнято… Довідник технічного перекладача

Вибірка- (sample) 1. Невелика кількість товару, відібрана, щоб представляти всю його кількість. Див: продаж за зразком (sale by sample). 2. Невелика кількість товару, передана потенційним покупцям, щоб дати їм можливість провести його. Словник бізнес-термінів

Вибірка- Частина генеральної сукупності елементів, яка охоплюється спостереженням (часто її називають вибірковою сукупністю, а вибіркою сам метод вибіркового спостереження). У математичній статистиці прийнято принцип випадкового відбору; це… … Економіко-математичний словник

ВИБІРКА- (sample) Довільний відбір підгрупи елементів із основної сукупності, характеристики яких використовуються для оцінки всієї сукупності загалом. Вибірковий метод використовується, коли надто довго чи надто дорого обстежити всю сукупність. Економічний словник

Вибірка - безліч випадків (випробуваних, об'єктів, подій, зразків), за допомогою певної процедури вибраних із генеральної сукупності для участі у дослідженні.

Обсяг вибірки

Обсяг вибірки - кількість випадків, включених у вибіркову сукупність. Зі статистичних міркувань рекомендується, щоб кількість випадків становила не менше 30-35.

Залежні та незалежні вибірки

При порівнянні двох (і більше) вибірок важливим параметром є їхня залежність. Якщо можна встановити гомоморфну пару (тобто коли одному випадку з вибірки X відповідає один і тільки один випадок з вибірки Y і навпаки) для кожного випадку у двох вибірках (і ця підстава взаємозв'язку є важливою для вимірюваної на вибірках ознаки), такі вибірки називаються залежними. Приклади залежних вибірок:

пари близнюків,
два виміри будь-якої ознаки до та після експериментального впливу,
чоловіки та дружини
і т.п.

У випадку, якщо такий взаємозв'язок між вибірками відсутній, ці вибірки вважаються незалежними, наприклад:

чоловіки та жінки,
психологи та математики.
Відповідно, залежні вибірки завжди мають однаковий обсяг, а обсяг незалежних може відрізнятись.

Порівняння вибірок здійснюється за допомогою різних статистичних критеріїв:

t-критерій Стьюдента
T-критерій Вілкоксону
U-критерій Манна-Уітні
Критерій знаків
та ін.

Репрезентативність

Вибірка може розглядатися як репрезентативна або нерепрезентативна.

Приклад нерепрезентативної вибірки

У США одним із найвідоміших історичних прикладів нерепрезентативної вибірки вважається випадок, що стався під час президентських виборів у 1936 році. Журнал «Літрері Дайджест», який успішно прогнозував події кількох попередніх виборів, помилився у своїх прогнозах, розіславши десять мільйонів пробних бюлетенів своїм передплатникам, людям, обраним за телефонними книгами всієї країни, та людям із реєстраційних списків автомобілів. У 25 % бюлетенів, що повернулися (майже 2,5 мільйона) голоси були розподілені таким чином:

57% віддавали перевагу кандидату-республіканцю Альфу Лендону

40% вибрали чинного на той час президента-демократа Франкліна Рузвельта

На дійсних виборах, як відомо, переміг Рузвельт, набравши більше 60% голосів. Помилка «Літрері Дайджест» полягала в наступному: бажаючи збільшити репрезентативність вибірки, - тому що їм було відомо, що більшість їхніх передплатників вважають себе республіканцями, - вони розширили вибірку за рахунок людей, вибраних із телефонних книг та реєстраційних списків. Проте вони не врахували сучасних їм реалій і насправді набрали ще більше республіканців: під час Великої депресії мати телефони та автомобілі могли собі дозволити в основному представники середнього та верхнього класу (тобто більшість республіканців, а не демократів).

Види плану побудови груп із вибірок

Виділяють кілька основних видів плану побудови груп:

Дослідження з експериментальною та контрольною групами, які ставляться у різні умови.
Дослідження з експериментальною та контрольною групами із залученням стратегії попарного відбору
Дослідження з використанням лише однієї групи – експериментальної.
Дослідження з використанням змішаного (факторного) плану – всі групи ставляться у різні умови.

Стратегії побудови груп

Рандомізація (випадковий відбір)
Залучення реальних груп

Рандомізація

Рандомізація, або випадковий відбірвикористовується для створення простих випадкових вибірок. Використання такої вибірки полягає в припущенні, кожен член популяції з рівною ймовірністю може потрапити у вибірку. Наприклад, щоб зробити випадкову вибірку зі 100 студентів, можна скласти папірці з іменами всіх студентів вузу в капелюх, а потім дістати з нього 100 папірців - це буде випадковим відбором (Гудвін Дж., с. 147).

Попарний відбір

Попарний відбір- стратегія побудови груп вибірки, у якому групи піддослідних складаються з суб'єктів, еквівалентних за значимими експерименту побічним параметрам. Ця стратегія ефективна для експериментів з використанням експериментальних та контрольних груп з найкращим варіантом – залученням

Критерії вибірки даних. Генеральна сукупність та вибіркове дослідження. Статистична достовірність. Практичні приклади розрахунку

Вибірка (Вибіркова сукупність)

Репрезентативність вибірки

Помилка вибірки (довірчий інтервал)

Типи вибірок

Курс лекцій з теорії статистики

Методологія репрезентативних опитувань

Розмір вибірки

Репрезентативність та точність

Порушення принципу випадковості

Чому репрезентативність неможлива

Обсяг вибірки

Залежні та незалежні вибірки

Репрезентативність

Приклад нерепрезентативної вибірки

Типи вибірки

Імовірнісні вибірки

Неймовірні вибірки

Стратегії побудови груп

Рандомізація

Попарний відбір

Стратометричний відбір

Наближене моделювання

Примітки

Література

Див. також

Посилання

Дивитись що таке "Вибірка" в інших словниках:

Обсяг вибірки

Залежні та незалежні вибірки

Репрезентативність

Приклад нерепрезентативної вибірки

Види плану побудови груп із вибірок

Стратегії побудови груп

Рандомізація

Попарний відбір

Ще на тему статті: