Pravidlo Sturges Vysvětlení, aplikace a příklady
Sturges pravidlo je kritérium použité k určení počtu tříd nebo intervalů, které jsou nezbytné pro grafickou reprezentaci souboru statistických dat. Toto pravidlo bylo vyhlášeno v roce 1926 německým matematikem Herbertem Sturgesem.
Sturges navrhl jednoduchou metodu, založenou na počtu vzorků x, které umožnily zjistit počet tříd a jejich rozsahovou amplitudu. Pravidlo Sturges je široce používáno zejména v oblasti statistiky, konkrétně pro budování frekvenčních histogramů.
Index
- 1 Vysvětlení
- 2 Aplikace
- 3 Příklad
- 4 Odkazy
Vysvětlení
Pravidlo Sturges je empirická metoda široce používaná v popisných statistikách k určení počtu tříd, které musí existovat ve frekvenčním histogramu, za účelem klasifikace souboru dat, které představují vzorek nebo populaci..
Toto pravidlo v podstatě určuje šířku grafických kontejnerů, histogramů frekvence.
Za účelem stanovení jeho pravidla považoval Herbert Sturges ideální frekvenční schéma, které se skládá z intervalů K, kde ith interval obsahuje určitý počet vzorků (i = 0, ... k - 1), reprezentovaných jako:
Tento počet vzorků je dán počtem způsobů, kterými může být podmnožina sady extrahována; tj. binomickým koeficientem vyjádřeným takto:
Pro zjednodušení výrazu aplikoval vlastnosti logaritmů v obou částech rovnice:
Sturges tedy zjistil, že optimální počet intervalů k je dán výrazem:
Může být také vyjádřena jako:
V tomto výrazu:
- k je počet tříd.
- N je celkový počet pozorování vzorku.
- Log je společný logaritmus báze 10.
Chcete-li například vytvořit frekvenční histogram, který vyjadřuje náhodný vzorek o výšce 142 dětí, počet intervalů nebo tříd, které bude mít distribuce:
k = 1 + 3,322 * log10 (N)
k = 1 + 3,322* log (142)
k = 1 + 3,322* 2,1523
k = 8,14 ≈ 8
Distribuce bude tedy v 8 intervalech.
Počet intervalů by měl být vždy reprezentován celými čísly. V případech, kdy je hodnota desetinná, musí být provedena aproximace k nejbližšímu celému číslu.
Aplikace
Pravidlo Sturges je aplikováno hlavně ve statistikách, protože to dovolí dělat rozdělení frekvencí přes výpočet počtu tříd (k), stejně jako délka každého z nich, také známý jako amplituda \ t.
Amplituda je rozdíl mezi horním a dolním limitem třídy, děleno počtem tříd, a vyjadřuje se:
Existuje mnoho empirických pravidel, která umožňují provádět frekvenční distribuci. Pravidlo Sturges je však běžně používáno, protože přibližuje počet tříd, které se obecně pohybují od 5 do 15.
Tímto způsobem zvažte hodnotu, která dostatečně reprezentuje vzorek nebo populaci; to znamená, že aproximace nepředstavuje extrémní seskupení ani nepracuje s nadměrným počtem tříd, které neumožňují shrnutí vzorku.
Příklad
Je nutné provést frekvenční histogram podle zadaných údajů, odpovídající věku, který byl získán v průzkumu mužů, kteří vykonávají cvičení v místní posilovně..
Chcete-li určit intervaly, musíte znát velikost vzorku nebo počet pozorování; v tomto případě máte 30.
Pak platí pravidlo Sturges:
k = 1 + 3,322 * log10 (N)
k = 1 + 3,322* log (30)
k = 1 + 3,322* 1,4771
k = 5,90 ≈ 6 intervalů.
Z počtu intervalů lze vypočítat amplitudu, kterou budou mít; tj. šířka každého sloupce znázorněného v histogramu frekvence:
Dolní mez je považována za nejnižší hodnotu dat a horní limit je nejvyšší hodnota. Rozdíl mezi horní a dolní mezí se nazývá rozsah nebo cesta proměnné (R)..
Z tabulky máme, že horní mez je 46 a dolní mez 13; tímto způsobem bude amplituda každé třídy:
Intervaly se budou skládat z horní a dolní meze. Pro určení těchto intervalů začněte počítat od dolní hranice a přidejte k ní amplitudu určenou pravidlem (6) takto:
Potom se vypočte absolutní frekvence pro určení počtu mužů odpovídajících každému intervalu; v tomto případě je to:
- Interval 1: 13 - 18 = 9
- Interval 2: 19 - 24 = 9
- Interval 3: 25 - 30 = 5
- Interval 4: 31 - 36 = 2
- Interval 5: 37 - 42 = 2
- Interval 6: 43 - 48 = 3
Při přidání absolutní četnosti každé třídy musí být tato hodnota rovna celkovému počtu vzorků; v tomto případě 30.
Následně je vypočtena relativní četnost každého intervalu, přičemž se absolutní četnost tohoto intervalu dělí celkovým počtem pozorování:
- Interval 1: fi = 9 ÷ 30 = 0,30
- Interval 2: fi = 9 ÷ 30 = 0,30
- Interval 3: fi = 5 ° 30 = 0,1666
- Interval 4: fi = 2 × 30 = 0,0666
- Interval 5: fi = 2 × 30 = 0,0666
- Interval 4: fi = 3 ÷ 30 = 0,10
Potom můžete vytvořit tabulku, která bude odrážet data, a také diagram z relativní četnosti ve vztahu k získaným intervalům, jak je vidět na následujících obrázcích:
Tímto způsobem pravidlo Sturges umožňuje určit počet tříd nebo intervalů, ve kterých lze vzorek rozdělit, aby bylo možné shrnout vzorek dat prostřednictvím přípravy tabulek a grafů..
Odkazy
- Alfonso Urquía, M. V. (2013). Modelování a simulace diskrétních událostí. UNED,.
- Altman Naomi, M. K. (2015). "Jednoduchá lineární regrese." Nature Methods .
- Antúnez, R. J. (2014). Statistiky ve vzdělávání. Digitální UNID.
- Fox, J. (1997). Aplikovaná regresní analýza, lineární modely a související metody. Publikace SAGE.
- Humberto Llinás Solano, C. R. (2005). Popisné statistiky a rozdělení pravděpodobnosti. Univerzita severu.
- Panteleeva, O. V. (2005). Základy pravděpodobnosti a statistiky.
- O. Kuehl, M. O. (2001). Návrh experimentů: Statistické principy projektové a výzkumné analýzy. Redakce Thomson.