Pravidlo Sturges Vysvětlení, aplikace a příklady



Sturges pravidlo je kritérium použité k určení počtu tříd nebo intervalů, které jsou nezbytné pro grafickou reprezentaci souboru statistických dat. Toto pravidlo bylo vyhlášeno v roce 1926 německým matematikem Herbertem Sturgesem.

Sturges navrhl jednoduchou metodu, založenou na počtu vzorků x, které umožnily zjistit počet tříd a jejich rozsahovou amplitudu. Pravidlo Sturges je široce používáno zejména v oblasti statistiky, konkrétně pro budování frekvenčních histogramů.

Index

  • 1 Vysvětlení
  • 2 Aplikace
  • 3 Příklad
  • 4 Odkazy

Vysvětlení

Pravidlo Sturges je empirická metoda široce používaná v popisných statistikách k určení počtu tříd, které musí existovat ve frekvenčním histogramu, za účelem klasifikace souboru dat, které představují vzorek nebo populaci..

Toto pravidlo v podstatě určuje šířku grafických kontejnerů, histogramů frekvence.

Za účelem stanovení jeho pravidla považoval Herbert Sturges ideální frekvenční schéma, které se skládá z intervalů K, kde ith interval obsahuje určitý počet vzorků (i = 0, ... k - 1), reprezentovaných jako:

Tento počet vzorků je dán počtem způsobů, kterými může být podmnožina sady extrahována; tj. binomickým koeficientem vyjádřeným takto:

Pro zjednodušení výrazu aplikoval vlastnosti logaritmů v obou částech rovnice:

Sturges tedy zjistil, že optimální počet intervalů k je dán výrazem:

Může být také vyjádřena jako:

V tomto výrazu:

- k je počet tříd.

- N je celkový počet pozorování vzorku.

- Log je společný logaritmus báze 10.

Chcete-li například vytvořit frekvenční histogram, který vyjadřuje náhodný vzorek o výšce 142 dětí, počet intervalů nebo tříd, které bude mít distribuce:

k = 1 + 3,322 * log10 (N)

k = 1 + 3,322* log (142)

k = 1 + 3,322* 2,1523

k = 8,14 ≈ 8

Distribuce bude tedy v 8 intervalech.

Počet intervalů by měl být vždy reprezentován celými čísly. V případech, kdy je hodnota desetinná, musí být provedena aproximace k nejbližšímu celému číslu.

Aplikace

Pravidlo Sturges je aplikováno hlavně ve statistikách, protože to dovolí dělat rozdělení frekvencí přes výpočet počtu tříd (k), stejně jako délka každého z nich, také známý jako amplituda \ t.

Amplituda je rozdíl mezi horním a dolním limitem třídy, děleno počtem tříd, a vyjadřuje se:

Existuje mnoho empirických pravidel, která umožňují provádět frekvenční distribuci. Pravidlo Sturges je však běžně používáno, protože přibližuje počet tříd, které se obecně pohybují od 5 do 15.

Tímto způsobem zvažte hodnotu, která dostatečně reprezentuje vzorek nebo populaci; to znamená, že aproximace nepředstavuje extrémní seskupení ani nepracuje s nadměrným počtem tříd, které neumožňují shrnutí vzorku.

Příklad

Je nutné provést frekvenční histogram podle zadaných údajů, odpovídající věku, který byl získán v průzkumu mužů, kteří vykonávají cvičení v místní posilovně..

Chcete-li určit intervaly, musíte znát velikost vzorku nebo počet pozorování; v tomto případě máte 30.

Pak platí pravidlo Sturges:

k = 1 + 3,322 * log10 (N)

k = 1 + 3,322* log (30)

k = 1 + 3,322* 1,4771

k = 5,90 ≈ 6 intervalů.

Z počtu intervalů lze vypočítat amplitudu, kterou budou mít; tj. šířka každého sloupce znázorněného v histogramu frekvence:

Dolní mez je považována za nejnižší hodnotu dat a horní limit je nejvyšší hodnota. Rozdíl mezi horní a dolní mezí se nazývá rozsah nebo cesta proměnné (R)..

Z tabulky máme, že horní mez je 46 a dolní mez 13; tímto způsobem bude amplituda každé třídy:

Intervaly se budou skládat z horní a dolní meze. Pro určení těchto intervalů začněte počítat od dolní hranice a přidejte k ní amplitudu určenou pravidlem (6) takto:

Potom se vypočte absolutní frekvence pro určení počtu mužů odpovídajících každému intervalu; v tomto případě je to:

- Interval 1: 13 - 18 = 9

- Interval 2: 19 - 24 = 9

- Interval 3: 25 - 30 = 5

- Interval 4: 31 - 36 = 2

- Interval 5: 37 - 42 = 2

- Interval 6: 43 - 48 = 3

Při přidání absolutní četnosti každé třídy musí být tato hodnota rovna celkovému počtu vzorků; v tomto případě 30.

Následně je vypočtena relativní četnost každého intervalu, přičemž se absolutní četnost tohoto intervalu dělí celkovým počtem pozorování:

- Interval 1: fi = 9 ÷ 30 = 0,30

- Interval 2: fi = 9 ÷ 30 = 0,30

- Interval 3: fi = 5 ° 30 = 0,1666

- Interval 4: fi = 2 × 30 = 0,0666

- Interval 5: fi = 2 × 30 = 0,0666

- Interval 4: fi = 3 ÷ 30 = 0,10

Potom můžete vytvořit tabulku, která bude odrážet data, a také diagram z relativní četnosti ve vztahu k získaným intervalům, jak je vidět na následujících obrázcích:

Tímto způsobem pravidlo Sturges umožňuje určit počet tříd nebo intervalů, ve kterých lze vzorek rozdělit, aby bylo možné shrnout vzorek dat prostřednictvím přípravy tabulek a grafů..

Odkazy

  1. Alfonso Urquía, M. V. (2013). Modelování a simulace diskrétních událostí. UNED,.
  2. Altman Naomi, M. K. (2015). "Jednoduchá lineární regrese." Nature Methods .
  3. Antúnez, R. J. (2014). Statistiky ve vzdělávání. Digitální UNID.
  4. Fox, J. (1997). Aplikovaná regresní analýza, lineární modely a související metody. Publikace SAGE.
  5. Humberto Llinás Solano, C. R. (2005). Popisné statistiky a rozdělení pravděpodobnosti. Univerzita severu.
  6. Panteleeva, O. V. (2005). Základy pravděpodobnosti a statistiky.
  7. O. Kuehl, M. O. (2001). Návrh experimentů: Statistické principy projektové a výzkumné analýzy. Redakce Thomson.