Zasada szaleństwa Wyjaśnienie, zastosowania i przykłady



The Zasada rzucania jest kryterium używanym do określenia liczby klas lub przedziałów, które są niezbędne do graficznego przedstawienia zestawu danych statystycznych. Reguła ta została ogłoszona w 1926 r. Przez niemieckiego matematyka Herberta Sturgesa.

Sturges zaproponował prostą metodę opartą na liczbie próbek x, która pozwoliła ustalić liczbę klas i amplitudę ich zasięgu. Reguła Sturgesa jest szeroko stosowana zwłaszcza w dziedzinie statystyki, w szczególności do tworzenia histogramów częstotliwości.

Indeks

  • 1 Wyjaśnienie
  • 2 Aplikacje
  • 3 Przykład
  • 4 odniesienia

Wyjaśnienie

Reguła Sturgesa jest metodą empiryczną szeroko stosowaną w statystyce opisowej w celu określenia liczby klas, które muszą istnieć na histogramie częstotliwości, w celu sklasyfikowania zestawu danych reprezentujących próbkę lub populację.

Zasadniczo reguła ta określa szerokość kontenerów graficznych, histogramy częstotliwości.

Aby ustalić swoją zasadę Herbert Sturges rozważał idealny diagram częstotliwości, który składa się z K przedziałów, gdzie i-ty przedział zawiera pewną liczbę próbek (i = 0, ... k - 1), reprezentowanych jako:

Tę liczbę próbek określa liczba sposobów, w jakie można wyodrębnić podzbiór zbioru; to znaczy, według współczynnika dwumianowego, wyrażonego w następujący sposób:

Aby uprościć wyrażenie, zastosował właściwości logarytmów w obu częściach równania:

Sturges ustalił więc, że optymalna liczba przedziałów k jest wyrażona przez:

Może być również wyrażone jako:

W tym wyrażeniu:

- k to liczba klas.

- N to całkowita liczba obserwacji próbki.

- Log jest wspólnym logarytmem bazy 10.

Na przykład, aby utworzyć histogram częstotliwości, który wyraża losową próbkę wysokości 142 dzieci, liczba interwałów lub klas, które będzie miała rozkład:

k = 1 + 3,322 * log10 (N)

k = 1 + 3,322* log (142)

k = 1 + 3,322* 2123

k = 8,14 ≈ 8

Zatem dystrybucja będzie miała 8 przedziałów.

Liczba interwałów powinna być zawsze reprezentowana przez liczby całkowite. W przypadkach, gdy wartość jest dziesiętna, należy wykonać przybliżenie do najbliższej liczby całkowitej.

Aplikacje

Regułę Sturgesa stosuje się głównie w statystyce, ponieważ pozwala ona na rozkład częstotliwości poprzez obliczenie liczby klas (k), a także długości każdego z nich, znanego również jako amplituda.

Amplituda jest różnicą między górną i dolną granicą klasy podzieloną przez liczbę klas i jest wyrażona:

Istnieje wiele reguł empirycznych, które umożliwiają dokonanie rozkładu częstotliwości. Jednak reguła Sturgesa jest powszechnie używana, ponieważ przybliża liczbę klas, która zazwyczaj waha się od 5 do 15.

W ten sposób rozważ wartość, która odpowiednio reprezentuje próbkę lub populację; to znaczy, przybliżenie nie reprezentuje skrajnych grup, ani nie działa z nadmierną liczbą klas, które nie pozwalają na podsumowanie próbki.

Przykład

Konieczne jest wykonanie histogramu częstotliwości zgodnie z danymi, odpowiadającymi wiekom uzyskanym w badaniu mężczyzn, którzy ćwiczą na lokalnej siłowni.

Aby określić interwały, musisz wiedzieć, jaki jest rozmiar próbki lub liczba obserwacji; w tym przypadku masz 30.

Następnie obowiązuje zasada Sturges:

k = 1 + 3,322 * log10 (N)

k = 1 + 3,322* log (30)

k = 1 + 3,322* 1,4771

k = 5,90 ≈ 6 przedziałów.

Z liczby interwałów można obliczyć amplitudę, którą będą miały; to znaczy szerokość każdego pręta reprezentowanego na histogramie częstotliwości:

Dolna granica jest uważana za najniższą wartość danych, a górna granica jest najwyższą wartością. Różnica między górną i dolną granicą jest nazywana zakresem lub ścieżką zmiennej (R).

Z tabeli wynika, że ​​górna granica wynosi 46, a dolna granica 13; w ten sposób amplituda każdej klasy będzie:

Interwały będą się składać z górnej i dolnej granicy. Aby określić te przedziały, zacznij odliczać od dolnej granicy, dodając do niej amplitudę określoną przez regułę (6), w następujący sposób:

Następnie obliczana jest częstotliwość bezwzględna w celu określenia liczby mężczyzn odpowiadających każdemu przedziałowi; w tym przypadku jest to:

- Interwał 1: 13 - 18 = 9

- Interwał 2: 19 - 24 = 9

- Odstęp 3: 25 - 30 = 5

- Interwał 4: 31 - 36 = 2

- Interwał 5: 37 - 42 = 2

- Interwał 6: 43 - 48 = 3

Dodając częstotliwość bezwzględną każdej klasy, musi być równa całkowitej liczbie próbki; w tym przypadku 30.

Następnie obliczana jest względna częstotliwość każdego przedziału, dzieląca bezwzględną częstotliwość tego przedziału przez całkowitą liczbę obserwacji:

- Interwał 1: fi = 9 ÷ 30 = 0,30

- Interwał 2: fi = 9 ÷ 30 = 0,30

- Interwał 3: fi = 5 ÷ 30 = 0,1666

- Interwał 4: fi = 2 ÷ 30 = 0,0666

- Interwał 5: fi = 2 ÷ 30 = 0,0666

- Interwał 4: fi = 3 ÷ 30 = 0,10

Następnie możesz stworzyć tabelę, która odzwierciedla dane, a także diagram ze względnej częstotliwości w stosunku do uzyskanych interwałów, jak widać na następujących obrazach:

W ten sposób reguła Sturges pozwala określić liczbę klas lub przedziałów, w których próbka może zostać podzielona, ​​w celu podsumowania próbki danych poprzez przygotowanie tabel i wykresów.

Referencje

  1. Alfonso Urquía, M. V. (2013). Modelowanie i symulacja zdarzeń dyskretnych. UNED,.
  2. Altman Naomi, M. K. (2015). „Prosta regresja liniowa”. Metody przyrodnicze .
  3. Antúnez, R. J. (2014). Statystyki w edukacji. Cyfrowy UNID.
  4. Fox, J. (1997.). Zastosowana analiza regresji, modele liniowe i powiązane metody. SAGE Publikacje.
  5. Humberto Llinás Solano, C. R. (2005). Statystyka opisowa i rozkłady prawdopodobieństwa. Uniwersytet Północy.
  6. Panteleeva, O. V. (2005). Podstawy prawdopodobieństwa i statystyki.
  7. O. Kuehl, M. O. (2001). Projektowanie eksperymentów: statystyczne zasady projektowania i analizy badań. Redaktorzy Thomson.