Zasada szaleństwa Wyjaśnienie, zastosowania i przykłady
The Zasada rzucania jest kryterium używanym do określenia liczby klas lub przedziałów, które są niezbędne do graficznego przedstawienia zestawu danych statystycznych. Reguła ta została ogłoszona w 1926 r. Przez niemieckiego matematyka Herberta Sturgesa.
Sturges zaproponował prostą metodę opartą na liczbie próbek x, która pozwoliła ustalić liczbę klas i amplitudę ich zasięgu. Reguła Sturgesa jest szeroko stosowana zwłaszcza w dziedzinie statystyki, w szczególności do tworzenia histogramów częstotliwości.
Indeks
- 1 Wyjaśnienie
- 2 Aplikacje
- 3 Przykład
- 4 odniesienia
Wyjaśnienie
Reguła Sturgesa jest metodą empiryczną szeroko stosowaną w statystyce opisowej w celu określenia liczby klas, które muszą istnieć na histogramie częstotliwości, w celu sklasyfikowania zestawu danych reprezentujących próbkę lub populację.
Zasadniczo reguła ta określa szerokość kontenerów graficznych, histogramy częstotliwości.
Aby ustalić swoją zasadę Herbert Sturges rozważał idealny diagram częstotliwości, który składa się z K przedziałów, gdzie i-ty przedział zawiera pewną liczbę próbek (i = 0, ... k - 1), reprezentowanych jako:
Tę liczbę próbek określa liczba sposobów, w jakie można wyodrębnić podzbiór zbioru; to znaczy, według współczynnika dwumianowego, wyrażonego w następujący sposób:
Aby uprościć wyrażenie, zastosował właściwości logarytmów w obu częściach równania:
Sturges ustalił więc, że optymalna liczba przedziałów k jest wyrażona przez:
Może być również wyrażone jako:
W tym wyrażeniu:
- k to liczba klas.
- N to całkowita liczba obserwacji próbki.
- Log jest wspólnym logarytmem bazy 10.
Na przykład, aby utworzyć histogram częstotliwości, który wyraża losową próbkę wysokości 142 dzieci, liczba interwałów lub klas, które będzie miała rozkład:
k = 1 + 3,322 * log10 (N)
k = 1 + 3,322* log (142)
k = 1 + 3,322* 2123
k = 8,14 ≈ 8
Zatem dystrybucja będzie miała 8 przedziałów.
Liczba interwałów powinna być zawsze reprezentowana przez liczby całkowite. W przypadkach, gdy wartość jest dziesiętna, należy wykonać przybliżenie do najbliższej liczby całkowitej.
Aplikacje
Regułę Sturgesa stosuje się głównie w statystyce, ponieważ pozwala ona na rozkład częstotliwości poprzez obliczenie liczby klas (k), a także długości każdego z nich, znanego również jako amplituda.
Amplituda jest różnicą między górną i dolną granicą klasy podzieloną przez liczbę klas i jest wyrażona:
Istnieje wiele reguł empirycznych, które umożliwiają dokonanie rozkładu częstotliwości. Jednak reguła Sturgesa jest powszechnie używana, ponieważ przybliża liczbę klas, która zazwyczaj waha się od 5 do 15.
W ten sposób rozważ wartość, która odpowiednio reprezentuje próbkę lub populację; to znaczy, przybliżenie nie reprezentuje skrajnych grup, ani nie działa z nadmierną liczbą klas, które nie pozwalają na podsumowanie próbki.
Przykład
Konieczne jest wykonanie histogramu częstotliwości zgodnie z danymi, odpowiadającymi wiekom uzyskanym w badaniu mężczyzn, którzy ćwiczą na lokalnej siłowni.
Aby określić interwały, musisz wiedzieć, jaki jest rozmiar próbki lub liczba obserwacji; w tym przypadku masz 30.
Następnie obowiązuje zasada Sturges:
k = 1 + 3,322 * log10 (N)
k = 1 + 3,322* log (30)
k = 1 + 3,322* 1,4771
k = 5,90 ≈ 6 przedziałów.
Z liczby interwałów można obliczyć amplitudę, którą będą miały; to znaczy szerokość każdego pręta reprezentowanego na histogramie częstotliwości:
Dolna granica jest uważana za najniższą wartość danych, a górna granica jest najwyższą wartością. Różnica między górną i dolną granicą jest nazywana zakresem lub ścieżką zmiennej (R).
Z tabeli wynika, że górna granica wynosi 46, a dolna granica 13; w ten sposób amplituda każdej klasy będzie:
Interwały będą się składać z górnej i dolnej granicy. Aby określić te przedziały, zacznij odliczać od dolnej granicy, dodając do niej amplitudę określoną przez regułę (6), w następujący sposób:
Następnie obliczana jest częstotliwość bezwzględna w celu określenia liczby mężczyzn odpowiadających każdemu przedziałowi; w tym przypadku jest to:
- Interwał 1: 13 - 18 = 9
- Interwał 2: 19 - 24 = 9
- Odstęp 3: 25 - 30 = 5
- Interwał 4: 31 - 36 = 2
- Interwał 5: 37 - 42 = 2
- Interwał 6: 43 - 48 = 3
Dodając częstotliwość bezwzględną każdej klasy, musi być równa całkowitej liczbie próbki; w tym przypadku 30.
Następnie obliczana jest względna częstotliwość każdego przedziału, dzieląca bezwzględną częstotliwość tego przedziału przez całkowitą liczbę obserwacji:
- Interwał 1: fi = 9 ÷ 30 = 0,30
- Interwał 2: fi = 9 ÷ 30 = 0,30
- Interwał 3: fi = 5 ÷ 30 = 0,1666
- Interwał 4: fi = 2 ÷ 30 = 0,0666
- Interwał 5: fi = 2 ÷ 30 = 0,0666
- Interwał 4: fi = 3 ÷ 30 = 0,10
Następnie możesz stworzyć tabelę, która odzwierciedla dane, a także diagram ze względnej częstotliwości w stosunku do uzyskanych interwałów, jak widać na następujących obrazach:
W ten sposób reguła Sturges pozwala określić liczbę klas lub przedziałów, w których próbka może zostać podzielona, w celu podsumowania próbki danych poprzez przygotowanie tabel i wykresów.
Referencje
- Alfonso Urquía, M. V. (2013). Modelowanie i symulacja zdarzeń dyskretnych. UNED,.
- Altman Naomi, M. K. (2015). „Prosta regresja liniowa”. Metody przyrodnicze .
- Antúnez, R. J. (2014). Statystyki w edukacji. Cyfrowy UNID.
- Fox, J. (1997.). Zastosowana analiza regresji, modele liniowe i powiązane metody. SAGE Publikacje.
- Humberto Llinás Solano, C. R. (2005). Statystyka opisowa i rozkłady prawdopodobieństwa. Uniwersytet Północy.
- Panteleeva, O. V. (2005). Podstawy prawdopodobieństwa i statystyki.
- O. Kuehl, M. O. (2001). Projektowanie eksperymentów: statystyczne zasady projektowania i analizy badań. Redaktorzy Thomson.