LISTA ZADAŃ NR 10: Zaawansowane metody statystyczne
Zadanie 1 (Test serii - losowość próby)
Pobrano próbkę o liczności \(n=20\) pewnej cechy \(X\). Wartości uporządkowane według kolejności pobierania (w czasie) są następujące:
- Wyznaczyć medianę \(m_e\) tej próby.
- Utworzyć ciąg symboli, wpisując \(a\), gdy \(x_i < m_e\) oraz \(b\), gdy \(x_i > m_e\) (elementy równe medianie pomijamy).
- Zweryfikować hipotezę o losowości pobrania tej próby (brak trendu/cykliczności), stosując test serii na poziomie istotności \(\alpha=0.05\). (Dane pochodzą z Zadania 3.87, Krysicki Cz. II, str. 143).
Zadanie 2
Mamy dwa algorytmy sortowania (A i B). Wykonano po 5 niezależnych pomiarów czasu dla każdego z nich. Wyniki nie mają rozkładu normalnego (występują elementy odstające).
- Algorytm A: \(12, 18, 14, 15, 13\)
- Algorytm B: \(19, 21, 23, 20, 22\)
Zweryfikować hipotezę, że algorytm A jest szybszy od B, stosując test sumy rang (Manna-Whitneya-Wilcoxona).
Zadanie 3
W tabeli (tablicy kontyngencji) zebrano dane o awariach w zależności od producenta sprzętu:
| Producent \ Typ awarii | Przegrzanie | Błąd dysku | Błąd pamięci |
|---|---|---|---|
| Producent X | 20 | 10 | 15 |
| Producent Y | 30 | 50 | 25 |
Sprawdzić na poziomie istotności \(\alpha=0.05\), czy rodzaj awarii zależy od producenta.
Zadanie 4
Testujemy wydajność 3 różnych frameworków (X, Y, Z). Ponieważ dane są mocno asymetryczne, zamiast klasycznej analizy wariancji (ANOVA), stosujemy test nieparametryczny Kruskala-Wallisa.
Tabela wyników wydajności (punkty w benchmarku):
| Framework X | Framework Y | Framework Z |
|---|---|---|
| 45 | 52 | 68 |
| 48 | 55 | 70 |
| 42 | 58 | 75 |
| 50 | 60 | 72 |
| 46 | 54 | 78 |
| (Liczebności prób: \(n_x=5, n_y=5, n_z=5\).) |
Dla danych rankingowych z tabeli zweryfikować hipotezę, że wszystkie frameworki mają taką samą medianę wydajności.
Zadanie 5
Mamy dwa zbiory danych o ruchu sieciowym (przed i po wdrożeniu firewalla). Chcemy sprawdzić, czy cały rozkład (nie tylko średnia) uległ zmianie.
Wyniki pomiarów opóźnienia pakietów (w ms):
Przed wdrożeniem (\(n=10\)):
(Dane uporządkowane: 12, 12, 13, 14, 15, 15, 16, 17, 18, 19)
Po wdrożeniu (\(m=10\)):
(Dane uporządkowane: 18, 19, 20, 20, 21, 22, 23, 24, 25, 28)
Na podstawie dystrybuant empirycznych obu prób obliczyć statystykę \(D_{n,m}\) i zweryfikować hipotezę o identyczności rozkładów (test Kołmogorowa-Smirnowa). Hipotezę zweryfikować przy poziomie istotności ( \alpha = 0.05 ).
Zadanie 6
Badamy czas kompilacji kodu (\(Y\)) w zależności od liczby plików (\(X_1\)) i liczby linii kodu w pliku (\(X_2\)).
Dane z 8 projektów programistycznych:
| Projekt | Liczba plików (\(x_1\)) | Tysiące linii kodu (\(x_2\)) | Czas kompilacji w sek. (\(y\)) |
|---|---|---|---|
| 1 | 2 | 5 | 12 |
| 2 | 4 | 10 | 25 |
| 3 | 3 | 8 | 19 |
| 4 | 6 | 15 | 40 |
| 5 | 8 | 20 | 55 |
| 6 | 2 | 4 | 10 |
| 7 | 5 | 12 | 32 |
| 8 | 7 | 18 | 48 |
Dla podanych danych wyznaczyć równanie płaszczyzny regresji:
Zadanie 7
Liczba tranzystorów w procesorach rośnie wykładniczo: \(y = a \cdot e^{bx}\). Mając dane historyczne, sprowadzić to zagadnienie do regresji liniowej poprzez logarytmowanie (\(\ln y = \ln a + bx\)) i wyznaczyć parametry wzrostu.
Dane historyczne rozwoju procesorów (uproszczone):
| Rok (\(t\)) | Zmienna czasowa \(x = t - 1970\) | Liczba tranzystorów (\(y\)) |
|---|---|---|
| 1970 | 0 | 2 000 |
| 1975 | 5 | 8 000 |
| 1980 | 10 | 30 000 |
| 1985 | 15 | 120 000 |
| 1990 | 20 | 500 000 |
Zadanie 8
Produkcja procesorów generuje pewien procent braków. Zamiast pobierać stałą próbkę 100 sztuk, pobieramy sztuki jedna po drugiej. Po każdym pobraniu decydujemy: „partia dobra”, „partia zła” lub „pobieramy dalej”.
Skonstruować test sekwencyjny (test Walda) dla weryfikacji hipotezy \(p=0.01\) przeciw \(p=0.10\). Przyjąć ryzyko błędu I rodzaju \(\alpha = 0,05\) oraz ryzyko błędu II rodzaju \(\beta = 0,10\).
Zadanie 9
Dla próby prostej \(x_1, ..., x_n\) z rozkładu wykładniczego (czas bezawaryjnej pracy) o gęstości \(f(x) = \frac{1}{\lambda} \exp\left(-\frac{x}{\lambda}\right)\), gdzie \(\lambda\) jest wartością oczekiwaną, wyznaczyć estymator parametru \(\lambda\) metodą największej wiarygodności (MNW).
Zadanie 10
Mamy 3 serwery. Chcemy sprawdzić, czy działają tak samo stabilnie (czy mają taką samą wariancję czasów odpowiedzi), zanim porównamy ich średnie czasy. Wariancje z prób wynoszą: \(s_1^2=1.4, \ s_2^2=1.8, \ s_3^2=1.2\).
Liczebności prób dla podanych wariancji są następujące: * Serwer 1 (\(s_1^2 = 1.4\)): \(n_1 = 20\) * Serwer 2 (\(s_2^2 = 1.8\)): \(n_2 = 20\) * Serwer 3 (\(s_3^2 = 1.2\)): \(n_3 = 20\)
Zweryfikować hipotezę \(H_0: \sigma_1^2 = \sigma_2^2 = \sigma_3^2\) (np. testem Bartletta) przy \(\alpha=0.05\).