A análise de aderência testa a distribuição dos dados: \[
\begin{cases}
H_{0}: P= P_{0} \\
H_{1}: P \neq P_{0}
\end{cases}
\] Em que \(P_{0}\) é a medida de probabilidade especificada que governaria (sob \(H_0\)) os eventos observados.
Neste teste co,paramos a frequência observada com a frequência esperada em \(k\) eventos disjuntos e distintos observáveis. \[
\begin{array}{c|cccc}
\text{Eventos} & 1 & 2 & \dots & k \\
\hline
P_{0} & P_{01} & P_{02} & \dots & P_{0k} \\
E_{i} & E_{1} & E_{2} & \dots & E_{k} \\
O_{i} & O_{1} & O_{2} & \dots & O_{k}
\end{array}
\]
Em que observou-se uma amostra de tamanho \(n\). Temos também que \(E_{i}\) é o valor esperado do número de eventos \(i\) sob \(H_{0}\)\[
\mathrm{Freq. Esperada} = E_{i} = P_{0i} \cdot n
\]
e \(\mathrm{Freq. Observada} = O_{i}\) é o numero real de eventos \(i\) observados na amostra. A estatística para testar \(H_{0}\) é \[
\chi^2 = \sum^k_{i=1} \frac{(E_{i}-O_{i})^2}{E_{i}}
\]
que, sob \(H_0\) - ou seja, sob a hipótese de que \(P_{0}\) é de fato a medida de probabilidade que governa o comportamento probabilístico do evento - é aproximadamente \[
\underbracket{\chi^2 \sim \chi^2_{(k-1)}}_{\mathrm{Sob}~H_{0}}
\]
*Esse procedimento é confiável sempre que \(E_{i}>5 \forall i \in \{ 1,\dots,k \}\)
18.1 Exemplo
Considere que queremos verificar se os números sorteados nos concursos da Mega Sena são de fato uniformemente distribuídos. Nesse caso, analisaremos 60 eventos, cuja probabilidade de cada um seria, caso uniformemente distribuídos, \(\frac{1}{60}\). \[
\begin{cases}
H_{0}: P = P_{0} \\
H_{1}: P \neq P_{0}
\end{cases}
\]
Em que \(P_{0}(\{ i \}) = \frac{1}{60} \forall i \in \{ 1,2,\dots 60 \}\)
Vamos criar a tabela para as frequências. Consideraremos a primeira bola de todos os \(2800\) sorteios da Mega. \[
\begin{array}{c|cccc}
\mathrm{Eventos} & 1 & 2 & \dots & 60\\
\hline
P_{0} & \frac{1}{60} & \frac{1}{60} & \dots & \frac{1}{60} \\
E_{i} & \frac{2800}{60} & \frac{2800}{60} & \dots & \frac{2800}{60} \\
O_{i} & 42 & 48 & \dots & 55
\end{array}
\] Portanto, \[
\chi^2 = \sum^{60}_{i} \frac{(46.7 - O_{i})^2}{46.7} \stackrel{a}{\sim} \chi^2_{59}
\] Considerando um nível de significância de \(\alpha=5\%\), calculamos o ponto crítico \(c\) tal que \[
P(\chi^2_{59}>c) = 0.05
\]
usingDistributions, StatsBase, Random, Plots, LaTeXStrings# Anal. Aderência# H0 = P=P0## Mega Sena. Observar apenas o primeior número de cada sorteioRandom.seed!(1)amostra =sample(1:60, 2800)O =collect(values(countmap(amostra)))E =2800/60chisq =sum([(E - x)^2/ E for x in O])quantil =quantile(Chisq(59), 0.95)f(t) =pdf(Chisq(59), t)plot(f, xlims = (0, 120), label ="", title = L"\chi^2_{59}")vline!([quantile(Chisq(59), 0.95)], label = L"c = %$(round(quantil, digits=2))")
Precompiling packages...
4995.4 ms ✓ StatsBase
856.7 ms ✓ PDMats → StatsBaseExt
6417.5 ms ✓ Distributions
3 dependencies successfully precompiled in 13 seconds. 38 already precompiled.
Precompiling packages...
1157.3 ms ✓ libpng_jll
1622.0 ms ✓ Cairo_jll
3157.6 ms ✓ StructUtils
1453.9 ms ✓ HarfBuzz_jll
1734.9 ms ✓ libass_jll
1750.9 ms ✓ Pango_jll
1694.0 ms ✓ libdecor_jll
2884.1 ms ✓ FFMPEG_jll
1910.3 ms ✓ GLFW_jll
1347.3 ms ✓ FFMPEG
2220.0 ms ✓ GR_jll
10348.3 ms ✓ JSON
7669.7 ms ✓ GR
107926.1 ms ✓ Plots
14 dependencies successfully precompiled in 130 seconds. 166 already precompiled.
Precompiling packages...
1617.0 ms ✓ QuartoNotebookWorkerJSONExt (serial)
1 dependency successfully precompiled in 2 seconds
Precompiling packages...
3652.1 ms ✓ QuartoNotebookWorkerPlotsExt (serial)
1 dependency successfully precompiled in 4 seconds
Pelo computador, encontramos \(c = 77.93\) Logo, como \(\chi^2=56.68 < 77.93\), concluímos que, sob \(H_{0}\), não há evidências de que o modelo não seja equiprovável a \(5\%\) de significância de estatística.
18.2 K-Grupos
(Morettin, Pag.404 E.7) Considere os \(n=30\) dados abaixo que supostamente seguem uma distribuição normal \(N(10,25)\). (usando os dados do livro já em ordem) \[
\begin{array}{cccccc}
1.01 & 1.73 & 3.93 & 4.44 & 6.37 & 6.51 \\
\vdots & \vdots & \vdots & \vdots & \vdots & \vdots \\
14.11 & 14.6 & 14.64 & 14.75 & 16.68 & 22.14
\end{array}
\] Queremos testar se os dados de fato se distribuem de acordo com \(N(10,25)\). \[
\begin{cases}
H_{0}: P=N(10,25) \\
H_{1}: P\neq N(10,25)
\end{cases}
\] Sob \(H_{0}\), podemos dividir a distribuição normal em \(k\) blocos. Escolheremos \(k=4\) delimitado pelos quartis teóricos dessa distribuição normal. (Primeiro padronizamos, encontramos os valores pela tabela, então voltamos para nossa normal) \[
\begin{cases}
q_{1} = 6.63 \\
q_{2} = 10 \\
q_{3} = 13.3
\end{cases} \stackrel{\mathrm{Intervalos}}{\Rightarrow}
\begin{cases}
1.(-\infty, q_{1}) \\
2.[q_{1},q_{2}] \\
3.(q_{2},q_{3}] \\
4.(q_{3},\infty)
\end{cases}
\] Podemos produzir uma tabela com as frequências por intervalo \[
\begin{array}{c|cccc}
\mathrm{Eventos} & 1. & 2. & 3. & 4.\\
\hline
E_{i} & 0.25 \cdot 30=7.5 & 7.5 & 7.5 & 7.5 \\
O_{i} & 6 & 9 & 9 & 6 \\
\end{array}
\]\[
\chi^2 = \sum^4_{i=1} \frac{(7.5 - O_{i})^2}{7.5} = 1.2
\] Na \(\chi^2_{3}\) (número de nichos), com nível de significância \(\alpha=0.10\), \(c = 6.25\). Como \(\chi^2=1.2<6.25\), concluímos que não há evidências de que a distribuição dos dados difere de uma \(N(10,25)\) a \(\alpha=10\%\) de significância estatística