18 Teste Qui-Quadrado e análise de aderência

A análise de aderência testa a distribuição dos dados: \[ \begin{cases} H_{0}: P= P_{0} \\ H_{1}: P \neq P_{0} \end{cases} \] Em que \(P_{0}\) é a medida de probabilidade especificada que governaria (sob \(H_0\)) os eventos observados.

Neste teste co,paramos a frequência observada com a frequência esperada em \(k\) eventos disjuntos e distintos observáveis. \[ \begin{array}{c|cccc} \text{Eventos} & 1 & 2 & \dots & k \\ \hline P_{0} & P_{01} & P_{02} & \dots & P_{0k} \\ E_{i} & E_{1} & E_{2} & \dots & E_{k} \\ O_{i} & O_{1} & O_{2} & \dots & O_{k} \end{array} \]

Em que observou-se uma amostra de tamanho \(n\). Temos também que \(E_{i}\) é o valor esperado do número de eventos \(i\) sob \(H_{0}\) \[ \mathrm{Freq. Esperada} = E_{i} = P_{0i} \cdot n \]

e \(\mathrm{Freq. Observada} = O_{i}\) é o numero real de eventos \(i\) observados na amostra. A estatística para testar \(H_{0}\) é \[ \chi^2 = \sum^k_{i=1} \frac{(E_{i}-O_{i})^2}{E_{i}} \]

que, sob \(H_0\) - ou seja, sob a hipótese de que \(P_{0}\) é de fato a medida de probabilidade que governa o comportamento probabilístico do evento - é aproximadamente \[ \underbracket{\chi^2 \sim \chi^2_{(k-1)}}_{\mathrm{Sob}~H_{0}} \]

*Esse procedimento é confiável sempre que \(E_{i}>5 \forall i \in \{ 1,\dots,k \}\)

18.1 Exemplo

Considere que queremos verificar se os números sorteados nos concursos da Mega Sena são de fato uniformemente distribuídos. Nesse caso, analisaremos 60 eventos, cuja probabilidade de cada um seria, caso uniformemente distribuídos, \(\frac{1}{60}\). \[ \begin{cases} H_{0}: P = P_{0} \\ H_{1}: P \neq P_{0} \end{cases} \]

Em que \(P_{0}(\{ i \}) = \frac{1}{60} \forall i \in \{ 1,2,\dots 60 \}\)

Vamos criar a tabela para as frequências. Consideraremos a primeira bola de todos os \(2800\) sorteios da Mega. \[ \begin{array}{c|cccc} \mathrm{Eventos} & 1 & 2 & \dots & 60\\ \hline P_{0} & \frac{1}{60} & \frac{1}{60} & \dots & \frac{1}{60} \\ E_{i} & \frac{2800}{60} & \frac{2800}{60} & \dots & \frac{2800}{60} \\ O_{i} & 42 & 48 & \dots & 55 \end{array} \] Portanto, \[ \chi^2 = \sum^{60}_{i} \frac{(46.7 - O_{i})^2}{46.7} \stackrel{a}{\sim} \chi^2_{59} \] Considerando um nível de significância de \(\alpha=5\%\), calculamos o ponto crítico \(c\) tal que \[ P(\chi^2_{59}>c) = 0.05 \]

using Distributions, StatsBase, Random, Plots, LaTeXStrings
# Anal. Aderência
# H0 = P=P0
#
# Mega Sena. Observar apenas o primeior número de cada sorteio

Random.seed!(1)
amostra = sample(1:60, 2800)
O = collect(values(countmap(amostra)))
E = 2800 / 60

chisq = sum([(E - x)^2 / E for x in O])
quantil = quantile(Chisq(59), 0.95)

f(t) = pdf(Chisq(59), t)
plot(f, xlims = (0, 120), label = "", title = L"\chi^2_{59}")
vline!([quantile(Chisq(59), 0.95)], label = L"c = %$(round(quantil, digits=2))")

Precompiling packages...
   4995.4 ms  ✓ StatsBase
    856.7 ms  ✓ PDMats → StatsBaseExt
   6417.5 ms  ✓ Distributions
  3 dependencies successfully precompiled in 13 seconds. 38 already precompiled.
Precompiling packages...
   1157.3 ms  ✓ libpng_jll
   1622.0 ms  ✓ Cairo_jll
   3157.6 ms  ✓ StructUtils
   1453.9 ms  ✓ HarfBuzz_jll
   1734.9 ms  ✓ libass_jll
   1750.9 ms  ✓ Pango_jll
   1694.0 ms  ✓ libdecor_jll
   2884.1 ms  ✓ FFMPEG_jll
   1910.3 ms  ✓ GLFW_jll
   1347.3 ms  ✓ FFMPEG
   2220.0 ms  ✓ GR_jll
  10348.3 ms  ✓ JSON
   7669.7 ms  ✓ GR
 107926.1 ms  ✓ Plots
  14 dependencies successfully precompiled in 130 seconds. 166 already precompiled.
Precompiling packages...
   1617.0 ms  ✓ QuartoNotebookWorkerJSONExt (serial)
  1 dependency successfully precompiled in 2 seconds
Precompiling packages...
   3652.1 ms  ✓ QuartoNotebookWorkerPlotsExt (serial)
  1 dependency successfully precompiled in 4 seconds

Pelo computador, encontramos \(c = 77.93\) Logo, como \(\chi^2=56.68 < 77.93\), concluímos que, sob \(H_{0}\), não há evidências de que o modelo não seja equiprovável a \(5\%\) de significância de estatística.

18.2 K-Grupos

(Morettin, Pag.404 E.7) Considere os \(n=30\) dados abaixo que supostamente seguem uma distribuição normal \(N(10,25)\). (usando os dados do livro já em ordem) \[ \begin{array}{cccccc} 1.01 & 1.73 & 3.93 & 4.44 & 6.37 & 6.51 \\ \vdots & \vdots & \vdots & \vdots & \vdots & \vdots \\ 14.11 & 14.6 & 14.64 & 14.75 & 16.68 & 22.14 \end{array} \] Queremos testar se os dados de fato se distribuem de acordo com \(N(10,25)\). \[ \begin{cases} H_{0}: P=N(10,25) \\ H_{1}: P\neq N(10,25) \end{cases} \] Sob \(H_{0}\), podemos dividir a distribuição normal em \(k\) blocos. Escolheremos \(k=4\) delimitado pelos quartis teóricos dessa distribuição normal. (Primeiro padronizamos, encontramos os valores pela tabela, então voltamos para nossa normal) \[ \begin{cases} q_{1} = 6.63 \\ q_{2} = 10 \\ q_{3} = 13.3 \end{cases} \stackrel{\mathrm{Intervalos}}{\Rightarrow} \begin{cases} 1.(-\infty, q_{1}) \\ 2.[q_{1},q_{2}] \\ 3.(q_{2},q_{3}] \\ 4.(q_{3},\infty) \end{cases} \] Podemos produzir uma tabela com as frequências por intervalo \[ \begin{array}{c|cccc} \mathrm{Eventos} & 1. & 2. & 3. & 4.\\ \hline E_{i} & 0.25 \cdot 30=7.5 & 7.5 & 7.5 & 7.5 \\ O_{i} & 6 & 9 & 9 & 6 \\ \end{array} \] \[ \chi^2 = \sum^4_{i=1} \frac{(7.5 - O_{i})^2}{7.5} = 1.2 \] Na \(\chi^2_{3}\) (número de nichos), com nível de significância \(\alpha=0.10\), \(c = 6.25\). Como \(\chi^2=1.2<6.25\), concluímos que não há evidências de que a distribuição dos dados difere de uma \(N(10,25)\) a \(\alpha=10\%\) de significância estatística