18  Teste Qui-Quadrado e análise de aderência

A análise de aderência testa a distribuição dos dados: \[ \begin{cases} H_{0}: P= P_{0} \\ H_{1}: P \neq P_{0} \end{cases} \] Em que \(P_{0}\) é a medida de probabilidade especificada que governaria (sob \(H_0\)) os eventos observados.

Neste teste co,paramos a frequência observada com a frequência esperada em \(k\) eventos disjuntos e distintos observáveis. \[ \begin{array}{c|cccc} \text{Eventos} & 1 & 2 & \dots & k \\ \hline P_{0} & P_{01} & P_{02} & \dots & P_{0k} \\ E_{i} & E_{1} & E_{2} & \dots & E_{k} \\ O_{i} & O_{1} & O_{2} & \dots & O_{k} \end{array} \]

Em que observou-se uma amostra de tamanho \(n\). Temos também que \(E_{i}\) é o valor esperado do número de eventos \(i\) sob \(H_{0}\) \[ \mathrm{Freq. Esperada} = E_{i} = P_{0i} \cdot n \]

e \(\mathrm{Freq. Observada} = O_{i}\) é o numero real de eventos \(i\) observados na amostra. A estatística para testar \(H_{0}\) é \[ \chi^2 = \sum^k_{i=1} \frac{(E_{i}-O_{i})^2}{E_{i}} \]

que, sob \(H_0\) - ou seja, sob a hipótese de que \(P_{0}\) é de fato a medida de probabilidade que governa o comportamento probabilístico do evento - é aproximadamente \[ \underbracket{\chi^2 \sim \chi^2_{(k-1)}}_{\mathrm{Sob}~H_{0}} \]

*Esse procedimento é confiável sempre que \(E_{i}>5 \forall i \in \{ 1,\dots,k \}\)

18.1 Exemplo

Considere que queremos verificar se os números sorteados nos concursos da Mega Sena são de fato uniformemente distribuídos. Nesse caso, analisaremos 60 eventos, cuja probabilidade de cada um seria, caso uniformemente distribuídos, \(\frac{1}{60}\). \[ \begin{cases} H_{0}: P = P_{0} \\ H_{1}: P \neq P_{0} \end{cases} \]

Em que \(P_{0}(\{ i \}) = \frac{1}{60} \forall i \in \{ 1,2,\dots 60 \}\)

Vamos criar a tabela para as frequências. Consideraremos a primeira bola de todos os \(2800\) sorteios da Mega. \[ \begin{array}{c|cccc} \mathrm{Eventos} & 1 & 2 & \dots & 60\\ \hline P_{0} & \frac{1}{60} & \frac{1}{60} & \dots & \frac{1}{60} \\ E_{i} & \frac{2800}{60} & \frac{2800}{60} & \dots & \frac{2800}{60} \\ O_{i} & 42 & 48 & \dots & 55 \end{array} \] Portanto, \[ \chi^2 = \sum^{60}_{i} \frac{(46.7 - O_{i})^2}{46.7} \stackrel{a}{\sim} \chi^2_{59} \] Considerando um nível de significância de \(\alpha=5\%\), calculamos o ponto crítico \(c\) tal que \[ P(\chi^2_{59}>c) = 0.05 \]

using Distributions, StatsBase, Random, Plots, LaTeXStrings
# Anal. Aderência
# H0 = P=P0
#
# Mega Sena. Observar apenas o primeior número de cada sorteio

Random.seed!(1)
amostra = sample(1:60, 2800)
O = collect(values(countmap(amostra)))
E = 2800 / 60

chisq = sum([(E - x)^2 / E for x in O])
quantil = quantile(Chisq(59), 0.95)

f(t) = pdf(Chisq(59), t)
plot(f, xlims = (0, 120), label = "", title = L"\chi^2_{59}")
vline!([quantile(Chisq(59), 0.95)], label = L"c = %$(round(quantil, digits=2))")
Precompiling packages...
   4995.4 msStatsBase
    856.7 msPDMats → StatsBaseExt
   6417.5 msDistributions
  3 dependencies successfully precompiled in 13 seconds. 38 already precompiled.
Precompiling packages...
   1157.3 mslibpng_jll
   1622.0 msCairo_jll
   3157.6 msStructUtils
   1453.9 msHarfBuzz_jll
   1734.9 mslibass_jll
   1750.9 msPango_jll
   1694.0 mslibdecor_jll
   2884.1 msFFMPEG_jll
   1910.3 msGLFW_jll
   1347.3 msFFMPEG
   2220.0 msGR_jll
  10348.3 msJSON
   7669.7 msGR
 107926.1 msPlots
  14 dependencies successfully precompiled in 130 seconds. 166 already precompiled.
Precompiling packages...
   1617.0 msQuartoNotebookWorkerJSONExt (serial)
  1 dependency successfully precompiled in 2 seconds
Precompiling packages...
   3652.1 msQuartoNotebookWorkerPlotsExt (serial)
  1 dependency successfully precompiled in 4 seconds

Pelo computador, encontramos \(c = 77.93\) Logo, como \(\chi^2=56.68 < 77.93\), concluímos que, sob \(H_{0}\), não há evidências de que o modelo não seja equiprovável a \(5\%\) de significância de estatística.

18.2 K-Grupos

(Morettin, Pag.404 E.7) Considere os \(n=30\) dados abaixo que supostamente seguem uma distribuição normal \(N(10,25)\). (usando os dados do livro já em ordem) \[ \begin{array}{cccccc} 1.01 & 1.73 & 3.93 & 4.44 & 6.37 & 6.51 \\ \vdots & \vdots & \vdots & \vdots & \vdots & \vdots \\ 14.11 & 14.6 & 14.64 & 14.75 & 16.68 & 22.14 \end{array} \] Queremos testar se os dados de fato se distribuem de acordo com \(N(10,25)\). \[ \begin{cases} H_{0}: P=N(10,25) \\ H_{1}: P\neq N(10,25) \end{cases} \] Sob \(H_{0}\), podemos dividir a distribuição normal em \(k\) blocos. Escolheremos \(k=4\) delimitado pelos quartis teóricos dessa distribuição normal. (Primeiro padronizamos, encontramos os valores pela tabela, então voltamos para nossa normal) \[ \begin{cases} q_{1} = 6.63 \\ q_{2} = 10 \\ q_{3} = 13.3 \end{cases} \stackrel{\mathrm{Intervalos}}{\Rightarrow} \begin{cases} 1.(-\infty, q_{1}) \\ 2.[q_{1},q_{2}] \\ 3.(q_{2},q_{3}] \\ 4.(q_{3},\infty) \end{cases} \] Podemos produzir uma tabela com as frequências por intervalo \[ \begin{array}{c|cccc} \mathrm{Eventos} & 1. & 2. & 3. & 4.\\ \hline E_{i} & 0.25 \cdot 30=7.5 & 7.5 & 7.5 & 7.5 \\ O_{i} & 6 & 9 & 9 & 6 \\ \end{array} \] \[ \chi^2 = \sum^4_{i=1} \frac{(7.5 - O_{i})^2}{7.5} = 1.2 \] Na \(\chi^2_{3}\) (número de nichos), com nível de significância \(\alpha=0.10\), \(c = 6.25\). Como \(\chi^2=1.2<6.25\), concluímos que não há evidências de que a distribuição dos dados difere de uma \(N(10,25)\) a \(\alpha=10\%\) de significância estatística