18 Teste Qui-Quadrado e análise de aderência

A análise de aderência testa a distribuição dos dados: \[ \begin{cases} H_{0}: P= P_{0} \\ H_{1}: P \neq P_{0} \end{cases} \] Em que \(P_{0}\) é a medida de probabilidade especificada que governaria (sob \(H_0\)) os eventos observados.

Neste teste co,paramos a frequência observada com a frequência esperada em \(k\) eventos disjuntos e distintos observáveis. \[ \begin{array}{c|cccc} \text{Eventos} & 1 & 2 & \dots & k \\ \hline P_{0} & P_{01} & P_{02} & \dots & P_{0k} \\ E_{i} & E_{1} & E_{2} & \dots & E_{k} \\ O_{i} & O_{1} & O_{2} & \dots & O_{k} \end{array} \]

Em que observou-se uma amostra de tamanho \(n\). Temos também que \(E_{i}\) é o valor esperado do número de eventos \(i\) sob \(H_{0}\) \[ \mathrm{Freq. Esperada} = E_{i} = P_{0i} \cdot n \]

e \(\mathrm{Freq. Observada} = O_{i}\) é o numero real de eventos \(i\) observados na amostra. A estatística para testar \(H_{0}\) é \[ \chi^2 = \sum^k_{i=1} \frac{(E_{i}-O_{i})^2}{E_{i}} \]

que, sob \(H_0\) - ou seja, sob a hipótese de que \(P_{0}\) é de fato a medida de probabilidade que governa o comportamento probabilístico do evento - é aproximadamente \[ \underbracket{\chi^2 \sim \chi^2_{(k-1)}}_{\mathrm{Sob}~H_{0}} \]

*Esse procedimento é confiável sempre que \(E_{i}>5 \forall i \in \{ 1,\dots,k \}\)

18.1 Exemplo

Considere que queremos verificar se os números sorteados nos concursos da Mega Sena são de fato uniformemente distribuídos. Nesse caso, analisaremos 60 eventos, cuja probabilidade de cada um seria, caso uniformemente distribuídos, \(\frac{1}{60}\). \[ \begin{cases} H_{0}: P = P_{0} \\ H_{1}: P \neq P_{0} \end{cases} \]

Em que \(P_{0}(\{ i \}) = \frac{1}{60} \forall i \in \{ 1,2,\dots 60 \}\)

Vamos criar a tabela para as frequências. Consideraremos a primeira bola de todos os \(2800\) sorteios da Mega. \[ \begin{array}{c|cccc} \mathrm{Eventos} & 1 & 2 & \dots & 60\\ \hline P_{0} & \frac{1}{60} & \frac{1}{60} & \dots & \frac{1}{60} \\ E_{i} & \frac{2800}{60} & \frac{2800}{60} & \dots & \frac{2800}{60} \\ O_{i} & 42 & 48 & \dots & 55 \end{array} \] Portanto, \[ \chi^2 = \sum^{60}_{i} \frac{(46.7 - O_{i})^2}{46.7} \stackrel{a}{\sim} \chi^2_{59} \] Considerando um nível de significância de \(\alpha=5\%\), calculamos o ponto crítico \(c\) tal que \[ P(\chi^2_{59}>c) = 0.05 \]

Pelo computador, encontramos \(c = 77.93\) Logo, como \(\chi^2=56.68 < 77.93\), concluímos que, sob \(H_{0}\), não há evidências de que o modelo não seja equiprovável a \(5\%\) de significância de estatística.

18.2 K-Grupos

(Morettin, Pag.404 E.7) Considere os \(n=30\) dados abaixo que supostamente seguem uma distribuição normal \(N(10,25)\). (usando os dados do livro já em ordem) \[ \begin{array}{cccccc} 1.01 & 1.73 & 3.93 & 4.44 & 6.37 & 6.51 \\ \vdots & \vdots & \vdots & \vdots & \vdots & \vdots \\ 14.11 & 14.6 & 14.64 & 14.75 & 16.68 & 22.14 \end{array} \] Queremos testar se os dados de fato se distribuem de acordo com \(N(10,25)\). \[ \begin{cases} H_{0}: P=N(10,25) \\ H_{1}: P\neq N(10,25) \end{cases} \] Sob \(H_{0}\), podemos dividir a distribuição normal em \(k\) blocos. Escolheremos \(k=4\) delimitado pelos quartis teóricos dessa distribuição normal. (Primeiro padronizamos, encontramos os valores pela tabela, então voltamos para nossa normal) \[ \begin{cases} q_{1} = 6.63 \\ q_{2} = 10 \\ q_{3} = 13.3 \end{cases} \stackrel{\mathrm{Intervalos}}{\Rightarrow} \begin{cases} 1.(-\infty, q_{1}) \\ 2.[q_{1},q_{2}] \\ 3.(q_{2},q_{3}] \\ 4.(q_{3},\infty) \end{cases} \] Podemos produzir uma tabela com as frequências por intervalo \[ \begin{array}{c|cccc} \mathrm{Eventos} & 1. & 2. & 3. & 4.\\ \hline E_{i} & 0.25 \cdot 30=7.5 & 7.5 & 7.5 & 7.5 \\ O_{i} & 6 & 9 & 9 & 6 \\ \end{array} \] \[ \chi^2 = \sum^4_{i=1} \frac{(7.5 - O_{i})^2}{7.5} = 1.2 \] Na \(\chi^2_{3}\) (número de nichos), com nível de significância \(\alpha=0.10\), \(c = 6.25\). Como \(\chi^2=1.2<6.25\), concluímos que não há evidências de que a distribuição dos dados difere de uma \(N(10,25)\) a \(\alpha=10\%\) de significância estatística