8  Erro quadrático médio (EQM)

O erro quadrático médio (EQM) do estimador \(T(X_{1},\dots,X_{n})\) com respeito a \(g(\theta)\) é definido por \[ \mathrm{EQM}(T,g(\theta))=E_{\theta}((T(X_{1},\dots,X_{n})-g(\theta))^{2}) \]

Observação

Se \(T(X_{1},\dots,X_{n})\) for não viciado para \(g(\theta)\), então \[\mathrm{EQM}(T,g(\theta))=\mathrm{Var}_{\theta}(T(X_{1},\dots,X_{n})) \forall \theta \in \Theta\]

8.1 Propriedades do EQM

Seja \(T(X_{1},\dots,X_{n})\) um estimador para \(g(\theta)\), seja \(\mu_{t} = E_\theta(T(X_{1},\dots,X_{n}))\) \[ \begin{aligned} &\mathrm{EQM}(T,g(\theta))\\ &=E_\theta[(T(X_{1},\dots,X_{n})-\mu_{t}+\mu_{t}-g(\theta))^{2}] \\ \\ &= E_\theta[((T(X_{1},\dots,X_{n})- \mu_{t})+ (\mu_{t}-g(\theta)))^{2}] \\ & = E_\theta[(T(X_{1},\dots,X_{n})-\mu_{t})^{2}+2(T(X_{1},\dots,X_{n})-\mu_{t})(\mu_{t}g(\theta))+(\mu_{t}- g(\theta))^{2}] \\ &= \overbrace{E_\theta[(T(X_{1},\dots,X_{n})-\mu_{t})^{2}]}^{\mathrm{Var}_{\theta}(T(X_{1},\dots,X_{n}))} + 2(\mu_{t} - g(\theta))\cancelto{0}{E_\theta(T(X_{1},\dots,X_{n})-\mu_{t})} + (\mu_{t}-g(\theta))^{2} \\ &=\mathrm{Var}_\theta(T(X_{1},\dots,X_{n})) + (\mu_{t}-g(\theta))^{2} \end{aligned} \]

Portanto, \[ \mathrm{EQM}(T,g(\theta)) = \mathrm{Var}_\theta(T(X_{1},\dots,X_{n})) + (\mu_{t}-g(\theta))^{2} \]

8.2 Viés

Denotamos de viés de \(T(X_{1},\dots,X_{n})\) com respeito a \(g(\theta)\) por \[ \mathrm{Viés}(T,g(\theta)) = E_\theta(T(X_{1},\dots,X_{n}))-g(\theta),\forall \theta \in \Theta \]

Dessa forma, temos que \[ \mathrm{EQM}(T,g(\theta)) = \mathrm{Var}_\theta(T(X_{1},\dots,X_{n})) + [\mathrm{Viés}(T(X_1,\dots,X_n),g(\theta))]^{2} \]

8.3 Exemplo do viés da variância

Seja \((X_{1},\dots,X_{n})\) uma amostra aleatória, ou seja, independentes e identicamente distribuídas (i.i.d.), de \(X\sim f(\theta), \theta \in \Theta\). Calcule o viés de \(T(\boldsymbol{X})\) com respeito a \(g(\theta)=\mathrm{Var}_\theta(X)\) em que \[ T(\boldsymbol{X}) = \frac{1}{n} \sum^n_{i=1} (X_i - \bar{X})^2 \]

é um estimador para a variância de \(X\).

8.3.1 Resolução

Iniciaremos calculando o viés do estimador.

\[ \begin{aligned} \mathrm{Viés}(T,g(\theta)) &= E_\theta(T(\boldsymbol{X})) - g(\theta) \\ &= \frac{1}{n} E_\theta[\sum^n_{i=1}(X_i - \bar{X})^2] - g(\theta) \\ &= \frac{1}{n} E_\theta[\sum^n_{i=1} X_i^2 - 2\bar{X} \sum^n_{i=1}X_i + n\bar{X}^2] - g(\theta) \\ &= \frac{1}{n} E_\theta[\sum^n_{i=1} X_i^2 - 2n\bar{X}^2 + n\bar{X}^2] - g(\theta) \\ &= \frac{1}{n} E_\theta[\sum^n_{i=1} X_i^2 - n\bar{X}^2] - g(\theta) \\ &= \frac{1}{n} \left(\sum^n_{i=1} E_\theta(X_i^2) - nE_\theta(\bar{X}^2)\right) - g(\theta) \\ &= \frac{1}{n} \left[\sum^n_{i=1} (\mathrm{Var}_\theta(X_i) + E_\theta(X_i)^2) - nE_\theta(\bar{X}^2)\right] - g(\theta) \\ &= \frac{1}{n} \left[\sum^n_{i=1} \mathrm{Var}_\theta(X_i) + E_\theta(X_i)^2 - n\left(\frac{\mathrm{Var}_\theta(X)}{n} + E_\theta(X)^2\right)\right] - g(\theta) \\ &\stackrel{id. dist.}{=} \frac{1}{n} \left[n \mathrm{Var}_\theta(X) + nE_\theta(X)^2 - \mathrm{Var}_\theta(X) - n E_\theta(X_i)^2\right] - g(\theta) \\ &= \frac{(n-1) \mathrm{Var}_\theta(X)}{n} - \mathrm{Var}_\theta(X) \\ &= -\frac{\mathrm{Var}_\theta(X)}{n} \end{aligned} \tag{8.1}\]

Para, por exemplo, \(X \sim \mathrm{Poisson}(\theta)\),

\[ \mathrm{Viés}(T,g(\theta)) = - \frac{\theta}{n}, \forall \theta \in \Theta. \]

Disso, temos que este estimador subestima, em média, a variância real.

Nota

Segue dos cálculos acima que este é um estimador enviesado para a variância. Este pode ser um resultado um pouco surpreendente, já que é um estimador natural para esta, uma vez que é similar a como calculamos a variância no cálculo de probabilidades.

De fato, este, apesar de enviesado, é um estimador importante. Estudaremos mais sobre ele quando falarmos de estimadores de máxima verossimilhança.

Podemos facilmente obter um estimador não enviesado para a variância a partir dos resultados anteriores. Reescrevemos a penúltima linha da Equação 8.1:

\[ \mathrm{Viés}(T,g(\theta)) = \frac{(n-1) \mathrm{Var}_\theta(X)}{n} - \mathrm{Var}_\theta(X) \]

Se conseguirmos igualar, através de uma transformação, \(\frac{(n-1) \mathrm{Var}_\theta(X)}{n}\) com \(g(\theta) = \mathrm{Var}_\theta(X)\), teremos um viés de 0.

Para isso, basta multiplicar o estimador por \(\frac{n}{n-1}\): \[ s^2 = \frac{n}{n-1}T(X) = \frac{1}{n-1} \sum^n_{i=1} (X_i - \bar{X})^2 \]

Seguindo os cálculos como antes, chegamos em: \[ \begin{aligned} \mathrm{Viés}(s^2,g(\theta)) &= \frac{(n-1) \mathrm{Var}_\theta(X)}{n-1} - \mathrm{Var}_\theta(X) \\ &= \mathrm{Var}_\theta(X) - \mathrm{Var}_\theta(X) = 0, \forall \theta \in \Theta. \end{aligned} \]

\(s^2\) é, portanto, o estimador não enviesado para a variância de \(X\). Este estimador é também conhecido como a variância amostral. \(T\), normalmente escrito como \(s^2_n\) é conhecido como o estimador para variância populacional.

Para comparar \(s^2\) com \(s^2_n\), tente calcular o EQM. O que você observa? O estimador não enviesado apresenta menor EQM? Por quê?

8.4 Exemplo do EQM da média

Seja \((X_{1},\dots,X_{n})\) uma amostra aleatória, ou seja, independentes e identicamente distribuídas (i.i.d.), de \(X\sim \mathrm{Ber}(\theta)\) em que \(\theta \in \Theta = (0,1)\). Calcule o viés e o EQM de \(\bar{X}_{n}\) com respeito a \(g(\theta)=P_\theta(X=1)\)

8.4.1 Resolução

O estimador é, então, \(T(X_{1},\dots,X_{n})=\bar{X}_{n}= \frac{X_{1}+\dots+X_{n}}{n}\) para \(g(\theta)=P_\theta(X=1)=\theta\) (pelo modelo de Bernoulli). \[ \begin{aligned} E_\theta(\bar{X}_{n}) &= E_\theta\left(\frac{1}{n}\sum\limits^{n}_{i=1}X_{i}\right)= \frac{1}{n}\sum\limits^{n}_{i=1}E_\theta(X_{i}) \stackrel{id. dist.}{\Rightarrow} \\ E_\theta(\bar{X}_{n}) &= \frac{1}{n} \sum\limits^{n}_{i=1} E_\theta(X) \\ & = \frac{n}{n} \theta = \theta, \forall \theta \in \Theta \end{aligned} \]

Portanto, \(\bar{X}_{\theta, n}\) é não enviesado para \(g(\theta) = \theta\). \[ \Rightarrow \mathrm{Viés}(\bar{X}_{n}, g(\theta)) = 0, \forall \theta \in \Theta \]

Para o EQM, \[ \begin{aligned} \mathrm{EQM}(\bar{X}_{n},g(\theta)) &= \mathrm{Var}_\theta(\bar{X}_{n}) - 0^{2} = \mathrm{Var}_\theta \left(\frac{1}{n}\sum\limits^{n}_{i=1}X_{i}\right)= \frac{1}{n^{2}}\mathrm{Var}_\theta\left(\sum\limits^{n}_{i=1}X_{i}\right)\\ & \stackrel{\text{ind}}{=} \frac{1}{n^{2}}\sum\limits ^{n}_{i=1}\mathrm{Var}_\theta(X_{i}) \stackrel{\text{ind. dist.}}{=} \frac{1}{n^{2}} \sum\limits^{n}_{i=1}\mathrm{Var}_{\theta}(X), \\ &= \frac{n \theta(1-\theta)}{n^{2}} = \frac{\theta(1-\theta)}{n}, \forall \theta \in \Theta \end{aligned} \]