25  Estatísticas Completas

Dizemos que \(T(\boldsymbol{X}_n)\) é uma estatística completa se, e somente se, existe a função real \(h(\cdot)\) tal que \[ E_\theta(h(T(\boldsymbol{X}_n)) = 0, \forall \theta \in \Theta \] é a função nula quase certamente, isto é, \[ P_\theta(h(T(\boldsymbol{X}_n))=0) = 1, \forall \theta \in \Theta\; \text{ou simplesmente}\ h(T(\boldsymbol{X}_n)) = 0 \mathrm{q.c.} \]

25.1 Exemplo 1 (Bernoulli, Soma)

Seja \(\boldsymbol{X}_n = (X_1,\dots,X_n)\) amostra aleatória de \(X\sim\mathrm{Ber}(\theta)\). Mostre que \(T(\boldsymbol{X}_n) = \sum X_i\) é uma estatistica completa para o modelo.

25.1.1 Resposta

Note que \(T(\boldsymbol{X}_n) \sim \mathrm{Binom}(n,\theta), \theta \in (0,1)\)

\[ P_\theta(T(\boldsymbol{X}_n)= k) \left\{\begin{array}{ll} \binom{n}{k}\theta^k (1-\theta)^{n-k}, & k \in \{0,1,\dots,n\} \\ 0, & \mathrm{c.c.} \end{array}\right. \]

Seja \(h(\cdot)\) uma função real (contradomínio em \(\mathbb{R}\)) tal que \[ \begin{aligned} &E_\theta(h(T(\boldsymbol{X}_n))) = 0,\ \forall \theta \in \Theta = (0,1) \\ \stackrel{\mathrm{a.a.}\ X\sim\mathrm{Ber}}{\iff}&\sum_{k=0}^n h(k) P_\theta(T(\boldsymbol{X}_n) = k) = 0 \\ \iff&\sum h(k) \binom{n}{k}\theta^k (1-\theta)^{n-k}= 0\\ \iff&\sum h(k) \binom{n}{k} \left(\frac{\theta}{(1-\theta)}\right)^k (1-\theta)^n = 0\\ \iff&\sum h(k) \binom{n}{k} \left(\frac{\theta}{(1-\theta)}\right)^k (1-\theta)^n = 0\\ \iff&\sum h(k) \binom{n}{k} \left(\frac{\theta}{(1-\theta)}\right)^k = 0\\ \stackrel{\rho = \frac{\theta}{1-\theta} \in (0,\infty)}{\iff}&\sum h(k) \binom{n}{k} \rho^k = 0, \forall \theta \in \Theta = (0,1), \rho \in (0,\infty). \end{aligned} \]

Observe que, tomando \(a_k = h(k) \binom{n}{k}, k = 0,1,\dots,n\), temos que \[ a_0 \rho^0 + a_1 \rho^1 + \dots + a_n \rho^n = 0,\ \forall \rho \in (0,\infty). \] Por igualdade de polinômios, \[ \left\{ \begin{array}{l} a_0 = 0 \\ \vdots \\ a_n = 0 \end{array}\right. \Rightarrow \left\{ \begin{array}{l} h(0)\binom{n}{0} = 0 \\ \vdots \\ h(n)\binom{n}{n} = 0 \end{array}\right. \Rightarrow \]

Como \(\binom{n}{k}>0\ \forall k \in \{0,1,\dots,n\}\), temos que \(h(k) = 0,\ \forall k \in \{0,1,\dots,n\}\)

\[ \Rightarrow P_\theta(h(T(\boldsymbol{X}_n)) = 0) = 1,\ \forall \theta \in \Theta. \]

Portanto, \(T(\boldsymbol{X}_n)\) é completa para o modelo.

25.2 Exemplo 2 (Uniforme)

Seja \(\boldsymbol{X}_n = (X_1,\dots,X_n)\) a.a. de \(X\sim\mathrm{Unif}(0,\theta),\theta \in \Theta = (0,\infty)\). Mostre que \(T(\boldsymbol{X}_n) = \max\{X_1,\dots,X_n\}\) é uma estatística completa para o modelo.

25.2.1 Resposta

Seja \(h(\cdot)\) uma função tal que \[ E_\theta(h(\boldsymbol{X}_n)) = 0,\ \forall \theta \in \Theta = (0,\infty) \]

Precisamos encontrar a função densidade de probabilidade de \(X_(n)\) (máximo). Sabemos que a f.d.p é a derivada da função de distribuição acumulada. Isto é,

\[ \begin{aligned} P_\theta(X_{(n)} \leq t) &= P_\theta(X_1\leq t, \dots, X_n\leq t)\\ &\stackrel{\mathrm{ind.}}{=} \prod^n_{i=1} P_\theta(X_i\leq t) \stackrel{\mathrm{id}}{=} \prod P_\theta(X\leq t) \\ \Rightarrow P_\theta(X_{(n)} \leq t) &\stackrel{\mathrm{iid}}{=} [P_\theta(X\leq t)]^n \end{aligned} \]

em que \[ P_\theta(X\leq t) = \left\{\begin{array}{ll} 0, & t \leq 0 \\ \frac{t}{\theta}, & t \in (0,\theta] \\ 1,& t > \theta \end{array}\right. \]

Portanto,

\[ \begin{aligned} \frac{d}{dt} P_\theta(X_{(n)} \leq t) &= n [P_\theta(X_{(n)}\leq t)]^{n-1} \frac{d}{dt} P_\theta (X_{(n)} \leq t) \\ \Rightarrow f_\theta^{\boldsymbol{X}_{(n)}}(x) &= \left.\frac{dP_\theta(X_{(n)} \leq t)}{dt} \right\rvert_{t=x} \\ &= n [P_\theta(X_{(n)}\leq x)]^{n-1} f_\theta(x) \\ &= \left\{\begin{array}{ll} n \left(\frac{x}{\theta}\right)^{n-1} \frac{1}{\theta},& x \in (0,\theta] \\ 0, & \mathrm{c.c.} \end{array}\right. \end{aligned} \]

Dessa forma, \[ \begin{aligned} E_\theta(h(X_{(n)})) &= \int^\infty_{-\infty} h(x) f^{\boldsymbol{X}_{(n)}}_\theta (x) dx,\\ &= \int_0^\theta h(x) \cdot n \left(\frac{x}{\theta}\right)^{n-1} \frac{1}{\theta} dx,\ \forall \theta \in \Theta. \end{aligned} \]

Se \[ E_\theta(h(X_{(n)})) = 0,\ \forall \theta \in \Theta \] então \[ \begin{aligned} &\int_0^\theta h(x) \cdot n \left(\frac{x}{\theta}\right)^{n-1} \frac{1}{\theta} dx = 0,\forall \theta > 0 \\ \iff & \frac{n}{\theta^n} \int_0^\theta h(x) x^{n-1} dx = 0,\ \forall \theta > 0 \\ \iff & \int_0^\theta h(x) x^{n-1} dx = 0,\ \forall \theta > 0. \end{aligned} \]

Pelo Teorema Fundamental do Cálculo: \(\frac{d}{dt} \int^t_a f(x)dx = f(t)\), temos que

\[ \begin{aligned} & \frac{d}{d\theta} \int_0^\theta h(x) x^{n-1} dx = 0 \\ \stackrel{\mathrm{TFC}}{\Rightarrow}& h(\theta)\theta^{n-1} = 0 \\ \iff& h(\theta) = 0, \forall \theta > 0. \end{aligned} \]

Ou seja, \(h(x)= 0,\forall x > 0\). Portanto, \(h\) é a função nula quase certamente. Logo, \(X_{(n)}\) é completa para o modelo.

25.3 Exemplo negativo (Bernoulli, amostra)

Seja \(\boldsymbol{X}_n\) amostra aleatória de \(X\sim\mathrm{Ber}(\theta),\theta \in \Theta=(0,1)\). Mostre que \(T(\boldsymbol{X}_n) = \boldsymbol{X}_n\) é suficiente porém não é completa para o modelo.

25.3.1 Resposta

Pelo critério da fatoração, já sabemos que \(\boldsymbol{X}_n\) é suficiente para o modelo. Tome \[ E_\theta(h(T(\boldsymbol{X}_n)) = E_\theta(X_1 - X_2) = \theta - \theta = 0, \forall \theta \in \Theta. \]

Portanto, \(T(\boldsymbol{X}_n)\) não é completa para o modelo.

25.4 Teorema 1 (da relação de ida com estatísticas suficientes minimais)

Toda estatística suficiente e completa é também suficiente minimal para o modelo estatístico.

25.5 Teorema 2 (da relação de volta com estatísticas suficientes minimais)

Se existir uma estatística suficiente e completa, então toda estatística suficiente minimal será também completa.

25.5.1 Exemplo negativo (Normal curvada)

Seja \(\boldsymbol{X}_n\) a.a. de \(X\sim\mathrm{N}(\theta,\theta^2), \theta \in \Theta = (0,\infty)\). Mostre que \(T(\boldsymbol{X}_n) = (\sum X_i, \sum X_i^2)\) não é completa para o modelo.

25.5.1.1 Resposta

Note que \[ \begin{aligned} E_\theta(\sum X_i) &= n\theta, \forall \theta \in \Theta \\ E_\theta(\sum X_i^2) &\stackrel{\mathrm{iid}}{=} n E_\theta(X^2) = n(\theta^2+ \theta^2) = 2n\theta^2 \\ \Rightarrow E_\theta(T(\boldsymbol{X})n) = (n\theta, 2n\theta^2) \end{aligned} \]

Tentativas para encontrar \(h(\cdot)\).

\[ \begin{aligned} E_\theta\left(\left(\sum X_i\right)^2\right) &= E_\theta\left(\sum_{i=1}^n \sum_{j=1}^n X_i X_j\right) \\ &= \sum_{i=1}^n \sum_{j=1}^n E_\theta(X_i\cdot X_j) \\ &= \sum_{i=1}^n E(X_i^2) + \underset{i\neq j}{\sum \sum} E_\theta(X_i X_j) \\ &\stackrel{\mathrm{ind}}{=} 2n\theta^2 + \underset{i\neq j}{\sum \sum} E_\theta(X_i)E_\theta(X_j) \\ &\stackrel{\mathrm{id}}{=} 2n\theta^2 + \underset{i\neq j}{\sum \sum} [E_\theta(X)]^2 \\ &= 2n\theta^2 + (n^2-n)\theta^2 \\ &= (2n + n^2 -n)\theta^2 \\ &= (n^2 +n)\theta^2. \end{aligned} \]

Ou seja,

\[ E_\theta\left(\frac{(\sum X_i)^2}{n^2 + n}\right) = \theta^2, \forall \theta \in \Theta. \]

Note ainda que \[ E_\theta\left(\frac{\sum X_i^2}{2n}\right) = \theta^2, \forall \theta \in \Theta. \]

Logo, tome \[ h(T(\boldsymbol{X}_n)) = \frac{T_1(\boldsymbol{X}_n)^2}{n^2+n} - \frac{T_2(\boldsymbol{X}_n)}{2n} \] em que \[ \begin{aligned} T_1(\boldsymbol{X}_n) = \sum X_i \\ T_2(\boldsymbol{X}_n) = \sum X_i^2. \end{aligned} \]

Como \(E_\theta(h(T(\boldsymbol{X}_n)) = 0, \forall \theta > 0\), concluímos que \(T(\boldsymbol{X}_n)\) não é conpleta.

Nem toda SM é completa!

Já demonstramos que \(T(\boldsymbol{X}_n)\) é SM. Portanto, nem toda estatística SM é também completa. Dessa forma, pelo Teorema 2, concluímos que não existe uma estatística completa para o modelo.

25.6 Teorema 3 (da relação com a família exponencial)

Seja \(\boldsymbol{X}_n\) a.a. de \(X\sim f_\theta, \theta \in \Theta\), em que \(f_\theta\) pertence à família exponencial k-dimensional. Se “couber” um “retângulo” k-dimensional no conjunto \[ \mathcal{C} = \{(c_1(\theta),\dots,c_k(\theta) : \theta \in \Theta \}, \] em que \(c_i\) representa a \(i\)-ésima componente \(c\) obtida do pertencimento à família exponencial. Então a estatística \[ T(\boldsymbol{X}_n) = \left(\sum T_1(\boldsymbol{X}_n),\dots,\sum T_k(\boldsymbol{X}_n)\right), \] em que \(T_i\) representa a \(i\)-ésima componente \(T\) obtida do pertencimento à FE, é suficiente e completa para o modelo.

Se \(k=1\), então \(\mathcal{C}\) deve conter um intervalo (aberto). Se \(k=2\), \(\mathcal{C}\) deve conter o interior de um retângulo. Se \(k=3\), então deve conter o interior de um cubo, e assim por diante.

25.6.1 Exemplo (Normal livre)

Seja \(\boldsymbol{X}_n\) a.a. de \(X\sim\mathrm{N}(\mu,\sigma^2), \theta=(\mu,\sigma^2)\in\Theta = \mathbb{R}\times\mathbb{R}^+\). Mostre que \(T(\boldsymbol{X}_n) = (\sum X_i, \sum X_i^2)\) é suficiente e completa para o modelo.

25.6.1.1 Resposta

Note que \[ f_\theta(x) = \mathrm{e}^{c_1(\theta)T_1(x)+c_2(\theta)T_2(x) + d(\theta) + S(x)} \] em que \[ \begin{array}{cc} c_1(\theta) = -\frac{1}{2\sigma^2} & T_1(x) = X^2 \\ c_2(\theta) = \frac{\mu}{\sigma^2} & T_2(x) = x \\ d(\theta) = -\frac{\mu^2}{2\sigma^2} - \frac{1}{2}\ln(2\pi\sigma^2) & S(x) = 0. \end{array} \]

Observe também que \[ \mathcal{C} =\left \{(c_1(\theta),c_2(\theta)) : \theta \in \Theta\right\} = \left\{\left(-\frac{1}{2\sigma^2}, \frac{\mu}{\sigma^2}\right)\right\} \]

Ou seja \[ \mathcal{C} = \mathbb{R}^-\times\mathbb{R} \]

Tome, por exemplo, \[ (-2,-1)\times(1,2) \subseteq \mathcal{C} \]

Logo, concluímos que \[ T'(\boldsymbol{X}_n) = (\sum X_i^2, \sum X_i) \] é suficiente e completa para o modelo. Como \(T(\boldsymbol{X}_n)=(\sum X_i, \sum X_i^2)\) é função injetora (1:1) de \(T'(\boldsymbol{X}_n)\), concluímos que \(T(\boldsymbol{X}_n)\) também é suficiente e completa.

25.6.2 Exemplo (Exponencial)

Seja \(\boldsymbol{X}_n\) a.a. de \(X\sim\mathrm{Exp}(\theta), \theta\in\Theta = (0,\infty)\). Encontre uma estatística suficiente e completa.

25.6.2.1 Resposta

Note que \[ f_\theta(x) = \begin{array}{ll} \theta \mathrm{e}^{-\theta x}, & x > 0\\ 0, & \mathrm{c.c.} \end{array} \]

Já mostramos que pertence à FE com \(c_1(\theta) = -\theta\), e \(T_1(x) = x\). Note que \[ \mathcal{C} = \{c_1(\theta) : \theta \in \Theta\} = (-\infty,0) \]

Como \((-1,-0.5) \subseteq \mathcal{C}\), concluímos que \(\sum T_1(X_i)\) é, pelo Teorema 3, suficiente e completa.

25.6.3 Exemplo negativo (Normal curvada)

Seja \(\boldsymbol{X}_n\) a.a. de \(X\sim\mathrm{N}(\theta,\theta^2), \theta\in\Theta = \mathbb{R}^+\). Verifique se o conjunto \(\mathcal{C} = \{(c_1(\theta),c_2(\theta)) : \theta \in \mathbb{R}^+\).

25.6.3.1 Resposta

Note que \[ f_\theta(x) = \frac{1}{\sqrt{2\pi\theta^2}} \mathrm{exp}\left\{-\frac{1}{2\theta^2} (x^2 - 2x\theta + \theta^2)\right\} \]

Tomando \[ \begin{array}{cc} c_1(\theta) = -\frac{1}{2\theta^2} & T_1(x) = x^2 \\ c_2(\theta) = \frac{1}{\theta} & T_2(x) = x \\ d(\theta) = -\ln(\sqrt{2\pi\theta^2}) & S(x) = -\frac{1}{2} \end{array} \]

Logo \[ \mathcal{C} = \{(c_1(\theta),c_2(\theta)):\theta>0\} = \left\{\left(-\frac{1}{2\theta^2},\frac{1}{\theta}\right)\right\} \]

Como \(c_1(\theta)\) e \(c_2(\theta)\) estão relacionados funcionalmente (podemos escrever \(c_1(\theta)\) como função de \(c_2(\theta)\), temos uma curva ao invés de uma área e, portanto, não é possível encontrar um retângulo cujo interior esteja contido em \(\mathcal{C}\).

Note que esse teorema não diz se não há uma estatística completa. Para isso, é necessário testar as estatísticas pela definição