Curso de Verão em Estatística · PPGOM / UFPel

Seção 5

Propriedades de Amostras Aleatórias

Prof. Regis A. Ely · Programa de Pós-Graduação em Organizações e Mercados
Referência: Casella & Berger, Statistical Inference, Cap. 5

5.1

Amostras Aleatórias

5.2

Estatísticas: Média e Variância Amostral

5.3

Amostragem da Distribuição Normal

5.4

Conceitos de Convergência e TLC

§ 5.1

Amostra Aleatória

Definição — Amostra Aleatória

As variáveis aleatórias $X_1,\dots,X_n$ são uma amostra aleatória de tamanho $n$ da população $f(x)$ se são mutuamente independentes e cada $X_i$ tem a mesma pmf/pdf $f(x)$.

Dizemos que $X_1,\dots,X_n$ são iid (independentes e identicamente distribuídas) com pmf/pdf $f(x)$.

Distribuição Conjunta da Amostra

Por independência, a pdf/pmf conjunta é simplesmente o produto das marginais:

$$f(x_1,\dots,x_n)=\prod_{i=1}^{n}f(x_i)$$

Para famílias paramétricas, usa-se a notação $f(x|\theta)$.

Como construir uma amostra aleatória?

Com reposição: sortear $n$ elementos de uma população finita de tamanho $N$ com probabilidades iguais ($1/N$) — garante independência.

Sem reposição: $X_1,\dots,X_n$ não são independentes, mas para $N$ grande a amostra se aproxima de uma amostra aleatória.

Exemplos (C&B 5.1.2, 5.1.3)

Normal: $X_1,\dots,X_n\overset{iid}{\sim}N(\mu,\sigma^2)$. Distribuição conjunta: produto de $n$ densidades normais.
Exponencial: $X_1,\dots,X_n\overset{iid}{\sim}\text{Exp}(\beta)$. A soma $\sum X_i\sim\text{Gama}(n,\beta)$.
Bernoulli: $X_1,\dots,X_n\overset{iid}{\sim}\text{Bern}(p)$. A soma $\sum X_i\sim\text{Bin}(n,p)$.

Intuição fundamental: ao colhermos uma amostra, cada observação $x_i$ é uma realização da mesma distribuição $f(x|\theta)$, e observações distintas não se influenciam mutuamente.

§ 5.2

Estatísticas

Definição — Estatística

Seja $X_1,\dots,X_n$ uma amostra aleatória e $T(x_1,\dots,x_n)$ uma função real cujo domínio inclui o espaço amostral de $(X_1,\dots,X_n)$. Então $Y=T(X_1,\dots,X_n)$ é chamada de estatística.

A distribuição de probabilidade de $Y$ é a distribuição amostral de $Y$.

Importante: uma estatística é função apenas da amostra — nunca dos parâmetros desconhecidos da distribuição.

Definição — Média Amostral

$$\bar{X}=\frac{X_1+\cdots+X_n}{n}=\frac{1}{n}\sum_{i=1}^{n}X_i$$

Definição — Variância Amostral

$$S^2=\frac{1}{n-1}\sum_{i=1}^{n}(X_i-\bar{X})^2$$

O desvio-padrão amostral é $S=\sqrt{S^2}$. Note o uso de $n-1$ no denominador.

Teorema — Propriedade da Variância Amostral

Para quaisquer números $x_1,\dots,x_n$ com média $\bar{x}$:

a

$\displaystyle\min_{a}\sum_{i=1}^{n}(x_i-a)^2=\sum_{i=1}^{n}(x_i-\bar{x})^2$ (a média minimiza os desvios quadráticos)

b

$(n-1)s^2=\displaystyle\sum_{i=1}^{n}(x_i-\bar{x})^2=\sum_{i=1}^{n}x_i^2-n\bar{x}^2$

Teorema — Esperança e Variância das Estatísticas

Seja $X_1,\dots,X_n$ amostra de população com média $\mu$ e variância $\sigma^2 < \infty$. Então:

a

$E\bar{X}=\mu$ — $\bar{X}$ é estimador não viesado de $\mu$

b

$\text{Var}\,\bar{X}=\dfrac{\sigma^2}{n}$ — variância decresce com $n$

c

$ES^2=\sigma^2$ — $S^2$ é estimador não viesado de $\sigma^2$

Simulação — § 5.2

Distribuição Amostral de $\bar{X}$ — Lei dos Grandes Números

Experimento

Gerar amostras de tamanho $n$ de uma população e calcular $\bar{X}$. Observar como a distribuição amostral muda com $n$.

Distribuição:

Tamanho $n$: 1

$\mu$ pop.

—

$E[\bar{X}]$ sim.

—

$\text{Var}[\bar{X}]$ sim.

—

À medida que $n$ cresce: (1) $E[\bar{X}]=\mu$ permanece constante; (2) $\text{Var}[\bar{X}]=\sigma^2/n\to0$; (3) a forma se aproxima de uma Normal pelo TLC.

§ 5.3

Amostragem da Distribuição Normal

Teorema — Distribuição de $\bar{X}$ e $S^2$

Seja $X_1,\dots,X_n\overset{iid}{\sim}N(\mu,\sigma^2)$. Então:

a

$\bar{X}$ e $S^2$ são variáveis aleatórias independentes

b

$\bar{X}\sim N\!\left(\mu,\,\dfrac{\sigma^2}{n}\right)$, portanto $\dfrac{\bar{X}-\mu}{\sigma/\sqrt{n}}\sim N(0,1)$

c

$\dfrac{(n-1)S^2}{\sigma^2}\sim\chi^2(n-1)$

MGF da Média Amostral

Seja $X_1,\dots,X_n$ amostra com mgf $M_X(t)$. Então:

$$M_{\bar{X}}(t)=\left[M_X\!\left(\tfrac{t}{n}\right)\right]^n$$

Definição — Distribuição $t$ de Student

Como $\sigma$ geralmente é desconhecido, usa-se a distribuição $t$ de Student:

$$\frac{\bar{X}-\mu}{S/\sqrt{n}}\sim t_{n-1}$$

A pdf de $T\sim t_p$ é:

$$f_T(t)=\frac{\Gamma\!\left(\frac{p+1}{2}\right)}{\Gamma\!\left(\frac{p}{2}\right)}\cdot\frac{1}{(p\pi)^{1/2}}\cdot\frac{1}{\left(1+t^2/p\right)^{(p+1)/2}}$$

$E[T_p]=0$ se $p>1$; $\text{Var}[T_p]=\dfrac{p}{p-2}$ se $p>2$.

Definição — Distribuição $F$

Razão de variâncias amostrais de duas populações normais independentes:

$$F=\frac{S_X^2/\sigma_X^2}{S_Y^2/\sigma_Y^2}\sim F_{n-1,\,m-1}$$

Relação: se $X\sim t_q$, então $X^2\sim F_{1,q}$. $E[F_{n-1,m-1}]=\dfrac{m-1}{m-3}$.

Simulação — § 5.3

Distribuição $t$ de Student vs. Normal Padrão

Por que o $t$ de Student?

Quando $\sigma$ é desconhecido, substituímos $\sigma$ por $S$ no estadístico. A razão:

$$\frac{\bar{X}-\mu}{S/\sqrt{n}}=\frac{\overbrace{(\bar{X}-\mu)/(\sigma/\sqrt{n})}^{N(0,1)}}{\underbrace{\sqrt{S^2/\sigma^2}}_{\sqrt{\chi^2_{n-1}/(n-1)}}}$$

O resultado é uma razão de $N(0,1)$ por $\sqrt{\chi^2_{p}/p}$, independentes — exatamente a definição de $t_p$.

Graus de liberdade $p$: 3

$E[T_p]$

0

$\text{Var}[T_p]$

—

$t_{0.975}$

—

Conforme $p\to\infty$, $t_p\to N(0,1)$ (caudas mais pesadas para $p$ pequeno).

§ 5.4

Convergência em Probabilidade e Lei Fraca dos Grandes Números

Definição — Convergência em Probabilidade

Uma sequência $X_1,X_2,\dots$ converge em probabilidade para $X$ se para cada $\varepsilon>0$:

$$\lim_{n\to\infty}P(|X_n-X|\geq\varepsilon)=0$$

Notação: $X_n\xrightarrow{P}X$. Equivalentemente: $\lim_{n\to\infty}P(|X_n-X|<\varepsilon)=1$.

Teorema — Lei Fraca dos Grandes Números

Sejam $X_1,X_2,\dots$ variáveis iid com $EX_i=\mu$ e $\text{Var}\,X_i=\sigma^2<\infty$. Então para todo $\varepsilon>0$:

$$\lim_{n\to\infty}P\!\left(|\bar{X}_n-\mu|<\varepsilon\right)=1$$

Ou seja, $\bar{X}_n\xrightarrow{P}\mu$. A média amostral é um estimador consistente de $\mu$.

Prova: aplicar Desigualdade de Chebyshev: $P(|\bar{X}_n-\mu|\geq\varepsilon)\leq\dfrac{\sigma^2}{n\varepsilon^2}\to0$.

Teorema — Continuidade da Convergência

Se $X_n\xrightarrow{P}X$ e $h$ é uma função contínua, então:

$$h(X_n)\xrightarrow{P}h(X)$$

Definição — Convergência Quase Certa

$X_n$ converge quase certamente para $X$ se para cada $\varepsilon>0$:

$$P\!\left(\lim_{n\to\infty}|X_n-X|<\varepsilon\right)=1$$

Notação: $X_n\xrightarrow{q.c.}X$. Convergência mais forte que a convergência em probabilidade.

Teorema — Lei Forte dos Grandes Números

Sob as mesmas condições da Lei Fraca:

$$P\!\left(\lim_{n\to\infty}|\bar{X}_n-\mu|<\varepsilon\right)=1$$

Ou seja, $\bar{X}_n\xrightarrow{q.c.}\mu$. A convergência quase certa implica convergência em probabilidade (não o contrário).

Hierarquia: Conv. quase certa $\Rightarrow$ Conv. em probabilidade $\Rightarrow$ Conv. em distribuição.

§ 5.4

Convergência em Distribuição e Teorema do Limite Central

Definição — Convergência em Distribuição

$X_n$ converge em distribuição para $X$ se para todos os pontos $x$ onde $F_X$ é contínua:

$$\lim_{n\to\infty}F_{X_n}(x)=F_X(x)$$

Notação: $X_n\xrightarrow{D}X$. Convergência em probabilidade $\Rightarrow$ convergência em distribuição.

Teorema do Limite Central (TLC)

Seja $X_1,X_2,\dots$ sequência iid com mgf existente em vizinhança de $0$, $EX_i=\mu$, $\text{Var}\,X_i=\sigma^2>0$. Seja $G_n(x)$ a cdf de $\sqrt{n}(\bar{X}_n-\mu)/\sigma$. Então:

$$\lim_{n\to\infty}G_n(x)=\int_{-\infty}^{x}\frac{1}{\sqrt{2\pi}}e^{-y^2/2}\,dy$$

Ou seja, $\sqrt{n}(\bar{X}_n-\mu)/\sigma\xrightarrow{D}N(0,1)$.

Forma Forte do TLC

Não requer a existência da mgf — basta $EX_i=\mu$ e $0<\sigma^2<\infty$. O mesmo resultado vale:

$$\sqrt{n}\,\frac{\bar{X}_n-\mu}{\sigma}\xrightarrow{D}N(0,1)$$

Por que o TLC é tão poderoso?

Independente da distribuição original de $X_i$ (Normal, Exponencial, Bernoulli...), a média amostral padronizada sempre converge para $N(0,1)$ conforme $n\to\infty$.

Hierarquia dos Conceitos de Convergência

Convergência Quase Certa (q.c.)

$P(\lim|X_n-X|<\varepsilon)=1$ — mais forte

↓implica

Convergência em Probabilidade (P)

$\lim P(|X_n-X|\geq\varepsilon)=0$

↓implica

Convergência em Distribuição (D)

$\lim F_{X_n}(x)=F_X(x)$ — mais fraca

Simulação — § 5.4

Teorema do Limite Central em Ação

Experimento

Para cada tamanho $n$, geramos $R=3000$ réplicas de $\bar{X}_n$ e comparamos o histograma com a curva $N(0,1)$ do TLC.

$$Z_n=\frac{\bar{X}_n-\mu}{\sigma/\sqrt{n}}\xrightarrow{D}N(0,1)$$

Distribuição:

Tamanho $n$: 1

Média $Z_n$

—

Var $Z_n$

—

Para $n=1$, a distribuição reflete a original. Conforme $n$ cresce, a forma do histograma converge para a curva gaussiana (linha vermelha), independente da distribuição de partida.

Revisão

Resumo — Seção 5: Propriedades de Amostras Aleatórias

5.1

Amostra Aleatória

$X_1,\dots,X_n$ iid com pmf/pdf $f(x)$. PDF conjunta: $\prod f(x_i)$. Com reposição garante independência. Para $N$ grande, amostra sem reposição aproxima uma aleatória.

5.2

Estatísticas e Estimadores

$\bar{X}=(1/n)\sum X_i$ — não viesado: $E\bar{X}=\mu$, $\text{Var}\bar{X}=\sigma^2/n$. $S^2=[1/(n-1)]\sum(X_i-\bar{X})^2$ — não viesado: $ES^2=\sigma^2$. Denominador $n-1$ é essencial.

5.3

Amostragem Normal

Para $X_i\overset{iid}{\sim}N(\mu,\sigma^2)$: $\bar{X}\perp S^2$; $\bar{X}\sim N(\mu,\sigma^2/n)$; $(n-1)S^2/\sigma^2\sim\chi^2_{n-1}$. Estatística $t$: $(\bar{X}-\mu)/(S/\sqrt{n})\sim t_{n-1}$. Razão de variâncias: $F_{n-1,m-1}$.

5.4

Convergência e TLC

Q.c. $\Rightarrow$ Prob. $\Rightarrow$ Distribuição. LFRN e LFGN: $\bar{X}_n\to\mu$. TLC: $\sqrt{n}(\bar{X}_n-\mu)/\sigma\xrightarrow{D}N(0,1)$ para qualquer distribuição com $\sigma^2<\infty$ — base da inferência clássica.

▶ Base estabelecida para Inferência Estatística: estimação pontual, intervalos de confiança e testes de hipótese