As variáveis aleatórias $X_1,\dots,X_n$ são uma amostra aleatória de tamanho $n$ da população $f(x)$ se são mutuamente independentes e cada $X_i$ tem a mesma pmf/pdf $f(x)$.
Dizemos que $X_1,\dots,X_n$ são iid (independentes e identicamente distribuídas) com pmf/pdf $f(x)$.
Por independência, a pdf/pmf conjunta é simplesmente o produto das marginais:
Para famílias paramétricas, usa-se a notação $f(x|\theta)$.
Como construir uma amostra aleatória?
Com reposição: sortear $n$ elementos de uma população finita de tamanho $N$ com probabilidades iguais ($1/N$) — garante independência.
Sem reposição: $X_1,\dots,X_n$ não são independentes, mas para $N$ grande a amostra se aproxima de uma amostra aleatória.
Intuição fundamental: ao colhermos uma amostra, cada observação $x_i$ é uma realização da mesma distribuição $f(x|\theta)$, e observações distintas não se influenciam mutuamente.
Seja $X_1,\dots,X_n$ uma amostra aleatória e $T(x_1,\dots,x_n)$ uma função real cujo domínio inclui o espaço amostral de $(X_1,\dots,X_n)$. Então $Y=T(X_1,\dots,X_n)$ é chamada de estatística.
A distribuição de probabilidade de $Y$ é a distribuição amostral de $Y$.
Importante: uma estatística é função apenas da amostra — nunca dos parâmetros desconhecidos da distribuição.
O desvio-padrão amostral é $S=\sqrt{S^2}$. Note o uso de $n-1$ no denominador.
Para quaisquer números $x_1,\dots,x_n$ com média $\bar{x}$:
Seja $X_1,\dots,X_n$ amostra de população com média $\mu$ e variância $\sigma^2 < \infty$. Então:
Gerar amostras de tamanho $n$ de uma população e calcular $\bar{X}$. Observar como a distribuição amostral muda com $n$.
À medida que $n$ cresce: (1) $E[\bar{X}]=\mu$ permanece constante; (2) $\text{Var}[\bar{X}]=\sigma^2/n\to0$; (3) a forma se aproxima de uma Normal pelo TLC.
Seja $X_1,\dots,X_n\overset{iid}{\sim}N(\mu,\sigma^2)$. Então:
Seja $X_1,\dots,X_n$ amostra com mgf $M_X(t)$. Então:
Como $\sigma$ geralmente é desconhecido, usa-se a distribuição $t$ de Student:
A pdf de $T\sim t_p$ é:
$E[T_p]=0$ se $p>1$; $\text{Var}[T_p]=\dfrac{p}{p-2}$ se $p>2$.
Razão de variâncias amostrais de duas populações normais independentes:
Relação: se $X\sim t_q$, então $X^2\sim F_{1,q}$. $E[F_{n-1,m-1}]=\dfrac{m-1}{m-3}$.
Quando $\sigma$ é desconhecido, substituímos $\sigma$ por $S$ no estadístico. A razão:
O resultado é uma razão de $N(0,1)$ por $\sqrt{\chi^2_{p}/p}$, independentes — exatamente a definição de $t_p$.
Conforme $p\to\infty$, $t_p\to N(0,1)$ (caudas mais pesadas para $p$ pequeno).
Uma sequência $X_1,X_2,\dots$ converge em probabilidade para $X$ se para cada $\varepsilon>0$:
Notação: $X_n\xrightarrow{P}X$. Equivalentemente: $\lim_{n\to\infty}P(|X_n-X|<\varepsilon)=1$.
Sejam $X_1,X_2,\dots$ variáveis iid com $EX_i=\mu$ e $\text{Var}\,X_i=\sigma^2<\infty$. Então para todo $\varepsilon>0$:
Ou seja, $\bar{X}_n\xrightarrow{P}\mu$. A média amostral é um estimador consistente de $\mu$.
Prova: aplicar Desigualdade de Chebyshev: $P(|\bar{X}_n-\mu|\geq\varepsilon)\leq\dfrac{\sigma^2}{n\varepsilon^2}\to0$.
Se $X_n\xrightarrow{P}X$ e $h$ é uma função contínua, então:
$X_n$ converge quase certamente para $X$ se para cada $\varepsilon>0$:
Notação: $X_n\xrightarrow{q.c.}X$. Convergência mais forte que a convergência em probabilidade.
Sob as mesmas condições da Lei Fraca:
Ou seja, $\bar{X}_n\xrightarrow{q.c.}\mu$. A convergência quase certa implica convergência em probabilidade (não o contrário).
Hierarquia: Conv. quase certa $\Rightarrow$ Conv. em probabilidade $\Rightarrow$ Conv. em distribuição.
$X_n$ converge em distribuição para $X$ se para todos os pontos $x$ onde $F_X$ é contínua:
Notação: $X_n\xrightarrow{D}X$. Convergência em probabilidade $\Rightarrow$ convergência em distribuição.
Seja $X_1,X_2,\dots$ sequência iid com mgf existente em vizinhança de $0$, $EX_i=\mu$, $\text{Var}\,X_i=\sigma^2>0$. Seja $G_n(x)$ a cdf de $\sqrt{n}(\bar{X}_n-\mu)/\sigma$. Então:
Ou seja, $\sqrt{n}(\bar{X}_n-\mu)/\sigma\xrightarrow{D}N(0,1)$.
Não requer a existência da mgf — basta $EX_i=\mu$ e $0<\sigma^2<\infty$. O mesmo resultado vale:
Por que o TLC é tão poderoso?
Independente da distribuição original de $X_i$ (Normal, Exponencial, Bernoulli...), a média amostral padronizada sempre converge para $N(0,1)$ conforme $n\to\infty$.
Hierarquia dos Conceitos de Convergência
Para cada tamanho $n$, geramos $R=3000$ réplicas de $\bar{X}_n$ e comparamos o histograma com a curva $N(0,1)$ do TLC.
Para $n=1$, a distribuição reflete a original. Conforme $n$ cresce, a forma do histograma converge para a curva gaussiana (linha vermelha), independente da distribuição de partida.
$X_1,\dots,X_n$ iid com pmf/pdf $f(x)$. PDF conjunta: $\prod f(x_i)$. Com reposição garante independência. Para $N$ grande, amostra sem reposição aproxima uma aleatória.
$\bar{X}=(1/n)\sum X_i$ — não viesado: $E\bar{X}=\mu$, $\text{Var}\bar{X}=\sigma^2/n$. $S^2=[1/(n-1)]\sum(X_i-\bar{X})^2$ — não viesado: $ES^2=\sigma^2$. Denominador $n-1$ é essencial.
Para $X_i\overset{iid}{\sim}N(\mu,\sigma^2)$: $\bar{X}\perp S^2$; $\bar{X}\sim N(\mu,\sigma^2/n)$; $(n-1)S^2/\sigma^2\sim\chi^2_{n-1}$. Estatística $t$: $(\bar{X}-\mu)/(S/\sqrt{n})\sim t_{n-1}$. Razão de variâncias: $F_{n-1,m-1}$.
Q.c. $\Rightarrow$ Prob. $\Rightarrow$ Distribuição. LFRN e LFGN: $\bar{X}_n\to\mu$. TLC: $\sqrt{n}(\bar{X}_n-\mu)/\sigma\xrightarrow{D}N(0,1)$ para qualquer distribuição com $\sigma^2<\infty$ — base da inferência clássica.
▶ Base estabelecida para Inferência Estatística: estimação pontual, intervalos de confiança e testes de hipótese