Se $X$ é uma v.a. com cdf $F_X(x)$, qualquer função $Y = g(X)$ também é uma v.a. Queremos descrever o comportamento probabilístico de $Y$ em termos de $F_X$ e $g$.
Onde a função inversa generalizada é:
Suporte da distribuição
Usamos $\mathcal{X}=\{x: f_X(x)>0\}$ e $\mathcal{Y}=\{y: y=g(x)$ para algum $x\in\mathcal{X}\}$ para rastrear os espaços amostrais corretamente.
Se $X$ é discreta, $\mathcal{X}$ é enumerável e $Y=g(X)$ também é discreta. A PMF de $Y$ é:
Basta identificar $g^{-1}(y)$ para cada $y$ e somar as probabilidades correspondentes.
Seja $X\sim\text{Binomial}(n,p)$ e $Y=n-X$. Como $g^{-1}(y)=\{n-y\}$:
Logo $Y\sim\text{Binomial}(n,1-p)$. A transformação troca papel de sucesso e fracasso.
Seja $X$ v.a. contínua com cdf $F_X(x)$, $Y=g(X)$, $\mathcal{X}$ e $\mathcal{Y}$ os suportes:
A inversão da inequação na função decrescente ocorre pois $g(x)\leq y \Leftrightarrow x\geq g^{-1}(y)$ quando $g$ é decrescente.
Se $g$ é monótona, $f_X(x)$ contínua em $\mathcal{X}$, e $g^{-1}(y)$ diferenciável em $\mathcal{Y}$:
O termo $|d g^{-1}/dy|$ é o Jacobiano da transformação.
Seja $X\sim\text{Uniforme}(0,1)$, i.e. $F_X(x)=x$. Defina $Y=g(X)=-\log X$.
Como $g$ é decrescente em $(0,1)$ e $g^{-1}(y)=e^{-y}$:
Derivando: $f_Y(y)=e^{-y}$, que é a PDF Exponencial(1).
Base da transformação integral de probabilidade — usada para gerar amostras de qualquer distribuição a partir de uniformes.
Seja $X\sim\text{Gama}(n,\beta)$ e $Y=1/X$. Com $g^{-1}(y)=1/y$:
Distribuição Gama Invertida.
Seja $X$ com PDF $f_X(x)$ e $Y=g(X)$ onde $g$ não é monótona globalmente. Se existe uma partição $A_0,A_1,\ldots,A_k$ de $\mathcal{X}$ com $P(X\in A_0)=0$ tal que:
Então:
Seja $X$ contínua qualquer, $Y=X^2$. Partição: $A_1=(-\infty,0)$ com $g_1^{-1}(y)=-\sqrt{y}$ e $A_2=(0,\infty)$ com $g_2^{-1}(y)=\sqrt{y}$. Portanto:
Seja $X\sim N(0,1)$, $Y=X^2$. Aplicando o Teorema 2.1.8 com $f_X(x)=\frac{1}{\sqrt{2\pi}}e^{-x^2/2}$:
Isso é exatamente a PDF Qui-quadrada com 1 grau de liberdade!
Transformação Integral de Probabilidade
Teorema 2.1.10: Se $X$ tem cdf contínua $F_X$, então $Y=F_X(X)\sim\text{Uniforme}(0,1)$.
Aplicação: gerar observações de qualquer distribuição a partir de uniformes — amostrar $U\sim\text{Unif}(0,1)$ e calcular $F_X^{-1}(U)$.
O histograma vermelho é a amostra de $X$. O histograma azul é a amostra de $Y=g(X)$. A curva verde é a PDF teórica de $Y$.
Distribuição de X
Distribuição de Y = g(X)
O valor esperado (ou média) de $g(X)$, denotado $Eg(X)$, é:
desde que a integral/soma exista. Se $E|g(X)|=\infty$, dizemos que $Eg(X)$ não existe.
A v.a. de Cauchy tem PDF $f_X(x)=\frac{1}{\pi(1+x^2)}$, $-\infty Como $E|X|=\frac{2}{\pi}\int_0^\infty\frac{x}{1+x^2}dx=\infty$, o valor esperado não existe. ⚠ $\int f_X=1$ é necessário mas não suficiente para que $EX$ exista.
Seja $X\sim\text{Exp}(\lambda)$, $f_X(x)=\frac{1}{\lambda}e^{-x/\lambda}$, $x\geq 0$. Por integração por partes:
Seja $X\sim\text{Bin}(n,p)$. Usando a identidade $x\binom{n}{x}=n\binom{n-1}{x-1}$:
Queremos minimizar $E(X-b)^2$ sobre $b$. Usando $E(X-b)^2=\text{Var}(X)+(EX-b)^2$, a solução é:
A média é o melhor preditor no sentido de erro quadrático médio.
Seja $X$ v.a. e $a,b,c$ constantes. Para quaisquer $g_1(x)$ e $g_2(x)$ com esperanças que existem:
Dois caminhos para $Eg(X)$
É possível calcular $Eg(X)$ de duas formas equivalentes:
O exemplo 2.2.7 (Uniforme→Exp) mostra ambos chegando ao mesmo resultado.
Seja $X\sim\text{Unif}(0,1)$ e $g(X)=-\log X$. Calculando diretamente:
Pelo Caminho 2: como $Y\sim\text{Exp}(1)$, temos $EY=1$. ✓
Linearidade — Exemplo Prático
Se $X\sim\text{Bin}(n,p)$, então $EX=np$. Logo:
A variável centrada tem média zero.
$E$ é um operador linear: $E(aX+b)=aEX+b$. O caso mais simples: se $Y=aX+b$, então a média de $Y$ é simplesmente uma transformação linear da média de $X$.
PDF / PMF com E[X] (linha tracejada)
O n-ésimo momento de $X$ é $\mu'_n=EX^n$, e o n-ésimo momento central é:
A variância é o segundo momento central:
Fórmula alternativa: $\;\text{Var}\,X=EX^2-(EX)^2$
O desvio-padrão é $\sigma=\sqrt{\text{Var}\,X}$ (mesma unidade de $X$).
A constante $b$ translada a distribuição sem afetar a dispersão. O fator $a$ escala a dispersão quadraticamente.
Para $X\sim\text{Exp}(\lambda)$ com $EX=\lambda$, calculando por integração por partes:
Ou usando $\text{Var}\,X=EX^2-(EX)^2$.
Para $X\sim\text{Bin}(n,p)$ com $EX=np$. Calculando $EX^2$ via manipulação de coeficientes binomiais:
Logo: $\;\text{Var}\,X=n(n-1)p^2+np-(np)^2=np(1-p)$
Interpretação da Variância
Mede a dispersão média em torno da média. Se $\text{Var}\,X=0$, então $P(X=EX)=1$. Valores maiores indicam maior variabilidade.
Observe como $\mu$ translada a curva (sem mudar a forma) e $\sigma$ alarga ou estreita a curva. A área sob a curva é sempre 1.
Se $Y=aX+b$: $EY=a\mu+b$ e $\text{Var}(Y)=a^2\sigma^2$. Mova os controles para ver o efeito.
A função geradora de momentos (FGM) de $X$ com cdf $F_X$ é:
desde que este valor esperado exista para $t$ em alguma vizinhança de $0$. Explicitamente:
Se $X$ tem FGM $M_X(t)$, então o n-ésimo momento é a n-ésima derivada da FGM avaliada em $t=0$:
A prova usa que $\frac{d}{dt}M_X(t)=EXe^{tX}$, avaliado em $t=0$ dá $EX$.
Seja $X\sim\text{Gama}(\alpha,\beta)$, $f_X(x)=\frac{1}{\Gamma(\alpha)\beta^\alpha}x^{\alpha-1}e^{-x/\beta}$. A FGM é:
Reconhecendo o integrando como o núcleo de outra PDF Gama com escala $\beta/(1-\beta t)$:
Derivando: $M_X'(0)=\alpha\beta=EX$ e $M_X''(0)=\alpha(\alpha+1)\beta^2$, logo $\text{Var}\,X=\alpha\beta^2$.
Usos Principais da FGM
Momentos via FGM:
$\text{Var}=EX^2-(EX)^2=\sigma^2$ ✓
Normal padrão ($\mu=0,\sigma=1$): $M_X(t)=e^{t^2/2}$
$X\sim\text{Exp}(\beta)$: caso particular da Gama com $\alpha=1$:
Derivando:
Derivando:
$M_X''(0)=np(1-p)+n^2p^2$
$\Rightarrow\text{Var}=np(1-p)\checkmark$
Propr. de somas: Se $X_i\sim\text{Bin}(n_i,p)$ independentes, então $M_{\sum X_i}(t)=\prod(pe^t+1-p)^{n_i}$, logo $\sum X_i\sim\text{Bin}(\sum n_i,p)$.
$M_X(t)=\left(\frac{1}{1-\beta t}\right)^\alpha$, $\;\;t < 1/\beta$
A linha vermelha marca a derivada $M'_X(0)=EX$.
O gráfico mostra $M_X(t)$ para $t\in(-1/\beta, 1/\beta)$. A inclinação da tangente em $t=0$ é exatamente $EX=\alpha\beta$.
$M_X(t) = (1-\beta t)^{-\alpha}$ — Inclinação em $t=0$ é $EX$
Discreto: $f_Y(y)=\sum_{x\in g^{-1}(y)}f_X(x)$. Contínuo: usa CDF $F_Y(y)=P(g(X)\leq y)$ e diferencia. Teorema do Jacobiano para $g$ monótona.
Particionamos $\mathcal{X}$ em partes $A_i$ onde $g_i$ é monótona. A PDF de $Y$ é a soma das contribuições de cada parte: $f_Y(y)=\sum_i f_X(g_i^{-1}(y))|g_i^{-1}{}'(y)|$.
$EX=\int x f_X(x)dx$ ou $\sum x f_X(x)$. Operador linear: $E(aX+b)=aEX+b$. Pode não existir (ex: Cauchy). $EX$ minimiza $E(X-b)^2$.
$\text{Var}(X)=E(X-EX)^2=EX^2-(EX)^2$. Momento central de ordem 2. $\text{Var}(aX+b)=a^2\text{Var}(X)$. Exp: $\lambda^2$; Bin: $np(1-p)$.
$M_X(t)=Ee^{tX}$. O n-ésimo momento é $M_X^{(n)}(0)$. Caracteriza a distribuição. Para $X\perp Y$: $M_{X+Y}(t)=M_X(t)M_Y(t)$.
Gama: $M_X(t)=(1-\beta t)^{-\alpha}$. Casos: Exponencial ($\alpha=1$), Qui-quadrada ($\alpha=p/2, \beta=2$). Normal: $M_X(t)=e^{\mu t+\sigma^2t^2/2}$.
▶ Próxima seção: Distribuições de Probabilidade (§ 3) — Discretas e Contínuas, Desigualdade de Chebychev