Curso de Verão em Estatística · PPGOM / UFPel

Seção 1

Teoria de Probabilidade

Prof. Regis A. Ely · Programa de Pós-Graduação em Organizações e Mercados
Referência: Casella & Berger, Statistical Inference, Cap. 1

1.1

Experimento, Espaço Amostral e Eventos

1.2

Função de Probabilidade e Axiomas

1.3

Probabilidade Condicional e Independência

1.4

Aplicação no R: Roleta Americana

1.5

Variáveis Aleatórias

1.6–7

CDF, PDF e PMF

§ 1.1

Experimento Aleatório, Espaço Amostral e Eventos

Conceito Central

Um experimento aleatório é composto por uma ação e uma observação. Repetindo-o muitas vezes, regularidades emergem — é aí que a probabilidade entra.

Espaço Amostral — Def. 1.1

O conjunto $S$ de todos os possíveis resultados de um experimento.

Evento — Def. 1.2

Qualquer subconjunto de $S$ (incluindo $S$ e $\emptyset$). Um evento ocorre se o resultado pertence a ele.

▸ Clique para revelar o espaço amostral:

🎲

Jogar dois dados

$S=\{2,3,\ldots,12\}$

🪙

Lançar uma moeda

$S=\{H,T\}$

⏱️

Tempo de deslocamento

$S=(0,\infty)$

⚽

Gols numa partida

$S=\{0,1,\ldots,20\}$

📈

Lucro de uma empresa

$S=\mathbb{R}$

🃏

Naipe de uma carta

$S=\{O,C,E,P\}$

§ 1.1

Operações com Eventos

Exemplo — Cartas: S = {O, C, E, P}

$A=\{C,P\}$, $B=\{C,E,O\}$

$A\cup B=\{O,C,E,P\}$ $A\cap B=\{C\}$ $A^C=\{E,O\}$

Operações fundamentais:

∪União: "A ou B"

∩Interseção: "A e B"

AᶜComplementar: "não A"

A−BDiferença: "A mas não B"

⊂Subconjunto

×Produto cartesiano

Revisar — Teoria dos Conjuntos

Propriedades comutativa, associativa, distributiva
Leis de De Morgan: $(A\cup B)^C=A^C\cap B^C$
Conjuntos disjuntos e partições
Finitos, enumeráveis e não-enumeráveis

Diagrama de Venn Interativo

← Explore as operações

§ 1.2

Interpretações de Probabilidade

Abordagem Clássica

$$P(A)=\frac{\text{casos favoráveis}}{\text{casos possíveis}}$$

Válida apenas para espaços finitos com resultados igualmente verossímeis.

Ex.: dado justo → $P(6)=\dfrac{1}{6}$

Abordagem Frequentista

$$P(A)\approx\frac{\#\text{ocorrências de }A}{n},\quad n\to\infty$$

A frequência relativa converge para a probabilidade com $n$ grande.

▸ Simulação no próximo slide

Definição Geométrica

$$P(A)=\frac{\text{medida}(A)}{\text{medida}(S)}$$

Para espaços não-enumeráveis: razão de comprimentos, áreas ou volumes.

Ex.: $S=[0,1]$, $A=[0,0.3]$ → $P(A)=0.3$

Independente da interpretação, toda função de probabilidade deve respeitar os Axiomas de Kolmogorov.

Análise Combinatória — base da abordagem clássica:

Regra da Multiplicação e Adição

Permutações: $_nP_n = n!$

Arranjos: $_nA_r = \dfrac{n!}{(n-r)!}$

Combinações: $\dbinom{n}{r} = \dfrac{n!}{r!\,(n-r)!}$

Simulação Interativa

Convergência Frequentista — Lançamento de Moeda

Lançamentos

0

Caras (H)

0

Freq. Relativa

—

Nenhum lançamento ainda...

Convergência Frequentista

Conforme $n\to\infty$, a frequência relativa de $A$ converge para $P(A)$:

$$\frac{\#\{i:A\text{ ocorreu na tentativa }i\}}{n}\xrightarrow{n\to\infty}P(A)$$

Observe no Gráfico

Poucos lançamentos → alta variabilidade
Muitos lançamentos → convergência a $P(H)=0{,}5$ (linha vermelha)
Oscilação diminui proporcionalmente a $1/\sqrt{n}$

Esta convergência é formalizada pela Lei dos Grandes Números (Seção 5).

§ 1.2

Sigma Álgebra e Axiomas de Kolmogorov

Definição — Sigma Álgebra $\mathcal{B}$

Uma coleção de subconjuntos de $S$ é uma sigma álgebra se:

a

$\emptyset\in\mathcal{B}$

b

$A\in\mathcal{B}\Rightarrow A^C\in\mathcal{B}$ (fechado p/ complementar)

c

$A_1,A_2,\ldots\in\mathcal{B}\Rightarrow\bigcup_{i=1}^{\infty}A_i\in\mathcal{B}$ (fechado p/ uniões)

Exemplos

Trivial: $\{\emptyset,S\}$ — sigma álgebra mínima.
$S=\{1,2,3\}$: $\mathcal{B}$ tem $2^3=8$ conjuntos.
$S=\mathbb{R}$: $\mathcal{B}$ inclui todos os intervalos.

Espaço com $n$ elementos: $|\mathcal{B}|=2^n$

Axiomas de Kolmogorov — Função de Probabilidade

Dado $(S,\mathcal{B})$, a função $P:\mathcal{B}\to\mathbb{R}$ é função de probabilidade se:

1

$P(A)\geq0\;\forall A\in\mathcal{B}$ não-negatividade

2

$P(S)=1$ normalização

3

$A_1,A_2,\ldots$ disjuntos: $P\!\left(\bigcup_{i=1}^{\infty}A_i\right)=\sum_{i=1}^{\infty}P(A_i)$ σ-aditividade

Como construir $P$ — Teorema

Seja $S=\{s_1,\ldots,s_n\}$ finito, $p_i\geq0$, $\sum p_i=1$. Então

$P(A)=\displaystyle\sum_{\{i:\,s_i\in A\}}p_i$

é uma função de probabilidade em $\mathcal{B}$.

A tripla $(S,\mathcal{B},P)$ é o espaço de probabilidade.

§ 1.2

Propriedades da Função de Probabilidade

Teorema — Propriedades deduzidas dos Axiomas

Se $P$ é função de probabilidade e $A,B\in\mathcal{B}$:

a.$P(\emptyset)=0$

b.$P(A)\leq1$

c.$P(A^C)=1-P(A)$

d.$P(B\cap A^C)=P(B)-P(A\cap B)$

e.$P(A\cup B)=P(A)+P(B)-P(A\cap B)$ (Inclusão-Exclusão)

f.$A\subset B\Rightarrow P(A)\leq P(B)$

g.$P(A)=\sum_{i=1}^{\infty}P(A\cap C_i)$ para qualquer partição $\{C_i\}$

Desigualdade de Boole (prop. h)

$$P\!\left(\bigcup_{i=1}^{\infty}A_i\right)\leq\sum_{i=1}^{\infty}P(A_i)$$

A probabilidade de uma união é no máximo a soma das probabilidades individuais.

Desigualdade de Bonferroni

$$P\!\left(\bigcap_{i=1}^{n}A_i\right)\geq\sum_{i=1}^{n}P(A_i)-(n-1)$$

Limita a probabilidade de eventos simultâneos em termos das probabilidades individuais.

Ex.: $P(A)=P(B)=0{,}9\Rightarrow P(A\cap B)\geq0{,}8$

§ 1.3

Probabilidade Condicional

Definição

Se $A,B\in S$ com $P(B)>0$, a probabilidade condicional de $A$ dado $B$:

$$P(A|B)=\frac{P(A\cap B)}{P(B)}$$

Equivale a reduzir o espaço amostral de $S$ para $B$ e calcular $P(A)$ neste novo espaço.

Casos especiais: $A\cap B=\emptyset\Rightarrow P(A|B)=0$ · $A\supset B\Rightarrow P(A|B)=1$

Teorema — Regra de Bayes

Seja $A_1,A_2,\ldots$ uma partição de $S$ e $B$ qualquer evento:

$$P(A_i|B)=\frac{P(B|A_i)\,P(A_i)}{\displaystyle\sum_{j}P(B|A_j)\,P(A_j)}$$

O denominador é a Lei das Probabilidades Totais:

$$P(B)=\sum_{i=1}^{k}P(B|A_i)\,P(A_i)$$

Interpretação Bayesiana

$P(A_i)$

Priori

$P(B|A_i)$

Verossim.

$P(A_i|B)$

Posteriori

§ 1.3

Independência Estatística

Definição — Independência (2 eventos)

$A$ e $B$ são estatisticamente independentes se:

$$\boxed{P(A\cap B)=P(A)\cdot P(B)}$$

Equivalente a $P(A|B)=P(A)$: saber que $B$ ocorreu não altera a probabilidade de $A$.

Teorema — Independência de Complementares

Se $A\perp B$, então também são independentes: $A$ e $B^C$; $A^C$ e $B$; $A^C$ e $B^C$.

Atenção!

Eventos disjuntos com $P(A),P(B)>0$ são dependentes: $P(B|A)=0\neq P(B)$.

Definição — Independência Mútua ($n$ eventos)

$A_1,\ldots,A_n$ são mutuamente independentes se para qualquer subcoleção:

$$P\!\left(\bigcap_{j=1}^{k}A_{i_j}\right)=\prod_{j=1}^{k}P(A_{i_j})$$

⚠ Independência aos pares não implica independência mútua!

Dependente vs Independente

Dependente

$P(A\cap B)\neq P(A)P(B)$

Saber B altera P(A)

⟷

Independente

$P(A\cap B)=P(A)P(B)$

Saber B não muda P(A)

§ 1.4 · Aplicação no R

Roleta Americana — Simulação Interativa

Configuração da Aposta

Cor Vermelha (paga 1:1)

R$ 90.000,00

Número 26 (paga 35:1)

R$ 10.000,00

Total apostado

R$ 100.000,00

Roleta Americana — 38 slots

$0$, $00$ e $1$ a $36$ (total: 38 slots)
$P(\text{vermelho})=\tfrac{18}{38}\approx47{,}4\%$
$P(\text{número 26})=\tfrac{1}{38}\approx2{,}6\%$

Valor Esperado

$(2\times90k)\times\frac{18}{38}+(36\times10k)\times\frac{1}{38}-100k$

≈ −R$ 5.263,16 por jogada

Clique para girar...

Jogadas

0

Ganho Acumulado

R$ 0

Média / Jogada

—

No R: library(prob); S <- roulette(makespace=TRUE)

§ 1.5

Variáveis Aleatórias

Definição

Uma variável aleatória $X$ é uma função do espaço amostral para os reais:

$$X:S\to\mathbb{R}$$

Mapeia resultados de experimentos em números para facilitar o cálculo de probabilidades.

Motivação — Duas Moedas

$S=\{(H,H),(H,T),(T,H),(T,T)\}$ · $X(s)=\#$ caras

$(H,H)\xrightarrow{X}2$

$(H,T)\xrightarrow{X}1$

$(T,H)\xrightarrow{X}1$

$(T,T)\xrightarrow{X}0$

Novo espaço: $\mathcal{X}=\{0,1,2\}$

$P_X(X=1)=P(\{(H,T),(T,H)\})=\tfrac{1}{2}$

Definição — VA Discreta

$X$ é discreta se assume valores em $\{x_1,x_2,\ldots\}\subset\mathbb{R}$ (finito ou enumerável).

Pense em contagens: gols, caras, chamadas telefônicas...

Definição — VA Absolutamente Contínua

$X$ é absolutamente contínua se existe $f\geq0$ tal que:

$$P(X\leq x)=\int_{-\infty}^{x}f(t)\,dt\quad\forall x$$

Pense em medidas: temperatura, preço de ativo, tempo...

Probabilidade induzida em $\mathcal{X}$:

$P_X(X=x_i)=P(\{s\in S:X(s)=x_i\})$

§ 1.6

Função de Distribuição Cumulativa (CDF)

Definição

$$F_X(x)=P_X(X\leq x),\quad\forall x$$

Teorema — Caracterização da CDF

$F(x)$ é CDF se e somente se:

a

$\lim_{x\to-\infty}F(x)=0$ e $\lim_{x\to+\infty}F(x)=1$

b

$F(x)$ é não-decrescente

c

$F(x)$ é contínua à direita: $\lim_{x\downarrow x_0}F(x)=F(x_0)$

Contínua vs Discreta: $X$ contínua → $F_X$ contínua · $X$ discreta → $F_X$ tem saltos.

Identicamente Distribuídas

$X\stackrel{d}{=}Y$ se e somente se $F_X(x)=F_Y(x)$ para todo $x$.

CDF Contínua vs Discreta

§ 1.7

Funções de Densidade (PDF) e Massa (PMF)

PMF — Discreta

$$f_X(x)=P(X=x)\quad\forall x$$

Avalia a probabilidade pontual. Ex.: $f_X(2)=P(\text{2 caras})$.

PDF — Contínua

Função $f_X(x)\geq0$ tal que $F_X(x)=\int_{-\infty}^{x}f_X(t)\,dt$, logo:

$$f_X(x)=\frac{d}{dx}F_X(x)$$

⚠ Para VA contínua, $P(X=x)=0$. PDF mede densidade.

Teorema — Caracterização

$f_X$ é PDF ou PMF se e somente se: (a) $f_X(x)\geq0$ · (b) $\int f_X\,dx=1$ ou $\sum f_X=1$.

No R — prefixos padrão

dnorm(x) # PDF:    f(x)          — "density"
pnorm(x) # CDF:    F(x)=P(X≤x)  — "probability"
qnorm(p) # Quantil: x com P(X≤x)=p  — "quantile"
rnorm(n) # Amostras aleatórias  — "random"
# Mesmo padrão: dbinom, dpois, dgamma, dchisq...

PDF ↔ CDF (integração / derivação)

No contínuo, P(a≤X≤b)=F(b)-F(a).

Revisão

Resumo — Seção 1: Teoria de Probabilidade

1

Espaço de Probabilidade $(S,\mathcal{B},P)$

Experimento → Espaço amostral $S$ → Sigma álgebra $\mathcal{B}$ → Função $P$ com os 3 axiomas de Kolmogorov.

2

Axiomas de Kolmogorov

$P(A)\geq0$, $P(S)=1$, $\sigma$-aditividade. Deles derivamos todas as propriedades e desigualdades de Boole e Bonferroni.

3

Probabilidade Condicional e Bayes

$P(A|B)=P(A\cap B)/P(B)$. Regra de Bayes atualiza probabilidades com nova informação. Lei das Probabilidades Totais.

4

Independência Estatística

$A\perp B\Leftrightarrow P(A\cap B)=P(A)P(B)$. Independência mútua requer que toda subcoleção seja independente.

5

Variáveis Aleatórias

Funções $X:S\to\mathbb{R}$. Discretas (contagens, PMF) ou absolutamente contínuas (medidas, PDF). Probabilidade induzida em $\mathcal{X}$.

6

CDF, PDF e PMF

$F_X(x)=P(X\leq x)$. Contínua: $f_X=F_X'$. Discreta: $f_X(x)=P(X=x)$. No R: prefixos d/p/q/r.

▶ Próxima seção: Transformações em Variáveis Aleatórias (§ 2) — Valor Esperado, Variância, Função Geradora de Momentos