Curso de Verão em Estatística · PPGOM / UFPel
Seção 1

Teoria de Probabilidade

Prof. Regis A. Ely  ·  Programa de Pós-Graduação em Organizações e Mercados
Referência: Casella & Berger, Statistical Inference, Cap. 1
1.1
Experimento, Espaço Amostral e Eventos
1.2
Função de Probabilidade e Axiomas
1.3
Probabilidade Condicional e Independência
1.4
Aplicação no R: Roleta Americana
1.5
Variáveis Aleatórias
1.6–7
CDF, PDF e PMF
§ 1.1
Experimento Aleatório, Espaço Amostral e Eventos
Conceito Central

Um experimento aleatório é composto por uma ação e uma observação. Repetindo-o muitas vezes, regularidades emergem — é aí que a probabilidade entra.

Espaço Amostral — Def. 1.1

O conjunto $S$ de todos os possíveis resultados de um experimento.

Evento — Def. 1.2

Qualquer subconjunto de $S$ (incluindo $S$ e $\emptyset$). Um evento ocorre se o resultado pertence a ele.

▸ Clique para revelar o espaço amostral:

🎲
Jogar dois dados
$S=\{2,3,\ldots,12\}$
🪙
Lançar uma moeda
$S=\{H,T\}$
⏱️
Tempo de deslocamento
$S=(0,\infty)$
Gols numa partida
$S=\{0,1,\ldots,20\}$
📈
Lucro de uma empresa
$S=\mathbb{R}$
🃏
Naipe de uma carta
$S=\{O,C,E,P\}$
§ 1.1
Operações com Eventos
Exemplo — Cartas: S = {O, C, E, P}

$A=\{C,P\}$, $B=\{C,E,O\}$

$A\cup B=\{O,C,E,P\}$   $A\cap B=\{C\}$   $A^C=\{E,O\}$

Operações fundamentais:

União: "A ou B"
Interseção: "A e B"
AᶜComplementar: "não A"
A−BDiferença: "A mas não B"
Subconjunto
×Produto cartesiano
Revisar — Teoria dos Conjuntos
  • Propriedades comutativa, associativa, distributiva
  • Leis de De Morgan: $(A\cup B)^C=A^C\cap B^C$
  • Conjuntos disjuntos e partições
  • Finitos, enumeráveis e não-enumeráveis

Diagrama de Venn Interativo

S A B
← Explore as operações
§ 1.2
Interpretações de Probabilidade
Abordagem Clássica
$$P(A)=\frac{\text{casos favoráveis}}{\text{casos possíveis}}$$

Válida apenas para espaços finitos com resultados igualmente verossímeis.

Ex.: dado justo → $P(6)=\dfrac{1}{6}$

Abordagem Frequentista
$$P(A)\approx\frac{\#\text{ocorrências de }A}{n},\quad n\to\infty$$

A frequência relativa converge para a probabilidade com $n$ grande.

▸ Simulação no próximo slide

Definição Geométrica
$$P(A)=\frac{\text{medida}(A)}{\text{medida}(S)}$$

Para espaços não-enumeráveis: razão de comprimentos, áreas ou volumes.

Ex.: $S=[0,1]$, $A=[0,0.3]$ → $P(A)=0.3$

Independente da interpretação, toda função de probabilidade deve respeitar os Axiomas de Kolmogorov.

Análise Combinatória — base da abordagem clássica:

Regra da Multiplicação e Adição
Permutações: $_nP_n = n!$
Arranjos: $_nA_r = \dfrac{n!}{(n-r)!}$
Combinações: $\dbinom{n}{r} = \dfrac{n!}{r!\,(n-r)!}$
Simulação Interativa
Convergência Frequentista — Lançamento de Moeda
Lançamentos
0
Caras (H)
0
Freq. Relativa
Nenhum lançamento ainda...
Convergência Frequentista

Conforme $n\to\infty$, a frequência relativa de $A$ converge para $P(A)$:

$$\frac{\#\{i:A\text{ ocorreu na tentativa }i\}}{n}\xrightarrow{n\to\infty}P(A)$$
Observe no Gráfico
  • Poucos lançamentos → alta variabilidade
  • Muitos lançamentos → convergência a $P(H)=0{,}5$ (linha vermelha)
  • Oscilação diminui proporcionalmente a $1/\sqrt{n}$

Esta convergência é formalizada pela Lei dos Grandes Números (Seção 5).

§ 1.2
Sigma Álgebra e Axiomas de Kolmogorov
Definição — Sigma Álgebra $\mathcal{B}$

Uma coleção de subconjuntos de $S$ é uma sigma álgebra se:

a
$\emptyset\in\mathcal{B}$
b
$A\in\mathcal{B}\Rightarrow A^C\in\mathcal{B}$  (fechado p/ complementar)
c
$A_1,A_2,\ldots\in\mathcal{B}\Rightarrow\bigcup_{i=1}^{\infty}A_i\in\mathcal{B}$  (fechado p/ uniões)
Exemplos
  • Trivial: $\{\emptyset,S\}$ — sigma álgebra mínima.
  • $S=\{1,2,3\}$: $\mathcal{B}$ tem $2^3=8$ conjuntos.
  • $S=\mathbb{R}$: $\mathcal{B}$ inclui todos os intervalos.

Espaço com $n$ elementos: $|\mathcal{B}|=2^n$

Axiomas de Kolmogorov — Função de Probabilidade

Dado $(S,\mathcal{B})$, a função $P:\mathcal{B}\to\mathbb{R}$ é função de probabilidade se:

1
$P(A)\geq0\;\forall A\in\mathcal{B}$  não-negatividade
2
$P(S)=1$  normalização
3
$A_1,A_2,\ldots$ disjuntos: $P\!\left(\bigcup_{i=1}^{\infty}A_i\right)=\sum_{i=1}^{\infty}P(A_i)$  σ-aditividade
Como construir $P$ — Teorema

Seja $S=\{s_1,\ldots,s_n\}$ finito, $p_i\geq0$, $\sum p_i=1$. Então

$P(A)=\displaystyle\sum_{\{i:\,s_i\in A\}}p_i$

é uma função de probabilidade em $\mathcal{B}$.

A tripla $(S,\mathcal{B},P)$ é o espaço de probabilidade.

§ 1.2
Propriedades da Função de Probabilidade
Teorema — Propriedades deduzidas dos Axiomas

Se $P$ é função de probabilidade e $A,B\in\mathcal{B}$:

a.$P(\emptyset)=0$
b.$P(A)\leq1$
c.$P(A^C)=1-P(A)$
d.$P(B\cap A^C)=P(B)-P(A\cap B)$
e.$P(A\cup B)=P(A)+P(B)-P(A\cap B)$ (Inclusão-Exclusão)
f.$A\subset B\Rightarrow P(A)\leq P(B)$
g.$P(A)=\sum_{i=1}^{\infty}P(A\cap C_i)$ para qualquer partição $\{C_i\}$
Desigualdade de Boole (prop. h)
$$P\!\left(\bigcup_{i=1}^{\infty}A_i\right)\leq\sum_{i=1}^{\infty}P(A_i)$$

A probabilidade de uma união é no máximo a soma das probabilidades individuais.

Desigualdade de Bonferroni

$$P\!\left(\bigcap_{i=1}^{n}A_i\right)\geq\sum_{i=1}^{n}P(A_i)-(n-1)$$

Limita a probabilidade de eventos simultâneos em termos das probabilidades individuais.

Ex.: $P(A)=P(B)=0{,}9\Rightarrow P(A\cap B)\geq0{,}8$

§ 1.3
Probabilidade Condicional
Definição

Se $A,B\in S$ com $P(B)>0$, a probabilidade condicional de $A$ dado $B$:

$$P(A|B)=\frac{P(A\cap B)}{P(B)}$$

Equivale a reduzir o espaço amostral de $S$ para $B$ e calcular $P(A)$ neste novo espaço.

S A B A∩B condicione em B: foque na elipse verde

Casos especiais:  $A\cap B=\emptyset\Rightarrow P(A|B)=0$  ·  $A\supset B\Rightarrow P(A|B)=1$

Teorema — Regra de Bayes

Seja $A_1,A_2,\ldots$ uma partição de $S$ e $B$ qualquer evento:

$$P(A_i|B)=\frac{P(B|A_i)\,P(A_i)}{\displaystyle\sum_{j}P(B|A_j)\,P(A_j)}$$

O denominador é a Lei das Probabilidades Totais:

$$P(B)=\sum_{i=1}^{k}P(B|A_i)\,P(A_i)$$

Interpretação Bayesiana

$P(A_i)$
Priori
$P(B|A_i)$
Verossim.
$P(A_i|B)$
Posteriori
§ 1.3
Independência Estatística
Definição — Independência (2 eventos)

$A$ e $B$ são estatisticamente independentes se:

$$\boxed{P(A\cap B)=P(A)\cdot P(B)}$$

Equivalente a $P(A|B)=P(A)$: saber que $B$ ocorreu não altera a probabilidade de $A$.

Teorema — Independência de Complementares

Se $A\perp B$, então também são independentes: $A$ e $B^C$;  $A^C$ e $B$;  $A^C$ e $B^C$.

Atenção!

Eventos disjuntos com $P(A),P(B)>0$ são dependentes: $P(B|A)=0\neq P(B)$.

Definição — Independência Mútua ($n$ eventos)

$A_1,\ldots,A_n$ são mutuamente independentes se para qualquer subcoleção:

$$P\!\left(\bigcap_{j=1}^{k}A_{i_j}\right)=\prod_{j=1}^{k}P(A_{i_j})$$

⚠ Independência aos pares não implica independência mútua!

Dependente vs Independente

Dependente
$P(A\cap B)\neq P(A)P(B)$
Saber B altera P(A)
Independente
$P(A\cap B)=P(A)P(B)$
Saber B não muda P(A)
§ 1.4 · Aplicação no R
Roleta Americana — Simulação Interativa
Configuração da Aposta
Cor Vermelha (paga 1:1)
R$ 90.000,00
Número 26 (paga 35:1)
R$ 10.000,00
Total apostado
R$ 100.000,00
Roleta Americana — 38 slots
  • $0$, $00$ e $1$ a $36$ (total: 38 slots)
  • $P(\text{vermelho})=\tfrac{18}{38}\approx47{,}4\%$
  • $P(\text{número 26})=\tfrac{1}{38}\approx2{,}6\%$
Valor Esperado

$(2\times90k)\times\frac{18}{38}+(36\times10k)\times\frac{1}{38}-100k$

≈ −R$ 5.263,16 por jogada

Clique para girar...
Jogadas
0
Ganho Acumulado
R$ 0
Média / Jogada

No R: library(prob); S <- roulette(makespace=TRUE)

§ 1.5
Variáveis Aleatórias
Definição

Uma variável aleatória $X$ é uma função do espaço amostral para os reais:

$$X:S\to\mathbb{R}$$

Mapeia resultados de experimentos em números para facilitar o cálculo de probabilidades.

Motivação — Duas Moedas

$S=\{(H,H),(H,T),(T,H),(T,T)\}$  ·  $X(s)=\#$ caras

$(H,H)\xrightarrow{X}2$
$(H,T)\xrightarrow{X}1$
$(T,H)\xrightarrow{X}1$
$(T,T)\xrightarrow{X}0$

Novo espaço: $\mathcal{X}=\{0,1,2\}$

$P_X(X=1)=P(\{(H,T),(T,H)\})=\tfrac{1}{2}$
Definição — VA Discreta

$X$ é discreta se assume valores em $\{x_1,x_2,\ldots\}\subset\mathbb{R}$ (finito ou enumerável).

Pense em contagens: gols, caras, chamadas telefônicas...

Definição — VA Absolutamente Contínua

$X$ é absolutamente contínua se existe $f\geq0$ tal que:

$$P(X\leq x)=\int_{-\infty}^{x}f(t)\,dt\quad\forall x$$

Pense em medidas: temperatura, preço de ativo, tempo...

Probabilidade induzida em $\mathcal{X}$:

$P_X(X=x_i)=P(\{s\in S:X(s)=x_i\})$
§ 1.6
Função de Distribuição Cumulativa (CDF)
Definição
$$F_X(x)=P_X(X\leq x),\quad\forall x$$
Teorema — Caracterização da CDF

$F(x)$ é CDF se e somente se:

a
$\lim_{x\to-\infty}F(x)=0$  e  $\lim_{x\to+\infty}F(x)=1$
b
$F(x)$ é não-decrescente
c
$F(x)$ é contínua à direita: $\lim_{x\downarrow x_0}F(x)=F(x_0)$

Contínua vs Discreta:  $X$ contínua → $F_X$ contínua  ·  $X$ discreta → $F_X$ tem saltos.

Identicamente Distribuídas

$X\stackrel{d}{=}Y$ se e somente se $F_X(x)=F_Y(x)$ para todo $x$.

CDF Contínua vs Discreta

Contínua 0 .5 1 Discreta (saltos) 0 .5 1
§ 1.7
Funções de Densidade (PDF) e Massa (PMF)
PMF — Discreta
$$f_X(x)=P(X=x)\quad\forall x$$

Avalia a probabilidade pontual. Ex.: $f_X(2)=P(\text{2 caras})$.

PDF — Contínua

Função $f_X(x)\geq0$ tal que $F_X(x)=\int_{-\infty}^{x}f_X(t)\,dt$, logo:

$$f_X(x)=\frac{d}{dx}F_X(x)$$

⚠ Para VA contínua, $P(X=x)=0$. PDF mede densidade.

Teorema — Caracterização

$f_X$ é PDF ou PMF se e somente se:  (a) $f_X(x)\geq0$  ·  (b) $\int f_X\,dx=1$ ou $\sum f_X=1$.

No R — prefixos padrão

dnorm(x) # PDF:    f(x)          — "density"
pnorm(x) # CDF:    F(x)=P(X≤x)  — "probability"
qnorm(p) # Quantil: x com P(X≤x)=p  — "quantile"
rnorm(n) # Amostras aleatórias  — "random"
# Mesmo padrão: dbinom, dpois, dgamma, dchisq...

PDF ↔ CDF (integração / derivação)

f(x) — PDF P(a≤X≤b) área sob f(x) a b F(x) — CDF F(a) a F(b) b ∫ / d/dx

No contínuo, P(a≤X≤b)=F(b)-F(a).

Revisão
Resumo — Seção 1: Teoria de Probabilidade
1
Espaço de Probabilidade $(S,\mathcal{B},P)$

Experimento → Espaço amostral $S$ → Sigma álgebra $\mathcal{B}$ → Função $P$ com os 3 axiomas de Kolmogorov.

2
Axiomas de Kolmogorov

$P(A)\geq0$, $P(S)=1$, $\sigma$-aditividade. Deles derivamos todas as propriedades e desigualdades de Boole e Bonferroni.

3
Probabilidade Condicional e Bayes

$P(A|B)=P(A\cap B)/P(B)$. Regra de Bayes atualiza probabilidades com nova informação. Lei das Probabilidades Totais.

4
Independência Estatística

$A\perp B\Leftrightarrow P(A\cap B)=P(A)P(B)$. Independência mútua requer que toda subcoleção seja independente.

5
Variáveis Aleatórias

Funções $X:S\to\mathbb{R}$. Discretas (contagens, PMF) ou absolutamente contínuas (medidas, PDF). Probabilidade induzida em $\mathcal{X}$.

6
CDF, PDF e PMF

$F_X(x)=P(X\leq x)$. Contínua: $f_X=F_X'$. Discreta: $f_X(x)=P(X=x)$. No R: prefixos d/p/q/r.

▶ Próxima seção: Transformações em Variáveis Aleatórias (§ 2) — Valor Esperado, Variância, Função Geradora de Momentos