Conteúdo principal
Curso: Estatística e probabilidade > Unidade 4
Lição 7: Mais sobre distribuições normaisDefinição aprofundada da distribuição normal
Exploração da distribuição normal. Versão original criada por Sal Khan.
Quer participar da conversa?
- Conheci o site hoje. PARABÉNS! Nota DEZ pra vcs.(3 votos)
- Coloquem o link da planilha por favor, pois não estou conseguindo baixá-la!(2 votos)
- O que devo estudar para engles?(1 voto)
- A tabela de distribuição padronizada substitui esse cálculo complicado, uma vez que toda a área do gráfico fora mapeada. Correto?(1 voto)
- 9:50a10:06Quando foi falado do índice z: (x - "mi"), é o desvio. Chamamos de desvio, se aplica a um ponto. Desvio padrão é outra coisa, se aplica a toda distribuição, e não a um ponto.(1 voto)
Transcrição de vídeo
RKA13JL - A distribuição normal é, sem dúvida,
o conceito mais importante da estatística. Tudo o que fazemos ou quase tudo o que fazemos
em estatística inferencial é baseado em dados e, até certo ponto,
baseado na distribuição normal. Então, o que eu quero fazer neste vídeo,
nesta planilha aqui, é dar um conhecimento profundo
sobre a distribuição normal. O mais profundo
que eu puder. E aí, para o resto de suas vidas,
se alguém um dia disser, por exemplo, "Nós estamos assumindo
uma distribuição normal", aí você pode dizer: "Ora, eu sei o que é isso, eu sei qual
é a fórmula, eu sei como usá-la" e assim por diante, etc. E esta planilha aqui está disponível
para download neste site: www.khanacademy.org/downloads, aí quando você digitar
o "/downloads" e dar um enter, você vai ver tudo que é possível
de fazer download lá no site. Mas esta planilha específica
ainda está em: /normalintro.xls. Se você entrar lá, você vai pegar
esta planilha do jeitinho que está aqui, eu espero ter feito
no padrão correto. Mas, de qualquer forma, se você for lá na
Wikipédia e digitar "distribuição normal", ou se você tiver que pesquisar
por distribuição normal, é isso aqui que
você vai encontrar. Eu literalmente copiei
e colei isso aqui da Wikipédia. Eu sei que esta fórmula
que parece desencorajadora, pois tem um monte
de letra grega e tal, mas, por exemplo,
este sigma (σ) aqui nada mais é do que o desvio-padrão
dessa distribuição. E nós vamos brincar um pouquinho
com isso daqui a pouco neste gráfico aqui, ou seja, ver o
que isso significa. Você provavelmente sabe
o que é o desvio-padrão, né? Mas a gente vai ver
como ele se aplica aqui. Essa é uma função
de densidade de probabilidades. Eu encorajo você a rever os vídeos sobre função
de densidade de probabilidades, porque isso é um pouco como a transição
vinda da distribuição binomial, que é discreta. A distribuição binomial
vai dizer o seguinte: "Qual é a probabilidade
de ter um 5?", e aí você olha para
este histograma aqui, ou este gráfico de barras,
e diz o seguinte: "Ora, essa é a probabilidade", mas em uma
distribuição de probabilidades contínua, ou em uma função
de densidade de probabilidades, você não pode apenas dizer
qual é a probabilidade de eu tirar um 5, você tem que dizer qual é a probabilidade de
que eu tenha entre, digamos, um 4,5 e um 5. Você tem que dar uma faixa de alcance.
Aqui eu tenho 5, né? E o que eu quero saber aqui,
então, no caso, é entre 4,5, a probabilidade
de eu obter entre 4,5 e 5,5, eu tenho que ter
uma faixa aqui de alcance. E aí, a probabilidade não é
apenas calculada lendo este gráfico, a probabilidade vai ser dada pela área
sob essa curva aqui, certo? Sob essa curva. Ou seja, esse
pedaço aqui. Para quem entende de cálculo, se p(x) é a
nossa função de densidade de probabilidades, não precisa ser uma distribuição normal,
embora geralmente seja uma distribuição normal. Então o que quero responder aqui,
digamos, é o seguinte: qual é a probabilidade de que amanhã chova
entre 4,5 polegadas de chuva e 5,5 polegadas? E a resposta disso vai ser o seguinte,
vai ser a integral de 4,5 até 5,5 da p(x), aquela função
de densidade de probabilidades, dx. Claro que representa
esse gráfico aqui, né? Então, ao calcular a integral, eu vou ter
a área sob esse pedaço da curva. Para quem não conhece cálculo, encorajo
que assista lista dos vídeos de cálculo, mas tudo o que está dizendo aqui é que essa
fórmula aqui da integral é a área sob essa curva, ou seja, a área que vai daqui até aqui,
toda esta área que está pintada de verde. Isto aqui não é a distribuição normal, não é
uma coisa fácil de se calcular analiticamente. Então, normalmente,
se calcula numericamente isso daqui. Você não deve se sentir mal
se você não entendeu, você vai lá e calcula
numericamente e vê quanto que dá. Você pode pensar: "Ora, como é que eu
faço esta integral aqui, coisa doida, né?", mas, na verdade,
se você analisar bem aqui, você poderia até aproximar
o resultado dessa integral, é ou não é? Você poderia pegar, por exemplo,
a área desta figura aqui como sendo aproximadamente
a área de um trapezoide, ou seja, aplica a fórmula da área do trapézio que
você vai ter uma aproximação para esse resultado. Ou, então, o que você pode fazer,
deixa eu só mudar de cor aqui, é calcular esta altura, daqui até aqui,
multiplicar pelo valor da base, que você vai ter mais ou menos aqui
a área desse retângulo. Vai ser uma boa aproximação também, porque você
acaba tendo um extra aqui, esse pedacinho extra, né? Só que vai ter este pedacinho extra
aqui em verde, que não vai ser contabilizado,
então acaba balanceando um pouquinho. Mas, de qualquer maneira,
é uma boa aproximação. E isto aqui, então,
essa aproximação, pode dar um senso mais ou
menos de como funciona, ou seja, é um senso de que
a distribuição normal é o que a distribuição binomial se torna
em essência se você fizer muitos lances, ou seja, muitas
tentativas, beleza? E eu não sei se eu já falei isso
em algum vídeo aqui, mas isso daqui, esse é o gráfico
que representa aquela função, né? E aqui eu posso usar
até o teorema do limite central. Então, teorema
do limite central. Isso é uma das coisas mais importantes ou, então,
interessantes sobre o nosso universo. Você pode entender um pouquinho
desse limite facilmente se assistir ao vídeo onde eu falo sobre
o lançamento de moedas. Ou seja, se nós tivermos que fazer muitos
lançamentos de moedas de maneira, claro, individual, se você somar todos
esses lançamentos, se você pegar, por exemplo,
a probabilidade de tirar uma cara, você vai perceber que à medida que você se
aproxima de um número infinito de lançamentos, você irá se aproximar
da distribuição normal. E o que é interessante é
que cada um desses lançamentos não tem que ter basicamente a distribuição
normal, beleza? São pegos individualmente. Então nós poderíamos falar,
por exemplo, de interação molecular, ou seja, em cada momento, a componente "x"
interage com a componente "y", e o resultado que isso pode gerar
não tem que ser normalmente distribuído. Mas o que acontece é, se você
pegar uma porção dessas interações, então, subitamente, o resultado
final será, sim, normalmente distribuído. E é por isso que esta distribuição normal é tão
importante, ela aparece naturalmente a todo momento. Então eu posso, por exemplo, aqui,
reescrever essa função da seguinte maneira: Essa p(x) ela vai ser igual a 1
sobre σ vezes a √2π, esse "exp" significa a letra "e",
que é uma constante matemática, então "e" elevado a isso aqui,
esse vai ser o expoente, então menos... "x" menos a média elevado ao quadrado
sobre 2σ elevado ao quadrado. Ora, σ é o desvio-padrão,
mas σ elevado ao quadrado, o desvio-padrão elevado ao quadrado
é simplesmente a variância. Isso é apenas para você ver, por exemplo,
que tem um monte de letra grega aqui, mas não é nenhum bicho de sete cabeças,
você pode usar tranquilamente. Isso aqui, então,
nos diz a altura da distribuição normal. Por exemplo, digamos que isso é distribuição da altura
das pessoas que têm mais de 5,9 polegadas e não zero. Deixa eu tirar o zero daqui,
aqui eu vou botar 5,9, beleza? E o que isso lhe diz é que se você
quisesse calcular qual é a probabilidade de encontrar
alguém que seja grosseiramente 5 polegadas mais
alto que a média, o que você poderia fazer, por exemplo,
seria pegar esse 5, então, substituir aqui no lugar do "x",
e você sabe qual é o desvio-padrão, porque você já fez aí
um montão de amostras, né? Você sabe qual é a variância que é isso aqui,
que é o desvio-padrão elevado ao quadrado, você sabe também
qual é a média, e aí você joga aquele valor do "x",
que é o 5, e você vai ter a altura da função. Então você tem que dar aqui
uma faixa de alcance, né? Você não pode dizer
apenas o seguinte: "Quantas pessoas têm exatamente
5 polegadas a mais do que a média?", ou seja, que tenha 5 polegadas exatamente
a mais que a média, você não pode dizer isso. Mas você pode dizer,
por exemplo, quando as pessoas são de 4,9 até
5,1 polegadas maior que a média. Você tem que dar aqui
uma determinada margem para esse cálculo, porque também é impossível,
mesmo no nível atômico, que uma pessoa tenha
exatamente 5,9 polegadas de altura, ou melhor, na verdade,
59 polegadas. Então é impossível que uma pessoa
tenha 59 polegadas de altura, certo? Estou dizendo aqui exatamente,
de maneira exata, até mesmo porque, mesmo
a definição de polegada, por exemplo, não é uma definição
tão precisa quanto deveria ser, então é assim que
você usa essa função. Isso aqui é tão usado,
se mostra na natureza a todo momento, mas não só na natureza,
como em toda a estatística inferencial. Acho que você tem que se tornar cada vez
mais familiar com essa fórmula aí, beleza? Agora deixa eu brincar
um pouquinho com essa fórmula apenas para dar uma intuição de como
isso daqui funciona na prática, beleza? Deixa eu só
apagar isso aqui. Eu posso dizer que essa fórmula aqui,
então, é igual ao seguinte, se eu colocar esse σ dentro da raiz quadrada,
isso aqui vai ser igual a quanto? Olha só. Ora, quando o σ
for lá dentro da raiz, ele vai ficar elevado ao
quadrado, sim ou não? Então isso vai ser 1 sobre √2π,
que multiplica σ². Na verdade, eu nunca vi
essa fórmula de escrita deste jeito, mas isso me dá uma certa intuição de que esse
σ² aqui é, claro, a variância, é ou não é? E você sempre calcula a variância
antes de calcular o desvio-padrão. Então, isso daqui
é interessante. E essa parte aqui
pode ser escrita como: "e" elevado a -½,
que multiplica o quê? Ora, aqui vai ficar, então, "x" menos
a média (μ) sobre σ², é ou não é? Tirei o 2 ali de dentro, então vai ficar (x - μ) sobre σ,
tudo isso elevado ao quadrado. Ora, e o que
isso significa? O que é isso aqui? O que é (x - μ),
essa letra grega μ aqui? Ora, vai ser isso aqui, daqui até aqui,
é ou não é? Esse pedaço aqui. E isso aqui, o σ nada
mais é que o desvio-padrão. Então, isto daqui me diz quantos desvios-padrão
nós estamos nos afastando da média. Isso aqui, de fato,
é chamado de "índice padrão z". Eu até falei sobre
ele em um outro vídeo. Então, nós elevamos isso ao quadrado
e nós multiplicamos isso por -½. Então aqui, por exemplo, poderia escrever
da seguinte maneira esta parte aqui: eu posso dizer
que "e" elevado a -½ vezes "a" é a mesma coisa que o "e" elevado a "a",
elevado ainda a -½. Isso é uma
propriedade das potências. Quando você tem uma potência
elevada a uma outra potência, você pode simplesmente pegar
esses dois aqui e multiplicar. Isso aqui, essa primeira parte, eu poderia escrever
como sendo 1 sobre √2πσ², eu estou apenas, no caso,
brincando com a fórmula, né? Pois acho que se você vir essa fórmula
escrita de várias maneiras diferentes, você pode ter um pouco mais
de intuição sobre como ela funciona. Eu acho muito interessante porque essa fórmula
tem o π e o "e" nela, é ou não é? Duas constantes matemáticas muito
importantes que aparecem nessa fórmula, tantos fenômenos naturais, enfim, são descritos por essa
fórmula e, novamente, o π e o "e" se fazem presentes. Então eu poderia, no caso,
colocar aqui, no lugar disso aqui, nessa fórmula que
eu estou reescrevendo, isso aqui que eu fiz aqui embaixo,
ou seja, o "e" elevado a (x - μ) sobre σ, tudo isso aqui elevado ao quadrado
e tudo isso daqui, a partir do "e", também elevado, nesse caso aqui, a -½, por
essa propriedade que eu expliquei aqui embaixo, certo? Agora, o expoente -½ é a mesma coisa que 1 sobre
a raiz quadrada disso aqui tudo, é ou não é? Ou seja, eu poderia reescrever
isso aqui tudo, vou fazer aqui embaixo, como sendo
1 sobre √2πσ², que nada mais é que a variância,
vezes "e" elevado a isso aqui, como nós dissemos,
isso aqui é igual a "z", "z" é quantas vezes, ou seja, quantos
desvios-padrão nós estamos afastados da média. Então seria "e" elevado a "z",
que ainda está elevado ao quadrado, certo? E de repente, toda aquela fórmula de cima
se torna algo muito claro, olha aqui, 1 sobre... Você pode simplesmente dizer
√2π vezes a variância vezes "e" elevado ao número de desvios-padrão que nós
estamos afastados da média elevado ao quadrado. Ou seja, a raiz quadrada disso
aqui tudo, você pega o inverso, e aí você tem
a distribuição normal. Agora você já sabe pelo resto da sua vida que
você pode pegar esta fórmula aqui, na verdade, brincar um pouquinho com ela que você
vai ter um entendimento mais profundo do que ela significa,
é ou não é? Pois bem, agora vamos mudar aqui alguns
parâmetros que estão escritos na planilha. Aqui é o seguinte, nós temos
a média, que está em zero, o desvio-padrão,
que está em 4, e a variância, 16, é o quadrado
do desvio-padrão, é ou não é? Agora deixa eu mudar esse parâmetro
aqui da média, por exemplo, para 5, vamos ver o que
vai mudar no gráfico. Olha lá para o gráfico.
Enter... 5, e o gráfico andou
para a direita 5 unidades, olha aqui. Ele estava centralizado aqui
e agora está à direita 5 unidades. E agora o que vai acontecer
se eu mudar de 5 aqui para -5? Vamos ver. -5, enter, e o gráfico se deslocou 5 unidades
para a esquerda a partir da origem, a partir daqui do centro,
é ou não é? Na verdade, ele estava centrado
aqui nos 5 anteriormente, veio para o -5, então ele se deslocou, na verdade,
10 unidades para a esquerda, em relação ao centro,
5 unidades para a esquerda. O que vai acontecer agora
se eu mudar o desvio-padrão? Ora, o desvio-padrão é o quê?
Ele é a raiz quadrada da variância, e a variância é a distância
ao quadrado em relação à média. Então, o desvio-padrão é como se fosse a
distância intermediária em relação à média, então quanto menor o desvio-padrão, mais próximo
da média um conjunto de pontos estará. Então vamos mudar aquele parâmetro do
desvio-padrão, vamos botar um 2, vamos diminuir. Vamos ver o que vai acontecer, suspeito
que o gráfico vai ficar mais estreito, vai ficar mais longo aqui
para cima e mais estreito. Exatamente por isso que eu
expliquei agora, vamos dar o enter. Enter, olha aí o que aconteceu.
Exatamente o que eu previa, é ou não é? Como eu diminuí o desvio-padrão, ele tende a
ficar mais próximo da média do que longe. Agora vamos aumentar, vamos colocar 10
aqui no desvio-padrão, em vez de 2, 10. Olha o que vai acontecer,
esticou o gráfico, ficou mais achatado, e essa aqui é a grande diferença, pois a
distribuição binomial é sempre finita, você pode ter apenas um número finito de valores,
enquanto a distribuição normal é infinita, ela segue aqui para o mais infinito
e para o menos infinito também. Ou seja, ela é definida sobre todos
os números reais na reta real aqui, beleza? Ou seja, analisando esse
gráfico aqui, por exemplo, a probabilidade de eu obter um mil
aqui nesse gráfico, lá embaixo, é muito, muito, muito pequena,
mas ela existe, beleza? Exatamente porque ela é infinita, ela
nunca vai encostar aqui no eixo do "x". O que isso quer dizer? Por exemplo,
há uma pequena, pequeníssima probabilidade de os átomos do meu corpo se organizarem
de maneira que eu, por exemplo, atravesse a cadeira
que estou sentado agora. É algo extremamente improvável,
mas tem umas chances de acontecer, sim. A distribuição normal
diz exatamente isso, que qualquer coisa pode acontecer,
mesmo que ela seja muito improvável. Quando você calcula
a distribuição normal, você não pode simplesmente
olhar para um ponto no gráfico, você tem que calcular a área sob a curva,
por baixo da curva, beleza? E essa área debaixo da curva
está sempre entre dois pontos. Então, digamos, por exemplo, que esta aqui
é a nossa distribuição normal e que eu queira saber qual é
a probabilidade de eu ter um zero. Eu não sei qual fenômeno
está sendo descrito aqui, mas quero saber
a probabilidade de eu obter um zero. E aí, se eu disser exatamente zero,
olha aqui, a probabilidade é zero. Exatamente porque não há nenhuma área
aqui neste intervalo, é só o zero, né? Então seria uma linha reta,
não tem área. O que eu tenho que fazer aqui
então é dar uma margem, por exemplo, a probabilidade
entre -0,05 e +0,05. Deixa eu
digitar isso aqui. Aqui em cima, está vendo?
Isso aqui vai ser o quê, então? Eu vou digitar aqui -0,05 e aqui do
outro lado, 0,05, e dar um enter. Você vê que deu
uma probabilidade muito pequena. Agora deixa eu
botar aqui -1 até 1. -1 até 1.
Enter. Olha lá, 7%. E o que 7% significa?
Como que se calcula esse 7%? Deixa eu mostrar para
você aqui agora, olha só. Vou mostrar o que o Excel
está fazendo aqui nesse caso. A gente está indo do -1,
que está por aqui assim, até o 1, que está
por aqui assim. E aí, ele está calculando a área debaixo dessa
curva aqui, que vai ser então essa área aqui. E para as pessoas que entendem cálculo,
essa área aqui é o que, na verdade? Ela é a integral de -1 até 1
disso aqui tudo. Onde, neste caso, o σ vale 10
porque ele é o de vídeo desvio-padrão, né? A média, que é no
lugar do μ aqui, vale -5, e aí eu vou agora colocar nessa integral
isso aqui, substituindo os valores. Então a integral
de -1 até 1 de quê? De 1 sobre o desvio-padrão, que é o σ,
que vale 10, então aqui vai ficar o 10, √2π, tudo isso multiplicado por "e",
que está elevado a -½ vezes o quê? Vezes isso aqui, né?
"x" menos μ, né? Como μ é -5, então vai ficar +5, -(-5),
que dá +5, sobre a variância, a variância é 100,
então aqui vai entrar o 100, e tudo isso aqui ainda
está elevado ao quadrado. E aí, é claro como é uma integral,
vamos colocar o "dx". E aí, o resultado dessa conta toda aqui,
dessa integral, vai dar 7%, beleza? Ou, é claro como todo mundo sabe,
7% é 7 sobre 100, e a área debaixo dessa curva aqui,
então, é de 0,07. Porém, essa integral aqui não é uma coisa
fácil de se calcular analiticamente, até mesmo para
quem conhece cálculo. Então ela tende a ser
resolvida numericamente. E aí existe uma outra coisa
que você pode usar que vai facilitar na hora
de calcular essa área, que é a função de
distribuição cumulativa. E o que é a função
de distribuição cumulativa? Ora, a função de distribuição cumulativa
é uma função em relação a "x", isso nos dá a área sob a curva
de uma região que vai até o "x". Então digamos que o "x"
esteja por aqui assim. Aqui está o "x", e essa função vai nos dar
essa área toda aqui, daqui até o "x", certo? Uma outra maneira
de ver isso aqui é o seguinte: Qual é a probabilidade que você pare
em um valor que seja menor que "x"? Então ela é a integral
de menos infinito até o valor "x" dessa nossa função aqui, da função de
densidade de probabilidades. Ou seja, p(x)dx. E aí quando você usa essa função
de distribuição normal no Excel, você normalmente faz o seguinte,
vou colocar aqui como "norm.dist", tá? E aí você tem que fornecer o "x", a média, que é o μ,
você fornece o desvio-padrão, que é o σ, e aí você diz, sempre que você quiser a distribuição
cumulativa, nesse caso você diz "verdadeiro". Ou, se você quiser apenas essa distribuição normal,
então você diz "falso". Então, se eu quisesse plotar,
digamos, isso que a gente fez aqui, eu colocaria em letras maiúsculas
"falso", ou em inglês, "false", né? Agora deixa eu só chegar
aqui um pouquinho para baixo para a gente mostrar melhor a função
de distribuição cumulativa, olha aí. Quando você diz "verdade" lá em cima,
que eu falei "falso" ou "verdadeiro", quando você diz verdade, ou "true",
em inglês, você obtém esse gráfico aqui, que é o gráfico da função
de distribuição cumulativa. Então aqui você pode ver
a distribuição normal e a função de distribuição cumulativa,
a diferença dos gráficos. Só como exemplo, digamos que eu
queira calcular a probabilidade de obter um número menor que 20,
20 está aqui, né? Então eu quero qualquer valor menor que 20
dada esta distribuição normal aqui. E aí, quando você vem aqui no gráfico
da função de distribuição cumulativa, você vê que, para obter um
número menor que 20, é bem alta probabilidade, é quase
100%, está aqui, é ou não é? E isso, claro,
faz todo o sentido, porque a maior parte da área sob essa
curva está exatamente antes do 20. A maior área possível aqui, no caso,
ela está aqui nesta região, sim ou não? Se eu quiser saber também,
por exemplo, a probabilidade de obter
um número menor que -5, como -5 está bem aqui na média, a
probabilidade vai ser bem aqui, 50%, é ou não é? Deixa eu baixar aqui para você ver melhor
como está exatamente aqui no -5, ó, 50%, pois é exatamente metade da área do gráfico,
a outra metade está à direita do -5. E aí, quando eu quero calcular aqui,
por exemplo, a probabilidade de eu tirar
um número entre -1 e 1, o que eu faço aqui? Deixa eu apagar
primeiro toda esta coisa que eu escrevi aqui. O -1 está por aqui
assim, né? Então eu calculo toda essa área aqui,
à esquerda do -1, certo? Ou seja, tudo isso aqui,
toda essa área aqui antes do -1, e aí depois eu calculo a probabilidade
de obter um número menor que 1. Deixa eu mudar a cor aqui só
para a gente analisar melhor. O 1 está por aqui
assim, ó. Então, eu calculo a probabilidade do 1,
que vai ser isso aqui, beleza? Depois, é só calcular
essa diferença, ou seja, eu subtraio a área amarela dessa
área aqui toda, que está feita em violeta. E quando eu faço isso, eu obtenho exatamente
essa área aqui, que é o que eu quero, ó. Então o que eu descobri aqui
foi o seguinte: a probabilidade de eu obter, digamos, o 1,
o zero está aqui, o 1 está por aqui assim. Ele está
bem aqui, né? E aí, depois de ter o -1, números
menores que -1, está por aqui assim, e a diferença entre estas duas, eu vou subtrair
este número aqui desse número aqui, e isso me diz a probabilidade de que eu
esteja entre estes dois números, beleza? Ou seja, exatamente
esta área aqui, certo? Quando eu fizer isso,
eu calculo esta área aqui. Eu encorajo você a brincar com o Excel um
pouquinho e tentar descobrir as propriedades dessas coisas que a gente está
falando aqui neste vídeo, beleza? E aí, é o seguinte, quando você volta aqui
para este gráfico da distribuição normal, a gente tem que isso aqui,
essa linha, é a média, né? Aqui, eu tenho um desvio-padrão, aqui,
eu tenho outro desvio-padrão, certo? Aqui, eu tenho um desvio-padrão abaixo da
média e um desvio-padrão acima da média. E aí, e se eu quiser saber, digamos, a probabilidade
de eu estar bem próximo aqui da média, né? Então eu vou colocar aqui na probabilidade um
desvio-padrão. A média a gente sabe que é -5, né? Que está aqui
neste gráfico. Então vou colocar de -15
até o desvio-padrão acima da média, ou seja, -5 + 10,
que vai dar 5. E aí, eu obtenho 68,3% e sempre será assim,
você sempre vai ter uma probabilidade de 68,3% de estar dentro de um desvio-padrão
em relação à média. Tudo isso, claro, assumindo
que a gente tenha uma distribuição normal. E aí, só para ficar claro,
deixa eu apagar isso aqui também, esse número de 68,3%
que nós acabamos de calcular é exatamente a área desta região
aqui debaixo da curva entre os dois
desvios-padrão, né? E aí, eu posso comparar esse resultado
que eu obtive aqui, de 68,3%, com a função de
distribuição cumulativa. Olha aí, vamos ver, então,
como é que vai ficar isso. A gente está analisando, então,
a área da região que vai estar entre o 5, né?
5 está aqui, ó. Certo? Aqui o 5, bem por aqui, assim.
E o -15. Olha o -15 aqui. -15 está aqui. Agora, então, eu preciso subtrair
este número aqui desse número. Então, digamos
que esta probabilidade aqui seja de 18% e aí, quando eu fizer
essa subtração que eu falei, eu vou obter exatamente
aquele resultado de 68,3%, certo? Então o que isso
essencialmente quer dizer? Deixa eu apagar aqui só
para você entender melhor. Quando eu pego esta parte dos 5, esse valor
aqui na função de distribuição cumulativa do 5, eu calculo esta
área aqui, certo? Esta área toda do 5 em diante
aqui para a esquerda. E todos os números
menores do que 5. E aí, quando eu calculo
essa probabilidade aqui do -15, eu estou fazendo -15
para a esquerda, certo? Dos números menores que -15.
Então eu pego esta área aqui. E aí, quando eu subtraio esta área
aqui do -15 para a esquerda dessa área toda aqui,
do 5 para a esquerda, eu vou ter exatamente
aquele valor, 68,3%, que é esta área aqui que está sob,
debaixo desta curva, beleza? Está claro? Então, aqui eu fiz
apenas alguns exemplos só para você perceber como funciona, dar um pouquinho de
intuição sobre o que é a distribuição normal e tudo o mais. O que quero, na verdade, é que você pegue
essa planilha e brinque um pouquinho com ela. Por exemplo, aqui, digamos que eu queira que a média
agora, em vez de -5, seja 5. O que vai acontecer? Olha para o gráfico.
Enter. O gráfico foi todo
para a direita. Deixa eu apagar isso aqui, né?
Esses gráficos que eu fiz aqui. Só para você analisar melhor,
que esse gráfico saiu daqui da média, era -5, agora ele foi 5 unidades
para a direita do zero, certo? Então 10 unidades a direita
de onde ele estava antes. Ou seja, o que aconteceu aqui é
que ele saiu daqui e veio para cá, né? E aí, por exemplo,
se eu fizer... Eu quero fazer o desvio padrão valendo 6,
olha o que vai acontecer com o gráfico. Ele deu uma estreitada,
ele ficou mais estreito, sim ou não? E aí, se eu diminuir mais ainda
o desvio-padrão, colocar 2 e der um Enter aqui,
olha só o que acontece. Ficou ainda mais estreito.
Eu plotei os números, o gráfico está representando aqui apenas os
números que estão entre o -20 e o 20, certo? E aí, eu fui incrementando esses
valores em uma unidade, 20, -19, -18. Então o que acontece aqui, na verdade, é
que essa linha não uma linha contínua, são pontos, -20,
e depois outro ponto no -19, e aí conecta estes pontos
com uma linha reta. Aqui, eu calculei a distância
de cada um destes pontos e a média e isso me diz o seguinte,
por exemplo, que o ponto -20 é 25 a menos que a média,
olha aqui, a média está aqui no 5, né? Então, -20 está a 25 unidades,
ele é 25 a menos do que a média, beleza? Daí, aqui, à direita, eu vou ter aquele valor,
esse valor anterior aqui dividido por σ, ou seja, dividido pelo desvio-padrão,
isso daqui é o índice "z" padronizado. Ou seja, o índice "z", né?
Índice "z". Isso me diz a quantos desvios-padrão
esse -20 está lá da média. E neste nosso
caso aqui, o -20 está a 12,5 desvios-padrão da média,
abaixo da média, está negativo aqui, é ou não é? Aí, aqui eu vou
ter a altura, né? Por exemplo, aqui no, digamos, -2,
a altura do -2 está onde? Está por aqui assim, mas a do 2
está um pouquinho melhor. A altura do 2 está por aqui.
Então vão ser estes valores aqui, certo? Depois joguei isso na função de distribuição
cumulativa e aí me deu a probabilidade, olha aí. Então isso é a probabilidade de que eu esteja
menor do que estes números aqui, certo? E apesar de aqui estar marcando 0%,
na verdade, não é zero, é uma probabilidade muito,
muito, muito pequena, só que foi arredondada, por isso que deu 0,0,
está com uma casa decimal aqui apenas. Se eu colocasse várias casas decimais e
aparecesse, sei lá, 0,000000... e lá no final, um 1, isso aqui, no caso,
foi arredondado, certo? E outra coisa que você
tem que ter na sua mente é que a probabilidade de você,
desde o menos infinito até o mais infinito, essa probabilidade vai
ser igual a 1, é 100%, porque você vai estar pegando
toda a área sob esta curva aqui, certo? Isso pode acontecer, por exemplo, se eu colocar
um número muito pequeno aqui, digamos -1.000, e um número muito grande aqui,
digamos 1.000. Olha lá, vai dar 100%, mas,
na verdade, não é 100%, pois eu tenho números ainda menores
que -1.000 e maiores do que 1.000 que ainda vão ter uma probabilidade
muito pequena, mas que existe, certo? Isto aqui está apenas arredondado,
não é 100% na verdade. Aqui, provavelmente daria 99,99999%,
por exemplo. E para calcular, no caso, foi arredondado,
mas para calcular isso daqui, na verdade, eu peguei a função de distribuição
cumulativa deste ponto, números menores que este, a função de distribuição cumulativa deste
outro ponto aqui, números menores que -1.000, subtraí, e aí encontrei este valor aqui
próximo de 100%, beleza? Eu espero que este vídeo aqui tenha dado
uma visão bacana sobre a distribuição normal. Eu encorajo realmente
você a brincar com esta planilha ou até mesmo, quem sabe, fazer uma planilha
dessa você próprio, por sua conta. A gente pode, até em
exercícios futuros, por exemplo, fazer uma planilha mais ou menos
parecida com essa, mas modelada para o que a gente quer,
por exemplo, para o mercado financeiro etc. Tá bom? Então este vídeo é sobre isso, espero
que você tenha gostado. Até o próximo vídeo!