Conteúdo principal
Estatística Avançada
Curso: Estatística Avançada > Unidade 4
Lição 3: Curvas de densidadeCurvas de densidade
Uma introdução às curvas de densidade para visualização de distribuições. Uma breve revisão de histogramas de frequência e de histogramas de frequência relativa.
Quer participar da conversa?
- Nao entendi quando o professor fala que meus dados ficariam pela metade no gráfico no minutodo video. Ja entendi, revi mais dua vezes e entendi. 3:44(2 votos)
Transcrição de vídeo
RKA3JV - O objetivo deste vídeo é
visualizar a distribuição de dados e analisar essas visualizações. Para isso, vamos utilizar
a curva de densidade. Antes de mais nada, vamos
revisar alguns conceitos. Imagine que eu quero elaborar
um histograma com a média de copos de água, que 16 estudantes meus
beberam ao longo de 30 dias. Após coletar os dados, nós obtivemos os seguintes resultados: percebemos que este primeiro estudante bebe, em média, 1/2 copo de água por dia. Então, este estudante muito
provavelmente está desidratado. Já o último estudante, bebeu em média 8,1 copos de água. Para melhor visualizar
e melhor entender estes dados, nós podemos organizá-los em um histograma. Este histograma consiste em distribuir o número de copos de água e o número de pessoas que beberam
essa quantidade de copos de água. No primeiro intervalo,
nós podemos observar as pessoas que beberam entre nenhum e 1 copo de água por dia. Nós percebemos que duas pessoas
beberam essa quantidade de água. Olhando aqui para os nossos dados, nós podemos ver essas duas pessoas. Já este quarto intervalo, refere-se a pessoas que beberam
entre 3 e 4 copos de água por dia. Perceba que 4 pessoas beberam essa quantidade de água. E se a gente vier aqui na nossa lista, nós vemos que 4 dados
estão neste intervalo. Bom, mas este tipo de frequência nós utilizamos quando a quantidade
de dados é pequena. Imagina se fossem 1.300.555 médias de copos de água que as
pessoas beberam nos últimos 30 dias. Fazer este cálculo, através da frequência, seria um pouco impraticável. Neste sentido, você pode
estar se perguntando, e se eu quiser representar
em forma de porcentagem? A porcentagem é uma forma muito importante para se trabalhar com números grandes e nos ajuda em situações que este
tipo de frequência, a frequência absoluta, não nos auxilia a visualizar os dados. Quando representamos
estes dados em percentual, estamos trabalhando
com outro tipo de frequência, a frequência relativa. Neste histograma, aqui abaixo, você pode ver a frequência
relativa destes dados. A diferença reside no seguinte: no primeiro intervalo, agora,
ao invés da gente ter duas pessoas, nós estamos apresentando como 12,5%. Isso porque 2 pessoas de 16 pessoas, vai ser igual a 1/8, que é igual 12,5. No caso deste outro intervalo,
que é de 3 a 4, nós teremos 25%.
E isso porque 4/16 é o mesmo que 1/4,
que é o mesmo que 25%. Estes histogramas são muito úteis e você vai utilizá-los várias vezes. No entanto, se você quiser representar dados com o intervalo ainda menor, você pode fazer de outra forma. Ao invés de você fazer intervalos com 1, de 1 para 2, de 2 para 3, você pode dividir isso pela metade. Assim, seus intervalos ficariam com 0,5. Então, aqui seria o mesmo que
maior ou igual a zero, até menor que 0,5. Nós podemos admitir que não
temos mais apenas 16 dados, nós temos 16 mil dados. E isso aqui pode representar
a porcentagem destes valores. Mas, suponhamos que
isso não seja o suficiente. Suponhamos que nós queremos
que estes intervalos sejam menores, ao ponto de ficar tão fino, tão fino, essas barras que não conseguiríamos discernir a diferença de uma para a outra. Neste caso, poderíamos traçar uma curva, uma linha na parte superior de cada barra. Esta curva é a curva de densidade. Esta área abaixo da curva
corresponde a 100% das pessoas que foram analisadas
no nosso estudo de caso, sobre a quantidade de copos de água
que foram bebidos nos últimos 30 dias. Isso é o mesmo que dizer 1,0. Lembre-se, que a curva de densidade
nunca será negativa. O eixo "x" corresponde à quantidade
de copos de água que a pessoa bebeu, em média, nos últimos 30 dias. Estamos assumindo aqui que ninguém
bebeu mais do que 9 copos de água. Bom, mas como eu faço para calcular a quantidade de pessoas que beberam entre 2 e 4 copos de água, em média,
por dia nos últimos 30 dias? O que temos que fazer é calcular
a área deste intervalo do gráfico. Bom, eu estou estimando
que nesta área tem cerca de 40%. Então, 40% das pessoas beberam, em média,
entre 2 e 4 copos de água por dia. E se eu quiser saber quantas pessoas beberam mais de 3 copos de água por dia? Então, nós marcamos aqui e calculamos a área a partir do número 3. Mais uma vez estimando, porque não tem como eu saber
ao certo quantas pessoas foram, apenas olhando para este gráfico. Eu estimo que cerca de 50% de pessoas beberam, em média,
acima de 3 copos de água por dia. Existem computadores e ferramentas que podem calcular exatamente
as áreas das curvas de densidade. A famosa curva de sino é um exemplo, e ela será estudada mais adiante. Com ela é possível extrair
um monte de dados precisos por meio de ferramentas
para calcular essas áreas. Além do que foi dito,
eu gostaria de destacar algo que geralmente gera uma certa
confusão sobre as curvas de densidade. Vamos supor que gostaríamos de saber quantas pessoas beberam exatamente 3 copos de água por dia. Neste sentido, eu gostaria de saber
quantas pessoas beberam 3,000000 e para sempre zero, copos de água por dia. A primeira coisa que eu tenho a dizer é que muito dificilmente muitas pessoas
beberiam exatamente 3 copos de água. Seria mais provável que a pessoa
bebesse entre 2,9 e 3,1. Mas, mesmo assim,
vamos olhar para o gráfico. Você poderia, erroneamente, assumir que 0,2 pessoas beberam
exatamente 3 copos de água por dia. O que seria igual a 20%. Mas isso é um equívoco. Como nós vimos, o eixo "y" não indica
a porcentagem de pessoas, de forma direta, que beberam
três copos de água por dia. Partindo da premissa que é impossível uma pessoa beber 3 copos
de água por dia exatamente. Vamos fazer diferente. Vamos assumir o seguinte intervalo, pessoas que beberam um valor
superior ou igual a 2,9 e um valor inferior ou igual a 3,1. Dessa forma, nós temos um intervalo, e, com este intervalo, nós conseguimos calcular quantos por
cento de pessoas estão neste intervalo. Então, vamos supor aqui 2,9 e 3,1.
Vou colorir. Então, nós temos um retângulo. Neste retângulo, nós sabemos qual é
a altura do retângulo, que é 0,2. E nós sabemos qual é a base,
que também é 0,2. Então, 0,2 vezes 0,2. Utilizando a fórmula dos retângulos, base vezes altura, nós temos aproximadamente 0,04. Ou seja, aproximadamente, 4% das pessoas beberam uma quantidade de água
entre 2,9 e 3,1 por dia.