If you're seeing this message, it means we're having trouble loading external resources on our website.

Se você está atrás de um filtro da Web, certifique-se que os domínios *.kastatic.org e *.kasandbox.org estão desbloqueados.

Conteúdo principal

Curvas de densidade

Uma introdução às curvas de densidade para visualização de distribuições. Uma breve revisão de histogramas de frequência e de histogramas de frequência relativa.

Quer participar da conversa?

Você entende inglês? Clique aqui para ver mais debates na versão em inglês do site da Khan Academy.

Transcrição de vídeo

RKA3JV - O objetivo deste vídeo é visualizar a distribuição de dados e analisar essas visualizações. Para isso, vamos utilizar a curva de densidade. Antes de mais nada, vamos revisar alguns conceitos. Imagine que eu quero elaborar um histograma com a média de copos de água, que 16 estudantes meus beberam ao longo de 30 dias. Após coletar os dados, nós obtivemos os seguintes resultados: percebemos que este primeiro estudante bebe, em média, 1/2 copo de água por dia. Então, este estudante muito provavelmente está desidratado. Já o último estudante, bebeu em média 8,1 copos de água. Para melhor visualizar e melhor entender estes dados, nós podemos organizá-los em um histograma. Este histograma consiste em distribuir o número de copos de água e o número de pessoas que beberam essa quantidade de copos de água. No primeiro intervalo, nós podemos observar as pessoas que beberam entre nenhum e 1 copo de água por dia. Nós percebemos que duas pessoas beberam essa quantidade de água. Olhando aqui para os nossos dados, nós podemos ver essas duas pessoas. Já este quarto intervalo, refere-se a pessoas que beberam entre 3 e 4 copos de água por dia. Perceba que 4 pessoas beberam essa quantidade de água. E se a gente vier aqui na nossa lista, nós vemos que 4 dados estão neste intervalo. Bom, mas este tipo de frequência nós utilizamos quando a quantidade de dados é pequena. Imagina se fossem 1.300.555 médias de copos de água que as pessoas beberam nos últimos 30 dias. Fazer este cálculo, através da frequência, seria um pouco impraticável. Neste sentido, você pode estar se perguntando, e se eu quiser representar em forma de porcentagem? A porcentagem é uma forma muito importante para se trabalhar com números grandes e nos ajuda em situações que este tipo de frequência, a frequência absoluta, não nos auxilia a visualizar os dados. Quando representamos estes dados em percentual, estamos trabalhando com outro tipo de frequência, a frequência relativa. Neste histograma, aqui abaixo, você pode ver a frequência relativa destes dados. A diferença reside no seguinte: no primeiro intervalo, agora, ao invés da gente ter duas pessoas, nós estamos apresentando como 12,5%. Isso porque 2 pessoas de 16 pessoas, vai ser igual a 1/8, que é igual 12,5. No caso deste outro intervalo, que é de 3 a 4, nós teremos 25%. E isso porque 4/16 é o mesmo que 1/4, que é o mesmo que 25%. Estes histogramas são muito úteis e você vai utilizá-los várias vezes. No entanto, se você quiser representar dados com o intervalo ainda menor, você pode fazer de outra forma. Ao invés de você fazer intervalos com 1, de 1 para 2, de 2 para 3, você pode dividir isso pela metade. Assim, seus intervalos ficariam com 0,5. Então, aqui seria o mesmo que maior ou igual a zero, até menor que 0,5. Nós podemos admitir que não temos mais apenas 16 dados, nós temos 16 mil dados. E isso aqui pode representar a porcentagem destes valores. Mas, suponhamos que isso não seja o suficiente. Suponhamos que nós queremos que estes intervalos sejam menores, ao ponto de ficar tão fino, tão fino, essas barras que não conseguiríamos discernir a diferença de uma para a outra. Neste caso, poderíamos traçar uma curva, uma linha na parte superior de cada barra. Esta curva é a curva de densidade. Esta área abaixo da curva corresponde a 100% das pessoas que foram analisadas no nosso estudo de caso, sobre a quantidade de copos de água que foram bebidos nos últimos 30 dias. Isso é o mesmo que dizer 1,0. Lembre-se, que a curva de densidade nunca será negativa. O eixo "x" corresponde à quantidade de copos de água que a pessoa bebeu, em média, nos últimos 30 dias. Estamos assumindo aqui que ninguém bebeu mais do que 9 copos de água. Bom, mas como eu faço para calcular a quantidade de pessoas que beberam entre 2 e 4 copos de água, em média, por dia nos últimos 30 dias? O que temos que fazer é calcular a área deste intervalo do gráfico. Bom, eu estou estimando que nesta área tem cerca de 40%. Então, 40% das pessoas beberam, em média, entre 2 e 4 copos de água por dia. E se eu quiser saber quantas pessoas beberam mais de 3 copos de água por dia? Então, nós marcamos aqui e calculamos a área a partir do número 3. Mais uma vez estimando, porque não tem como eu saber ao certo quantas pessoas foram, apenas olhando para este gráfico. Eu estimo que cerca de 50% de pessoas beberam, em média, acima de 3 copos de água por dia. Existem computadores e ferramentas que podem calcular exatamente as áreas das curvas de densidade. A famosa curva de sino é um exemplo, e ela será estudada mais adiante. Com ela é possível extrair um monte de dados precisos por meio de ferramentas para calcular essas áreas. Além do que foi dito, eu gostaria de destacar algo que geralmente gera uma certa confusão sobre as curvas de densidade. Vamos supor que gostaríamos de saber quantas pessoas beberam exatamente 3 copos de água por dia. Neste sentido, eu gostaria de saber quantas pessoas beberam 3,000000 e para sempre zero, copos de água por dia. A primeira coisa que eu tenho a dizer é que muito dificilmente muitas pessoas beberiam exatamente 3 copos de água. Seria mais provável que a pessoa bebesse entre 2,9 e 3,1. Mas, mesmo assim, vamos olhar para o gráfico. Você poderia, erroneamente, assumir que 0,2 pessoas beberam exatamente 3 copos de água por dia. O que seria igual a 20%. Mas isso é um equívoco. Como nós vimos, o eixo "y" não indica a porcentagem de pessoas, de forma direta, que beberam três copos de água por dia. Partindo da premissa que é impossível uma pessoa beber 3 copos de água por dia exatamente. Vamos fazer diferente. Vamos assumir o seguinte intervalo, pessoas que beberam um valor superior ou igual a 2,9 e um valor inferior ou igual a 3,1. Dessa forma, nós temos um intervalo, e, com este intervalo, nós conseguimos calcular quantos por cento de pessoas estão neste intervalo. Então, vamos supor aqui 2,9 e 3,1. Vou colorir. Então, nós temos um retângulo. Neste retângulo, nós sabemos qual é a altura do retângulo, que é 0,2. E nós sabemos qual é a base, que também é 0,2. Então, 0,2 vezes 0,2. Utilizando a fórmula dos retângulos, base vezes altura, nós temos aproximadamente 0,04. Ou seja, aproximadamente, 4% das pessoas beberam uma quantidade de água entre 2,9 e 3,1 por dia.