Conteúdo principal
Estatística e probabilidade
Curso: Estatística e probabilidade > Unidade 3
Lição 4: Variância e desvio-padrão de uma população- Medidas de dispersão: amplitude, variância e desvio-padrão
- Variância de uma população
- Desvio-padrão da população
- A ideia de dispersão e desvio-padrão
- Cálculo passo a passo do desvio-padrão
- Desvio-padrão de uma população
- Média e desvio-padrão versus mediana e FIQ
- Verificação de conceito: desvio-padrão
- Estatística: fórmulas de variância alternativas
© 2023 Khan AcademyTermos de usoPolítica de privacidadeAviso de cookies
Média e desvio-padrão versus mediana e FIQ
Aprenda a escolher as "melhores" medidas de centro e dispersão quando um conjunto de dados tem outliers.
Quer participar da conversa?
- Essa aula foi muito esclarecedora.(3 votos)
Transcrição de vídeo
RKA3JV - Um grupo de 9 amigos
formados em uma faculdade resolveram, após um ano, verificar qual era a tendência central dos salários deles. Eles, então, resolveram colocar todos os seus salários em um computador. E os salários deles eram estes aqui, só que em uma escala de milhares. Então, 35 mil, 50 mil, 50 mil,
50 mil, 56 mil, 60 mil, 60 mil, 75 mil e uma com 250 mil. Essa, com certeza, está ganhando
bastante dinheiro trabalhando. No computador,
eles decidiram, então, calcular duas formas de medida central, sendo uma delas a média e a outra a mediana. A média foi calculada por meio da soma de todos os salários divido por 9. E a mediana consiste
no valor que está no meio. Ou seja, é 56. 56 mil, este é o salário mediano
destes 9 salários. Perceba que nós temos
4 valores após os 56 e 4 valores antes de 56. Eu encorajo você a pausar este vídeo e pensar sobre qual destas
duas medidas de tendência central é a melhor medida para essa
população de salários. Vamos pensar nisso juntos. Primeiro, para ficar um pouco
mais fácil de visualizar nossos dados, eu vou plotar os 9 salários
sobre uma linha. Então, nós temos aqui uma linha. Nesta linha, nós temos zero valores,
50 mil, 100 mil, 150 mil, 200 mil, 250 mil. Como você pode perceber,
nós temos alguns valores que não se encaixam em cima dos pontos aqui sinalizados nesta linha. Em função disso, eu vou dividir
este intervalo em pontos menores. Então, 10, 20, 30, 40, 50,
60, 70, 80, 90 e 100. Vamos plotar, agora, os valores
de cada um dos salários. O primeiro salário, que é 35 mil, fica mais ou menos aqui. Nós temos 3 salários no valor de 50 mil e um no valor de 56 mil. Nós temos dois salários
com valores de 60 mil. Nós temos um salário no valor de 75 mil. E outro salário no valor de 250 mil. Distribuído os valores
dos salários dos formados, eu te questiono: a média seria uma boa
medida de tendência central? Perceba que nós temos aqui um valor
que é um valor distorcido, que se refere a 250 mil. Se plotarmos aqui a média,
a média vai ficar mais ou menos aqui. Veja, que a maior parte dos valores está localizado antes da média. Neste sentido, a média pode não
representar adequadamente essa mostra de valores,
essa população de valores. Isto porque o valor médio ficou superior à maior parte
dos nossos valores. Veja que o que faz com que
a média seja este valor, é este valor distorcido de 250 mil. Se em vez de 250 mil
fosse 250 milhões, a média seria ainda maior. Neste sentido, a mediana representa
melhor esta população de valores. Isso porque ela se localiza em uma
região mais central dos outros valores. Sendo assim, uma medida central menos distorcida. E o desvio-padrão, será que ele representa
a extensão dos nossos dados? Bom, o desvio-padrão é baseado na média. Isto porque o computador, para calcular o desvio-padrão
dessa população de valores, utilizou o valor menos a média e elevou o resultado ao quadrado e dividiu pelo número da nossa mostra,
menos 1. O desvio-padrão é, assim,
baseado na média. Veja que o valor foi
de aproximadamente 62,3. O desvio-padrão vai ser
um valor muito amplo e não vai expressar significativamente
a extensão da nossa mostra. Novamente, isso está acontecendo
em função dos 250, que está distorcendo a nossa mostra. A mediana, por sua vez,
é mais representativa como medida de tendência central. Será que o intervalo interquartil
representa a extensão da nossa mostra? Veja, para calcular
o intervalo interquartil, nós, primeiro, definimos
qual é o primeiro quartil e o terceiro quartil. O primeiro quartil é identificado
na metade dos valores que antecedem a mediana. Neste caso, como nós temos 4 valores, nós teremos que fazer a soma
dos valores do meio e dividir por 2. O primeiro quartil, então, é 50. No terceiro quartil nós fazemos o mesmo com os valores que estão
após a mediana da mostra. Neste caso, vai ser 60 + 75 divido por 2, que é igual a 67,5. O intervalo interquartil
vai ser o valor do terceiro quartil menos o valor do primeiro quartil. Ou seja, a distância entre os dois. Neste caso, será 17,5. Respondendo à nossa pergunta, o intervalo interquartil representa melhor a extensão da nossa mostra. Veja, podemos abstrair
uma regra geral disso. Se a nossa mostra é simétrica, ou seja, se os valores da nossa mostra se distribuem de maneira igual tendo valores muito baixos
e valores muito altos, um compensando o outro, e se a nossa mostra não possui
valores distantes, então, poderíamos utilizar a média e, consequentemente, o desvio-padrão. No entanto, quando nós temos
uma distribuição assimétrica dos valores, nós possuímos alguns outliers
como é o caso aqui desse exemplo. A melhor medida de tendência
central a se utilizar é a mediana. Vamos pensar em um outro exemplo. Veja o exemplo de preços de casas. Imagine que você tenha casas
em uma determinada região que possuam o valor de 75 mil,
95 mil, de 100 mil. No entanto, possua uma casa
com o valor de 300 milhões. Se você utilizasse o valor médio, não representaria
de forma adequada os preços das casas em uma determinada região. Já a mediana daria uma ideia melhor de quais são os preços
das casas nessa região. Da mesma forma, o intervalo o interquartil nos daria uma ideia mais significativa da extensão dos valores das casas. Já o desvio-padrão, nos daria uma ideia distorcida de quais são os valores
que existem nessa região.