If you're seeing this message, it means we're having trouble loading external resources on our website.

Se você está atrás de um filtro da Web, certifique-se que os domínios *.kastatic.org e *.kasandbox.org estão desbloqueados.

Conteúdo principal

Média e desvio-padrão versus mediana e FIQ

Aprenda a escolher as "melhores" medidas de centro e dispersão quando um conjunto de dados tem outliers.

Quer participar da conversa?

Você entende inglês? Clique aqui para ver mais debates na versão em inglês do site da Khan Academy.

Transcrição de vídeo

RKA3JV - Um grupo de 9 amigos formados em uma faculdade resolveram, após um ano, verificar qual era a tendência central dos salários deles. Eles, então, resolveram colocar todos os seus salários em um computador. E os salários deles eram estes aqui, só que em uma escala de milhares. Então, 35 mil, 50 mil, 50 mil, 50 mil, 56 mil, 60 mil, 60 mil, 75 mil e uma com 250 mil. Essa, com certeza, está ganhando bastante dinheiro trabalhando. No computador, eles decidiram, então, calcular duas formas de medida central, sendo uma delas a média e a outra a mediana. A média foi calculada por meio da soma de todos os salários divido por 9. E a mediana consiste no valor que está no meio. Ou seja, é 56. 56 mil, este é o salário mediano destes 9 salários. Perceba que nós temos 4 valores após os 56 e 4 valores antes de 56. Eu encorajo você a pausar este vídeo e pensar sobre qual destas duas medidas de tendência central é a melhor medida para essa população de salários. Vamos pensar nisso juntos. Primeiro, para ficar um pouco mais fácil de visualizar nossos dados, eu vou plotar os 9 salários sobre uma linha. Então, nós temos aqui uma linha. Nesta linha, nós temos zero valores, 50 mil, 100 mil, 150 mil, 200 mil, 250 mil. Como você pode perceber, nós temos alguns valores que não se encaixam em cima dos pontos aqui sinalizados nesta linha. Em função disso, eu vou dividir este intervalo em pontos menores. Então, 10, 20, 30, 40, 50, 60, 70, 80, 90 e 100. Vamos plotar, agora, os valores de cada um dos salários. O primeiro salário, que é 35 mil, fica mais ou menos aqui. Nós temos 3 salários no valor de 50 mil e um no valor de 56 mil. Nós temos dois salários com valores de 60 mil. Nós temos um salário no valor de 75 mil. E outro salário no valor de 250 mil. Distribuído os valores dos salários dos formados, eu te questiono: a média seria uma boa medida de tendência central? Perceba que nós temos aqui um valor que é um valor distorcido, que se refere a 250 mil. Se plotarmos aqui a média, a média vai ficar mais ou menos aqui. Veja, que a maior parte dos valores está localizado antes da média. Neste sentido, a média pode não representar adequadamente essa mostra de valores, essa população de valores. Isto porque o valor médio ficou superior à maior parte dos nossos valores. Veja que o que faz com que a média seja este valor, é este valor distorcido de 250 mil. Se em vez de 250 mil fosse 250 milhões, a média seria ainda maior. Neste sentido, a mediana representa melhor esta população de valores. Isso porque ela se localiza em uma região mais central dos outros valores. Sendo assim, uma medida central menos distorcida. E o desvio-padrão, será que ele representa a extensão dos nossos dados? Bom, o desvio-padrão é baseado na média. Isto porque o computador, para calcular o desvio-padrão dessa população de valores, utilizou o valor menos a média e elevou o resultado ao quadrado e dividiu pelo número da nossa mostra, menos 1. O desvio-padrão é, assim, baseado na média. Veja que o valor foi de aproximadamente 62,3. O desvio-padrão vai ser um valor muito amplo e não vai expressar significativamente a extensão da nossa mostra. Novamente, isso está acontecendo em função dos 250, que está distorcendo a nossa mostra. A mediana, por sua vez, é mais representativa como medida de tendência central. Será que o intervalo interquartil representa a extensão da nossa mostra? Veja, para calcular o intervalo interquartil, nós, primeiro, definimos qual é o primeiro quartil e o terceiro quartil. O primeiro quartil é identificado na metade dos valores que antecedem a mediana. Neste caso, como nós temos 4 valores, nós teremos que fazer a soma dos valores do meio e dividir por 2. O primeiro quartil, então, é 50. No terceiro quartil nós fazemos o mesmo com os valores que estão após a mediana da mostra. Neste caso, vai ser 60 + 75 divido por 2, que é igual a 67,5. O intervalo interquartil vai ser o valor do terceiro quartil menos o valor do primeiro quartil. Ou seja, a distância entre os dois. Neste caso, será 17,5. Respondendo à nossa pergunta, o intervalo interquartil representa melhor a extensão da nossa mostra. Veja, podemos abstrair uma regra geral disso. Se a nossa mostra é simétrica, ou seja, se os valores da nossa mostra se distribuem de maneira igual tendo valores muito baixos e valores muito altos, um compensando o outro, e se a nossa mostra não possui valores distantes, então, poderíamos utilizar a média e, consequentemente, o desvio-padrão. No entanto, quando nós temos uma distribuição assimétrica dos valores, nós possuímos alguns outliers como é o caso aqui desse exemplo. A melhor medida de tendência central a se utilizar é a mediana. Vamos pensar em um outro exemplo. Veja o exemplo de preços de casas. Imagine que você tenha casas em uma determinada região que possuam o valor de 75 mil, 95 mil, de 100 mil. No entanto, possua uma casa com o valor de 300 milhões. Se você utilizasse o valor médio, não representaria de forma adequada os preços das casas em uma determinada região. Já a mediana daria uma ideia melhor de quais são os preços das casas nessa região. Da mesma forma, o intervalo o interquartil nos daria uma ideia mais significativa da extensão dos valores das casas. Já o desvio-padrão, nos daria uma ideia distorcida de quais são os valores que existem nessa região.