If you're seeing this message, it means we're having trouble loading external resources on our website.

Se você está atrás de um filtro da Web, certifique-se que os domínios *.kastatic.org e *.kasandbox.org estão desbloqueados.

Conteúdo principal

Medidas de dispersão: amplitude, variância e desvio-padrão

Amplitude, variância e desvio-padrão medem a dispersão ou a variabilidade de um conjunto de dados de diferentes formas. A amplitude é fácil de calcular: é a diferença entre o maior e o menor ponto de dado em um conjunto. O desvio-padrão é a raiz quadrada da variância. A variância é a medida de dispersão que mostra a distância que o dado está de sua média. Versão original criada por Sal Khan.

Quer participar da conversa?

  • Avatar hopper jumping style do usuário Lucas De Oliveira
    Então utilizando-se de todas essas ferramentas de dispersão e as anteriores como as médias, mediana e moda é possível prever com alguma margem de erro os elementos de um conjunto desconhecido? Me parece algo sensacional, já que de certo modo a informação que se tem é o comportamento dos elementos uns frentes aos outros e por meio desse comportamento é possível estimar quem são eles.. Ou simplesmente mesmo ignorando quem é cada ser possível trabalhar com eles em conjunto de maneira satisfatória.. Parece magnifico! Por favor, corrijam-me no que estiver errado.Outra questão: Há alguma relação com a distancia de pontos em geometria analitica? Porque se cada valor fosse representado por um par ordenado no plano cartesiano, então o desvio padrao se pareceria muito como se estivesse fazendo a distancia dos pontos daquele ponto que representaria a media e depois fazer uma media do resultado, entretanto ao inves de dividir pelo numero de termos se faria
    pela raiz do numero de termos?
    (7 votos)
    Avatar Default Khan Academy avatar do usuário
    • Avatar leaf blue style do usuário Luiz Portella
      Lucas, isso mesmo, você pega uma amostra da população e com os dados da amostra (se ela foi bem escolhida) você acaba conhecendo a população inteira! Assim, com cerca de 10.000 pessoas, às vezes menos, em uma pesquisa de intenção de voto para presidente, você infere sobre o resultado de 100 milhões de eleitores, a população inteira.
      A respeito da distância entre pontos, sim, mas no plano cartesiano são duas dimensões, para o cálculo do desvio padrão faz-se a distância entre pontos em uma dimensão, ou seja, de cada ponto para o ponto que equivale ao valor médio. |xi - µ|... e então essas distâncias são usadas no cálculo do desvios padrão :)
      (6 votos)
  • Avatar old spice man blue style do usuário mariorneto
    Às há uma diferenciação entre variância populacional e variância amostral, mas não ficou claro. Qual a diferença conceitual entre variância populacional e amostral? Há alguma diferença na forma de calcular essas variâncias?
    (3 votos)
    Avatar Default Khan Academy avatar do usuário
    • Avatar leaf blue style do usuário Luiz Portella
      Oi, se não ficou claro, nos próximos vídeos este tema será tratado repetidamente, inclusive há um vídeo em que são usados programas do próprio KhanAcademy, mostrando que a variância amostral tem ser "n-1".
      Bom, σ(N)² é a variância populacional. s(n-1)² é a amostral. Com as fórmulas:
      σ(N)² = Σ (xi - μ)²/N e s(n-1)² = Σ (xi - x⁻)²/(n-1)
      onde Σ corre de i=1 a N para a população e de i=1 a n para a amostra. N é o total de dados da população e n o total de dados da amostra, que é um subconjunto da população. xi então representa x1, x2, x3, x4 ... etc.
      μ é a média da população e x⁻ é a média da amostra.

      Qual a diferença conceitual? Uma é um cálculo sobre a população, a outra é um cálculo sobre uma amostra. Basicamente a variância amostral existe pois é comum não haver meios para realizar a coleta de dados de toda a população. Você tem economia de tempo e dinheiro ao pesquisar a amostra, e pode inferir sobre a população como se fosse um cálculo populacional... :)

      Na minha calculadora de bolso, existe as opções σn e σn-1, ela não usa σ para uma e s para outra, nem diferencia N de n :)
      Bons estudos!
      (4 votos)
  • Avatar piceratops seed style do usuário Uemerson Silva
    É possível avisarem (por e-mail por exemplo) quando estiver traduzido este vídeo ou quando houver alguma atualização para português (Brasil) ?
    (2 votos)
    Avatar Default Khan Academy avatar do usuário
  • Avatar blobby green style do usuário 00001092208203sp
    Se Deus não existe quem coloca comida pro cachorro do minecraft ??
    (3 votos)
    Avatar Default Khan Academy avatar do usuário
  • Avatar blobby green style do usuário Victorrayan19
    A amplitude é fácil de calcular: é a diferença entre o maior e o menor ponto de dado em um conjunto. O desvio-padrão é a raiz quadrada da variância.
    (2 votos)
    Avatar Default Khan Academy avatar do usuário
  • Avatar blobby green style do usuário Lorena Amaral 3°A
    Por inqunato nao tenho duvidas
    (1 voto)
    Avatar Default Khan Academy avatar do usuário
  • Avatar leafers tree style do usuário Cristiane Dos Santos Costa
    Como eu sei quando devo usar n e quando devo usar n-1 para o desvio-padrão?
    (1 voto)
    Avatar Default Khan Academy avatar do usuário
  • Avatar blobby green style do usuário Alessandra
    Eu fiz esse exercício mas de uma vez e não aparece os 100% porque affs
    (1 voto)
    Avatar Default Khan Academy avatar do usuário
  • Avatar blobby green style do usuário Nicolas Yuri Silva e coura
    Porque os kamikazes usavam capacete?
    (1 voto)
    Avatar Default Khan Academy avatar do usuário
  • Avatar piceratops seedling style do usuário almirbrcoa
    E se o número se repetir?
    a gente repete ele duas vezes?
    (1 voto)
    Avatar Default Khan Academy avatar do usuário
Você entende inglês? Clique aqui para ver mais debates na versão em inglês do site da Khan Academy.

Transcrição de vídeo

RKA22JL - No último vídeo, estudamos medidas de tendência central, especificamente, média e mediana e, agora, neste vídeo, vamos estudar um pouquinho melhor algumas questões envolvidas com a distribuição de dados. Vamos tomar aqui dois conjuntos de dados. Um deles tem os valores -10, 0, 10, 20 e 30. E outro conjunto de dados tem os valores 8, 9, 10, 11 e 12. Vamos começar analisando a média nessas duas distribuições com uma pequena observação. Vamos considerar que, em ambas, estamos falando de toda a população. Todos os dados de uma população e não somente uma amostra. Isso será estudado mais adiante, mas já vamos considerar agora. Neste primeiro caso, a média vai ser a soma de todos os valores dividido pelo número de elementos. Então, −10 mais 0, mais 10, mais 20, mais 30. Tudo isso dividido por 5. Adicionando aqui -10 com zero, com 10, com 20, com 30, nós obtemos 50. E 50 dividido por 5 dá a média, 10. Então, nesta primeira distribuição, a média é 10. Para esta outra, a média seria 8 mais 9, mais 10, mais 11, mais 12, dividido também por 5 elementos que temos aqui. 8 mais 9, mais 10, mais 11, mais 12 dá 50, que, dividido por 5, também vai dar média 10. Observe que temos dois conjuntos de dados diferentes, ambos com a mesma média. Embora eles tenham a mesma média, que é 10, a distribuição dos valores neste conjunto e neste outro conjunto é diferente. Veja só. Neste conjunto, os valores estão bem próximos do 10, enquanto neste conjunto de dados, eles estão mais distantes do 10. Neste conjunto de dados aqui o mais distante do 10 é o 8 e o 12. E eles estão a 2 unidades de distância do 10, que é a média. Neste outro conjunto de dados, os mais distantes são o 30 e o −10, que estão 20 unidades distantes, cada um, da média, que é 10. Então, nós dizemos que este conjunto de dados aqui está mais disperso. Existe maior dispersão. Os valores estão mais distantes da média que neste outro conjunto de dados. Vamos, agora, olhar algumas maneiras de medir essa dispersão. Uma maneira de olhar para essa dispersão é olhar para a amplitude da distribuição. Para obter a amplitude da distribuição, achamos a diferença entre o maior valor, neste caso, o 30, e o menor valor, que é o -10. Então, 30 menos −10 é 30 mais 10, que dá 40. Ou seja, a amplitude, a distância entre o menor valor e o maior valor, neste caso, é de 40. Neste outro caso, teríamos 12, que é o maior valor, menos 8 ,que é o menor valor, e daria uma amplitude também conhecida como amplitude total ou "range", em inglês, de 4. Faz sentido encontrar esses valores para a amplitude em cada uma das distribuições. Na primeira distribuição, a amplitude bem maior que na segunda sugere que os dados da primeira estão mais dispersos que os da segunda em relação à média. Existe uma amplitude maior entre os dados do primeiro conjunto que os dados do segundo conjunto. Mas a amplitude só dá a informação? Com relação à distância entre o menor e o maior valor de cada conjunto de dados, ela não nos diz nada especificamente sobre tudo o que está acontecendo entre os dados do conjunto. Podemos ter duas distribuições muito diferentes, com a mesma amplitude, por exemplo. Existe, então, uma outra forma de medir a dispersão que se chama variância. A variância que está relacionada com o desvio-padrão, nós vamos ver um pouco adiante, a variância é indicada pela letra grega, σ, elevada ao quadrado. Só lembrando que estamos falando de uma população inteira. Estamos falando, então, da variância relativa à população ou populacional. Diferente, um pouquinho, da variância amostral. Isso nós vamos estudar mais adiante. Para obter a variância populacional de uma distribuição. Nós temos que pegar cada elemento, achar a diferença entre ele e a média, elevar ao quadrado essa diferença e, depois, fazer a média entre todos esses cálculos que fizemos para todos os elementos. Vamos fazer para ver como funciona. (Deixe eu me preparar aqui) O primeiro dado é o -10. Nós vamos, então, tomar o −10 menos a média 10, e elevar isso tudo ao quadrado. Vamos adicionar ao próximo valor. É o zero. 0−10, elevar ao quadrado. Próximo. E assim nós vamos fazer para todos os valores. O próximo, então, é o 10−10, elevo ao quadrado. O próximo é o 20, então, 20−10, elevo ao quadrado. e, ainda, o último, que é o 30, então, o 30−10, elevo ao quadrado. Tudo isso dividido por 5, porque temos 5 elementos na população. Vou reorganizar um pouco melhor aqui. Observe que cada parcela desta soma vai ser sempre um número positivo, por ser um número real elevado ao quadrado. Continuando, fazendo as contas, nós vamos, então, obter... Aqui, o −10−10 dá -20, elevado ao quadrado, 400. Aqui, −10 ao quadrado é 100. Zero ao quadrado é zero, mais 10 ao quadrado, de novo, 100. Mais 20 ao quadrado ali no último, 400. Tudo isso dividido por 5. Terminando a conta aqui, teremos 1.000 dividido por 5, que dá 200. A variância nesta distribuição, a variância populacional, é de 200. Para comparar, vamos calcular a variância desta outra distribuição. Então, vamos lá. Para fazer a variância desta outra distribuição, tenho de pegar cada termo, subtrair a média, que é 10, elevar ao quadrado, somar tudo e dividir por 5, porque é o número de elementos. Então, teremos para esta segunda situação, a variância de 8, que é o primeiro elemento, diminui 10, que é a média, eleva ao quadrado, mais 9, é o segundo elemento, diminui 10, que é a média, eleva ao quadrado, mais 10, que é o terceiro elemento, diminui a média e eleva ao quadrado, mais 11, tirando 10, elevando ao quadrado, mais 12, tirando 10, elevando ao quadrado, e tudo isso deve ser dividido por 5, porque temos 5 elementos. Fazendo as continhas aqui, vamos ter 4 mais 1, mais 0, mais 1, mais 4, dividido por 5. Isso vai dar 10 dividido por 5, ou seja, 2. Então, para esta segunda, a variância vai ser de 2. É o σ ao quadrado, valendo 2. Estamos obtendo um valor relacionado às distancias de todos os elementos em relação à média e, nesta segunda distribuição, a variância resultou em 2, enquanto, na outra, tinha resultado em 200. De fato, no segundo conjunto de dados, os dados estão mais próximos da média que no primeiro conjunto de dados, como já havíamos visto aqui anteriormente. Se fôssemos olhar, por exemplo, para uma situação envolvendo unidades de medida, com metros, nós teríamos, nessa primeira distribuição, -10 m, 0 m, 10 m etc. A variância envolveria metros quadrados, porque eu elevei ao quadrado cada uma destas situações aqui. É mais interessante então usar a mesma unidade de medida, por exemplo. E existe uma outra forma de medir a dispersão, chamada de desvio-padrão. É para ele que vamos olhar um pouco agora. O desvio-padrão. O desvio-padrão é simplesmente a raiz quadrada da variância. Simplesmente, a raiz quadrada da variância, que seria a raiz quadrada do que nós representamos lá por cima, quadrado. A raiz quadrada de σ ao quadrado, sendo o σ um número positivo, dá simplesmente σ. O símbolo do desvio-padrão populacional é σ. O desvio-padrão da primeira distribuição vai ser igual à raiz quadrada da variância e a raiz quadrada da variância, que é 200, aqui está, temos o desvio-padrão. Simplificando essa raiz quadrada, temos 10 vezes a raiz quadrada de 2. Isso aqui para a primeira distribuição. Para a segunda distribuição de dados, o desvio-padrão vai ser a raiz quadrada de 2, porque a variância lá era 2. Isso aqui para a segunda distribuição ou para o segundo conjunto de dados. Observe que o desvio-padrão da primeira distribuição é 10 vezes o desvio-padrão da segunda distribuição. Isso vai fazer algum sentido, vamos analisar. Retomando, para o cálculo do desvio-padrão calculamos a variância, achando a distância entre cada elemento e a média, depois elevando ao quadrado, e fazendo a média entre todos esses cálculos. E, para o desvio-padrão, tiramos a raiz quadrada desse resultado e, assim, tivemos uma ideia, ou tivemos um número que nos dá alguma ideia sobre a dispersão nessa distribuição. Voltando às distribuições para analisá-las, já sabemos que o desvio-padrão desta é 10 vezes o desvio-padrão... 10 vezes o desvio-padrão da segunda distribuição. 10 vezes o desvio-padrão da segunda distribuição. Veja como essa relação tem sentido, por exemplo, na primeira distribuição, a distância do zero até o 10 é de 10 unidades. 10 é a média, lembrando. A distância do 9 até a média é de uma unidade, então, a distância do zero até o 10, que é a média, é 10 vezes maior que a distância encontrada na outra. A mesma coisa eu poderia fazer, por exemplo, do 30. Do 30 até o 10, a distância é de 20 unidades. Do 12 até o 10, a distância é de 2 unidades, ou seja, a distância de cada elemento até a média é, em média, 10 vezes a distância encontrada na outra distribuição. Esse é o sentido do desvio-padrão. Ele indica, em média, qual é a distância que cada termo tem da média daquela distribuição. O primeiro trabalho com desvio-padrão está aí. Até o próximo vídeo!