If you're seeing this message, it means we're having trouble loading external resources on our website.

Se você está atrás de um filtro da Web, certifique-se que os domínios *.kastatic.org e *.kasandbox.org estão desbloqueados.

Conteúdo principal

Como determinar outliers em um conjunto de dados

Usando a faixa interquartil (FIQ) para julgar outliers em um conjunto de dados.

Quer participar da conversa?

Nenhuma postagem por enquanto.
Você entende inglês? Clique aqui para ver mais debates na versão em inglês do site da Khan Academy.

Transcrição de vídeo

RKA10MP – Neste vídeo, vamos pensar nos outliers. Outliers são valores atípicos, valores discrepantes que possuem um grande afastamento dos demais valores de uma determinada série de dados. Temos uma série com 15 números, com um valor 1, 1, 6, 13, 13, 14, 14, 14, 15, 15, 16, 18, 18, 18, e 19. Para ajudar a visualizar os outliers, vamos organizar esses valores sobre uma reta. Então, temos os dois 1 aqui, o 6 aqui os dois 3 aqui, os três valores 14 aqui, os dois valores 15 aqui, o valor 16 aqui os três valores 18 e o valor 19 aqui. Perceba que há uma concentração maior de valores neste ponto da reta. Vamos colocar em destaque. Com esta observação, poderíamos ficar tentados a dizer que os outliers são os valores 1 e 6. No entanto, existem algumas regras que os estatísticos utilizam para definir quais são os valores outliers. Uma dessas regras diz que o primeiro quartil ou o terceiro quartil, mais ou menos 1,5 vezes o intervalo interquartil vai definir os valores outliers, sendo que os valores serão inferiores ao primeiro quartil e superiores ao terceiro quartil. Mas o que estou querendo dizer? Bom... Para entender um pouco melhor, precisamos identificar qual é a mediana, qual é o primeiro quartil e qual é o terceiro quartil. A partir disso, poderemos definir um intervalo interquartil e, em seguida, identificar quais são os valores outliers. Encorajo você a pausar este vídeo tentar sozinho. Caso não queira, vamos continuar fazendo juntos. A mediana é o valor que se encontra no meio de uma determinada série organizada em ordem crescente. Então, temos os quinze valores, e sendo quinze valores, a mediana será o oitavo valor. Então 1, 2, 3, 4, 5, 6, 7, 8. 14 será nossa mediana. Perceba que temos o mesmo número de valores antes da mediana e após a mediana, que são sete valores em cada um dos dois lados. Para identificar o primeiro quartil, que iremos descrever como Q₁, temos que identificar qual é o valor do meio que está neste primeiro intervalo. Então, são sete valores. O valor do meio será o quarto valor. Então 1, 2, 3, 4. O primeiro quartil será 13. Vamos agora encontrar qual é o terceiro quartil. O terceiro quartil vai ser identificado da mesma forma que o primeiro quartil foi identificado. Selecionamos o valor que está no meio após a mediana. Então 1, 2, 3, 4. Será 18. Vamos identificar o terceiro quartil como Q₃. Perceba que o primeiro quartil, a mediana e o terceiro quartil dividem a nossa distribuição em quatro partes iguais. Cada seção possui três valores. O intervalo interquartil vai ser igual ao valor do terceiro quartil menos o primeiro quartil. Então será 18 menos 13, e o intervalo interquartil, dessa forma, será 5. Com o intervalo interquartil determinado, podemos agora identificar os outliers da nossa distribuição. Os outliers serão valores menores ao primeiro quartil menos 1,5 vezes o intervalo interquartil. Este valor 1,5 poderia ser 1,6, 1,4, mas existe um consenso entre os estatísticos em defini-lo como 1,5. Teremos também outros valores definidos como outliers. Os outliers serão valores maiores do que o terceiro quartil mais 1,5 vezes o intervalo interquartil. Perceba que os outliers serão menores que o primeiro quartil e maiores do que o terceiro quartil. Substituindo nesta fórmula, temos que 13 menos 1,5 vezes 5 podemos simplificar 1,5 vezes 5 é 7,5, então 13 menos 7,5. Isso será igual a 5,5, então os outliers serão valores inferiores a 5,5. E substituindo esta fórmula, temos que 18 mais 1,5 vezes o intervalo interquartil, ou seja, 18 mais 7,5, vai ser igual a 25,5. Então, serão também outliers valores superiores a 25,5. Dessa forma, vamos marcar na nossa reta o ponto 5,5. Todos e quaisquer valores inferiores a 5,5 serão outliers. Neste caso específico, os dois valores 1. Vamos agora apagar todas essas contas e representar esses valores em um diagrama de caixa. Para apresentar este diagrama de caixa, vou colocar mais duas retas dessas. A primeira coisa que temos que fazer é dar atenção para esta região. Vamos fazer uma marca no valor 13, uma marca no valor 14, que é a nossa mediana, e uma marca no valor 18. Essas marcas serão utilizadas para definir os limites da nossa caixa. Então, temos o primeiro limite, identificamos um risco do meio, onde está a mediana e temos o último limite. A nossa caixa ficará desenhada desta maneira. Para desenhar um diagrama de caixa com todos os valores dessa série, fazemos uma marca no valor 1 e fazemos um traço até a nossa caixa, e finalizamos o nosso intervalo colocando um traço aqui no 19 e puxando uma linha, dessa forma. Caso você queira representar um diagrama de caixa excluindo os outliers, pegamos o valor número 6, que é superior ao intervalo interquartil e definimos nossa reta. Então, no caso, vai ser o valor 6. E temos esta representação. Observe que o outlier é representado com um ponto bem aqui. Caso queira representar os valores da sua série em um diagrama de caixa, você faz dessa forma. E caso você queira representar em diagrama de caixa os seus valores excluindo os outliers, você faz dessa forma.