Conteúdo principal
Estatística Avançada
Curso: Estatística Avançada > Unidade 3
Lição 6: Representação gráfica de estatísticas resumidasComo determinar outliers em um conjunto de dados
Usando a faixa interquartil (FIQ) para julgar outliers em um conjunto de dados.
Quer participar da conversa?
Nenhuma postagem por enquanto.
Transcrição de vídeo
RKA10MP – Neste vídeo,
vamos pensar nos outliers. Outliers são valores atípicos, valores discrepantes
que possuem um grande afastamento dos demais valores de uma
determinada série de dados. Temos uma série com
15 números, com um valor 1, 1, 6, 13, 13, 14, 14, 14, 15, 15, 16, 18, 18, 18, e 19. Para ajudar a visualizar os outliers, vamos organizar esses valores
sobre uma reta. Então, temos os dois 1 aqui, o 6 aqui os dois 3 aqui,
os três valores 14 aqui, os dois valores 15 aqui,
o valor 16 aqui os três valores 18
e o valor 19 aqui. Perceba que há uma concentração
maior de valores neste ponto da reta. Vamos colocar em destaque.
Com esta observação, poderíamos ficar tentados a dizer
que os outliers são os valores 1 e 6. No entanto, existem algumas
regras que os estatísticos utilizam para definir quais são
os valores outliers. Uma dessas regras diz que o primeiro
quartil ou o terceiro quartil, mais ou menos 1,5 vezes
o intervalo interquartil vai definir os valores outliers, sendo que os valores serão
inferiores ao primeiro quartil e superiores ao terceiro quartil. Mas o que estou querendo dizer? Bom... Para entender um pouco melhor,
precisamos identificar qual é a mediana, qual é o primeiro quartil
e qual é o terceiro quartil. A partir disso, poderemos definir
um intervalo interquartil e, em seguida, identificar
quais são os valores outliers. Encorajo você a pausar
este vídeo tentar sozinho. Caso não queira, vamos
continuar fazendo juntos. A mediana é o valor que se encontra
no meio de uma determinada série organizada em ordem crescente. Então, temos os quinze valores,
e sendo quinze valores, a mediana será o oitavo valor. Então 1, 2, 3, 4, 5, 6, 7, 8. 14 será nossa mediana. Perceba que temos o mesmo
número de valores antes da mediana e após a mediana, que são sete valores
em cada um dos dois lados. Para identificar o primeiro quartil,
que iremos descrever como Q₁, temos que identificar qual é o valor
do meio que está neste primeiro intervalo. Então, são sete valores.
O valor do meio será o quarto valor. Então 1, 2, 3, 4.
O primeiro quartil será 13. Vamos agora encontrar qual é
o terceiro quartil. O terceiro quartil vai ser identificado
da mesma forma que o primeiro quartil foi identificado. Selecionamos o valor que está
no meio após a mediana. Então 1, 2, 3, 4. Será 18. Vamos identificar
o terceiro quartil como Q₃. Perceba que o primeiro quartil,
a mediana e o terceiro quartil dividem a nossa distribuição
em quatro partes iguais. Cada seção possui três valores. O intervalo interquartil vai ser igual ao valor do terceiro quartil
menos o primeiro quartil. Então será 18 menos 13, e o intervalo
interquartil, dessa forma, será 5. Com o intervalo interquartil determinado, podemos agora identificar
os outliers da nossa distribuição. Os outliers serão valores
menores ao primeiro quartil menos 1,5 vezes
o intervalo interquartil. Este valor 1,5
poderia ser 1,6, 1,4, mas existe um consenso entre
os estatísticos em defini-lo como 1,5. Teremos também outros valores
definidos como outliers. Os outliers serão valores maiores
do que o terceiro quartil mais 1,5 vezes
o intervalo interquartil. Perceba que os outliers serão menores
que o primeiro quartil e maiores do que o terceiro quartil. Substituindo nesta fórmula,
temos que 13 menos 1,5 vezes 5 podemos simplificar 1,5 vezes 5 é 7,5,
então 13 menos 7,5. Isso será igual a 5,5, então os outliers serão valores
inferiores a 5,5. E substituindo esta fórmula,
temos que 18 mais 1,5 vezes
o intervalo interquartil, ou seja, 18 mais 7,5,
vai ser igual a 25,5. Então, serão também outliers
valores superiores a 25,5. Dessa forma, vamos marcar
na nossa reta o ponto 5,5. Todos e quaisquer valores
inferiores a 5,5 serão outliers. Neste caso específico,
os dois valores 1. Vamos agora apagar todas essas contas e representar esses valores
em um diagrama de caixa. Para apresentar este diagrama de caixa,
vou colocar mais duas retas dessas. A primeira coisa que temos que fazer
é dar atenção para esta região. Vamos fazer uma marca no valor 13, uma marca no valor 14,
que é a nossa mediana, e uma marca no valor 18. Essas marcas serão utilizadas para
definir os limites da nossa caixa. Então, temos o primeiro limite,
identificamos um risco do meio, onde está a mediana
e temos o último limite. A nossa caixa ficará
desenhada desta maneira. Para desenhar um diagrama de caixa
com todos os valores dessa série, fazemos uma marca no valor 1
e fazemos um traço até a nossa caixa, e finalizamos o nosso intervalo colocando
um traço aqui no 19 e puxando uma linha, dessa forma. Caso você queira representar um diagrama
de caixa excluindo os outliers, pegamos o valor número 6, que é superior ao intervalo
interquartil e definimos nossa reta. Então, no caso, vai ser o valor 6.
E temos esta representação. Observe que o outlier é representado
com um ponto bem aqui. Caso queira representar os valores
da sua série em um diagrama de caixa,
você faz dessa forma. E caso você queira representar
em diagrama de caixa os seus valores excluindo os outliers,
você faz dessa forma.