O Diagrama de Dispersão que também é conhecido como Gráfico de Dispersão, Gráfico de correlação ou Gráfico XY, é uma representação gráfica da possível relação entre duas variáveis e, assim, mostra de forma gráfica os pares de dados numéricos e sua relação.
Geralmente, a relação vem de uma variável que é independente e outra variável que é dependente da primeira, ou seja, a variável independente é a causa que provoca o efeito e a dependente é o efeito, a consequência gerada pela causa. Portanto, se formos analisar a relação entre a temperatura ambiente com a quantidade de picolés vendidos, em um diagrama de dispersão, veremos que quanto mais alta a temperatura mais picolés são vendidos. Neste caso, a variável independente é a temperatura e a dependente é a quantidade de picolés vendida.
Também podemos utilizar o Diagrama de Dispersão, para validarmos, se determinada variável independente analisada tem impacto real em determinada variável dependente, ou não.
Essa relação entre as variáveis é chamada de correlação, e existem três tipos, a positiva, a negativa e a nula.
Correlação positiva, é quando há uma aglomeração dos pontos em tendência crescente, isso significa que conforme uma variável aumenta, a outra também aumenta. Por exemplo, no caso da relação entre temperatura e número de picolés vendidos, temos uma relação positiva.
Correlação negativa, é quando os pontos se concentram em uma linha que reduz, conforme uma variável aumenta, a outra diminui, ou seja, quanto maior for a ocorrência de um dos dados, menor será a ocorrência do outro dado. Por exemplo, se correlacionarmos a taxa de natalidade com a riqueza de um país, veremos que quanto mais rico um país, menor é a taxa de natalidade.
Correlação nula, é quando há uma grande dispersão entre os pontos ou então, eles não seguem tendência positiva nem negativa, significa que não há nenhuma correlação aparente entre as variáveis.
O que pode acontecer é que mesmo que o Diagrama de Dispersão mostre uma relação, não garante que uma variável causou a outra. Ambas podem ser influenciados por uma terceira variável que não foi considerada, por isso, ao usar essa ferramenta é necessário o levantamento constante de hipóteses e análises.