Correlación

¿Están los valores de un conjunto de datos relacionados con los de otro conjunto? ¿Los valores de un conjunto se mueven hacia arriba o hacia abajo a medida que aumentan los del otro conjunto? Para responder a esta pregunta, estimamos la correlación entre dos conjuntos de datos. El primer paso es examinar los datos trazados en un gráfico de dispersión donde cada punto representa un par de datos (valor X y Y). Los datos que no están asociados tienden a formar un patrón aleatorio, mientras que los que están relacionados mostrarán un patrón de asociación discernible. El siguiente diagrama de dispersión muestra una distribución completamente aleatoria de los puntos. Podemos afirmar razonablemente que los dos conjuntos de datos no están relacionados.

El siguiente diagrama de dispersión muestra que a medida que aumentan los valores en el eje X, también lo hacen la mayoría de los del eje Y. La mayoría de los puntos encajan bastante cerca de una línea imaginaria trazada a través de los puntos, aunque algunos se desvían a ambos lados. Este gráfico indica una correlación estrecha y positiva entre los dos conjuntos de datos: los datos se mueven en la misma dirección. Se indicaría una correlación negativa donde los puntos en el eje Y disminuyeron a medida que aumentaron los del eje X.

La estadística nos proporciona un medio para medir qué tan cercana es la correlación entre los conjuntos de datos. Esto se denomina coeficiente de correlación y generalmente se representa con el símbolo r o r. Los posibles valores de r oscilan entre -1 y +1, y describen la magnitud y la dirección de la relación: +1 indica una correlación positiva muy fuerte; -1 indica una correlación negativa (inversa) muy fuerte; y cero indica que no hay correlación. El valor de r al cuadrado (r² o R²) se conoce como coeficiente de determinación. Nuevamente, la fuerza de la asociación está indicada por cuanto más se acerca el valor a 1. El valor r2 para los datos en el primer gráfico es bajo en 0.0018, mientras que para los datos en el segundo gráfico es 0.87.

No podemos asumir que existe una relación de causa y efecto para estas correlaciones. Sin embargo, en aquellos casos en los que sabemos que el valor de X en realidad causa la respuesta Y (por ejemplo, si Y fuera la respuesta al estímulo X), podemos afirmar además que r² representa la proporción de la respuesta Y que en realidad es debido a X. En el caso del gráfico de la derecha, el 87% del valor de Y se debe realmente a X; eso también significa que el 13% del efecto Y se debe a una causa distinta de X, por ejemplo, un efecto aleatorio o un efecto de una variable que no se mide.

Referencias:

Dawson B, Trapp RG. Chapter 8. Research Questions About Relationships among Variables. In: Dawson B, Trapp RG, eds. Basic & Clinical Biostatistics. 4th ed. New York: McGraw-Hill; 2004.

Walters RW, Kier KL. Chapter 8. The Application of Statistical Analysis in the Biomedical Sciences. In: Kier KL, Malone PM, Stanovich JE, eds. Drug Information: A Guide for Pharmacists. 4th ed. New York: McGraw-Hill; 2012.

Godfrey K. Chapter 6. Testing for Relationships, Reporting Association and Correlation Analyses. In: Lang TA, Secic M, eds. How to Report Statistics in Medicine. 2nd ed. Philadelphia: American College of Physicians; 2006.

P/N 101851-01S Rev B 02/2023