Tag Archive for ANCOVA

Análisis de la Covarianza – ¿Para qué? ¿Cuándo utilizarlo?

ANOVA y ANCOVA

Con las técnicas ANOVA o de Análisis de la Varianza se resuelven un tipo de problemas, en cierto modo especiales, como son verificar hipótesis sobre la igualdad del comportamiento de los diferentes niveles de un factor, o contrastar la hipótesis de que varias muestras proceden de una misma población.

Si nos centramos en el problema desde el primer punto de vista, se puede contemplarlo también como el análisis del comportamiento de una variable X cuando se le somete a las distintas dosis de un factor. El acto de incluir más factores se debe a dos premisas:

1. Analizar la acción de varios factores

2. Disminuir la influencia del error al diferenciar de éste las fuentes de variación conocidas previamente.

Por explicarlo de forma general, el Análisis de la Covarianza o ANCOVA puede considerarse como un perfeccionamiento de los análisis ANOVA y reune las técnicas del ANOVA y la regresión clásica. El análisis de la Regresión tiene, en su sentido más utilizado, una variable que se hace depender linealmente de otra u otras, no aleatorias, y de un elemento aleatorio llamado error:

Y = X1 + X2 + … Xn + Error

Tiene las mismas características que el ANOVA, pero la diferencia radica en que el objeto de estudio y análisis entre ambos es el factor.

Si atendemos a las enseñanzas de Scheffe, en el ANOVA el factor, ya sea cualitativo o cuantitativo, se trata cualitativamente, mientras que en el Análisis de Regresión, todos los factores son cuantitativos y se tratan de forma explícita de forma cuantitativa. En el ANCOVA, al tratarse de una mezcla de ambos análisis, unos factores se tratan cualitativamente y otros cuantitativamente.

Normalmente, el modelo ANCOVA en su concepción más simple se suele escribir de la siguiente forma:

Y = Beta1 + Beta2X + Error

Estimaciones

La estimación de los parámetros del modelo (Beta1 y Beta2) se suele realizar a través del método de mínimos cuadrados.

Para que el modelo quede perfectamente determinado es necesario estimar la varianza de los errores (sigma2). Por lo tanto, las estimaciones (Beta1, Beta2 y Sigma2) gozan entre otras propiedades de las de insesgadez y eficiencia.

Contraste de hipótesis

De las múltiples hipótesis que normalmente se contrastan resalta la siguiente hipótesis:

Ho = La pendiente de la recta (Beta2) es significativamente distinta de cero.

Es decir, la variable X influye sobre la variable Y. En caso contrario el resultado indica que se puede prescindir de la variable X como medio para explicar la variabilidad de la variable Y. Para llevar a cabo este contraste se lleva a cabo un Análisis de la Varianza de la Regresión, a través del sistema clásico de comparaciones SCR/SCE siguiendo la distribución F(2;n-2;alfa).

Como punto importante hay que recordar que el contraste ha de basarse en la valoración del R cuadrado, que valida el ajuste y su bondad. Puede darse que exista una influencia de la variable X sobre la Y (Beta2!=0), pero hay que medir en qué cuantía dicha influencia se manifiesta. Esto se mide a través del coeficiente de determinación R-cuadrado, que varía entre 0 y 1. Cuando no existe asociación lineal entre ambas variables R-cuadrado=0 y cuando la asociación es perfecta $-cuadrado=1.

Ejemplos de utilización del ANCOVA

Imaginemos que queremos analizar el efecto que sobre el consumo de un producto, en este ejemplo de libros, tiene el nivel cultural de las personas.

En primer lugar, estableceríamos los niveles del factor A1, A2, …, At, siendo Yij el gasto en libros de la persona “ij”. El modelo de análisis sería el siguiente:

Yij = mu + Ai + eij

Imaginemos ahora que en considerásemos de partida que el nivel de ingresos de los compradores (X) pudiera también influir en la decisión de compra. Por su parte, matemáticamente podría explicarse así:

Yij = Beta1 + Beta2*Xij + eij

Si realizamos el análisis del comportamiento de los niveles culturales y de los niveles de ingresos independientemente unos de otros, tendríamos como resultado que, por muy esclarecedores que fueran, solo nos proporcionarían una visión parcial del problema en cuestión, en este caso, el análisis de una de las posibles causas de la variabilidad del consumo de libros.

Para conseguir este nuevo propósito, podríamos fundir ambos modelos en uno, de la siguiente manera:

Yij = mu + Ai +  Beta*Xij + eij

De esta forma, los resultados que se obtienen respecto de los niveles culturales vendrán matizados por la influencia del nivel de ingresos, y viceversa.

Hay que destacar que en este modelo la variable Xij no es aleatoria, por lo que recibe el nombre de “variable concomitante o COVARIABLE”. La componente “eij” es aleatoria y, por supuesto, se han de contrastar sobre ella las hipótesis de normalidad, homocedasticidad, independencia y esperanza matemática nula (N(0, sigma)).

Espero que esta sencilla puesta en escena del análisis de Covarianza haya resultado interesante.

 

Un saludo!

 

Share on Facebook