Está en la página 1de 20

GRADO EN INGENIERA INFORMTICA. ESTADSTICA DESCRIPTIVA.

Tema1

Anlisis Descriptivo de Datos Cuantitativos Bidimensionales Cualitativos

25

GRADO EN INGENIERA INFORMTICA. ESTADSTICA DESCRIPTIVA. Tema1

Variables Bidimensionales Cualitativas En general, el concepto de asociacin-relacin versus independencia. se refiere a si las distribuciones condicionadas de una variable varan cuando varan los valores de la otra: si existe esa variacin conjunta se dice que hay asociacin; por el contrario, si no se observa esa variacin conjunta se dice que las variables son independientes. Comenzaremos con una prueba muy sencilla que permite determinar si hay o no asociacin y que es el fundamento de muchas tcnicas de inferencia estadstica. La Prueba de Chi-cuadrado (2). Mediante esta prueba se comparan las frecuencias conjuntas observadas con las frecuencias conjuntas esperadas en el caso de que ambas variables fueran independientes. Su frmula es la siguiente:

donde: nij : frecuencia conjunta observada ; nij : frecuencia conjunta esperada; n: total de la muestra. Para poder interpretar el valor de 2 que se obtiene a partir de la frmula es preciso conocimientos de probabilidad y de estadstica inferencial que estn fuera del alcance de este curso. No obstante, se puede afirmar que cuanto ms prximo a cero indica ausencia de relacin, y a medida que aumenta el valor se puede afirmar que hay una relacin cada vez ms estrecha

26

GRADO EN INGENIERA INFORMTICA. ESTADSTICA DESCRIPTIVA. Tema1

27

GRADO EN INGENIERA INFORMTICA. ESTADSTICA DESCRIPTIVA. Tema1

1.3. AnIisis Descriptivo de Datos Bidimensionales El apartado 1.2 del Tema 1 se limita a introducir herramientas estadsticas para el anlisis descriptivo de conjuntos de datos procedentes de la observacin de una nica caracterstica, representada por una variable estadstica. Sin embargo, en muchas situaciones se tiene como objetivo principal la investigacin de la relacin entre dos (o ms) variables. Para llevar a cabo este propsito es preciso observar ambas variables simultneamente, obtenindose pares de observaciones, es decir, datos bidimensionales. Ejemplos de situaciones de este tipo son: se observan los aos de escolaridad y el nivel de ingresos de un grupo de profesionales; se registran la tasa de inflacin y el inters medio de los bancos a sus clientes en varios meses consecutivos; se observan el color de los ojos de un grupo de padres y sus hijos; se recopilan las calificaciones en Matemticas y Geografa de los alumnos de un centro; etc. El presente apartado del Tema 1 se centra en procedimientos y tcnicas de Estadstica Descriptiva para analizar datos bidimensionales. AnIisis Descriptivo de Datos Cualitativos Bidimensionales Tabla de Contingencia Cuando se tiene un conjunto grande de datos procedentes de la observacin simultnea de dos variables cualitativas es muy usual resumir los datos en una tabla de frecuencias cuadrada que se llama Tabla de Contingencia. Los siguientes dos ejemplos ilustran el concepto de tabla de contingencia. Ejemplo: Consideremos los resultados obtenidos aI realizar una encuesta a 36 personas con dos preguntas cuyas nicas posibles respuestas eran "Si" "No.

Representando esta informacin en una tabla de contingencia (las dos variables son cualitativas):

28

GRADO EN INGENIERA INFORMTICA. ESTADSTICA DESCRIPTIVA. Tema1

La tabla de contingencia de frecuencias relativas sera:

Una tabla de contingencia representa la distribucin conjunta de las dos variables involucradas. En el contexto de datos multidimensionales, se denomina distribucin de frecuencias marginal de una variable estadstica a la distribucin de frecuencias de dicha variable considerada aisladamente, sin tener en cuenta el valor observado de las otras en la correspondiente variable multidimensional. En el ejemplo anterior, la primera y ltima columna de Ia tabla de contingencia constituyen la distribucin marginal de la respuesta a la pregunta A. La distribucin marginal de la respuesta de estas 34 personas a Ia pregunta B est dada en la primera y ltima fila de dicha tabla de contingencia. En el contexto de datos bidimensionales, se llama distribucin condicionada de una variable, respecto a un valor especfico de la otra a la distribucin de frecuencias unidimensional de Ia primera variable, cuando slo se consideran los datos en Ios que la segunda tiene el valor especfico considerado. En el ejemplo anterior, la distribucin condicionada de la variable B a la respuesta SI de la variable A est representada por la siguiente tabla, y se denota por B/ (A=SI).

Diagrama de Barras Mltiples Adyacentes y Diagrama de Barras MltiplesApiladas. Para representar estos grficos sobre el plano cartesiano, se representan en el eje de abscisas los diferentes valores modalidades observados de una de las variables y se dibujan sobre cada uno de ellos tantos rectngulos (bien adyacentes bien unos encima de otros) como valores modalidades distintos se hayan observado de la otra variable. Cada rectngulo tiene una altura proporcional igual a la frecuencia absoluta o relativa correspondiente. Ejemplo: Las siguientes figuras son un diagrama de barras apiladas y un diagrama de barras adyacentes para los datos de Ia siguiente tabla, que son observaciones de las variables ao del censo y dedicacin de la poblacin actual, (clasificada en las tres modalidades de agricultura, ingeniera y ganadera).

29

GRADO EN INGENIERA INFORMTICA. ESTADSTICA DESCRIPTIVA. Tema1

Medidas de Asociacin para Variables Cualitativas


Esta seccin se ocupa del estudio de herramientas para medir el grado de asociacin de dos variables cualitativas. Para introducir estas medidas usaremos la siguiente notacin. Las variables se denotan por X e Y, y sus modalidades A1 ,A2 ,..., Ak y B1 , B2, . . . , Bp, respectivamente. La distribucin de frecuencias conjunta de ambas variables se representa mediante una tabla de contingencia de la siguiente forma:

donde ni denota el nmero de los elementos de los n observados que presentan simultneamente las caracteres o modalidades Ai y Bj, para i:1,...,k; j : 1 , . . . , p .

30

GRADO EN INGENIERA INFORMTICA. ESTADSTICA DESCRIPTIVA. Tema1

Para medir la intensidad de la posible relacin entre estas dos variables cualitativas se puede usar un coeficiente denominado Chi-cuadrado, o Ji-cuadrarlo, definido por la siguiente expresin:

nij es la frecuencia conjunta que se tendra si las dos variables fuesen independientes. Por ello nij, se conoce como frecuencia esperada de (Ai,, B) (esperada en el caso de independencia entre las variables). De una manera informal, dos variables se llaman independientes si conocer el valor de una de ellas no aporta informacin alguna sobre la otra. Es decir, una de ellas no contiene ninguna informacin sobre la otra. Por ejemplo, el peso de una persona y la longitud de su pelo sern variables independientes. A nij se le llama frecuencia observada de (Ai,Bj), porque es el nmero de veces que realmente hemos observado ese par. Por definicin el coeficiente 2 es siempre positivo y, obviamente, cuanto mayor sea ms asociacin hay entre las variables. En el caso extremo de que las variables sean independientes entre s, vale 0. En el mbito de Ia Estadstica Descriptiva, el valor del coeficiente denominado Chi-cuadrado, o Ji-cuadrarlo es difcil de interpretar, y para medir el grado o la intensidad de la relacin entre dos variables cualitativas se usa generalmente otro coeficiente definido a partir del denominado Coeficiente de Contingencia. Se denota por c, se define como:

Se puede probar que 0 c 1. Obviamente, si las dos variables son independientes entre s, c=0. Cuanto ms prximo a 1 sea c mayor ser la intensidad de asociacin entre las dos variables cualitativas. Ejemplo: Se est realizando una investigacin en 290 sujetos elegidos aI azar de la poblacin de Bilbao sobre distintas cuestiones sociales. Durante la investigacin se pidi a los 290 encuestados que sealaran si estaban "De Acuerdo o en Desacuerdo" con Ia siguiente frase: "El feminismo radical es indefendible". Los resultados obtenidos aparecen en la siguiente tabla:

Para estudiar si la respuesta a Ia pregunta est relacionada con eI sexo del encuestado, se calcula el coeficiente Chi-cuadrado, o Ji-cuadrado,que resulta 11,50. Medimos el grado de intensidad o relacin, existente entre ambas variables mediante el coeficiente de contingencia c, el valor pequeo del coeficiente indica que no hay asociacin entre ambas variables. 31

GRADO EN INGENIERA INFORMTICA. ESTADSTICA DESCRIPTIVA. Tema1

32

GRADO EN INGENIERA INFORMTICA. ESTADSTICA DESCRIPTIVA. Tema1

Anlisis Descriptivo de Datos Cuantitativos Bidimensionales Consideraremos ahora, hasta que se indique lo contrario, dos variables cuantitativas, la variable X, cuyos valores denotaremos por xi y la variable Y, con valores denotados por yj .La distribucin de frecuencias de un conjunto de observaciones simultneas de las dos variables est constituida por las parejas (xi , yj) de datos obtenidos y sus correspondientes frecuencias absolutas (o nmero de veces que se repiten dichas parejas). Anlogamente al caso unidimensional se definen las frecuencias relativas y acumuladas. Cuando hay un gran nmero de datos distintos, stos se disponen en una "tabla de doble entrada", en la que cada casilla contiene la frecuencia del dato representarlo en la fila y columna correspondiente. Si una o ambas variables son continuas (o discretas con un gran nmero de distintas combinaciones observadas) suele ser necesario agrupar los datos en intervalos o clases.

33

GRADO EN INGENIERA INFORMTICA. ESTADSTICA DESCRIPTIVA. Tema1

donde:

Ejemplo: Distribucin, en centmetros, de Ia estatura de 312, varones jvenes y sus padres.

En este contexto las distribuciones marginales se definen de manera anloga al caso de variables cualitativas. As, en el ejemplo anterior Ia distribucin marginal de la estatura de los padres est dada por la primera y ltima columna de la tabla mientras que la distribucin marginal de Ia estatura de los hijos viene dada por la primera y ltima fila de Ia tabla de frecuencias. En este contexto tambin las distribuciones condicionadas se definen de manera anloga al caso de variables cualitativas. Es decir, llamamos distribucin condicionada de la variable Y, respecto al valor xij, o respecto a la clase i-sima, de la variable X, y se denota por Y/xi, a la distribucin 34

GRADO EN INGENIERA INFORMTICA. ESTADSTICA DESCRIPTIVA. Tema1

de frecuencias unidimensional de la variable Y, cuando slo se consideran las observaciones de la clase i-sima de X. En Ia tabla de doble entrada, esta distribucin de frecuencias se compone de los valores distintos observados de la variable Y, y1, y2,. . . , yp , junto con sus frecuencias absolutas ni1, ni2,. . . , nip Las frecuencias relativas de dicha distribucin de frecuencias son:

Anlogamente, en la columna correspondiente a la observacin yj de una tabla de doble entrada nos encontramos las frecuencias absolutas de las distintas modalidades de la distribucin condicionada de la variable X, respecto al valor y dela variable Y. Diagrama de Dispersin Es la representacin grfica de datos bidimensionales mas utilizarla en la prctica. Consiste en la representacin de los valores de las dos variables sobre un par de ejes cartesianos, de forma que cada par de datos viene representado por un punto del plano XY. El conjunto de todos los datos forma una "nube de puntos". La frecuencia de cada par de puntos puede representarse utilizando distintos tamaos de puntos. No obstante, otros autores recomiendan dibujar nicamente un punto por observacin, independientemente del nmero de veces que sta aparezca. Esta representacin es especialmente til porque nos puede proporcionar una buena idea sobre la posible existencia o ausencia de relacin entre las variables, el tipo de relacin existente, as como la intensidad de dicha asociacin. Ejemplo: En los siguientes diagramas de dispersin podemos observar cuatro tipos de asociaciones de diferentes: asociacin lineal positiva, asociacin lineal negativa, ausencia de asociacin y asociacin no lineal.

a)

b)

c)

35

GRADO EN INGENIERA INFORMTICA. ESTADSTICA DESCRIPTIVA. Tema1

d)

Ejemplo: En los automviles de una misma marca se quiere saber la relacin que existe entre la edad del automvil (nmero de aos) y el consumo de gasolina en 100 km. Se observaron 12 automviles y las observaciones resultantes aparecen en Ia siguiente tabla:

La siguiente figura es el diagrama de dispersin de estos datos. Se observa en el diagrama de dispersin una clara relacin lineal positiva entre eI consumo de estos 12 automviles y el tiempo que tienen. El consumo de estos automviles aumenta linealmente con el tiempo de vida.

36

GRADO EN INGENIERA INFORMTICA. ESTADSTICA DESCRIPTIVA. Tema1

Medidas de Asociacin para Variables Cuantitativas: Covarianza y Coeficiente de Autocorrelacin de Pearson. Relacin entre variables cuantitativas. La Covarianza determina la variabilidad conjunta de 2 variables, y es una medida de la relacin entre las variables Si la relacin es directa, valores altos en X se corresponden con valores altos en Y: Cov positiva. Si la relacin es inversa, valores altos en X se corresponden con valores bajos en Y: Cov negativa.

Covarianza. Supongamos que tenemos n pares {(xi, yj) : i : 1,. . . ,n} de observaciones correspondientes a dos variables estadsticas X e Y, la covarianza de estos datos se define como:

De la frmula anterior se deduce de forma trivial la siguiente, que es mucho ms til para el clculo de la covarianza:

Evidentemente, si los datos estn agrupados en Ia tabla de frecuencias conjunta de la pgina 34, la frmula de Ia covarianza se expresa como:

37

GRADO EN INGENIERA INFORMTICA. ESTADSTICA DESCRIPTIVA. Tema1

Observemos que la covarianza entre dos variables distintas puede ser cero, positiva o negativa, mientras que ya sabemos que la varianza de una variable siempre es no negativa. La covarianza es una medida de la intensidad de asociacin lineal entre dos variables. Para ilustrar este hecho, estudiemos el comportamiento de la covarianza para los cuatro conjuntos de datos bidimensionales representados en los siguientes diagramas de dispersin.

38

GRADO EN INGENIERA INFORMTICA. ESTADSTICA DESCRIPTIVA. Tema1

39

GRADO EN INGENIERA INFORMTICA. ESTADSTICA DESCRIPTIVA. Tema1

Coeficiente de Correlacin Lineal No es muy conveniente usar la covarianza como medida de asociacin lineal, porque su valor depende de las unidades de medida de las variables. No obstante, se puede construir una medida adimensional en base a ella. Se define el coeficiente de correlacin lineal de Pearson entre dos variables X e Y como:

Donde sX y sy son las desviaciones tpicas de X e Y respectivamente. Se verifica: 1. El coeficiente de correlacin es adimensional. 2. Su valor es siempre mayor o igual que -1 y menor o igual que 1. 3. Si existe una relacin lineal exacta entre las dos variables X e Y, es decir, todos los puntos del diagrama de dispersin correspondiente se encuentran encima de una lnea recta Y = a + b X , el coeficiente de correlacin es 1 si b > 0 y -1 si b < 0 .

40

GRADO EN INGENIERA INFORMTICA. ESTADSTICA DESCRIPTIVA. Tema1

4. Si no existe una relacin lineal exacta entre las dos variables X e Y, entonces el coeficiente de correlacin lineal es un valor entre -1 y 1. 5. Cuanto mayor sea lrl ms intensa es la relacin lineal entre las variables. Si r es positivo la relacin lineal es directa, cuando aumenta X aumenta Y. Si r es negativo la relacin lineal es negativa, cuando aumenta X disminuye Y. 6. Cuando no hay ninguna relacin lineal entre las dos variables X e Y, entonces r = 0, y decimos que las variables estn incorreladas.

41

GRADO EN INGENIERA INFORMTICA. ESTADSTICA DESCRIPTIVA. Tema1

Ejemplo: La siguiente matriz contiene los datos de la "altura" en cm. (primera columna), "peso" en kg. (segunda columna) y "circunferencia del brazo" en cm. (tercera columna) de diez personas.

Con las observaciones del ejemplo anterior podemos calcular los siguientes coeficientes de correlacin lineal correspondientes a los tres pares de variables que podemos formar.

Los coeficientes de correlacin lineal de cada par de variables miden Ia intensidad de Ia asociacin lineal entre las componentes del par. Las nicas variables que tienen una alta correlacin, lineal (positivo) son el peso y la circunferencia del brazo. La asociacin lineal entre las variables ya queda de manifiesto en sus correspondientes diagramas de dispersin. 42

GRADO EN INGENIERA INFORMTICA. ESTADSTICA DESCRIPTIVA. Tema1

Es importante distinguir entre los trminos de correlacin y causalidad. Causalidad es la relacin entre una caracterstica y otra de la que es causa. Un coeficiente de correlacin alto entre dos variables indica que estas variables toman valores relacionados linealmente entre s en los elementos observadas, pero no permite concluir que haya una relacin de causalidad de una de las variables sobre la otra. Por ejemplo, posiblemente, si tuviramos datos del nmero de accidentes diarios de trfico y del nmero de matrimonios diarios celebrados en Espaa, el coeficiente de correlacin lineal sera grande y positivo, indicndonos una fuerte relacin lineal positiva entre estas dos variables. Sin emba.rgo, esto no significa que el casarse cause accidentes de trfico, ni viceversa. En realidad hay un tercer factor, en este caso que se trate de un da de las vacaciones, de fines de semana o de puente que explica la relacin entre las dos variables. Este tipo de correlaciones se denominan correlaciones espureas y se deben al efecto de otra variable (las vacaciones) que al tener una relacin de dependencia con las que observamos (accidentes de trfico y matrimonios celebrados) crea la relacin entre ellas. Otro ejemplo de correlacin espurea muy mencionado en la literatura es la alta correlacin existente en zonas rurales de Alemania entre el nmero de cigeas observadas en un mes y el nmero de nacimientos en dicho mes. El hecho de que puedan tenerse correlaciones espureas no significa que el anlisis de correlacin no puede usarse para extraer conclusiones sobre relaciones causales, sino que dicho uso debe hacerse con sentido comn y en base a evidencia cientfica si esta existe. Por otra parte, si no encontramos correlacin entre los datos de dos variables, tampoco se puede deducir siempre que no exista relacin lineal entre ellas. Puede ocurrir que haya relacin entre las variables, pero que 43

GRADO EN INGENIERA INFORMTICA. ESTADSTICA DESCRIPTIVA. Tema1

el rango de variacin de las observaciones sea demasiado pequeo para que sea posible apreciar esa relacin tanto en el diagrama de dispersin, como en el valor del coeficiente de correlacin lineal. Por ejemplo, supongamos que queremos investigar Ia relacin entre el tamao de un piso y su precio en un conjunto de pisos de una ciudad y, para ello, tomamos una muestra de pisos todos entre 70 y 80 m2. Como el tamao de los pisos de la muestra es muy parecido, el precio de estos pisos depender de su localizacin y de otros factores. En consecuencia el coeficiente de correlacin entre el precio y el tamao ser muy pequeo. Sin embargo, no podemos concluir de este resultado que el tamao del piso no influye en el precio. Si observsemos una muestra que incluyese pisos grandes y pequeos, tanto el diagrama de dispersin como el coeficiente de correlacin lineal mostraran la relacin entre estas dos variables.

44