Está en la página 1de 15

PRÁCTICA 2

ESTADISTICA DESCRIPTIVA BIDIMENSIONAL

Contenido:

1. Distribuciones de frecuencias bidimensionales. Tablas de frecuencias de


doble entrada
2. Estudios por subgrupos: Diagramas de Box-Whisker múltiple
3. Diagramas de dispersión
4. Covarianza y correlación
1. Distribuciones de frecuencia bidimensionales: Tablas de frecuencias de doble
entrada

Las tablas de frecuencia de doble entrada permiten estudiar la relación existente entre
dos variables cuantitativas, dos variables cualitativas o una variable cuantitativa y una
cualitativa. En ellas se incluyen frecuencias conjuntas (absolutas y relativas),
frecuencias marginales (absolutas y relativas) y opcionalmente frecuencias
condicionales (por filas o por columnas)

Ejercicio 1: Tabla de frecuencias para dos variables cuantitativas 

A los alumnos de un curso anterior se les ha pedido que cumplimenten la siguiente


encuesta:

1. SEXO (1- VARÓN 2- MUJER)


2. EDAD (en años)
3. MES DE NACIMIENTO (1 a 12)
4. ESTATURA (en centímetros)
5. PESO (En kgs)
6. POLITICAMENTE TE CONSIDERAS UNA PERSONA DE:
1- Derechas. 2-Centro. 3- Izquierdas. 4- Pasas del tema.
7. ESCRIBE UN DIGITO AL AZAR DEL 1 AL 9.
8. LUGAR DE RESIDENCIA DURANTE EL CURSO:
1- Hogar familiar 4. Pensión.
2- Colegio mayor o Residencia 5. Otra situación.
3- Piso con compañeros.
9. ¿COMO VIENES HABITUALMENTE A LA UNIVERSIDAD?
1- En tu coche 4. En un coche con un compañero.
2- En tu moto o bici. 5. Transporte público.
3- Andando.
10. ¿CUNATOS MINUTOS HAS TARDADO HOY EN VENIR A LA UPV?
11. ¿CUAL DE LOS SIGUIENTES PROBLEMAS CONSIDERAS MAS IMPORTANTE
EN LA ESPAÑA ACTUAL?

1- Drogas 4. Desigualdad social.


2- Paro juvenil 5. Pérdida de valores morales.
3- Terrorismo.

Los resultados obtenidos se han almacenado en el fichero PRACDESCBID que se


encuentra en el directorio habitual o en la red

Para construir la tabla de frecuencias de las variables ALTURA y PESO ha sido


necesario codificar dichas variables, agrupando los datos en intervalos, ya que
STATGRAPHICS no realiza la tabulación automática para mas de dos variables
cuantitativas .
Límite inferior Límite superior Nuevo valor
150 160 150-160
160 170 160-170
170 180 170-180
180 210 180-210

Límite inferior Límite superior Nuevo valor


40 60 40-60
60 70 60-70
70 80 70-80
80 99 80-99

Las nuevas variables, ya codificadas se han denominado ALTCOD y PESOCOD

a) Construir una tabla de frecuencias de doble entrada que recoja las frecuencias
conjuntas y marginales de las variables ALTCOD y PESOCOD. ¿Cómo se
interpretan los valores de la celda (1,1)? ¿Y el total de la primera fila y de la
primera columna?

Statgraphics: Desplegar el menú Describir y el submenú Datos Categóricos, y


elegir la opción Tabulación Cruzada. Pulsar el icono de opciones en la barra del
Statfolio y seleccionar la opción Tabla de Frecuencias.

Tabla de Frecuencias para ALTCOD por PESOCOD


40-60 60-70 70-80 80-99 Total por Fila
150-160 10 2 0 0 12
7,63% 1,53% 0,00% 0,00% 9,16%
160-170 27 8 3 0 38
20,61% 6,11% 2,29% 0,00% 29,01%
170-180 5 27 22 5 59
3,82% 20,61% 16,79% 3,82% 45,04%
180-210 0 5 11 6 22
0,00% 3,82% 8,40% 4,58% 16,79%
Total por Columna 42 42 36 11 131
32,06% 32,06% 27,48% 8,40% 100,00%

La celda 1,1 serían la cantidad del grupo de alumnos que miden 150-160 cm que
están en dicho peso. El total de la primera fila y la primera columna es el porcentaje de
gente que mide entre 150-160 que pesa 40-60 kg sobre el total de la muestra, es decir
sobre el total de los alumnos.
b) Construir una tabla de frecuencias que recoja las frecuencias condicionales de la
variable PESO asociadas a los distintos tramos de la variable ALTURA.
¿Cómo se interpreta el nuevo valor de la celda (1,1)?
Statgraphics: Para obtener la distribución condicional de la variable fila (X), pulsar
con el botón derecho del ratón, elegir Opciones Ventana y a continuación seleccionar
Porcentajes de Fila.

Tabla de Frecuencias para ALTCOD por PESOCOD


40-60 60-70 70-80 80-99 Total por Fila
150-160 10 2 0 0 12
83,33% 16,67% 0,00% 0,00% 9,16%
23,81% 4,76% 0,00% 0,00%
160-170 27 8 3 0 38
71,05% 21,05% 7,89% 0,00% 29,01%
64,29% 19,05% 8,33% 0,00%
170-180 5 27 22 5 59
8,47% 45,76% 37,29% 8,47% 45,04%
11,90% 64,29% 61,11% 45,45%
180-210 0 5 11 6 22
0,00% 22,73% 50,00% 27,27% 16,79%
0,00% 11,90% 30,56% 54,55%
Total por Columna 42 42 36 11 131
32,06% 32,06% 27,48% 8,40% 100,00%

El primer número de cada a parte de la frecuencia absoluta tenemos un 83,33% dice


como se distribuye la variable peso condicionado por la variable altura cuando la altura
es de 150 a 160. El 100% de este porcentaje es solamente aquellos que miden entre
150 y 160 cm.
c) Construir una tabla de frecuencias que recoja las frecuencias condicionales de la
variable ALTURA asociadas a los distintos tramos de la variable PESO.
¿Cómo se interpreta el nuevo valor de la celda (1,1)?
Statgraphics: Para obtener la distribución condicional de la variable columna (Y),
pulsar con el botón derecho del ratón, elegir Opciones Ventana y a continuación
seleccionar Porcentajes de Columna.

Tabla de Frecuencias para ALTCOD por PESOCOD


40-60 60-70 70-80 80-99 Total por Fila
150-160 10 2 0 0 12
83,33% 16,67% 0,00% 0,00% 9,16%
23,81% 4,76% 0,00% 0,00%
160-170 27 8 3 0 38
71,05% 21,05% 7,89% 0,00% 29,01%
64,29% 19,05% 8,33% 0,00%
170-180 5 27 22 5 59
8,47% 45,76% 37,29% 8,47% 45,04%
11,90% 64,29% 61,11% 45,45%
180-210 0 5 11 6 22
0,00% 22,73% 50,00% 27,27% 16,79%
0,00% 11,90% 30,56% 54,55%
Total por Columna 42 42 36 11 131
32,06% 32,06% 27,48% 8,40% 100,00%

Si analizo solo los que pesen entre 40-60 kg el 23,81% tiene la altura comprendida
entre 150-160 cm es decir la frecuencia condicional, a esto ser refiere la primera celda
de la primera columna.
d) Representar la distribución de frecuencias en un histograma tridimensional y
cambiar la perspectiva del gráfico ¿Que ocurre con la interpretación?

Statgraphics: Utilizar el botón de opciones gráficas del Statfolio y escoger la opción


de gráfico rascacielos. Para cambiar la perspectiva, utilizar el botón de rotar

La interpretación es un tanto compleja ya que no aporta toda la información que


queremos, y es difícil de interpretar pero nos proporciona las marginales.
Ejercicio 1: Tabla de frecuencias para dos variables cualitativas. 

a) La posible relación entre la opción política y el problema que se considera más


importante puede estudiarse a partir a una tabla de frecuencias cruzadas entre las
diferentes categorías de ambas variables. Construir una tabla de frecuencias de doble
entrada que recoja las frecuencias conjuntas, marginales y condicionales de las
variables POLITCOD y PROBCOD. ¿Cómo interpretarías la información contenida en
la celda (3,1)?

Statgraphics: Cerrar el Statfolio y abrir uno nuevo. Desplegar el menú Descripción y


el submenú Datos cualitativos, y elegir la opción Tabulación cruzada. Pulsar el
icono de opciones en la barra del Statfolio y seleccionar la opción Tabla de
Frecuencias. Para obtener frecuencias condicionales elegir en Opciones de Ventana
Porcentajes por fila y Porcentajes por columna

(3,1)
La información que obtenemos en dicha celda es la frecuencia conjunta absoluta y lo
que me está diciendo es que hay 13 alumnos que son de izquierdas y consideran que
el problema mas importante es la desigualdad social, dividiendo este valor entre el
total nos da 10,48% y seria la frecuencia conjunta relativa.

TOT COLUMNA
El 27 es una frecuencia marginal que me dice que de los 133 alumnos, 27 consideran
que el mayor problema es la desigualdad social, independientemente de la opción
política que se ha contestado anteriormente

TOT FILA
23 han seleccionado como opción política de centro sin considerar el problema.

Tabla de Frecuencias para POLITCOD por PROBCOD


DES.SOCIAL DROGAS PARO PERDIDA VALORES
CENTRO 1 4 8 1
4,35% 17,39% 34,78% 4,35%
3,70% 22,22% 27,59% 9,09%
DERECHAS 3 3 3 6
8,82% 8,82% 8,82% 17,65%
11,11% 16,67% 10,34% 54,55%
IZQUIERDAS 13 5 7 1
44,83% 17,24% 24,14% 3,45%
48,15% 27,78% 24,14% 9,09%
PASA 10 6 11 3
26,32% 15,79% 28,95% 7,89%
37,04% 33,33% 37,93% 27,27%
Total por Columna 27 18 29 11
21,77% 14,52% 23,39% 8,87%
TERRORISMO Total por Fila
CENTRO 9 23
39,13% 18,55%
23,08%
DERECHAS 19 34
55,88% 27,42%
48,72%
IZQUIERDAS 3 29
10,34% 23,39%
7,69%
PASA 8 38
21,05% 30,65%
20,51%
Total por Columna 39 124
31,45% 100,00%

Aparecen los porcentajes por fila y por columna en dichos gráficos

c) ¿Existen diferencias en la opinión acerca de los problemas prioritarios según la


opinión política?

Si que influye la opción política por ejemplo el principal problema para los de centro es
el terrorismo (39,39%). Para los de derechas este también es el principal
problema(55,88)%, para la gente de izquierdas en cambio el principal problema es la
desigualdad social(44,834%), y para la gente que pasa el principal problema es el
paro(28,959%).
Para valorar estos datos se hace con la frecuencia condicional.
2. Estudio por subgrupos: Diagrama de Box-Whisker múltiple

El estudio comparativo de una variable continua por subgrupos dentro de una muestra
se plantea como un estudio de la distribución condicional de la variable continua
considerada para los distintos valores de una variable discreta que indica la
pertenencia a un grupo concreto.

Ejercicio 3: Estudio de la distribución del peso por tramos de altura

a) Calcular el valor medio y la desviación típica de las distribuciones condicionales del


PESO asociadas a los distintos tramos de la variable ALTURA (ALTCOD). Comentar
los resultados.

Statgraphics: Desplegar el menú Descripción, el submenú Datos Numéricos y


seleccionar la opción Análisis subgrupos. Seleccionar como Datos la variable de la
que se quieren obtener los estadísticos, y como Códigos la variable que indica la
pertenencia al grupo. Con el icono amarillo de subopciones seleccionar Resúmenes
Estadísticos.

Estadísticas de Resumen
Datos/Variable: PESO

Desviación Coeficiente
ALTCOD Recuento Promedio Estándar de Variación Mínimo Máximo Rango
150-160 12 53,0 6,39602 12,068% 45,0 65,0 20,0
160-170 38 57,7895 7,45856 12,9064% 46,0 80,0 34,0
170-180 59 70,7458 7,61485 10,7637% 56,0 90,0 34,0
180-210 22 75,8182 6,3967 8,43689% 66,0 88,0 22,0
Total 131 66,2137 10,6569 16,0947% 45,0 90,0 45,0

Sesgo Curtosis
ALTCOD Estandarizado Estandarizada
150-160 1,20637 -0,0297299
160-170 2,86065 2,23486
170-180 1,76361 0,535693
180-210 0,902403 -0,788251
Total 0,303203 -1,47758

En media al aumentar la altura, aumenta el peso. En cuanto a la variabilidad “parece”


que es mayor en el rango 170-180cm. A partir del sesgo estandarizado puedo decir
dos cosas, que prácticamente existe simetría en todos los tramos excepto en el que
esta entre 160-170 que presenta simetría positiva y no podría ser modelizado como
una distribución normal porque esta fuera del rango. Respecto a la curtosis todos los
rangos cumplen la condición de rango excepto para el tramo de 160-170.
b) confirmar los comentarios del apartado anterior realizando un gráfico de Box-
Whisker múltiple

Statgraphics: Utilizar el botón de opciones gráficas del Statfolio y escoger la opción


de Gráfico de caja y bigotes

Hay dos valores anómalos en dicho gráfico, se cumple cuanta más altura, más altura
la media del peso también aumenta. Se puede ver la simetría la simetría, pero la
curtosis no se puede ver.

c) Utilizar el gráfico de Box-Whisker para analizar si existe alguna relación entre el


PESO y el medio de transporte utilizado para llegar a la universidad Comentar los
resultados.

Si que existe una relación clara entre estos dos datos aportados por el gráfico, cuanto
mayor es el peso se hace mas uso de un transporte privado.
Ejercicio 4: Estudio comparativo de la viscosidad en tres mezclas diferentes

Los datos de viscosidad en centipoise de tres mezclas son:

Mezcla 1 Mezcla 2 Mezcla 3


22.02 21.49 20.33
23.83 22.67 21.67
26.67 24.62 24.67
25.38 24.18 22.45
25.49 22.78 22.28
23.50 22.56 21.95
25.90 24.46 20.49
24.98 23.79 21.81

a) Si desearas compara la distribución de la viscosidad en las tres mezclas mediante


un diagrama de Box-Whisker ¿Cómo introducirías los datos? Crea un fichero nuevo
con esta información

b) Obtener un diagrama de Box-Whisker múltiple para las 3 mezclas

NO SE HACE

b) Estudia la simetría en cada una de las mezclas

NO SE HACE

c) ¿En que mezcla tiene mayor rango la viscosidad?

NO SE HACE

d) ¿En que mezcla tiene mayor recorrido intercuartílico la viscosidad?

NO SE HACE

e) ¿En que mezcla es mayor la mediana la viscosidad?

NO SE HACE

f) ¿Hay algún valor anómalo?

NO SE HACE
3. Diagrama de dispersión

El diagrama de dispersión permite visualizar la relación entre dos variables continuas.


En concreto, permite observar si la relación es directa o inversa y si es o no es lineal.

Ejercicio 5: Diagrama de dispersión 

a) Obtener el diagrama de dispersión para ALTURA en función de PESO. ¿Qué tipo


de relación hay entre las dos variables?

Statgraphics: Desplegar el menú Gráficos, el submenú Gráficos de Dispersión y la


opción Gráfico X-Y.

Entre estas dos variables hay una relación lineal directa y si fuese al contrario sería
lineal inversa.
b) Obtener el diagrama de dispersión indicando los puntos que corresponden a
hombre y a mujer ¿Qué llama la atención?

Statgraphics: Para etiquetar los puntos del gráfico en función de una tercera variable,
seleccionar con el botón derecho del ratón Opciones de Ventana y en el campo
Código de Puntos introducir la variable diferenciadora (SEXCOD).

Lo que llama la atención es la clara diferenciación entre chicas y chicos, ya que los
chicos miden más y pesan más en general, pero alguna chica mide más que la media
y se mezcla entre los chicos.
c) Construir el diagrama de dispersión para la variable ALTURA en función de la
EDAD ¿Existe alguna relación entre estas variables? ¿Por qué?

Statgraphics: Para seleccionar parte de la muestra utilizar el botón del Statfolio para
seleccionar variable e indicar un filtro

Se observa que al incrementarse la edad no existe una tendencia creciente (o


decreciente) en la altura. Esto sucede ya que no tienen niños y el crecimiento se
detiene y se iguala, es decir no influye la edad en la altura.
4. Covarianza y correlación

La covarianza y la correlación son estadísticos bidimensionales que se utilizan para


estudiar la relación existente entre dos variables continuas. En concreto permite
observa, en el caso de que exista relación, si esta es directa o inversa y si es o no es
lineal.

Ejercicio 6 Covarianza y correlación

a) Hallar la matriz de varianzas-covarianzas de las variables PESO, ALTURA y


EDAD. ¿Qué interpretación puede darse a los valores que aparecen en la matriz?

Statgraphics: Desplegar el menú Descripción, el submenú Datos Numéricos y a


continuación el submenú Análisis Multidimensional y utilizar el icono amarillo de
subopciones para seleccionar Covarianzas.

b) Hallar la matriz de correlación de las variables PESO, ALTURA y EDAD ¿Qué


interpretación puede darse a los valores que aparecen en esta matriz? ¿Es posible
afirmar la existencia de asociación lineal entre algunas variables a nivel poblacional?

Statgraphics: Desplegar el menú Descripción, el submenú Datos Numéricos y a


continuación el submenú Análisis Multidimensional y utilizar el icono amarillo de
subopciones para seleccionar Correlaciones.

También podría gustarte