Está en la página 1de 15

PRÁCTICA 2 para entregar:

ESTADISTICA DESCRIPTIVA
BIDIMENSIONAL
ALUMNA: ANHELINA SPIZHAVKA SHCHERBAK

Contenido:

1. Distribuciones de frecuencias bidimensionales. Tablas de frecuencias de


doble entrada
2. Estudios por subgrupos: Diagramas de Box-Whisker múltiple
3. Diagramas de dispersión
4. Covarianza y correlación

1
1. Distribuciones de frecuencia bidimensionales: Tablas de frecuencias
de doble entrada

Las tablas de frecuencia de doble entrada permiten estudiar la relación existente entre
dos variables cuantitativas, dos variables cualitativas o una variable cuantitativa y una
cualitativa. En ellas se incluyen frecuencias conjuntas (absolutas y relativas),
frecuencias marginales (absolutas y relativas) y opcionalmente frecuencias
condicionales (por filas o por columnas)

Ejercicio 1: Tabla de frecuencias para dos variables cuantitativas

A los alumnos de un curso anterior se les ha pedido que cumplimenten la siguiente


encuesta:

1. SEXO (1- VARÓN 2- MUJER)


2. EDAD (en años)
3. MES DE NACIMIENTO (1 a 12)
4. ESTATURA (en centímetros)
5. PESO (En kgs)
6. POLITICAMENTE TE CONSIDERAS UNA PERSONA DE:
1- Derechas. 2-Centro. 3- Izquierdas. 4- Pasas del tema.
7. ESCRIBE UN DIGITO AL AZAR DEL 1 AL 9.
8. LUGAR DE RESIDENCIA DURANTE EL CURSO:
1- Hogar familiar 4. Pensión.
2- Colegio mayor o Residencia 5. Otra situación.
3- Piso con compañeros.
9. ¿COMO VIENES HABITUALMENTE A LA UNIVERSIDAD?
1- En tu coche 4. En un coche con un compañero.
2- En tu moto o bici. 5. Transporte público.
3- Andando.
10. ¿CUNATOS MINUTOS HAS TARDADO HOY EN VENIR A LA UPV?
11. ¿CUAL DE LOS SIGUIENTES PROBLEMAS CONSIDERAS MAS IMPORTANTE
EN LA ESPAÑA ACTUAL?
1- Drogas 4. Desigualdad social.
2- Paro juvenil 5. Pérdida de valores morales.
3- Terrorismo.

2
Los resultados obtenidos se han almacenado en el fichero PRACDESCBID que se
encuentra en el directorio habitual o en la red

Para construir la tabla de frecuencias de las variables ALTURA y PESO ha sido


necesario codificar dichas variables, agrupando los datos en intervalos, ya que
STATGRAPHICS no realiza la tabulación automática para más de dos variables
cuantitativas .

Límite inferior Límite superior Nuevo valor


150 160 150-160
160 170 160-170
170 180 170-180
180 210 180-210

Límite inferior Límite superior Nuevo valor


40 60 40-60
60 70 60-70
70 80 70-80
80 99 80-99

Las nuevas variables, ya codificadas se han denominado ALTCOD y PESOCOD

a) Construir una tabla de frecuencias de doble entrada que recoja las frecuencias
conjuntas y marginales de las variables ALTCOD y PESOCOD. ¿Cómo se
interpretan los valores de la tabla? ¿Y el total de la primera fila y de la primera
columna?

Statgraphics: Desplegar el menú Describir y el submenú Datos Categóricos, y elegir la


opción Tabulación Cruzada. Pulsar el icono de opciones en la barra del Statfolio y
seleccionar la opción Tabla de Frecuencias.

Esta tabla muestra con qué frecuencia se presentan los 4 valores de ALTCOD junto con
cada uno de los 4 valores de PESOCOD. El primer número de cada celda es el
recuento o frecuencia. El segundo valor muestra el porcentaje de toda la tabla que
representa esa celda. Por ejemplo, hubo 10 veces en las que ALTCOD es igual a 150-
160 y PESOCOD es igual a 40-60. Esto representa el 7,63% del total de las 131
observaciones. Es decir, hay 10 alumnos (7,63%) que cumplen la doble condición de
que su peso y altura están en esas mismas casillas. Otro ejemplo de la tabla sería que

3
27 alumnos pesan entre 60 y 70 kg y miden entre 170-180 cm (frecuencia absoluta →
27, frecuencia conjunta relativa 20,61%).

b) Construir una tabla de frecuencias que recoja las frecuencias condicionales de la


variable PESO frente a los valores de ALTURA (condicionada a ALTURA).
¿Cómo se interpretan estos valores?

Statgraphics: Para obtener la distribución condicional de la variable fila (X), pulsar


con el botón derecho del ratón, elegir Opciones Ventana y a continuación seleccionar
Porcentajes de Fila o Columna según sea.

Esta tabla muestra con qué frecuencia se presentan los 4 valores de ALTCOD junto con
cada uno de los 4 valores de PESOCOD. El primer número de cada celda es el
recuento o frecuencia. El segundo número muestra el porcentaje de esa celda relativo a
la fila a la que pertenece. Por ejemplo, hubo 10 veces en las que ALTCOD es igual a
150-160 y PESOCOD es igual a 40-60. El valor de 83,33% es la frecuencia condicional
del peso para un grupo de estatura. Ese 83,33% de los alumnos que miden entre 150-
160 cm, nos quiere decir que si solo tuviéramos un alumno, que midiera entre esos
calores, el 83,33% pesaría entre 40-60 kg.

c) Construir una tabla de frecuencias que recoja las frecuencias condicionales de la


variable ALTURA frente a los valores de PESO (condicionado a PESO). ¿Cómo se
interpretan estos valores?

Statgraphics: Para obtener la distribución condicional de la variable fila (X), pulsar


con el botón derecho del ratón, elegir Opciones Ventana y a continuación seleccionar
Porcentajes de Fila o Columna según sea.

4
Los valores nos indican que si tuviésemos un alumno que pesase entre 40-60 kg, el
23,81% de las veces mediría entre 150-160 cm.

d) Representar la distribución de frecuencias en un histograma tridimensional y


cambiar la perspectiva del gráfico ¿Que ocurre con la interpretación?

Statgraphics: Utilizar el botón de opciones gráficas del Statfolio y escoger la opción de


gráfico rascacielos. Para cambiar la perspectiva, utilizar el botón de rotar

Gráfico Rascacielos para ALTCOD según PESOCOD

30
25
frecuencia

20
15
10
5
80-99
0 70-80
150-160 160-170 60-70
170-180 180-210 40-60PESOCOD
ALTCOD

Con el siguiente gráfico observamos claramente que la mayor frecuencia de alumnos


corresponde con una estatura de 160-170 cm para un peso de 40-60 kg, también es más
frecuente el alumnado que mire entre 170-180 cm y pesa entre 60-70 kg.

5
Ejercicio 2: Tabla de frecuencias para dos variables cualitativas.

a) La posible relación entre la opción política y el problema que se considera más


importante puede estudiarse a partir a una tabla de frecuencias cruzadas entre las
diferentes categorías de ambas variables. Construir una tabla de frecuencias de doble
entrada que recoja las frecuencias conjuntas, marginales y condicionales de las
variables POLITCOD y PROBCOD. ¿Cómo interpretarías la información contenida
en la celda (3,1)?

Statgraphics: Cerrar el Statfolio y abrir uno nuevo. Desplegar el menú Descripción y


el submenú Datos cualitativos, y elegir la opción Tabulación cruzada. Pulsar el icono
de opciones en la barra del Statfolio y seleccionar la opción Tabla de Frecuencias.
Para obtener frecuencias condicionales elegir en Opciones de Ventana Porcentajes por
fila y Porcentajes por columna

En la siguiente tabla de frecuencias observamos valores como la cantidad de gente (8)


que votaría al centro y cuya principal preocupación sería el paro. Otros valores como
el 6,45% que corresponden a la frecuencia condicional del problema principal según el
partido político. En la celda 3,1 nos indican que 13 personas de la izquierda
consideran que el problema principal es el desarrollo social. Representan el 10,48%
del total y 29 alumnos contestaron que son de izquierdas.

b) Representar en diagramas de barras múltiples las frecuencias conjuntas,


marginales y condicionales.

Statgraphics: Para obtener las representaciones gráficas, utilizar el botón de opciones


gráficas del Statfolio. Elegir diagrama de barras y gráfico Mosaico. En el diagrama de
barras seleccionar con el boton derecho Opciones de Ventana y luego seleccionar
Agrupado para frecuencias conjuntas y Apilado para frecuencias marginales

6
c) ¿Que gráfico es el que ayuda mejor a realizar comparaciones?

El gráfico que mejor ayuda a realizar las comparaciones es el diagrama de barras


donde observamos que sí existen diferencias según la opinión política, a los que se
consideran del centro les preocupa más el paro mientras que a los de derechas el
terrorismo. A diferencia de los de la izquierda, estos consideran que el principal
problema es la desigualdad social.

7
d) ¿Qué conclusiones podemos sacar a partir de este gráfico? (qué grupos políticos se
parecen más, que les diferencia...)

Como ya se ha mencionado en la pregunta anterior, se observa una clara diferencia de


problemas sociales principales según el partido político al que se pertenece. Unos,
como los de la derecha, consideran que el principal problema es el terrorismo,
mientras que, en el bando opuesto, los votantes de izquierdas consideran que la
desigualdad social es el mayor de los problemas.

Para resaltar mayores diferencias, en las siguientes gráficas que relacionan el bando
político con el transporte utilizado, se ha podido extraer como conclusión que los
votantes de derechas suelen desplazarse mayoritariamente en coche, mientras que los
votantes de izquierdas se desplazan por su propio pie o mediante el uso del transporte
público. Son los votantes del centro y de derechas los que más se asemejan tanto en
transporte utilizado como en qué consideran que sería el principal problema social por
tratar.

Gráfico de Mosaico para POLITCOD según TRANSPCOD

TRANSPCOD
CENTRO ANDANDO
COCHE
COMPAÑERO
MOTO/BICI
DERECHAS TRANSP.PUBLICO

IZQUIERDAS

PASA

Gráfico de Mosaico para TRANSPCOD según POLITCOD

POLITCOD
CENTRO
DERECHAS
IZQUIERDAS
PASA

ANDANDO COCHECOMPAÑERO
MOTO/BICI
TRANSP.PUBLICO

8
2. Estudio por subgrupos: Diagrama de Box-Whisker múltiple

El estudio comparativo de una variable continua por subgrupos dentro de una muestra
se plantea como un estudio de la distribución condicional de la variable continua
considerada para los distintos valores de una variable discreta que indica la
pertenencia a un grupo concreto.

Ejercicio 3: Estudio de la distribución del peso por tramos de altura

a) Calcular el valor medio y la desviación típica de las distribuciones condicionales


del PESO asociadas a los distintos tramos de la variable ALTURA (ALTCOD).
Comentar los resultados.

Statgraphics: Desplegar el menú Descripción, el submenú Datos Numéricos y


seleccionar la opción Análisis subgrupos. Seleccionar como Datos la variable de la
que se quieren obtener los estadísticos, y como Códigos la variable que indica la
pertenencia al grupo. Con el icono amarillo de subopciones seleccionar Resúmenes
Estadísticos.

En la siguiente tabla se puede observar que la gente que tiene un peso entre 150-160
kg, su promedio corresponde en 53 kg, su desviación típica es de 6,39, el coeficiente de
variación 12,068%, el peso mínimo es de 45 kg, el peso máximo es de 56 kg y que por
lo tanto el rango es de 11 kg. Además, para aquellos que miden entre 160-170 cm se
puede observar como hay un sesgo de 2,56 el cual está fuera del rango.

b) confirmar los comentarios del apartado anterior realizando un gráfico de Box-


Whisker múltiple

Statgraphics: Utilizar el botón de opciones gráficas del Statfolio y escoger la opción de


Gráfico de caja y bigotes

9
En la siguiente gráfica se observa que hay 4 cajas de bigote, donde cada una
corresponde a una altura. Observamos que para la caja de 150-160 cm, nos indica el
promedio por medio de la cruz representada y que este valor corresponde
aproximadamente a 50 kg (53 kg para ser más exacto según la tabla extraída en el
apartado anterior). Su rango va desde 45 a 65 kg.

Ejercicio 4: Estudio comparativo de la viscosidad en tres mezclas diferentes (ejercicio


para practicar en casa)

Los datos de viscosidad en centipoise de tres mezclas son:

Mezcla 1 Mezcla 2 Mezcla 3


22.02 21.49 20.33
23.83 22.67 21.67
26.67 24.62 24.67
25.38 24.18 22.45
25.49 22.78 22.28
23.50 22.56 21.95
25.90 24.46 20.49
24.98 23.79 21.81

a) Si desearas comparar la distribución de la viscosidad en las tres mezclas mediante


un diagrama de Box-Whisker ¿Cómo introducirías los datos? Crea un fichero nuevo
con esta información

10
b) Obtener un diagrama de Box-Whisker múltiple para las 3 mezclas

c) Estudia la simetría en cada una de las mezclas

11
La primera y la tercera tienen asimetría positiva, mientras que la segunda presenta
asimetría negativa.

d) ¿En que mezcla tiene mayor rango la viscosidad?

En la primera mezcla existe mayor rango de viscosidad.

e) ¿En que mezcla tiene mayor recorrido intercuartílico la viscosidad?

En la primera mezcla existe mayor recorriendo intercuartílico.

f) ¿En que mezcla es mayor la mediana la viscosidad?

En la primera mezcla la mediana es mayor.

f) ¿Hay algún valor anómalo?

Sí existe un valor anómalo en la tercera mezcla, el valor es 24,66.

3. Diagrama de dispersión

El diagrama de dispersión permite visualizar la relación entre dos variables continuas.


En concreto, permite observar si la relación es directa o inversa y si es o no es lineal.

Ejercicio 5: Diagrama de dispersión

a) Obtener el diagrama de dispersión para ALTURA en función de PESO. ¿Qué tipo


de relación hay entre las dos variables?

Statgraphics: Desplegar el menú Gráficos, el submenú Gráficos de Dispersión y la


opción Gráfico X-Y.

12
Se ve una relación aproximadamente lineal enre peso y alura, sin embargo no se puede
considerar muy fuerte a causa de la separación que hay entre los puntos de los bordes.
Existe una relación lineal positiva, vemos que a más altura más peso.

b) Obtener el diagrama de dispersión indicando los puntos que corresponden a


hombre y a mujer ¿Qué llama la atención?

Statgraphics: Para etiquetar los puntos del gráfico en función de una tercera variable,
seleccionar con el botón derecho del ratón Opciones de Ventana y en el campo Código
de Puntos introducir la variable diferenciadora (SEXCOD).

Lo que llama la atención de la gráfica representada es que los hombres tienden a ser
más altos que las mujeres.

c) Construir el diagrama de dispersión para la variable ALTURA en función de la


EDAD ¿Existe alguna relación entre estas variables? ¿Por qué?

Statgraphics: Para seleccionar parte de la muestra utilizar el botón del Statfolio para
seleccionar variable e indicar un filtro

13
Como se puede observar, los punos no presenan una relación lineal por lo que podemos
concluir que no tienen aparentemente ninguna relación ya que para una misma edad
observamos alturas muy diferentes. Existe una relación no lineal.

4. Covarianza y correlación

La covarianza y la correlación son estadísticos bidimensionales que se utilizan para


estudiar la relación existente entre dos variables continuas. En concreto permite
observa, en el caso de que exista relación, si esta es directa o inversa y si es o no es
lineal.

Ejercicio 6 Covarianza y correlación

a) Hallar la matriz de varianzas-covarianzas de las variables PESO, ALTURA y


EDAD. ¿Qué interpretación puede darse a los valores que aparecen en la matriz?

Statgraphics: Desplegar el menú Descripción, el submenú Datos Numéricos y a


continuación el submenú Análisis Multidimensional y utilizar el icono amarillo de
subopciones para seleccionar Covarianzas.

14
Entre el peso y la estatura la covarianza es mucho mayor por lo que podemos decir que
existe mayor covarianza. No obstante, como depende de las unidades, no podemos
concluir ninguna solución acertada. Observamos que existe una relación lineal
positiva.

b) Hallar la matriz de correlación de las variables PESO, ALTURA y EDAD ¿Qué


interpretación puede darse a los valores que aparecen en esta matriz? ¿Es posible
afirmar la existencia de asociación lineal entre algunas variables a nivel poblacional?

Statgraphics: Desplegar el menú Descripción, el submenú Datos Numéricos y a


continuación el submenú Análisis Multidimensional y utilizar el icono amarillo de subopciones
para seleccionar Correlaciones.

En la siguiente matriz observamos que las variables que tienen un coeficiente próxima
a 1 es debido a que tienen una relación fuerte. Si las variables tienen un valor próximo
a 0 significa que no tienen ninguna relación. Observamos que hay una relación lineal
positiva en peso frente a la altura, ya que la correlación es positiva y además cercana a
1. Todo aquel valor que se menor a 0,05 significa que existe una correlación real a
nivel población.

15

También podría gustarte