Está en la página 1de 29

“Introducción a la

Estadística”

Licenciatura en Estadística
Facultad de Ciencias Económicas y Estadística
UNR
Importante

El presente material está sujeto a modificaciones y


debe acompañarse de los comentarios que se realicen
durante las clases.
Unidad 3
 Relación entre dos variables categóricas.

 Construcción de tablas de contingencia.


 Cálculo e interpretación de porcentajes.
porcentajes
 Distribuciones marginales.

 Relación entre dos variables cuantitativas.

 Diagramas
Di d
de di
dispersión.

 Gráfico cuantil-cuantil.

 Descripción del comportamiento de una variable


cuantitativa según
g niveles de una variable categórica.
g

Unidad 3 3
Ejemplo
Pesticidas y comida orgánica

Una de las razones por las que los consumidores optan por la comida
orgánica
g es que
q se asume que
q ésta no contiene pesticidas
p yqque,, por
p lo
tanto, es mas saludable.
Dado el excesivo costo asociado a la comida orgánica, la Unión de
Cons midores del estado de California (USA) llevó
Consumidores lle ó a cabo un
n est
estudio
dio
por muestreo para comparar la presencia de residuos de pesticidas en
comida orgánica
g y en comida convencional.

¿Cuáles son las variables de interés? ¿De qué tipo son?


¿Puede identificarse una variable como explicativa y la otra como respuesta?
¿Cómo resumiría los datos del estudio?

Unidad 3 4
Datos univariados y multivariados.
Hasta ahora se han presentado métodos para describir y
analizar datos univariados.
univariados

No obstante, es muyy frecuente en la ppráctica encontrar


situaciones como las del ejemplo, en las que el interés es
analizar dos o incluso más variables sobre un mismo individuo u
objeto
bj t de
d una población,
bl ió y lal forma
f en lla que estas
t variables
i bl se
relacionan entre sí.

Un conjunto de datos multivariados consiste de mediciones u


observaciones de dos o más variables sobre un mismo individuo
u objeto. Nos centraremos en el caso particular en el que se
analizan dos variables, obteniéndose conjuntos de datos
bi i d
bivariados.
Unidad 3 5
Tipos de variables

Antes de avanzar, recordemos….


Los valores que toman las variables pueden ser números (peso
de un recién nacido, en gramos) o bien cada observación puede
pertenecer a una categoría (tipo de
d alimentación,
l registrada
d
como lactancia materna exclusiva – leche de fórmula exclusiva
– ambas).
ambas)

 Una variable se dice categórica si cada observación


pertenece a una de un conjunto de categorías.
 Una variable se dice cuantitativa si sus observaciones
toman valores numéricos que representan diferentes
magnitudes para dicha variable.

6
Unidad 3
Análisis de datos bivariados.
Cuando trabajamos con datos bivariados podemos encontrar tres
situaciones diferentes:
1. Ambas variables categóricas. Por ejemplo, hábito de fumar y
sobrevida a los 20 años.
 Tablas de contingencia y cálculo de proporciones condicionales

2. Ambas variables cuantitativas. Por ejemplo, consumo diario de


combustible para automóviles y nivel de contaminación en el aire.
 Diagramas de dispersión.

3. Una variables categórica y la otra cuantitativa. Por ejemplo,


análisis del ingreso
g salarial y el género.
g
 Cálculo de estadísticas descriptivas de la variable cuantitativa,
para cada uno de los grupos definidos por la variable
categórica
t ói .

Unidad 3 7
Relación entre dos variables
categóricas

8
Unidad 3
Relación entre dos variables categóricas
g

Las variables categóricas pueden ser analizadas


individualmente a través de sus distribuciones de
frecuencias, pero si el interés es analizarlas en conjunto, es
posible construir la distribución de frecuencias conjunta de
ambas variables simultáneamente.

Dicha representación recibe el nombre de tabla de


contingencia.

Unidad 3 9
Relación entre dos variables categóricas
g

Una tabla de contingencia es una representación tabular de


dos variables categóricas. En las filas se listan las categorías
de una de las variables (la explicativa en general) y en las
columnas las de la otra variable (la respuesta). Cada celda de
la tabla contiene la frecuencia de unidades o individuos en la
muestra
t que poseen la l correspondiente
di t combinación
bi ió de d
categorías de las variables.

El proceso de construcción de la tabla de contingencia a partir


de los datos individuales se conoce como tabulación cruzada.

Unidad 3 10
Ejemplo
j p Pesticidas y comida orgánica
g

La tabla de contingencia para los datos del ejemplo resulta:

Tabla 1 – Clasificación cruzada de la comida analizada según


el tipo de comida y la presencia de residuos de pesticida

Residuos de pesticida Total


Tipo de comida Presentes Ausentes
Orgánica 29 98 127
Convencional 19485 7086 26571
Total 19514 7184 26698

Unidad 3 11
Ejemplo Pesticidas y comida orgánica

Residuos de pesticida Total


Tipo de comida Presentes Ausentes
Orgánica 29 98 127 Distribución
Convencional 19485 7086 26571 marginal de
“Tipo de comida”
Total 19514 7184 26698

Distribución marginal de
“Residuos de pesticida”

¿Cómo “leer”
leer estos datos para analizar si están de acuerdo con la creencia de los
consumidores o no?

Proporciones condicionales:

¿Q representan
¿Qué p estas proporciones?
p p
¿Qué sugieren respecto de la creencia de los consumidores?

Unidad 3 12
Relación entre dos variables categóricas
g
Estas proporciones se denominan condicionales porque brindan la
distribución de una de las variables para niveles fijos o condicionado a
los niveles de la otra variable.

Siempre que exista una distinción entre variable respuesta y


explicativa, se acostumbra a calcular las proporciones condicionales
de la variable respuesta para niveles fijos de la variable explicativa.
explicativa En
el ejemplo, interesa conocer la proporción de alimentos con y sin
residuos de pesticida entre los alimentos orgánicos por un lado y
entre los alimentos convencionales por otro.

Las proporciones calculadas a partir de los totales por fila o por


columna se denominan proporciones marginales, pues su cálculo
representa la distribución de cada una de las variables, ignorando la
i f
información
i d de lla variable
i bl restante.

Unidad 3 13
Relación entre dos variables categóricas
g
La información provista por una tabla de contingencia puede
visualizarse también gráficamente.
gráficamente

Un gráfico de barras agrupadas permite representar las


proporciones condicionales de interés en una tabla de contingencia y
proporciona una herramienta visual para comparar tales proporciones.

Gráfico 1 – Tipo de
comida analizada
según presencia de
residuos de pesticida

Unidad 3 14
Relación entre dos variables
cuantitativas

15
Unidad 3
Ejemplo
U de
Uso d internet
i y la
l red
d social
i lFFacebook
b k
El número de usuarios de internet y de redes sociales como
Facebook ha aumentado significativamente en las últimas
décadas,, aunque
q tal crecimiento no ha sido pparejoj alrededor del
mundo.
Se tienen datos sobre el porcentaje de la población que tiene
acceso a internet y el porcentaje de población que es usuaria de
Facebook en 33 países alrededor del mundo (Agresti, 2013, p.99).

Unidad 3 16
Relación entre dos variables cuantitativas

¿Cómo graficar ambas variables simultáneamente?

Un diagrama de dispersión es una representación gráfica


de dos variables cuantitativas simultáneamente, en la que se
g fi la
grafica l variable
i bl explicativa
li ti en ell eje
j x y lla variable
i bl
respuesta en el eje y.
Cada individuo u objeto queda representado en el diagrama
mediante un punto ubicado en la combinación de los valores
de ambas variables. .

Unidad 3 17
Ejemplo
Uso de internet y la red social Facebook

• ¿Cuál es la variable explicativa y cuál la respuesta?


• ¿Cómo describirían la relación entre ambas variables?

Punto correspondiente a Países Bajos:


- Acceso a internet: 82.90
- Uso de Facebbok: 20.54

Unidad 3 18
Relación entre dos variables cuantitativas
¿Cómo puede resultar la relación entre las dos variables?

En próximas asignaturas verán medidas para cuantificar la


relación entre ambas variables
variables, como por ejemplo,
ejemplo el
coeficiente de correlación.
Dicho coeficiente es una medida de la intensidad y la
dirección de la asociación lineal entre dos variables
cuantitativas.

Unidad 3 19
Relación entre
una variable
i bl cuantitativa
tit ti
y una variable categórica

20
Unidad 3
Ejemplo
Modificaciones en la vía aérea de pacientes
embarazadas en trabajo j de parto
p
Se cuenta con datos correspondientes a un estudio observacional
realizado sobre 95 pacientes en trabajo de parto en cierto
Hospital de la ciudad de Rosario a fines de 2015.

Entre las diversas variables registradas en este estudio se


encuentran:
la edad (en años), peso (en kg), índice de masa corporal (IMC,
g 2), número de gestas
kg/m g y partos
p pprevios,, edad g
gestacional ((en
semanas) y duración del trabajo de parto (en horas).

21
Relación entre una variable cuantitativa
y una categórica
Supongamos que los investigadores están interesados en
analizar la edad gestacional en función de si la mamá era o no
primeriza (es decir, si había tenido, o no, partos previos).
¿Cómo graficar ambas variables simultáneamente?

Hay diversas opciones, una de las más frecuentes es recurrir


al boxplot comparativo.

Un boxplot comparativo es una representación gráfica de


una variable cuantitativa según los valores de una variable
cualitativa. Se disponen, uno al lado de otro, tantos boxplots
g
como categorías tenga
g la variable cualitativa.

Unidad 3 22
Relación entre una variable cuantitativa
y una categórica
Figura 2: Edad gestacional (semanas), según si eran o no
madres primerizas

Fuente:
F t elaboración
l b ió propia
i a partir
ti ded datos
d t ded un estudio
t di desarrollado
d ll d en un
hospital de la ciudad de Rosario en el año 2015.
23
Relación entre una variable cuantitativa
y una categórica

Figura 2: Duración del trabajo de parto (hs), según número


de partos previos

Cuidado!!!

En clases
conversamos
acerca de qué
tipo de variable
es “Número de
partos
previos”…
previos

Fuente:
F t elaboración
l b ió propia
i a partir
ti ded datos
d t ded un estudio
t di desarrollado
d ll d en un
hospital de la ciudad de Rosario en el año 2015.
24
Relación entre una variable cuantitativa
y una categórica
Otra forma de presentar los datos de una variable cuantitativa en
función de las categorías de una categórica es a través de un
diagrama de tallo y hoja “lado a lado”.

Antes de ppresentar la versión “lado a lado”, es necesario


presentar el diagrama de tallo y hoja “simple”.

Unidad 3 25
Diagrama de tallo y hoja
Un diagrama de tallo y hoja es una forma efectiva y compacta de
resumir información numérica.
Cada número en el conjunto de datos se divide en dos partes
llamadas el tallo y la hoja.
• El tallo: es la primer parte del número y consiste del primer
dígito (o primeros dígitos).
dígitos)
• La hoja: es la última parte del número y consiste del o los
dígitos
g finales. Por ej.:
j el número 213 puede
p ser dividido en un
tallo igual a 2 y una hoja igual a 13 o en un tallo igual a 21 y
una hoja igual a 3.

Por último se utilizan los tallos y hojas resultantes para


construir el diagrama.
diagrama

Unidad 3 26
Diagrama de tallo y hoja

A través de estos diagramas simples es posible obtener


información acerca de diversas características importantes de un
conjunto de datos tales como la forma y la dispersión.

Pueden ser muy útiles para obtener una idea de los valores más
comunes en un conjunto de datos y cuan dispersos están los
d t También
datos. T bié es posible
ibl ddetectar
t t valores
l que se encuentran
t
muy alejados del resto de las observaciones.

En general, se recomienda que contengan entre 5 y 20 tallos.

Hay distintas variantes en la construcción del diagrama según


las características de los datos en cuestión.

Unidad 3 27
Diagrama de tallo y hoja

Dos formas diferentes de presentar


los mismos datos…

Duración del trabajo de parto (hs)

Unidad 3 28
Diagrama de tallo y hoja

Figura 3: Duración del trabajo de parto (hs), según si la


embarazada era o no primeriza

Unidad 3 29

También podría gustarte