Está en la página 1de 48

INGENIERÍA DE SISTEMAS Y COMPUTACIÓN

FACULTAD DE INGENIERÍA

ESTADISTICA

ESTADÍSTICA BIDIMENSIONAL

• TABLAS BIDIMENSIONALES : CONCEPTO, CONSTRUCCIÓN, LECTURA E


INTERPRETACIÒN.
• GRAFICOS: BARRA AGRUPADAS, BARRAS APILADAS.
• PRACTICA DIRIGIDA.

Semana 4

Docente: Mg. Miguel Angel Carlos Canales


• Hasta ahora hemos estudiado las variables unidimensionales de
forma aislada, cosa que no es habitual en la vida real.

¿QUÉ VAMOS A APRENDER? TABLA DE


En esta primera parte del presente capítulo se
CONTINGENCIA
construyen y analizan las tablas
bidimensionales para DOS VARIABLES
CUALITATIVAS (TABLAS DE CONTINGENCIA),
UNA VARIABLE CUALITATIVA Y OTRA
CUANTITATIVA, Y PARA DOS VARIABLES
CUANTITATIVAS; asimismo se presenta las
gráficas o diagramas para dichos casos.

En una segunda parte del presente capítulo se


estudiará la asociación entre dichas variables
(Semanas 10 y 11).
TIPOS DE VARIABLES ESTADÍSTICAS EN
ESTADISTICA BIDIMENSIONAL
A) AMBAS CUANTITATIVAS
Los elementos tienen A1. X discreta e Y discreta
carácter numérico o
cuantitativo, por lo A2. X continua e Y continua
tanto se puede realizar
operaciones aritméticas. A3. X discreta e Y continua

B) AMBAS CUALITATIVAS
Son aquellas cuyos B1. X nominal e Y nominal
elementos de variación
tienen componente B2. X ordinal e Y ordinal
cualitativo o no
B3. X nominal e Y ordinal
numérico.
C) UNA CUANTITATIVA Y OTRA CUALITATIVA
C1. X discreta e Y nominal y viceversa ( Nº de hijos, sexo)
C2. X discreta e Y ordinal y viceversa ( Nº de hijos, grado de instrucción.)
C3. X continua e Y nominal y viceversa ( Edad, sexo)
C4. X continua e Y ordinal y viceversa ( Edad, grado de instrucción)
ESTADÍSTICA BIDIMENSIONAL
Analiza el comportamiento conjunto de dos variables en una unidad de
estudio, busca la posible ASOCIACIÓN O RELACIÓN (DEPENDENCIA O
INDEPENDENCIA) que existe entre las variables involucradas (es decir, si se
influyen mutuamente); se representa como un conjunto de pares de datos
(X,Y), donde:
X : es la variable independiente (llamada factor).
Y : es la variable dependiente (llamada resultado).
Ejemplos:
• La influencia que tienen los ingresos de una determinada familia en los gastos que tienen.
• Cómo influye la velocidad de un cierto automóvil en su consumo de Combustible.
• La relación que existe entre los pesos y las estaturas de un grupo de personas.
• Podemos estar interesados en estudiar la relación entre el sexo y el lugar de procedencia de estudiantes.
• La relación entre el sexo y el rendimiento académico en el curso de estadística.
5
• La relación la edad y el tiempo de servicio de los participantes en un programa de capacitación, etc.
TABLAS BIDIMENSIONALES
Si (X,Y) es una variable bidimensional que toma los valores (xi, yj) con i = 1,2,3,… ,f
y j = 1,2,3…,c sobre una muestra de tamaño n de cierta población.
Llamamos así a una tabla de doble entrada donde se representa en la primera
columna los diferentes valores observados para una variable que denominaremos por
X (xi) ordenados de menor a mayor y en la primera fila los diferentes valores
observados para la otra variable Y (yj), y en el centro sus correspondientes
frecuencias conjuntas.
Las tablas de frecuencia que representan simultáneamente dos variables
HABITUALMENTE CATEGÓRICAS son llamadas comúnmente TABLAS DE
CONTINGENCIAS.
TABLA BIDIMENSIONAL O DE CONTINGENCIA
Así, una tabla de contingencia es una tabla de doble entrada, donde en
cada casilla figurará el número de casos o individuos que poseen un nivel
de una de las características analizadas y en el otro nivel de la otra
característica.

Donde fij es el número de


observaciones que presentan
simultáneamente las características
i,j de las variables X y Y,
respectivamente.
TABLA BIDIMENSIONAL (O DE CONTINGENCIA)

DE X

DE Y
TABLA BIDIMENSIONAL O DE CONTINGENCIA
La distribución de frecuencia bidimensional de (X,Y) se puede expresar en una tabla bidimensional
(FRECUENCIAS ABSOLUTAS). FRECUENCIAS
MARGINALES DE “X”

FRECUENCIAS
ABSOLUTAS

FRECUENCIAS
MARGINALES
DE “Y”
TABLA BIDIMENSIONAL (O CONTINGENCIA):
EJEMPLO – FRECUENCIAS ABSOLUTAS
Ejemplo.- Se representa por X el número de hijos de 100 familias y
por Y en número de hijas

N° HIJAS (Y)
0 1 2 3 TOTAL
N° HIJOS (X)
0 10 15 15 3 43
1 10 12 7 2 31
2 8 4 3 1 16
3 3 2 1 0 6
4 2 1 1 0 4
TOTAL 33 34 27 6 100

La lectura de esta tabla es sencilla. Por ejemplo: hanría 7 familias que tendrían
1 hijo y 2 hijas y ninguna familia tendría 3 hijos y 3 hijas.
TABLA BIDIMENSIONAL (O CONTINGENCIA):
EJEMPLO – FRECUENCIAS ABSOLUTAS

Sexo (Y)
Masculino Femenino TOTAL
Estado Civil(X)

Soltero 20 40 60

Casado 30 80 110

Viudo 10 5 15

Divorciado 5 10 15

Total 65 135 200


La distribución de frecuencia bidimensional de (X,Y) se puede expresar en una tabla bidimensional
(FRECUENCIAS RELATIVAS).

Ejemplo.- Se representa por X el número de hijos de 100 familias y Ejemplo.- Se representa por X el número de hijos de 100 familias y
por Y en número de hijas por Y en número de hijas

N° HIJAS (Y) N° HIJAS (Y)


0 1 2 3 TOTAL 0% 100% 200% 300% TOTAL
N° HIJOS (X) N° HIJOS (X)
0 0.1 0.15 0.15 0.03 0.43 0% 10% 15% 15% 3% 43%
1 0.1 0.12 0.07 0.02 0.31 100% 10% 12% 7% 2% 31%
2 0.08 0.04 0.03 0.01 0.16 200% 8% 4% 3% 1% 16%
3 0.03 0.02 0.01 0 0.06 300% 3% 2% 1% 0% 6%
4 0.02 0.01 0.01 0 0.04 400% 2% 1% 1% 0% 4%
TOTAL 0.33 0.34 0.27 0.06 1 TOTAL 33% 34% 27% 6% 100%
DISTRIBUCIÓN BIDIMENSIONAL (EN FRECUENCIAS ABSOLUTAS Y EN RELATIVAS)
Ejm.: Un grupo de 91 niños se clasifica según su edad (X) y puntuación en un test (Y)

• ¿Cómo se interpretan los valores 10 y 20? Hay 10 niños que tienen 7 años y puntuación 125 en el test. Hay 20
niños con puntuación igual a 130.
• ¿Cómo se interpretan los valores 0,110 y 0,220? Hay una proporción de 0,11 niños que tiene 7 años y
puntuación 125 en el test. El 22% de los niños tiene puntuación igual a 120.
TABLA BIDIMENSIONAL (O DE CONTINGENCIA)

•Uno de los objetivos del análisis de distribuciones


bidimensionales es estudiar si existe asociación o relación
(DEPENDENCIA O INDEPENDENCIA) entre las variables X e Y.
•A partir de una distribución bidimensional se obtendrán,
también, distribuciones unidimensionales de dos tipos:
marginales y condicionadas.
• Tipos de distribuciones marginales:
o Marginal de X
o Marginal de Y
DISTRIBUCIONES MARGINALES
En una distribución bidimensional, uno puede centrar su estudio en el
comportamiento de una de las variables, con independencia de como se
comporta la otra, denominándose análisis de una distribución marginal.
DISTRIBUCIONES MARGINALES

Definimos :

Son las frecuencias absolutas marginales de las


variables X e Y, respectivamente

Son las frecuencias relativas marginales de las


variables X e Y, respectivamente
DISTRIBUCIONES MARGINALES
Ejm.: Un grupo de 91 niños se clasifica según su edad (X) y puntuación en un test (Y)

• Observa que el total de individuos observados en cada marginal es 91.


• ¿Qué porcentaje de niños tiene edad igual a 5?
• ¿Qué proporción de alumnos obtiene en el test más de 125 puntos?
DISTRIBUCIONES MARGINALES

Sexo (Y) Masculino Femenino TOTAL


Estado Civil(X)

Soltero 20 40 60

Casado 30 80 110

Viudo 10 5 15

Divorciado 5 10 15

Total 65 135 200

Distribución marginal de
Distribución marginal de
X (Estado Civil)
Y (Sexo)
DISTRIBUCIONES CONDICIONADAS
A partir de una distribución bidimensional se pueden obtener
distribuciones unidimensionales CONDICIONADAS: de X y de Y.
Distribución de una de las variables siempre que la otra cumpla una condición
específica.
TABLAS BIDIMENSIONALES PARA DOS VARIABLES
CUALITATIVAS.
La distribución de los «n» individuos,
considerando las dos características,
se puede presentar en una tabla de
doble entrada o en una tabla
bidimensional, llamada
habitualmente TABLA DE
CONTINGENCIA, donde los niveles de
una de las variables ocupan la
posición de las filas y los niveles de la
otra variable ocupan la posición de
las columnas y los valores dentro de
la tabla o celdas son las frecuencias
absolutas conjuntas.
TABLA DE CONTINGENCIA: INTERPRETACIÓN
Tabla1. Nivel de instrucción por región de procedencia

Nivel de estudios
Región
de Primaria Secundaria Superior Total
proceden
cia n % n % n %
Costa 40 10.7 80 21.3 60 16 180 48
Sierra 35 9.3 35 9.3 30 8 100 26.7
Selva 30 8 40 10.7 25 6.7 95 25.3
Total 105 28 155 41.3 115 30.7 375 100
• Del grupo de personas encuestadas, 180 son de la costa y 40 (10.7%) de ellos tienen grado de instrucción
primaria, 80 (21.3%) tienen secundaria y el 16% alcanzaron estudios superiores, ….
• En relación al nivel de estudios alcanzados, mayormente es secundaria, el 21.3% tienen primaria y son
de la costa, el 10.7% tienen secundaria y son de la selva……
• Estos resultados indican que el mayor porcentaje de personas con nivel de estudios superiores son de la
costa, lo cual demuestra que hay asociación o dependencia en el nivel de estudios alcanzado por la región
de procedencia de las personas.
TABLAS BIDIMENSIONALES PARA UNA VARIABLE CUALITATIVA Y UNA
VARIABLE DISCRETA.

La tabulación de una
variable cualitativa y otra
variable cuantitativa
discreta se realiza
siguiendo la misma
metodología que en el caso
de dos variables
cualitativas.
TABLAS BIDIMENSIONALES PARA VARIABLES
CUANTITATIVAS.
Cuando se desea construir la tabla de Ejemplo:
frecuencias para dos variables Se ha recolectado la estatura (X) en cm y su
cuantitativas, se hace necesario de peso (Y) en kg de un grupo de estudiantes
cuyos resultados se muestran en la tabla de
acuerdo con el interés del distribución de frecuencias bidimensionales.
investigador plantear previamente
los intervalos de clase. Se
representan con Xi y Yj los
correspondientes intervalos y la
estructura de las frecuencias
absolutas y relativas conjuntas son
similares a la ya presentada para el
caso de dos variables cualitativas.
Ejercicio de aplicación:
Estaciones de medición ambiental
En Andalucía existe una red de más de 60 estaciones
de medida que se encargan de controlar los niveles
de SO2(dióxido de asufre), partículas en suspensión, NO2
(dióxido de nitrógeno) y Ozono en aire.

Si los niveles superan lo permitido por la Ley de


Protección Ambiental, se considera una situación no
admisible de contaminación atmosférica.
En una determinada estación hemos contabilizado las
siguientes variables:
X = “Nº de días por mes en los que se supera el límite
permitido de concentración de NO2”
Y = “Nº de días por mes en los que se supera el límite
permitido de concentración de ozono”
A continuación verás los resultados obtenidos en los
últimos 36 meses.
DATOS:
(0,3) (1,1) (0,2) (1,1) (2,0) (1,4)
(1,4) (3,2) (3,3) (2,1) (1,4) (1,0)
(0,0) (0,3) (1,3) (1,4) (0,0) (1,0)
(0,0) (2,3) (2,0) (1,0) (0,0) (1,1)
(3,2) (3,1) (0,0) (1,2) (0,1) (0,2)
(0,0) (3,1) (2,3) (1,0) (0,0) (1,4)
Para nuestra variable (X,Y), el dato (0,3) que aparece al
principio significa que, el primer mes que contabilizamos los
niveles, hubo:
• x1= 0 días en los que se superó el nivel de NO2.
• y1= 3 días en los que se superaron los niveles de ozono.
Para poder manejar los datos vamos a hacer una tabla de doble
entrada. Para ello nos fijamos en los datos y vemos que:
• La variable X toma cuatro valores (de 0 a 3), luego
necesitamos cuatro filas.
• La variable Y toma cinco valores (de 0 a 4), que se convierten
en cinco columnas.

Y
y 1 =0 y 2 =1 y 3 =2 y 4 =3 y 5 =4
x1=0
x2=1
X
x3=2
x4=3
Rellenar la tabla es sencillo. Tan sólo tenemos que contar cuántas veces se repite cada
pareja de valores, y escribirlo en la casilla correspondiente.
Por ejemplo, el primer dato que tenemos es (0,3), que aparece 2 veces en total.
En la casilla correspondiente a X=0 e Y=3 escribimos el valor 2.

(0,3) (1,1) (0,2) (1,1) (2,0) (1,4)


(1,4) (3,2) (3,3) (2,1) (1,4) (1,0)
(0,0) (0,3) (1,3) (1,4) (0,0) (1,0)
(0,0) (2,3) (2,0) (1,0) (0,0) (1,1)
(3,2) (3,1) (0,0) (1,2) (0,1) (0,2)
(0,0) (3,1) (2,3) (1,0) (0,0) (1,4)

Y
y 1 =0 y 2 =1 y 3 =2 y 4 =3 y 5 =4
x1=0 2
x2=1
X
x3=2
x4=3
Si repetimos el proceso con todos los datos, obtendremos
la siguiente tabla:
(0,3) (1,1) (0,2) (1,1) (2,0) (1,4)
(1,4) (3,2) (3,3) (2,1) (1,4) (1,0)
(0,0) (0,3) (1,3) (1,4) (0,0) (1,0)
(0,0) (2,3) (2,0) (1,0) (0,0) (1,1)
(3,2) (3,1) (0,0) (1,2) (0,1) (0,2)
(0,0) (3,1) (2,3) (1,0) (0,0) (1,4)

Y
y 1 =0 y 2 =1 y 3 =2 y 4 =3 y 5 =4
x1=0 7 1 2 2 0
x2=1 4 3 1 1 5
X
x3=2 3 0 0 2 0
x4=3 0 2 2 1 0
La tabla se completa con una última fila y una última columna en las
que ponemos los totales para cada x i e yj. A estos totales les
llamaremos sumas parciales. Observa que la última casilla tiene que
coincidir con el total de parejas.
Y

y 1 =0 y 2 =1 y 3 =2 y 4 =3 y 5 =4 fi

x1=0 7 1 2 2 0 12

x2=1 4 3 1 1 5 14

X x3=2 3 0 0 2 0 5

x4=3 0 2 2 1 0 5

fj 14 6 5 6 5 36
Ejercicio de aplicación 2:
La siguiente distribución corresponde a 210 ciudadanos considerando su opinión ciudadana
agrupada en tres categorías (a favor, en contra e indeciso) en la construcción de una
autopista según su sexo.
TABLA N° 01
Distribución bidimensional de ciudadanos por sexo según opinión
Opinión (Y)
Sexo (X) A favor En contra Indeciso TOTAL
Hombres 41 39 20 100
Mujeres 40 43 27 110
Total 81 82 47 210
Se pide:
a) Construir las distribuciones de frecuencia marginales para las variables X e Y.
Además Interpretar: f2. y f.3
b) Construir las distribuciones de frecuencias relativas bidimensionales para las variables X e Y.
además interpretar: f22 y f23
c) Construir las distribuciones de frecuencias relativas marginales X e Y respectivamente.
Además interpretar: h1. y h.3
Se pide:
a) Construir las distribuciones de frecuencia marginales para las variables X e Y.
Además Interpretar: f2. y f.3
Interpretación: TABLA N° 01
f2. : Del total de 210 encuestados,
entre varones y mujeres, 110 son A favor En contra Indecisos Total
mujeres. Hombres 41 39 20 100
f.3 : Del total de 210 encuestados que Mujeres 40 43 27 110
opinaron de la construcción de la Total 81 82 47 210
autopista, 47 están indecisos.
TABLA N° 02 TABLA N° 03
Distribución Marginal de X Distribución Marginal de Y
Sexo Opinión
Sexo Nº de Opinión Nº de
Xi encuestados Yj encuestados

Hombres
A favor 81
100
En contra 82
Mujeres 110 Indeciso 47
Total 210 Total 210
b) Construir las distribuciones de frecuencias relativas bidimensionales
para las variables X e Y. además interpretar: f22 y f23

TABLA N° 04
Distribución bidimensional de frecuencias relativas por sexo según opinión

Opinión (Y)
Sexo (X) TOTAL

A favor En contra Indeciso


Hombres 0.195 0.186 0.095 0.476
Mujeres 0.190 0.205 0.129 0.524
Total 0.385 0.391 0.224 1.000

INTERPRETACIÓN:
f22: El 20.5% de los encuestados son mujeres y opinaron en contra.
f23 : El 12.9% de los encuestados son mujeres y opinaron que están indecisas.
c) Construir
las distribuciones de frecuencias relativas marginales X
e Y respectivamente. Además interpretar: h1. y h.3

TABLA N° 05 TABLA N° 06
Distribución Marginal de X Distribución Marginal de Y
Sexo Opinión
Sexo Nº de Opinión Nº de
Xi encuestados Yj encuestados

Hombres
A favor 0.385
0.476
En contra 0.391
Mujeres 0.524 Indeciso 0.224
Total 1.000 Total 1.000

INTERPRETACIÓN:
:h1. El 47.6% de encuestados son hombres.

h.3 : 22.4% de encuestados están indecisos.


GRAFICOS BIDIMENSIONALES
GRAFICOS BIDIMENSIONALES
Ejemplo: Estudiamos la talla, medida en cm. y el peso, medido en kg. de un
grupo de 10 personas, podemos obtener los siguientes valores

Talla
(cms) 160 165 168 170 171 175 175 180 180 182

Peso
(kgs) 55 58 58 61 67 62 66 74 79 83

• Podemos llamar X a la talla e Y al peso con lo que se obtendría la variable


bidimensional (X, Y) que toma 10 valores, que son las 10 parejas de valores
de la tabla anterior: (160,55), (165,58), etc.
Diagramas de dispersión o nubes de puntos
• En el ejemplo 1anterior en el que se estudiaba la talla y el peso de 10
personas se obtendría el siguiente diagrama de dispersión: (En el eje X se
representa la talla en cm. y en el eje Y el peso en kg.)
Diagramas de dispersión o nubes de puntos
• Se puede ver en la primera figura que correspondía al diagrama
de talla - peso , que la serie de puntos presenta una tendencia
"ascendente". Se dice en este caso que existen entre las dos
variables una "dependencia directa".

• En caso en que la tendencia sea "descendente" se diría que


estaríamos ante una "dependencia inversa".

• Naturalmente en caso en que no se pueda observar una tendencia clara


estaríamos ante una dependencia muy débil que no se puede observar
mediante la nube de puntos.
Diferentes tipos de diagramas
Ajustes lineales

Ajustes lineales
GRAFICOS DE
BARRAS PARA
UNA VARIABLE
CUALITATIVA Y
UNA VARIABLE
CUANTITATIVA
GRAFICO DE
BARRAS PARA
DOS VARIABLES
CUANTITATIVAS
EJERCICIO POR RESOLVER:
Se ha recolectado la estatura (X) en cm y su peso (Y) en kg de un
grupo de estudiantes cuyos resultados se muestran en la tabla de
distribución de frecuencias bidimensionales.

Estatura en Peso en kg
cm [50, 60> [60, 70> [70, 80>
[160, 165> 12 18 3
[165, 170> 15 25 8
[170, 175> 4 10 5
[175, 180> 1 3 10

a) Hallar las distribuciones marginales.


b) Interprete f22 , f33 , f41, f1. , f.2
c) Encuentre e interprete el peso y la talla promedio.
18
CREACIÓN Y USO DE UN GRÁFICO DE BARRAS APILADAS
Los gráficos de barras apiladas muestran el tamaño relativo (como recuento (cantidad), porcentaje
u otra variable numérica) de valores individuales para más de un elemento que comparten la
misma categoría (de una variable de categorías), subdividida por colores en función de un
subgrupo.
Los gráficos de barras apiladas sirven para responder preguntas sobre los datos, por ejemplo: ¿cómo
se distribuyen o resumen los valores numéricos por categoría y subcategoría? ¿Cómo se clasifican sus
datos?

Ejm.:
Supongamos esta
tabla que muestra
las ventas (S/.) del
año de las tres
Sucursales de una
determinada
empresa.
GRAFICO DE BARRAS APILADAS

También podría gustarte