Está en la página 1de 7

UNIVERSIDAD NACIONAL AUTÓNOMA DE NICARAGUA

“A la Libertad por la Universidad”


VICERRECTORÌA ACADÈMICA
PLAN DE CLASE No.9

I. DATOS GENERALES:

1.1 Facultad: Ciencias y Tecnología.


1.2 Carrera:
1.3 Modalidad: Diario
1.4. Nombre del Componente Curricular: Estadística Introductoria
1.5. Unidad: Distribución de frecuencias para datos bidimensionales
1.6. Tema: Tablas de correlación.
1.7 Tiempo: 2 h.
1.8. Fecha:
1.9. Profesor (a):

II. COMPETENCIA DEL COMPONENTE CURRICULAR A LA QUE SE APORTA CON ESTA


ACTIVIDAD:
 Construir e Interpretar las tablas de correlación.
III. DIMENSIONES DE LA COMPETENCIA: (CONCEPTOS, HABILIDADES Y ACTITUDES)
IV. ACTIVIDADES DEL DOCENTE Y DE LOS ALUMNOS:

 Tablas de Correlación, Frecuencias Marginales, Frecuencias relativas, Distribuciones Marginales,


Distribuciones Condicionadas e Independencia estadística.
 Identificar el concepto de tabla de correlación.
 Explicar los procedimientos para elaborar tablas de correlación.
 Calcular distribuciones condicionadas de frecuencias e Independencia estadística
 Interpreta tablas de correlación y aplica las medidas de posición y dispersión en las frecuencias
marginales y condicionadas
a. Actividades de Iniciación:
 Presentación.
 Bibliografía a utilizar.
b. Actividades de Desarrollo:

Introducción: Hasta ahora hemos estudiado el comportamiento de una sola característica o variable estadística que
hemos medido en un conjunto de elementos que formaban una población estadística o una muestra representativa
de la misma. Pero podemos estudiar para cada elemento de la población dos o más características de tipo
cualitativo o cuantitativo. Lo habitual es que se estudien al mismo tiempo varias características de los elementos de
una población estadística Consideremos, por ejemplo, que nuestro objetivo es estudiar las causas que originan los
distintos niveles de los gastos de los individuos varones mayores de 18 años de la UNAN - León. Además de esta

1
UNIVERSIDAD NACIONAL AUTÓNOMA DE NICARAGUA
“A la Libertad por la Universidad”
VICERRECTORÌA ACADÈMICA
variable, que normalmente se medirá en una muestra representativa de la población estadística, nos interesará
medir otras características que están relacionadas con ella: ingresos del individuo, estado civil, aficiones que tiene,
la edad.

Todas estas características influirán en los niveles de gastos y nos podrán explicar su comportamiento. En general, a
mayores ingresos existirá un mayor gasto. Podrá estudiarse separadamente cada característica construyendo su
distribución unidimensional pero lo normal es presentar conjuntamente más de una característica con el objetivo de
estudiar sus posibles relaciones y responder a cuestiones como las siguientes: ¿en qué medida el nivel de ingresos
determina el nivel de gastos?, ¿existe relación entre el nivel de gastos y la edad?, ¿y el estado civil?, etc. Estudiarán
las distintas tabulaciones de las variables estadísticas bidimensionales y los nuevos conceptos que generan
(distribuciones de frecuencias marginales y condicionadas), el concepto de independencia estadística y correlación
entre variables.

Tabulación de variables estadísticas bidimensionales: distribuciones bidimensionales de frecuencias.


Vamos a considerar dos tipos de tabulaciones para:
 Variables cuantitativas (numéricas) el resultado de la tabulación recibe el nombre de tabla de correlación.
 Variables cualitativas (categóricas) el resultado de la tabulación recibe el nombre de tabla de contingencia.

Tablas de correlación: Partimos de una población estadística en la que se estudian simultáneamente dos variables o
características cuantitativas que nos definen una variable estadística bidimensional. Llamando X e Y a las variables
consideradas, podemos construir la llamada tabla de correlación. Los datos en que se presenta la variable X i, los
denotamos Xi (i = 1, 2, ... r). Los datos en que se presenta la variable Y, los denotamos yj ( j = 1,2. .... c), sea nij la
frecuencia absoluta con que se presenta el par simultáneo (Xi ,Yj ), la distribución conjunta o bidimensional se dá en
esta tabla:
Tabla de Correlación
Así el número de unidades en la población es n.. = N, y las X Y
y1 y2 ... yj . . . yc ni.
frecuencias marginales son ni. por fila y n.j por columna, con x1 n11 n12 ... n1j . . . n1c n1.
estas se construyen la última fila y la última columna de la tabla x2 n21 n22 ... n2j . . . n2c n2.
de correlación; una variable al margen de la otra. El número de ... … … … … …
filas es r y el número de columnas es c. Las frecuencias totales y .xt ni1 ni2 ... nij . . . nic ni.
marginales son: ... … … … … …
xr nr1 nr2 ... nrj . . . nrc nr.
n.j n.1 n.2 . . . n.j . . . n.c N

Puede construirse una Tabla de distribución de Frecuencias Relativas, al dividir cada frecuencia absoluta por el total
de observaciones N: fij = nij/N. Es inmediato comprobar que la suma de todas las frecuencias relativas es la unidad.
Las frecuencias marginales relativas serán: fi. = ni. /N ; f.j = n.j /N ⇒ Σ fij = 1.
Las tablas de correlación se construyen cuando el número de observaciones es elevado y existe también un elevado
número de pares de valores (Xi , Yj ) en los que i = j ó i ≠ j. También por conveniencia, para hacer la distribución más
manejable, se puede agrupar los valores de las variables en intervalos de clases con lo que los respectivos (Xi , Yj )
que serían las correspondientes marcas de clase.

Tabla de correlación de la economía familiar.


Ingreso (miles C$ Nº de miembros que aportan ( yj )
Ejemplo 1: Se ha efectuado una encuesta a 100 )
familias preguntándoles sus ingresos mensuales (X), Li-1 – Li Xi 1 2 3 ni.
10 – 15 12.5 15 2 1 18
15 – 20 17.5 10 20 2 32 2
20 – 30 25.0 12 30 4 46
30 – 50 40.0 1 2 1 4
n.j 38 54 8 100
UNIVERSIDAD NACIONAL AUTÓNOMA DE NICARAGUA
“A la Libertad por la Universidad”
VICERRECTORÌA ACADÈMICA
y el número de miembros que los aportan a la familia (Y). Los ingresos se han expresado en miles de córdobas y se
han agrupado en cuatro intervalos de clases con lo que Xi son las respectivas marcas de clases (r=4 filas, c=3
columnas). La moda conjunta es (X=25, Y=2) con frecuencia n3,2 = 30.

Se observa que de las 100 familias sólo hay 15 en las que el dinero lo aporta una sola persona y sus ingresos están
comprendidos entre 10000 y 15000 córdobas; 30 familias en las que los ingresos los aportan dos personas,
comprendidos estos, entre 20000 y 30000 córdobas, y así se interpretan en lo sucesivo las frecuencias absolutas
conjuntas nij. Las frecuencias marginales ni. y n.j nos señalan el número de veces que se repiten los valores de X y Y
por separado sin que se establezca entre ellas ninguna relación conjunta. Así de las 100 familias 38 tienen un sólo
miembro que ingresa dinero al núcleo familiar; 54 con dos miembros y 8 familias con tres miembros que aportan. Al
observar los niveles de ingresos representados por Xi vemos que 18 familias están en el nivel de ingresos más bajo,
32 en el segundo nivel, 46 en el tercer nivel y sólo 4 familias pertenecen al nivel de mayores ingresos. ¿Qué
porcentaje de familias tiene ingreso entre 15 y 30 mil córdobas mensualmente?
Tabla de correlación de frecuencias relativas
A partir de la Tabla anterior obtener la tabla de correlación de
Ingreso Miembros que aportan ( yj )
frecuencias relativas. Resulta simple la división de cada
Xi 1 2 3 fi.
frecuencia conjunta absoluta por el total de familias N=100, y
12500 0.15 0.02 0.01 0.18
los valores de frecuencias solo cambian de dimensión.
17500 0.10 0.20 0.02 0.32
Comprobar que la suma de todas las frecuencias relativas es la
25000 0.12 0.30 0.04 0.46
unidad. Se sondea que solo el 8% de las familias tienen hasta
40000 0.01 0.02 0.01 0.04
tres miembros aportando, mientras que el 92% de las familias
no más de dos miembros aportando. f .j 0.38 0.54 0.08 1

Tabla de correlación simple: Cuando existen pocas observaciones y las frecuencias son unitarias no tiene sentido
construir una tabla de correlación ya que muchas de las celdas de las frecuencias xi x1 x2 … xi … xr
absolutas serían cero. En este caso, la distribución bidimensional es simplemente yi y1 y2 … yi … yr
dos columnas o dos filas a como se muestra en la tablita derecha.

Así, por ejemplo el valor de la producción anual (xi) expresado en xi 1,500 2,500 5,000 10,000 15,000
millones de córdobas y el número de trabajadores (yj) de cinco yi 350 500 800 1,500 1,700
empresas del sector de la construcción, se tabula de la forma siguiente
en la tabla derecha:

Aunque las frecuencias conjuntas no sean unitarias, si el número de pares de xi x1 x2 … xi … xr


valores de la variable bidimensional es reducido, tampoco es necesario construir yi y1 y2 … yi … yr
una tabla de correlación; es suficiente una tabulación a tres filas de esta forma. ni n 1 n2 … ni … nr

Distribuciones marginales de frecuencias


Definición: Dada una distribución bidimensional de las variables (X, Y), llamamos distribuciones marginales de dichas
variables a los conjuntos: (xi , ni.) i = 1, 2,… r distribución marginal de X ; (yi , n.j ) j = 1, 2,… s distribución marginal de Y.
Luego las marginales de una distribución bidimensional es el estudio unidimensional de cada componente, independiente del
otro.

Expresadas ambas en formato de filas, la distribución marginal de frecuencias para cada variable sería:
xi x1 x2 … xi … xr Total yi y1 y2 … yj … yc Total
ni. n1. n2. … ni. … nr. N n.j n.1 n.2 … n.j … n.c N
De estas distribuciones marginales, como en esencia son distribuciones unidimensionales ya que expresan el estudio
de cada variable con independencia de la otra, pueden obtenerse todas las medidas de posición, dispersión, etc. que
3
UNIVERSIDAD NACIONAL AUTÓNOMA DE NICARAGUA
“A la Libertad por la Universidad”
VICERRECTORÌA ACADÈMICA
se han estudiado en la unidad previa de las variables unidimensionales (medias marginales, varianzas marginales,
etc.).

Ejemplo 2: De la tabla de correlación de la economía familiar, obtener la distribución de frecuencias marginal de


cada variable, la moda del número de aportantes (Y) y, la moda y la media aritmética del ingreso mensual en miles
(X).
Solución: Debemos extraer las distribuciones marginales de frecuencia asociada a cada variable:
xi 12.5 17.5 25.0 40.0 Total yi 1 2 3 Total
ni. 18 32 46 4 100 n.j 38 54 08 100
Moda de Y: M0 = 2 miembros aportantes. Moda de X: MoX = 25000 córdobas.
Media aritmética de X: = 1/N*Σxi*ni. = 1/100*[12.5*18+17.5*32+25.0*46+40.0*4] = 2095/100 = C$ 20,950.

Distribuciones condicionadas de frecuencias


Definición: Dada una variable estadística bidimensional (X.Y), llamamos variable X condicionada a que Y = y J, y
denotaremos (X\Y = yJ) a la variable estadística que toma los valores x i con frecuencia absoluta nij: (X/Y=yj) = {(xi ,nij) ;
i = 1. 2. ..., r} para cualquier j = 1, 2, .... s. La frecuencia total de (X \ Y=yj ) es nj. Análogamente se define la variable
estadística Condicionada a que X = x I, denotándola (Y/ X = xi) = {(yj,nij) : j = 1, 2, ..., c; para cualquier i = 1,2,... r. La
frecuencia total de (Y/X = xi) es ni. Las frecuencias relativas condicionadas de las variables (X/ Y= yj) y (Y/X = xi) serán
respectivamente: fi/j y fj/i, todas explicitadas a continuación, tanto absolutas como relativas.

Puede observarse que pueden definirse tantas distribuciones de frecuencias condicionadas como valores tienen las
variables X e Y ya que cada una queda determinada por la fila o la columna del correspondiente valor que
condiciona. Las distribuciones condicionadas también son unidimensionales y por tanto puede obtenerse todas las
medidas de posición y dispersión de las mismas.

Ejemplo 3: De la tabla de correlación de economía familiar, obtener: a) La distribución de Y=yj/X=175 n2j


Y condicionada a que X = 175. b) Obtener la moda, media aritmética, la desviación típica, 1 10
y el coeficiente de variación de dicha distribución. 2 20
a. El valor que condiciona X = 175 nos define la segunda fila de frecuencias absolutas 3 2
conjuntas nij que son las que formarán la distribución junto con los valores de la variable n2.=32
Y. Luego la distribución pedida es una unidimensional formada por estas columnas a la
derecha.
b. La distribución obtenida anteriormente se manipula como una unidimensional para obtener las distintas medidas
de posición y dispersión: Mo(Y/X = 175) = 2 (por tener la mayor frecuencia). Lo que nos indica que lo más frecuente son
dos miembros por familia los que aportan ingresos dentro del segundo intervalo 150-200 mil córdobas. Ahora la
media aritmética de Y condicionada a X=175, es /x=175 = 1/32*[1*10 + 2*20 + 3*2] = 56/32 = 1.75. Son
aproximadamente 2 miembros por familia los que aportan ingresos dentro del intervalo comprendido entre 15000 y
20000 Córdobas. Recordemos que cuando la variable es de tipo discreto, como en este caso (Y son individuos) no
tienen sentido los decimales dando el resultado por exceso o defecto en números enteros. Ahora la varianza
condicionada es:

El coeficiente de variación de Pearson será:

4
UNIVERSIDAD NACIONAL AUTÓNOMA DE NICARAGUA
“A la Libertad por la Universidad”
VICERRECTORÌA ACADÈMICA
Este coeficiente nos indica, expresado en tantos por 100, que la desviación típica supone un 32% de la media
aritmética con lo que podemos admitir como promedio que nos representa al conjunto de la distribución. Hasta un
50% de participación de la dispersión en el promedio se considera como aceptable la representatividad.

Independencia estadística: Dos variables estadísticas X e Y son independientes entre sí cuando la variación de una
de ellas no influye en la distribución de la otra condicionada por el valor que tome la primera. Por el contrario
existirá dependencia cuando los valores de una condicionan la distribución de los valores de la otra.
Definición: Dadas las variables estadísticas X e Y, la condición necesaria y suficiente para que sean independientes

es:

Una propiedad de interés es que si X e Y son independientes, entonces la covarianza entre ellas es nula. Sin
embargo, que Cov(X,Y) = 0, no implica que X y Y sean independientes.

Ejemplo 4: La tabla de correlación presentada en el Ejemplo 1, probar si las variables X e Y son dependientes,
veamos:

La independencia estadística entre X y Y. exige que para todo i=1,2,3,4 y todo j=1,2,3; se verifique n ij/N =
(ni./N)*(n.j/N). Como esto no se da para algún par (i, j), concretamente para i = 2 y j = 1, concluimos que X y Y son
dependientes.

Evaluación del aprendizaje: Realizar en parejas el ejercicio ToothGrowth (40 minutos): El efecto de la vitamina C
sobre el crecimiento de diente en 60 conejillos de indias, se fijó la dosis de vitamina C en tres niveles [0.5, 1.0, 2.0]
miligramos por día, de dos fuentes distintas (jugo de naranja, ácido ascórbico), y se mide al final del experimento la
longitud de los odontoblastos (células responsables del crecimiento del diente), suponga estos en micras de
milímetros. A continuación se presenta el conjunto de datos y se genera el diagrama de cajas comparativo por
fuente de vitamina C.
Dosi Longitud según fuente = Vitamina C Dosis Longitud según fuente = Jugo de Naranja
s
0.5 04.2 11.5 07.3 05.8 06.4 10.0 11.2 11.2 05.2 07.0 0.5 15.2 21.5 17.6 09.7 14.5 10.0 08.2 09.4 16.5
09.7
1.0 16.5 16.5 15.2 17.3 22.5 17.3 13.6 14.5 18.8 15.5 1.0 19.7 23.3 23.6 26.4 20.0 25.2 25.8 21.2 14.5
27.3
2.0 23.6 18.5 33.9 25.5 26.4 32.5 26.7 21.5 23.3 29.5 2.0 25.5 26.4 22.4 24.5 24.8 30.9 26.4 27.3 29.4
23.0

5
UNIVERSIDAD NACIONAL AUTÓNOMA DE NICARAGUA
“A la Libertad por la Universidad”
VICERRECTORÌA ACADÈMICA
Crecimiento de Dientes, Guinea Pigs'

30
Longitud diente

20
5 10

AcidoAscorbico
JugoNaranja
0

0.5 0.5 1 1 2 2

Vitamina C dosis en mg.


a. ¿Cuáles son las variables numéricas, y su unidad de medida? ¿Cuál es la variable X y cuál la variable Y?
b. ¿Cómo se da la correlación entre las variables numéricas? Positiva, Negativa, Ninguna. ¿por qué?
c. Agregar cuadrículas al gráfico y aproxime longitudes medianas por fuente y por cada nivel de la otra
variable. ¿Cuál es la fuente que logra mayor longitud mediana en la dosis de 1 mg. de vitamina C?
d. Del conjunto de datos, calcular los seis promedios de las posibles interacciones dosis por fuente.
e. Construir y analizar un diagrama de tallo y hojas comparativo por fuente para la dosis de 1.0 mg.

c. Actividades Finales:
 Resumir lo expuesto durante la clase y presentación de los ejercicios resueltos por cada
grupo.
d. Orientación del Trabajo independiente:
 Realizar ejercicio el cual los estudiantes puedan construir e interpretar tablas correlación.

V. MEDIOS O RECURSOS DIDÁCTICOS NECESARIOS: Pizarra. Marcador. Data show. Una portátil.

VI. EVALUACIÓN DE LOS APRENDIZAJES (Criterios y Evidencias):

 Identificar las diferentes fórmulas a usar en distribuciones marginales y condicionadas y

calcular en la tabla de correlación las estadísticas descriptivas en estas

 Práctica ejercicios en la pizarra.

 Realización de ejercicios individuales orientados en clases.

 Asistencia y participación

VII. CONCLUSIONES:
6
UNIVERSIDAD NACIONAL AUTÓNOMA DE NICARAGUA
“A la Libertad por la Universidad”
VICERRECTORÌA ACADÈMICA
 Indagar la importancia de las construcción e interpretación de tablas de correlación

VIII. RECOMENDACIONES:

Recordar a los estudiantes realizar ejercicios propuestos en la bibliografía para reforzar lo

aprendido.

IX. BIBLIOGRAFIA:

 Estadística. Richard C. Weimer.

 Casas Sánchez José M, Santos Peñas Julián (2002). Introducción a la Estadística para

Economía. Segunda Edición. Editorial Centro de Estudios Ramón Areces, S.A. Madrid, España.

También podría gustarte