Está en la página 1de 14

1

ESTADISTICA DESCRIPTIVA
HA/LR

La estadística descriptiva es un procedimiento estadístico en el cual podemos recolectar,


organizar, resumir, analizar y presentar datos relativos a un conjunto de observaciones y
que nos permiten extraer conclusiones válidas y efectuar decisiones basadas en dichos
análisis. Los pasos en el diseño de tratamiento de datos consideran:
La definición de objetivos y población de estudio, búsqueda de la información disponible
(listado de condiciones y medios), elaboración de instrumentos de medición, definir las
variables y el diseño de muestreo, recolección de los datos, procesamiento estadístico de los
datos: tablas, gráficos, medidas estadísticas, e interpretación de los resultados y redacción
del informe del estudio.
El objetivo de la estadística descriptiva en una variable es analizar y sintetizar la
información contenida en los datos estadísticos mediante:
Tablas (distribuciones de frecuencias absolutas y relativas)
Gráficos (de Barra, de sectores circulares, Histograma, Box plot,...)
Resúmenes numéricos (índices de posición y de dispersión).

Conceptos básicos asociados son los siguientes:


Población: Conjuntos de individuos o elementos que cumplen ciertas propiedades
comunes.
Censo: Colección de datos de cada uno de los miembros de la población.
Muestra: Subconjunto representativo de la población.
Parámetro: Medición numérica que describe algunas características de una población.
Estadístico: Medición numérica que describe algunas características de una muestra.
Unidad Observable: Cualquier elemento que podamos extraerle información.
Variable: Característica o propiedad asociada a una unidad observable de la población.

Tipos de Variables
Variables Cualitativas o Categóricas: Son las que presentan una característica observada de
un atributo o cualidad, y tienen por valores cantidades no numéricas. Se clasifican en
ordinal (el orden de las categorías es importante, ej: nivel de estudios, rendimiento
académico,..) y nominal (los nombre o etiquetas de la categoría no denota jerarquía, ej:
color de ojos, religión,..). Para variables cualitativas se pueden elaborar tablas de
distribución de frecuencias en categorías con frecuencias absolutas y relativas, añadiendo
gráficos de barras y circular.

Variables Cuantitativas: Son las que tienen por valores cantidades numéricas a cada
característica de una unidad de observación. Se clasifican en discretas (si los valores es un
conjunto finito o infinito numerable, ej: número de fallas de una máquina, cantidad de sillas
en el aula,.. ) y continuas (los valores que la componen es un subconjunto de la recta real,
ej: tiempo de vida de una ampolleta, largo de una mesa,..). Para variables cuantitativas se
pueden elaborar tablas de distribución de frecuencias para datos agrupados en intervalos de
clase; complementadas con representaciones gráficas de histograma, box plot, polígono de
frecuencias, entre otros, y la utilización de las medidas de tendencia central, de posición y
de dispersión.
2

Escala de Medición: Son cuatro los niveles de medición: nominal, ordinal, de intervalo y
de razón. El nivel de medición de intervalo se parece al nivel ordinal, pero con la propiedad
adicional de que la diferencia entre los valores de datos cualesquiera tiene un significado y
las razones no tienen un significado. Sin embargo, los datos en este nivel no tienen un
punto de partida inherente (natural) desde cero (donde nada de la cantidad está presente).
El nivel de medición de razón tiene las mismas propiedades de las escalas de intervalos,
pero las razones, diferencias si tienen sentido. Tiene un punto de partida o cero inherente
(donde cero indica que nada de la cantidad está presente)

Distribución de frecuencias
Una vez definida la variable de interés es necesario clasificar y ordenar los elementos de la
población. Así, una distribución de frecuencias lista valores de datos u observaciones, ya
sea de manera individual o por grupos de intervalos, junto con sus frecuencias
correspondientes.
Primero a cada valor de la variable se le identifica por xi siendo el i-ésimo resultado
perteneciendo a una clase. Los resultados agrupados en cada una de estas clases se
resumen en una tabla de frecuencias, la cual contiene la siguiente información:

ni : Frecuencia absoluta de la clase i (número de elementos de cada clase).


fi : Frecuencia relativa (cuociente entre frec. absoluta y N total de la población)
Ni : Frecuencia acumulada (suma de las frec. absolutas de la clase i y las anteriores)
Fi : Frecuencia acumulada relativa (cuociente entre N i y N ).

n n
ni
Se cumple que la ∑ ni = N ; fi =
i =1 N
; ∑f
i =1
i =1

Debe tener presente en las variables Cuantitativas que si el número de datos poblacionales
distintos entre sí es grande podemos obtener un gran número de clases con frecuencia
absoluta igual a 1 que estadísticamente no resulta relevante; en tal situación podemos
agrupar las clases en intervalos. Se recomienda entre 5 y 20 intervalos de clase o utilizar la
regla de Sturge. Los elementos que conforman la elaboración de la distribución de
frecuencias por intervalos son los siguientes:

RX : Recorrido de la variable X (diferencia entre el mayor y la menor observación)


Clases : Son subintervalos, generalmente de igual longitud, del conjunto de datos.
Límites: Inferior y superior de un intervalo i son los extremos del intervalo.
ai : Amplitud del intervalo i (longitud del intervalo i).
Si los k intervalos de clase tienen la misma longitud entonces ai = R X k
Con k= 1 + 3.3 log N ( Regla de Sturge).
Como criterio para facilitar la interpretación, la amplitud debe presentarse con la misma
cantidad de decimales que los datos originales, por tanto ésta debe aproximarse hacia arriba
de acuerdo a la naturaleza de los datos.
3

mi : Marca de clase del intervalo i (punto medio del intervalo i), en cálculos
estadísticos es considerada como el valor más representativo de las clases.
Fronteras: Es el punto medio entre el límite superior de la clase de un intervalo y el límite
inferior del intervalo siguiente.

Ejemplo 1: Tabulación de 40 datos de valores distintos


Variable: Contenidos de
nicotina, en miligramos, de
cigarrillos de la marca pucho

Tipo: var. cuantitativa continua

Pasos para construir una Fórmulas:


distribución de frecuencias en
intervalos de clase: R = X máx. - X mín. = 2.55 – 0.72 = 1.83
Recorrido de la variable
K = 1 + 3.3 * log N.
Número K de clases : Como N = 40, entonces K = 1 + 3.3* log 40 = 6.286 ≈
(entre 5 y 20) . 6.3 clases. Así, deberíamos tener 6 ó 7 clases.
Regla de Sturge
R 1.83
Amplitud A del intervalo A= = = 0.305 ≈ 0.31
K 6
Elegir el extremo inferior de la
Dado que el valor mínimo es 0.72, el extremo debe ser
primera clase
0.72 o menos; se considerará 0.72.
Establecer la frontera inferior
Recordando que la frontera se expresan con una cifra
de la primera clase
decimal más, se considerará 0.715.
La frontera superior de la
FS = FI + A = 0.715 + 0.31 = 1.025
primera clase se obtiene
En consecuencia, el límite aparente superior del primer
sumando la amplitud de la
intervalo de clase es 1.02.
clase 0.31, a la frontera inferior

Tabla de Distribución de Frecuencias


Límite Fronteras ni fi mi N i Fi ni ⋅ mi n i ⋅ mi2
0.72 – 1.02 0.715 – 1.025 2 0.05 0.87 2 0.05 1.74 1.5138
1.03 – 1.33 1.025 – 1.335 2 0.05 1.18 4 0.10 2.36 2.7848
1.34 – 1.64 1.335 – 1.645 8 0.20 1.49 12 0.30 11.92 17.7608
1.65 – 1.95 1.645 – 1.955 17 0.425 1.80 29 0.725 30.6 55.08
1.96 – 2.26 1.955 – 2.265 6 0.15 2.11 35 0.875 12.66 26.7126
2.27 – 2.57 2.265 – 2.575 5 0.125 2.42 40 1 12.1 29.282
N = 40 1 71.38 133.134
4

En resumen, para construir tablas de distribución de frecuencias para variables continuas


debemos seguir los siguientes pasos:
1. Identificar la variable de estudio y la unidad de observación.
2. Determinar el números de clases ( K)
3. Obtener la amplitud (A)
4. Escribir los intervalos de clases comenzando por el valor mínimo.
5. Contar cuantas observaciones pertenecen en cada clase ( ni )

Ejercicio 1: Un Ingeniero Civil visita 15 condominios en una ciudad y en cada una registró
el número de casas que han sufrido daños ocasionados por un aluvión el invierno recién
pasado. Se obtuvo la siguiente información:

15 15 18 16 17 18 18 18
17 19 16 17 17 16 19

a) Defina la unidad de observación, la variable de estudio y su clasificación.


b) Elabore una tabla de distribución de frecuencias adecuada a este conjunto de datos.
c) ¿Cuántos condominios tienen a lo más 16 casas que han sufrido daños?
d) ¿Qué proporción de condominios tienen por lo menos 17 casas con daños?
e) ¿Qué proporción de condominios tienen 18 casas que han sufrido daños?
f) Obtenga un gráfico adecuado para sus datos e intérprete.

Representaciones gráficas de las distribuciones de frecuencias

La representación gráfica permite visualizar el comportamiento de un conjunto de datos,


como también conocer características especiales de la distribución a la cual pertenecen. La
utilización adecuada de un gráfico, al igual que la distribución de frecuencias, depende del
tipo de variable. En los siguientes capítulos mostraremos la utilidad de los gráficos para la
obtención de un modelo probabilístico al cual se pueden ajustar los datos.

Gráfico de Barra 25
Es usado en observaciones cualitativas o 20
N°alumnos

cuantitativas discretas. Sobre cada clase se 15


levanta una barra de altura igual a la 10
frecuencia de la clase. 5
Eje horizontal: se representan las clases 0
Eje vertical: las frecuencias absolutas 51 52 53 54
ni (ó f i ) Unidad Académ ica
5

Histograma
Se utiliza en variables cuantitativas cuyas 8
1a5
observaciones han sido divididas en intervalos 6 5 a 15
de clases. Consiste en un conjunto de
4 15 a 33
rectángulos cada uno de los cuales representa
33 a 50
un intervalo de agrupación o clase. Sus bases 2
50 a 60
son iguales a la amplitud del intervalo y la 0 60 a 72
altura se determinan de manera que su área EDAD
sea proporcional a la frecuencia de cada clase.
Eje horizontal: intervalo de frontera FI-FS
Eje vertical: frecuencias absolutas
Polígono de Frecuencias
25
El tipo de representación es un gráfico de
línea. Se construye uniendo con segmentos de 20

N° alumnos
recta los puntos medios (marca de clase) de 15
los intervalos adyacentes. Se utiliza para 10
determinar la forma que sigue la distribución
5
de frecuencias de las observaciones con el
propósito de ajustarle alguna función 0
probabilística determinada. 1 3 4
Notas 6 7

Eje horizontal: marcas de clases mi


Eje vertical: frecuencias absolutas
Ojiva
Es un polígono de frecuencias acumulativas, 30
25
N°personas

comienza en cero y termina en 100%. Es un 20


polígono que parte de la frontera inferior del 15
primer intervalo de clase y en cada frontera 10
5
superior va indicando su frecuencia 0
acumulada. 1 5 15 33 50 60
Eje horizontal: intervalo de frontera FI-FS Edades
Eje vertical: frec. acumuladas N i (ó Fi )
Gráfico Circular N° alum nos por U. A.
Permite representar las frecuencias absolutas
51 52
o frecuencias relativas porcentuales en un
3% 5%
círculo. Se debe determinar la cantidad de
grados del círculo correspondiente a cada
frecuencia absoluta mediante la proporción 54 53
360° ⋅ ni
X° = 54% 38%
N

Gráfico de Tallo y Hoja


Es un procedimiento semi-gráfico para Edades de un grupo de 31 personas
variables cuantitativas. Los dígitos se separan
en dos partes, el Tallo que corresponde a un
cierto número de dígitos de una clase
contados de izquierda a derecha, y la Hoja que
6

define la frecuencia absoluta de la clase y Tallo Hoja


corresponde al siguiente dígito desechando los 0 45
1 0013
restantes, si existen. La representación de los 2 257799
datos se realiza usando una columna para los 3 011146899
tallos, ordenados en forma ascendente y sin 5 11367
repetir y otra para las correspondientes hojas. 6 006
7 11
Gráfico Box Plot
Un gráfico de cajas con patillas muestra las 7,5
Box & Whisker Plot

posiciones relativas de los cuartiles, porción


central y valores extremos de una distribución 6,5

de frecuencias. Esta gráfica encierra el rango 5,5

intercuartil q3 − q1 de los datos en una caja


4,5

que tiene la mediana dibujada dentro.


Además, podemos identificar el tipo de 3,5

asimetría de una distribución de frecuencias. 2,5


Max = 6,500000
Min = 2,000000

Será simétrica si la posición de la mediana se 75% = 5,000000


25% = 3,500000
Median value:
encuentra en la mitad de la caja y las antenas 1,5
NOTAS Med = 4,750000

tienen la misma distribución.

Medidas Estadísticas

En una distribución descriptiva de una población o muestra, es necesario recurrir a ciertos


valores numéricos que permiten cuantificar ciertas características de la distribución. Estas
son llamadas “Medidas estadísticas o Estadígrafos”, y dentro de las más comunes se
encuentran las medidas de posición o de tendencia central.

Medidas de Tendencia Central


Permite determinar un valor característico de una distribución de frecuencias ubicado hacia
el centro de la distribución. Estas medidas son las siguientes:

Media Aritmética : es un promedio, se denota por : x , y se calcula según la forma de la


distribución de frecuencia.
N
∑ xi
i =1
i) Para N datos Individuales x1 , x2 ,....., x N se tiene x =
N
ii) Para datos agrupados en k clases individuales con frecuencias absolutas respectivas
k
∑ xi ⋅ ni
i =1
n1 , n2 ,....., nk , entonces x= N
7

iii) Para datos agrupados en intervalos de clase: Sea m1 , m2 ,....., mk las marcas de clase y
n1 , n2 ,....., nk las frecuencias absolutas de una distribución de frecuencias, entonces
k
∑ mi ⋅ ni
i =1
x= N

Propiedades de la Media Aritmética


i) A la diferencia xi - x se le llama “desviación” del i-ésimo dato con respecto de la
N
media aritmética. Se cumple que: ∑ (x
i =1
i − x) = 0.
ii) Si cada valor xi se multiplica por una constante c y se calcula la media aritmética de
estos nuevos valores el resultado es igual al producto de la constante por la media
aritmética de los datos originales, es decir, cx = c x .
iii) Si cada valor xi se le suma o resta una constante c y se calcula la media aritmética de
estos nuevos valores el resultado es igual al promedio original más o menos la constante c,
es decir, x ± c = x ± c.

La Mediana: La media aritmética no resulta ser adecuado cuando existe una concentración
de valores en algunos de los extremos. En este caso es preferible utilizar la mediana como
estadígrafo de posición, este valor divide a la distribución de frecuencia en dos partes
iguales cada una conteniendo el 50% de los datos. Se denota por Me.
Geométricamente la mediana es el valor de X (abscisa) que corresponde a la recta vertical
que divide un histograma en dos partes de áreas similares.

i) Para datos individuales los datos son ordenados en forma creciente o decreciente.
Si el número de datos N es impar, la mediana corresponde al valor que ocupa el centro de la
ordenación. Si el número de datos N es par, la mediana corresponde a la media aritmética
de los dos valores que ocupan el centro de la ordenación. Es decir, la mediana de un
conjunto de números ordenados en magnitud X (1) ≤ X (2 ) ≤ ...... ≤ X ( N ) es o el valor central
 X (N +1) si N es impar

 2

 2
( )
Me =  X N + X  N 
 +1
 2 
 si N es par
 2

ii) Para datos en intervalos de clases: Primero se debe identificar el intervalo donde se
encuentra y enseguida aproximar el valor de la mediana a este intervalo llamado “Intervalo
Mediano” cuya frecuencia acumulada supere o sea igual al cuociente N/2. La mediana se
obtiene después de la siguiente expresión.
N 
 − N i −1 
Me = FI i +  2 ⋅ A
 ni 
 
 
FI i Frontera inferior del intervalo mediano
8

N i −1 Frecuencia absoluta acumulada de la clase anterior al intervalo mediano


ni Frecuencia absoluta del intervalo mediano
A Amplitud del intervalo

La Moda: Para datos aislados, la moda es el valor (o valores) que tiene la mayor
frecuencia relativa en una muestra extraída de cierta población. Se utiliza cuando la
distribución de frecuencias presenta una alta inestabilidad; existen agrupaciones de datos en
ciertas clases. Se define como el valor más común o más frecuente de todo el conjunto de
datos. Es posible que una población tenga dos o más modas. En esos casos se suelen llamar
distribuciones bimodales o multimodales.
 ni +1 
Para datos agrupados en intervalos de clases: Mo = FI i + 
n +n
⋅ A

 i −1 i +1 

ni −1 : Frecuencia absoluta de la clase anterior al intervalo modal.


ni +1 : Frecuencia absoluta de la clase posterior al intervalo modal.

Las medidas de tendencia central nos proporcionan una idea de la forma de la distribución.
Una distribución de datos está sesgada si no es simétrica y se extiende más hacia un lado
que hacia el otro. Una distribución de datos es simétrica si la mitad izquierda de su
histograma es aproximadamente una imagen en espejo de su mitad derecha.
a) Sesgada a la izquierda (sesgo negativo): La media y la mediana están a la izquierda de la
moda.
b) Simétrica (sesgo cero): La media, la moda y la mediana son iguales.
c) Sesgada a la derecha (sesgo positivo): La media y la Me están a la derecha de la Mo.

Medidas de Dispersión
La media aritmética es la más representativa como medida de tendencia central en
distribuciones simétrica, sin embargo no es suficiente si queremos comparar dos
distribuciones. Las medidas estadísticas de variabilidad cuantifican la dispersión de los
datos en torno al centro de los datos. Mide cuán esparcidos se encuentran éstos o qué tan
heterogéneos son. Las más usuales son: el recorrido, el rango intercuartílico, la varianza,
desviación estándar y el coeficiente de variación.

Varianza: es la de mayor utilidad en aplicaciones estadísticas y se define según la


agrupación de los datos.
V ( X ) = ∑ (x i − x ) / N
2
i) Para datos individuales:

V ( X ) = ∑ (xi − x ) ⋅ ni / N
2
ii) Para datos agrupados en clases individuales:
K
∑ mi 2 ⋅ ni
V ( X ) = ∑ (mi − x ) ⋅ ni / N = i =1
2
2
iii) Para datos en intervalos de clases: −X
N

Desviación estándar: se define como la raíz cuadrada positiva de la varianza (desviación


promedio de los datos originales con respecto a su media aritmética).
9

Si la distribución de frecuencias tiene forma de campana, o aproximadamente esta forma, se cumple


la siguiente propiedad de la desviación estándar y la media aritmética:
* x ±σ contiene aproximadamente el 68% de las observaciones.
* x ± 2σ “ el 95% “
* x ± 3σ “ el 100% “

Coeficiente de Variación: entrega el grado o % de variabilidad de los datos y se utiliza


para comparar dos distribuciones en que pueden tener distinta unidad de medida.
σ
C.V . = • 100%
x
Regla empírica, si el C.V. ≤ 35% el conjunto es homogéneo, en caso contrario se dice
heterogéneo.

Coeficiente de Sesgo: Se entiende por “sesgo” el grado de asimetría o falta de simetría de


una distribución de frecuencias.
Si el coef. sesgo es + entonces el sesgo de la distribución es positivo.
Si el coef. sesgo es - entonces el sesgo de la distribución es negativo.
Si el coef. sesgo es cero, entonces la distribución es simétrica.
∑ [X i − X ] 3
N

Para datos individuales, el coeficiente de sesgo i =1


Nσ 3
; donde σ 3 = [ V (X ) ] 3

k
∑ (mi − X )
3
ni
Para datos agrupados, el coeficiente de sesgo i =1
Nσ 3

Curtosis: Mide el grado de apuntamiento de una distribución de frecuencias en relación a


una distribución simétrica. Para una distribución simétrica se cumple que el coeficiente de
curtosis es igual a 3. Luego K = Coeficiente de curtosis – 3. Se pueden presentar los
siguientes casos:
Si K > 0, entonces la distribución es leptocúrtica ( tiene un pico alto)
Si K < 0, entonces la distribución es platicúrtica (está aplastada)
Si K = 0, entonces la distribución es mesocúrtica (tiene distribución de campana).

∑ [X i − X ] 4
N

Para datos individuales, el Coeficiente de curtosis es i =1


4
; donde σ 4 = [V ( X )]2

k
∑ (mi − X )
4
ni
Para datos agrupados, el Coeficiente de curtosis es i =1
Nσ 4

Medidas de Posición relativa

Cuantiles: Particionan el área bajo el polígono de frecuencias en más de dos partes, siendo
los usuales en cuatro, diez y cien partes.

Cuartiles: divide la distribución de frecuencias en 4 partes,


10

Qi : es el punto tal que el 25 i % de las observaciones son ≤ a este valor. i = 1,2, 3.

Deciles: divide la distribución de frecuencias en 10 partes iguales,


Di : es el punto tal que el 10 i % de las observaciones es ≤ a este valor. i = 1 a 9

Percentiles: divide la distribución de frecuencias en 100 partes iguales, donde:


Pi : Es el punto tal que el i % de las observaciones es ≤ a este valor. i = 1 a 99.

Observe que: Q1 = P25 ; Q2 = Me = P50 = D5 ; Q3 = P75

Procedimiento para determinar el valor del k-ésimo percentil (datos no agrupados):


1) Ordenar los N datos en forma ascendente
2) Calcular i = N ⋅ k pregunte si es entero o no. Si es entero obtenga la posición i del
100
N ⋅k X (i ) + X (i + 1)
percentil mediante i = y luego obtenga Pk de acuerdo a Pk = .
100 2
N ⋅k
Si no es entero obtenga la posición i como el entero siguiente al número y obtenga Pk
100
como Pk = X (i ) , es el k-ésimo percentil. Para datos agrupados el cuantil es

 x % N − N i −1 
C = FI i + 

⋅ A

 ni 

Ejercicio 2: Del ejemplo 1, si se utiliza la tabla de frecuencias anterior compruebe los


siguientes resultados:
X = 1.7845 σ 2 = 0.1439 Me = 1.79088
Mo = 1.7779 Q1 = 1.5675 Q3 = 2.0067
CV = 21.25%, la dispersión es pequeña σ = 0.3794 se puede afirmar que el conjunto de
datos originales es homogéneo.
Coeficiente de sesgo = -0.3138 < 0, la distribución presenta un leve sesgo negativo.
Coeficiente de curtosis = 3.1478 K = 0.147855 > 0, la distribución es leptocúrtica.
El intervalo [1.0257, 2.5433] contiene el 95% de las observaciones.
Interprete estos resultados y dibuje gráficos adecuados.

ESTADISTICA DESCRIPTIVA BIVARIADA

El propósito es estudiar el comportamiento de dos variables en forma simultánea, por


ejemplo el estudio del rendimiento de una reacción química y la temperatura a la cual tiene
lugar. El análisis estadístico consiste en describir su comportamiento como también poder
ajustarle alguna función matemática, si se prueba estadísticamente que existe algún grado
de dependencia entre las variables.

Supongamos que existen N pares de la forma ( xi , y i ). Además, consideremos r clases


(o intervalos) X i de la variable X y s clases (o intervalos) Y j de la variable Y.
11

Denotemos por nij al número de observaciones (o frec. absoluta) que pertenecen a la clase:
X i - Y j y su frecuencia relativa se define por f ij = nij / N
r s r s
Se cumple que ∑∑n i j =N ; ∑∑ f i j =1 donde,
i j i j

nij es la frecuencia absoluta para los individuos que representan la modalidad conjunta xi
de X e yj de Y.
fij es la frecuencia relativa para los individuos que representan la modalidad conjunta xi de
X e yj de Y.
Las frecuencias absolutas (o relativas) se resumen en una tabla de frecuencias
bidimensional llamada también “Tabla de Contingencia” o tabla de doble entrada. En total
hay r ⋅ s clases.

Y
X Y1 Y2 Yj Ys Totales
_______________________________________________
X1 n11 n12 n1s n1•
X2 n21

Xi nij nis ni •

Xr nr1 nrj nrs nr •


_______________________________________________
Totales n•1 n• j n• s N
s r
ni• = ∑ nij ; n• j = ∑ nij
j =1 i =1

Las distribuciones marginales corresponden a las distribuciones de frecuencias de cada una


de las variables por separado ignorando el efecto de la otra variable.
ni• ( x) y n• j ( y )
De todos los elementos, podemos estar interesados en un conjunto más pequeño. Las
distribuciones condicionales consisten en determinar la distribución de frecuencias de una
de las variables condicionada a un valor fijo o intervalo. Notación X / Y = y; Y / X = x
La distribución de frecuencias relativas condicionadas son:
nij nij
fi/j = y f j/i =
n• j ni•

Un concepto de interés en estadística es la Covarianza o variabilidad conjunta de dos


r s
∑ ∑ xi ⋅ y j ⋅ nij
variables y se define por: Cov (x,y) = X ⋅ Y − X ⋅ Y donde X ⋅Y =
i j
N
12

Observación:
a) Si las variables son independientes entre sí la covarianza es cero. El inverso no siempre
se cumple.
b) Si la Covarianza es distinto de cero entonces las variables son dependientes.
c) Si la Covarianza es positiva la dependencia es directa, es decir el aumento o
disminución en una variable provoca el mismo efecto en la otra variable.
d) Si la Covarianza es negativa la dependencia es inversa

Un problema de la covarianza es que depende de las unidades de medida por lo que no


logramos cuantificar el grado de relación lineal entre dos variables. Una medida
adimensional del grado de relación lineal entre las variables X e Y es el Coeficiente de
correlación de Pearson dada por:

Cov ( X , Y )
r=
[V ( X )V (Y )]1 2

El Coeficiente de correlación mide la intensidad de una relación lineal entre dos variables.
En general podemos decir: (para interpretar)
r=0 no hay correlación lineal (no están relacionadas linealmente)
0 < rXY ≤ 0.5 existe correlación lineal débil
0.5 < rXY ≤ 0.8 hay correlación lineal aceptable
0.8 < rXY < 1 existe correlación lineal fuerte (altamente correlacionadas)
rXY = 1 correlación lineal perfecta.

Gráfica de datos para diferentes valores de r :


13

Ejemplo 2: La siguiente distribución de frecuencias muestra el número de sectores de una


determinada comuna según: su superficie X (en km 2 ) y la cantidad de residuos sólidos Y
(en toneladas), evacuados mensualmente por los recolectores.

X Y 300 - 350 350 - 400 400 - 450 450 - 500


0,8 - 1,3 2 1 1 0
1,3 - 1,8 0 2 1 0
1,8 - 2,3 3 2 0 1
2,3 - 2,8 0 1 1 1
2,8 - 3,3 0 0 2 2

a) Construya un histograma de frecuencias para la cantidad de residuos sólidos evacuados


mensualmente.
b) Para la distribución de frecuencias de los sectores, según superficie, calcule la media
aritmética de la distribución condicional de X / 350 ≤ Y ≤ 400 e interprete su resultado.
c) Calcule la superficie (área) promedio, a través de la mediana, de los sectores en que la
cantidad de residuos sólidos evacuados mensualmente fluctúa entre 350 y 450 toneladas.
d) La Municipalidad de dicha comuna decide aumentar la dotación de recolectores de
basura de modo que, en cada sector se incremente en un 3% la cantidad de residuos sólidos
evacuados. Calcule la varianza de la cantidad de residuos evacuados después del aumento
de la dotación de recolectores.
Solución:
a)
Histograma
7,000

6,000

5,000
No sectores de la comuna

4,000

3,000

2,000

1,000

0,000
<= 300 (300|350] (350|400] (400|450] (450|500] > 500
Cantidad de residuos sólidos

b)
X ni mi ∑ mi ⋅ ni 10.8
X = ( X / 350 < Y < 400 ) = = = 1 .8
0.8 – 1.3 1 1.05 N 6
1.3 – 1.8 2 1.55
1.8 – 2.3 2 2.05
2.3 – 2.8 1 2.55
Interprete Usted:
2.8 – 3.3 0 3.05

6
14

c) N i ≥ N = 5 .5
2
X Ni
ni  5 .5 − 5 
0.8 – 1.3 2 2 M e = 1 .8 +   ⋅ 0,5 = 1,925 km
2

1.3 – 1.8 3 5
 2 
1.8 – 2.3 2 7
2.3 – 2.8 2 9
2.8 – 3.3 2 11

11

3177500
Y mi ni d) V (Y ) = − (395) 2 = 2,850
20
300 – 350 325 5
350 – 400 375 6
400 – 450 425 5
se pide
450 – 500 475 4
V (1,03Y ) = (1,03) V (Y ) = 3,0236 ton 2
2

20

Ejercicio 3: ¿Cuál es la relación entre la cantidad gastada por semana en alimentos y el


tamaño de una familia?, ¿Las familias grandes gastan más en alimentos? Una muestra de 10
familias en el área de Oregon reveló los siguientes tamaños de familia e importe en dinero
gastado en alimento, en cierto período.

Tamaño de familia 3 6 5 6 6 3 4 4 5 3
Gastos en alimentos US$ 99 104 151 129 142 111 74 91 119 91

a) Construir una tabla de doble entrada. Considere la variable cantidad gastada en alimentos
dividida en tres intervalos de clases.
b) Interprete los valores de n21 , f12 , n. 2 y n3.
c) Calcular e interpretar el coeficiente de variación de gastos en alimentos.
d) Obtener la distribución condicional de los gastos en alimentos dado que el tamaño
familiar lo componen cuatro personas.
e) Calcular e interpretar el promedio de los gastos en alimentos dado que el tamaño
familiar lo componen cinco personas.
f) Determinar la varianza del tamaño familiar dada la cantidad gastada en alimentos.
g) Determine si existe relación entre la cantidad gastada por semana en alimentos y el
tamaño de una familia.

También podría gustarte