Está en la página 1de 72

OM

.C
DD
LA
FI


Estadística I
Tomo I (cap. 1, 2 y 3)

Ciclo Básico a Distancia


FACULTAD DE CIENCIAS ECONÓMICAS

Este archivo fue descargado de https://filadd.com


AUTORIDADES

Mgter. JHON BORETTO


Decano

Dra. MARÍA LUISA RECALDE


Vicedecana

OM
Cr. FACUNDO QUIROGA MARTÍNEZ
Secretario Técnico

Cr. DIEGO CRIADO DEL RÍO


Secretario de Administración

.C
Mgter. GERARDO HECKMANN
Secretaria de Asuntos Académicos
DD
Lic. JUAN SAFFE
Secretario de Extensión

Cr. MATÍAS LINGUA


LA

Secretario de Asuntos Estudiantiles

Dr. ANDRÉS MATTA


Secretaria de Ciencia, Técnica y Relaciones Internacionales
FI

Mgter. CLAUDIA CARIGNANO


Prosecretaria de Evaluación Institucional y Acreditación de Carreras


Cr. HUGO PRIOTTO


Director de la Carrera Contador Público

Mgter. MARCELO CAPELLO


Director de la Carrera de Licenciatura en Economía

Lic. TOMÁS GASTÓN


Director de la Carrera de Licenciatura en Administración

Este archivo fue descargado de https://filadd.com


CICLO BÁSICO A DISTANCIA
ÁREAS QUE PARTICIPAN

Coordinación Académica
Secretaría de Asuntos Académicos
Mgter. Gerardo Heckmann

OM
Coordinación Organizativa de Divisiones a Distancia
Lic. David Taborda

Área de Formación Docente y Producción Educativa

.C
Coordinador General
Oscar Margaría
DD
Asesora pedagógica
Dra. Adela Coria
Equipo de producción en tecnología educativa y comunicación
Mgter. Gabriela Sabulsky
LA

Lic. Cecilia Botino


Lic. Víctor R. Cacciagiú
Lic. Laura Delmonte
Lic. Vanesa Guajardo
FI

Esp. Verónica Pacheco


Lic. María Florencia Scidá
Administración


Lic. Nora Ceballos

Este archivo fue descargado de https://filadd.com


Proyecto “Elaboración de material didáctico en formato digi-
tal para Estadística I” en el marco del Programa de Apoyo y
Mejoramiento a la enseñanza de grado de la UNC aprobado
por Res. HCS Nº583-2015.

Coordinadora del Proyecto:


Margarita Díaz

OM
AUTORES
Norma Patricia Caro
Rosana Beatriz Casini
Margarita Díaz

.C
Fernando García
Mariana González
Martín Saino
DD
María Inés Stímolo

Los autores agradecen especialmente a los Profesores Asistentes por la


LA

colaboración prestada en la resolución y revisión de las actividades.


María Inés Ahumada
Lorena Anaya
Verónica Arias
Mariana Guardiola
FI

Roberto Infante
Adrian Moneta Pizarro
Olga Padro


Andrea Righetti
Julio Rosales

Este archivo fue descargado de https://filadd.com


Proyecto “Fortalecimiento del Ciclo Básico a Distancia” en el
marco del Programa de Apoyo y Mejoramiento a la enseñanza
de grado de la UNC aprobado por Res. HCS Nº 604-2014.

Coordinadora del Proyecto:


Dra. Adela Coria

OM
Maquetación de materiales
Lic. Víctor R. Cacciagiú y Lic. Ismael Rodríguez

Diseño gráfico y audiovisual


Lic. Laura Delmonte

.C
Asesoramiento y diseño pedagógico - didáctico
Esp. Verónica Pacheco y Lic. Vanesa Partepilo
DD
Asesoramiento y diseño comunicacional
Lic. Cecilia Botino y Lic. María Florencia Scidá
LA
FI


Este archivo fue descargado de https://filadd.com


ÍNDICE

Capítulo 2:
Parámetros y estadísticos de las distribuciones de frecuencias
Introducción 75
1. Medidas de posición 75
1.1 Media aritmética 76
1.1.1 Propiedades de la media aritmética 80
1.2 Mediana 87

OM
1.2.1 Propiedad de la Mediana 88
1.3 Modo 90
1.4 Medida Geométrica 93
1.4.1 Propiedades de la Medida Geométrica 94
1.5 Medidas de posición no central 94
1.5.1 Cuartiles 95
2. Medidas de dispersión 97
2.1 Varianza

.C
2.1.1 Fórmula de cálculo
2.1.2 Varianza de la muestra
2.1.3 Propiedades de la varianza
97
98
99
101
DD
2.2 Desviación estándar 102
2.3 Coeficiente de variación 103
2.4 Recorrido y Recorrido Intercuartil 104
3. Diagrama de caja y brazos 105
4. Otras medidas 109
4.1 Momentos naturales 109
LA

4.2 Momentos centrados 109


5. Medidas de forma 109
5.1 Coeficientes de asimetría 111
5.2 Coeficientes de curtosis 112
6. Distribuciones bidimensionales 116
6.1 Covarianza y Coeficiente de Correlación de Pearson 116
FI

7. Actividades de aprendizaje 121


8. Referencias Bibliográficas 123
Soluciones y respuestas al Capítulo 2 124


Este archivo fue descargado de https://filadd.com


OM
.C
DD
Capítulo 2
LA

Parámetros y estadísticos
de las distribuciones de frecuencias
FI


Este archivo fue descargado de https://filadd.com


Capítulo 2: Parámetros y estadísticos de las distribuciones de frecuencias

Capítulo 2: Parámetros y estadísticos de las


distribuciones de frecuencias

Introducción

En la unidad anterior se hizo mención a las etapas del método científico y


su aplicación mediante el uso de herramientas estadísticas.
Se explicaron aspectos vinculados con las tres primeras etapas: plantea-

OM
miento del problema, diseño, recopilación y organización de datos; se aborda-
ron conceptos y aplicaciones inherentes al tema y se desarrollaron actividades
mediante las cuales se ordenan los valores de una variable y se describe su
comportamiento de una manera visual en gráficos o bien de una forma ordena-
da en tablas.
Ahora veremos la cuarta etapa, la de análisis, donde también se descri-
ben las variables calculando medidas que permiten resumir los valores de éstas

.C
y explicar su comportamiento en un aspecto o característica de la distribución.
Cuando hablamos de aspecto o característica de la distribución nos estamos
refiriendo a posición, dispersión y forma, criterio de clasificación utilizado para
definir las medidas descriptivas.
DD
De esta manera tendremos algunos valores que describen la posición,
unos la dispersión y otros la forma del conjunto de valores de la variable.
Además, explicaremos métodos de cálculo para obtener esas medidas
como así también las ventajas y desventajas de su aplicación en cada caso.
Utilizaremos bases de datos procesadas con el software Infostat para
conectarnos con esta forma rápida de procesar y analizar información, lo que en
LA

virtud de la tecnología existente nos permite obviar cálculos e interpretar resul-


tados estableciendo relaciones importantes entre las medidas.
Luego, estudiaremos distribuciones bidimensionales, esto es distribucio-
nes en las que intervienen dos variables y aplicaremos medidas que permitan
indagar sobre la asociación entre esas variables describiendo aspectos relevan-
tes de la presentación conjunta y condicional de las mismas.
FI

1. Medidas de posición Para una mejor comprensión


del significado del término
posición en el entorno de las


Las Medidas de posición son aquellas que permiten describir los datos de medidas descriptivas, se sugie-
una serie en cuanto a su ubicación en el eje de las abscisas. Se clasifican como re a ingresar a la sección Mate-
de tendencia central y no central. Las medidas de tendencia central se localizan riales Recursos del aula virtual
para ver la producción audiovi-
en el centro de la distribución, mientras que las que no lo son se localizan en
sual “Serie Horizontes” de
otras partes de la distribución. Las medidas de tendencia central que estudia- Canal Encuentro llamada Esta-
remos son: media aritmética, media geométrica, mediana y modo. dística.

Las medidas de posición que no son de tendencia central, denominadas


cuartiles, deciles y percentiles, se localizan en cualquier otra parte de la distri- 75
bución, es decir en extremos o en un sector cercano al centro indicando puntos
específicos de la distribución como fracciones que permiten establecer porcen-
taje de observaciones ubicadas a la izquierda y derecha de la medida.

Este archivo fue descargado de https://filadd.com


1.1 Media aritmética

Esta medida es un promedio que se utiliza como medida resumen del


conjunto de datos cuando la variable es numérica. Puede aplicarse sobre una
serie simple o sobre una distribución de frecuencias.

La Media Aritmética se define como la suma de los valores de la variable divi-


dida por el total de datos.

La importancia de marcar la
diferencia radica en el signifi- Para aclarar la idea observe la siguiente tabla.
cado de la medida y su aplica-
ción para describir el compor- A modo de ejemplo, si se cuenta con la estatura de 11 personas y, se pre-
tamiento de la variable. tende caracterizar al grupo por la estatura media, se aplicará la definición con lo

OM
que concluiremos que en promedio estas personas miden 1,62 m. Es decir, una
Cuando se utilizan las medidas
de posición central se analiza el altura intermedia entre los más altos y los más bajos.
punto de equilibrio entre los
valores y se busca representar ESTATURA
el conjunto por la medida, 1,6
mientras que cuando nos refe- 1,52
rimos a cuartiles por ejemplo, 1,66 Media 1,62
se pretende destacar cuatro 1,68 17,82/11
partes de la distribución mar-
cadas por el 25% de las obser-
vaciones.
.C 1,69
1,66
1,64
1,48
DD
1,61
1,66
1,62

En la población, el parámetro se simboliza con la letra griega µ, mientras


que en la muestra (el estadístico) será M(x) o x , si la variable se simboliza con
LA

x, M(y) ó y , si la variable se simboliza con y.

∑x i
Parámetro µ= i =1

N
FI

Tamaño de la población: N; Parámetro: µ; Variable: x


n

∑x i
Estadístico x= i =1


Tamaño de la muestra: n; media muestral x ; Variable x

Retomando el ejemplo Análisis Industrias de Córdoba (base de datos “in-


dustrias.idb”) que fue utilizado en los ejemplos de la unidad 1, se considerará la
variable cuantitativa porcentaje del costo laboral en el costo total para aclarar
los conceptos aquí abordados. Vamos a tomar en cuenta la rama de actividad a
la que pertenece la empresa como factor de clasificación y calcularemos, utili-
76 zando Infostat, la media aritmética de la variable para cada rama de actividad.
Consideraremos una situación en que el municipio está interesado en la
repercusión que puede tener el costo laboral considerando la rama de actividad
con el propósito de otorgar beneficios impositivos a los sectores de la actividad
industrial que requieran de mayor cantidad de personal para su normal funcio-
namiento. En consecuencia lo primero que necesitará el municipio es el prome-
dio de la variable mencionada por rama de actividad.

Este archivo fue descargado de https://filadd.com


Capítulo 2: Parámetros y estadísticos de las distribuciones de frecuencias

En la imagen siguiente observamos la base de datos para las variables


porcentaje de costo laboral/costo total y rama de actividad. Recordemos que se
codificaron 10 ramas cuyo detalle se encuentra anexado a la base.

Utilizando el software Infostat, abriendo la base de datos "indus-


trias.idb, siguiendo el procedimiento que se detalla a continuación.
Se obtendrá una tabla resumen con la media para cada rama de acti-
vidad, de la variable seleccionada (Tabla 1). De igual forma se pueden calcular
todas las medidas descriptivas por rama de actividad. (Ver instrucciones en
apoyo Infostat).

Oprimiendo el

OM
menú
Estadísticas

1.Alimentos y Bebidas
2.Textiles, Con-

.C
fecc.Calzado
3.Madera y Muebles
4.Papel e Impresiones
5.Química, Caucho y Plás-
DD
ticos

8.Maquinaria y Equipos
6. Vidrio y Minerales. no
Metálicos
LA

7.Productos Metálicos

El cuadro de dialogo será el que se muestra a continua-


ción, vemos que incorporando la variable rama de acti-
vidad como criterio de clasificación, se obtiene la media
FI

de la variable para cada categoría.




77

Este archivo fue descargado de https://filadd.com


Tabla 1. Medias por rama de variable porcentaje de costo laboral.

OM
.C Actividad 1
Trabaje con la base “industrias.idb” y consultando el punto 3.21 del instructivo
de infostat, asigne el nombre de cada rama en la base de datos
DD
En la Tabla 1 se puede observar que la rama 2 (textil) es la que tiene mayor
promedio de la variable porcentaje de costo laboral sobre total. Sin embargo las
demás ramas que le siguen en orden de magnitud, no difieren demasiado, pre-
sentando el menor valor la rama 4 (papel e impresiones)

Con el fin de ejemplificar de manera sencilla el cálculo de la media aritmética, a


LA

continuación se obtendrá la media aritmética para la variable analizada prece-


dentemente, tomando la rama de actividad 4 que tiene 11 observaciones

Ejemplo 1
Los datos siguientes representan los valores del porcentaje del costo labo-
FI

ral /costo total para las 11 empresas de rama 4, papel e impresiones.

Costos laboral / Costo total


Rama 4


25
Aplicando la fórmula de media
7
aritmética de la muestra, el valor del
40 promedio, será:
15 n
20 ∑x i
202
20 x= i =1
= = 18,36
10 n 11
22
30
78 10
3
Suma: 202

En el histograma del Gráfico 1 se puede observar la ubicación de la media


aritmética como medida de posición central.

Este archivo fue descargado de https://filadd.com


Capítulo 2: Parámetros y estadísticos de las distribuciones de frecuencias

Gráfico1:
Histograma de porcentaje de costos laboral

OM
La media 18,36

.C
DD
El porcentaje promedio de los costos laborales en esta rama es 18,36%.
Observando los datos vemos que hay valores del porcentaje del costo laboral
inferiores y superiores a este valor. En un punto de equilibrio se puede repre-
sentar a todos los valores, en cuanto a su posición, mediante la cifra llamada
media aritmética que en el ejemplo se refiere al porcentaje medio del costo
laboral por empresa y cuyo valor es 18,36.
LA

Aclaraciones importantes respecto de la media aritmética:


Es interesante destacar que la Media Aritmética es un valor que des-
cribe a los datos en cuanto a su posición pero, por su fórmula de cálculo, está
afectada por valores atípicos de la variable, lo que en ciertos casos le hace per-
FI

der representatividad. Si en el ejemplo 1, el valor 40 fuere 98; la media será:

Costos laboral / Costo total


Rama 4


25
7 La media aritmética de la mues-
98 tra será:
15
20 n

20 ∑x
i =1
i
260
10 x= = = 23,64
n 11
22
30
10 79
3
Suma: 260

Se observa que la media aritmética de 18,36 pasa a 23,64. Esa diferencia


en el valor promedio del porcentaje del costo laboral en relación al costo total se
debe a la influencia que este valor 98 tiene en la suma total de la variable, valor

Este archivo fue descargado de https://filadd.com


que en realidad es muy diferente a los demás, generando un promedio mayor y
que no representa fielmente al resto de los valores de la variable.

Para solucionar este inconveniente, en estas distribuciones se utiliza otra


medida de posición que es la Mediana.

• Otro aspecto de la Media Aritmética es que, al igual que todas las me-
didas de posición, se expresa en la misma unidad de medida que la va-
riable. En este ejemplo tanto la variable x como la M(x) se expresan en
porcentaje.

• Cuando los datos están agrupados en una tabla de distribución de fre-


cuencias, el valor xi de la variable se repite ni veces. En el cálculo de la
media aritmética, cada valor distinto de la variable debe ponderarse por

OM
la cantidad de veces que el mismo se repite, de la siguiente forma:

∑xn i i
x= i =1

.C
1.1.1 Propiedades de la media aritmética

A continuación se desarrollan las propiedades de la media aritmética, y


se incluye un ejemplo numérico de serie simple, para verificar la propiedad en
DD
cada caso.

• La Media Aritmética de una constante, es igual a la constante.

Dada xi = c, donde c es una constante.


LA

M (c ) = c

Aplicando la definición de media aritmética:

n
M (=
x ) c= c
FI

Verificación: la variable asume el valor 3 en forma constante, para una muestra


3+3+3+3
de 4 datos. La media de x, será: x = =3 por lo que el valor 3, que es


3
constante, será el resultado de la media aritmética de la variable x.

• La Media Aritmética del producto de una constante por una variable;


es igual a la constante por la media de la variable.

M ( c.x ) = c.M ( x )
80
Aplicando la definición de media aritmética:
k k

i i ∑c x n ∑x n i i
M ( c.x )
=
=i 1=i 1
= c=
. c.M ( x )
n n

Este archivo fue descargado de https://filadd.com


Capítulo 2: Parámetros y estadísticos de las distribuciones de frecuencias

Verificación: x asume los valores: 10, 20, 30, 40, su media es: x = 25

Si multiplicamos x por 2, surge x’ con los valores: 20, 40, 60, 80; siendo su me-
dia: x ’ = 50, pero al aplicar la propiedad no será necesario recalcular todos los
valores de x, sólo haremos:

M(=
x`) 2.M(=
x ) 2=
.25 50

• La Media Aritmética de la suma de una constante más una variable es


la constante más la media de la variable.

) M (x) + c
M ( x + c=

OM
Aplicando la definición de media aritmética:

∑(x i + c ) ni
M (x + c)= i =1

.C
Distribuyendo el sumatorio:

M ( x +=
c)
i i
=i 1=i 1
k

∑ x n ∑c n
n
+
k

n
i
DD
k
“c” es constante por lo que puede extraerse del sumatorio y ∑n i = n , con lo
i =1

cual se arriba a:
k

∑x n i i
n
M ( x + c=) + c = M (x) + c
LA

i =1

n n

Verificación: x asume los valores: 10, 20, 30, 40, su media es: x = 25

Si a x le sumamos la constante 3, sus nuevos valores serán: x’: 13, 23, 33,
FI

43 y su media es x ' = 28. Al aplicar la propiedad no deberemos recalcular los


valores de x sino que simplemente haremos:

M(x’) = M(3+x) = 3 + M(x) = 3 + 25 = 28




• La suma de las diferencias entre los valores de la variable y su Me-


dia Aritmética es siempre nula.
k

∑(x
i =1
i − M ( x ) ) ni =
0

Para demostrarlo distribuimos el sumatorio: 81


k k

i i∑ x n − ∑M (x)n
=i 1=i 1
i =
0

Este archivo fue descargado de https://filadd.com


Extraemos M (x) del segundo sumatorio, ya que es constante para el mismo:
k k

i i
=i 1=i 1
∑x n − M ( x ) ∑ ni =
0

k ∑x n i i
Dado que ∑ ni = n y que M (x)= i =1 , tenemos que:
i =1 n

n M (x) − n M (x) =
0

Por lo tanto:

OM
0=0

Al verificarse la igualdad, queda demostrada la propiedad.

Verificación: x asume los valores: 2, 4, 6 resultando la media: x =4

Al realizar la suma de cada valor respecto de su media obtendremos:

.C Σ (xi - x ) = (2-4) + (4 - 4) + (6 - 4) = 0

Esto que matemáticamente puede demostrarse de manera muy


DD
sencilla, significa que al ser la media un promedio centralizado, las dife-
rencias entre los valores ubicados a su izquierda se compensan con las
diferencias de los valores ubicados a su derecha de modo que la suma de
todas esas diferencias arroja resultado cero.
LA

• La suma de cuadrados respecto de la Media Aritmética es un valor


mínimo.

SCx = Σ (xi –M(x))2 mínimo


FI

Vamos a demostrar que el mínimo se da cuando los desvíos están calculados


con respecto a M(x). Para ello, planteamos una función a minimizar que contie-
ne una variable “w” cuyo valor queremos averiguar:
k
f (w ) =∑ ( xi − w ) ni =Mínimo
2


i =1

Para encontrar el mínimo de la función, obtenemos la derivada primera con


respecto a “w” y la igualamos a cero:
k
f´ (w=) ∑ 2(x
i =1
i − w )( −1) ni

82 f´ (w ) = 0

Despejamos “w”:
k

∑ 2(x
i =1
i − w )( −1) ni =
0

Este archivo fue descargado de https://filadd.com


Capítulo 2: Parámetros y estadísticos de las distribuciones de frecuencias

Extraemos (–2) del sumatorio, dividimos ambos miembros por (-2) y distribui-
mos el sumatorio de forma tal que:
k k

=i 1=i 1
∑ xi ni − ∑ w ni =
0

k
Dado que ∑n
i =1
i = n y como “w” es constante con respecto al sumatorio:

∑x
i =1
i ni − w n =
0

Por lo que, w es:


k

∑xi ni

OM
=w = M (x)
i =1

n
Este es un punto crítico de la función. Para determinar si ese punto es un míni-
mo debemos verificar si la derivada segunda es positiva. La derivada segunda es
igual a:
k
−2 ∑ ( −1) ni
f´´ (w ) =

.C
i =1

Como f´´ (w=) 2 n > 0 para cualquier n, la función se hace mínima en w = M ( x ) .

Verificación: La variable x asume los valores: 20, 30 y 40; su media es: x = 30


DD
• Si consideramos las diferencias al cuadrado con respecto a la media que
es 30, y las sumamos, obtenemos:
Scx = (20 - 30)2 + (30 - 30)2 + (40 - 30)2 = 200
LA

• Si consideramos las diferencias al cuadrado respecto de un valor cual-


quiera de la variable, por ejemplo 20, y las sumamos obtenemos:
Σ( x - 20)2 = (20 - 20)2 + (30 - 20)2 + (40 - 20)2 = 500

• Si esto se repite para cualquier valor distinto de la media que se halle


FI

ubicado dentro del recorrido de la variable (entre 20 y 40), la suma será


mayor que 200; ya que la Media Aritmética minimiza la suma de cua-
drados: SCx

Esta propiedad permite medir la dispersión, considerando los desvíos respecto




de la media aritmética, como se verá más adelante.

• La Media Aritmética de las medias de k submuestras, se obtiene como


la Media Aritmética ponderada de las medias de las submuestras,
siendo sus ponderaciones los tamaños de las respectivas submues-
tras.

n1.M ( x1 ) + n2 .M ( x2 ) + ... + nh .M ( xh )
M (x) =
n
83
Donde, n1, n2,..., nh son los tamaños de las h submuestras en las que se divide la
muestra de tamaño “n”.

Esto significa que, al considerar una muestra dividida en submuestras y cono-


cer la media de la variable en estudio para cada una de ellas, la media total será
la media ponderada de las medias de las submuestras.

Este archivo fue descargado de https://filadd.com


Para demostrarlo:

Consideremos que la suma de todas las observaciones de la muestra de n ele-


mentos deberá coincidir con la suma de los elementos de las submuestras:

n n1 n2 nh

∑ x=i
=i 1=i 1 =i 1
∑ x1i +∑ x2i + ... +∑ xhi =i 1

Multiplicamos y dividimos el primer término por “n” y multiplicamos y dividi-


mos cada término del segundo miembro por los respectivos tamaños n1, n2, . . . ,
nh:

OM
n n1 n2 nh

i 1i∑x 2i ∑x ∑x ∑x hi
n = n
=i 1=i 1 =i 1
1 2 +n +=
... + nh i 1

1 n 2 n n nh
n n1

∑x i ∑x 1i
Dado que M ( x ) = i =1 y que M ( x1 ) = i =1 y así sucesivamente, reemplazando
n n1
en (4) por sus iguales:

.C =
n.M ( x ) n1.M ( x1 ) + n2 .M ( x2 ) + ... + nh .M ( xh )
DD
Despejando M(x):
n1.M ( x1 ) + n2 .M ( x2 ) + ... + nh .M ( xh )
M (x) =
n
LA

Ejemplo 2
El ingreso medio de 500 varones es igual a $ 3200 y el ingreso medio de
385 mujeres es de $ 2250, ambos pertenecientes a la misma población,
la media general será.
FI

(3200.500) + (2250.385)
X= = 2786.72
885

El promedio es de $ 2786.72.


• En estos promedios no debe aplicarse promedio simple a menos que la


cantidad de observaciones de cada submuestra sea la misma.

Si calculamos la media de todas las empresas de la base “indus-


84 trias.idb” para la variable porcentaje del costo laboral, el resultado
será 30,56%, según lo que observamos en el procesamiento de
Infostat.

Este archivo fue descargado de https://filadd.com


Capítulo 2: Parámetros y estadísticos de las distribuciones de frecuencias

Aplicando la propiedad f de la media de las k sub muestras, a los resulta-

OM
dos presentados en Tabla 1 para cada rama de actividad se llegará al mismo
resultado: 30,56%

Comprobemos este resultado y observemos que si se calcula la media


aritmética sin considerar los tamaños de cada muestra, el resultado obviamente
no coincide pero además no es correcto debido a que no se está tomando como
suma de los valores del costo, el que corresponde a las 141 industrias de la

.C
muestra. El cálculo correcto se muestra en la siguiente tabla.

Tabla 2. Media de variable porcentaje de costo laboral (propiedad f).


DD
n
Rama
de actividad
ni xi ∑n x
i =1
i i

1 17 32,18 547,06 La media aritmética de la mues-


2
LA

15 34,2 513 tra será:


3 14 33,21 464,94
4 11 18,36 201,96 n

5 14 32,86 460,04 ∑n x i i
4309,17
6 10 27,1 271 x= i =1
= = 30,56
7 15 29,33 439,95 n 141
FI

8 17 28,9 491,3
9 16 32,31 516,96
10 12 33,58 402,96
Suma 4309,17


Actividad 2
Se ha seleccionado una muestra de pedidos de clientes, realizados en febre-
ro/2015, a una empresa que fabrica un bien “X” y se ha registrado la cantidad
de unidades solicitadas de dicho bien:

12 10 14 25 16 25 16 27 18 30 20 30 50 35
85
a) Determinar el valor de la media aritmética (M) y de la mediana (Me) y
escriba una interpretación de sus resultados (sin decimales).

b) El encargado de compras de la empresa considera muy importante el


promedio de la demanda para planificar los pedidos de insumo para fa-
bricación, sin embargo la media es un punto de equilibrio en relación al
cual habrá valores de la demanda inferiores y mayores a él.

Este archivo fue descargado de https://filadd.com


Para comprender una mejor comprensión de la idea de equilibrio a que
nos referimos, verifique la propiedad de media aritmética:
∑ (x i − M(x )) = 0

c) Si para el mes de marzo se espera que todos los clientes soliciten 4 uni-
dades más del bien “X” con respecto a los pedidos de febrero, ¿cuál se-
ría el valor de la media aritmética en el mes de marzo?

d) En otra situación, si para el mes de marzo se espera que todos los clien-
tes reduzcan en un 15 % el número de unidades del bien “X” solicitadas
con respecto a febrero, ¿cuál sería el valor de la media aritmética en el
mes de marzo?

OM
Actividad 3
La Encuesta Permanente de Hogares, ha permitido relevar información respecto
de múltiples aspectos económicos y sociales de los habitantes del país.

Considerando una porción reducida de esa información para fines meramente

.C
didácticos, supongamos que Afip pretende analizar los salarios de trabajado-
res por tipo de actividad.

Tomando las categorías patrón o empleador y cuenta propia, los valores regis-
DD
trados para una muestra de individuos en categoría patrón o empleador y cuen-
ta propia. Recordemos que en la EPH se registra el sueldo de cada jefe de hogar,
considerando como tal el ingreso mensual y por otra parte se consulta al indivi-
duo, la categoría ocupacional a la que pertenece, es decir patrón o empleador,
empleado en relación de dependencia, cuenta propia, etc. En la Tabla 3 se pre-
sentan los sueldos de los entrevistados con categorías patrón y cuenta propia.
LA

Tabla 3. Datos sueldo de categorías patrón y cuenta propia.

SUELDO
SUELDO
Patrón o
FI

Cuenta propia
empleador
1200 780 890
480 870 240
1300 760 650
2200 1200 900


2100 650 850


1500 1800 650
370 240 300
1400 2100 780
970 380 560
240 320
320

86
Se le solicita a UD, que:

a) Indique la cantidad de personas que forman cada categoría.


b) Calcule el monto total de sueldo para cada categoría e interprete el va-
lor.
c) Calcule el promedio de cada categoría, interprete y compare ambas ca-
tegorías.

Este archivo fue descargado de https://filadd.com


Capítulo 2: Parámetros y estadísticos de las distribuciones de frecuencias

d) Se conoce que el índice de inflación para el último trimestre es de 0,20,


calcule el sueldo promedio con efecto inflacionario. (Aplique propieda-
des).
e) Suponga que se incrementa el sueldo en 50$ para cada persona en ca-
da categoría, calcule el sueldo promedio de cada categoría después del
incremento. (Aplique propiedades).
f) Considere que en lugar de incrementar el sueldo en 50$, se incremente
un 18%. Calcule el sueldo promedio de cada categoría después del in-
cremento. (Aplique propiedades).
g) Calcule el sueldo promedio total, es decir el de ambas categorías e indi-
que si es muy diferente de los valores calculados en el ítem c. (Aplique
propiedades).

OM
1.2 Mediana Para obtener la mediana:

- Se ordenan los valores.


- Se determina el punto central
La Mediana es el valor central de los valores de una variable ordenada de u orden de la serie al que lla-
acuerdo a su magnitud, por lo tanto será el valor de la variable que supera a no mamos “o” y se calcula como:
más de la mitad de las observaciones de la variable, y es superada por no más (n + 1) / 2.

.C
de la mitad de las observaciones de la variable. - Se ubica dicho punto y el
valor de la variable correspon-
diente al mismo, que simboli-
zamos como xo, es la Mediana,
DD
Visualizando en la siguiente imagen los datos de la estatura de 11 personas es decir: xo = Me(x).
comprenderás mejor el significado de la definición.
Además debemos considerar
las siguientes situaciones:
ESTATURA
1,6 - Si la cantidad de datos de la
LA

1,52 serie es par, este valor se de-


1,66 Los valores de la variable estatura se encuentran des-
termina como el promedio
1,68 ordenados. Si los ordenas de menor a mayor, los valo-
simple de los dos valores cen-
1,69 res de la variable se ubicarán como se muestra a conti-
trales.
nuación, por lo que el valor central es de 1,64. La me-
1,66 - Si la cantidad de datos de la
diana, el valor que supera a los 5 valores de la variable
1,64 serie es impar, el valor de la
ubicados a la izquierda y que es superado por los otros
FI

1,48 Mediana es directamente el


5 valores ubicados a su derecha.
1,61 valor central.
1,66
1,62


1,48 1,52 1,6 1,61 1,62 1,64 1,66 1,66 1,66 1,68 1,69

¿Por qué la media es de 1,62 y la mediana es de 1,64? ¿A qué se debe esta dife-
rencia?

Esta medida se calcula después de ordenar los datos de la variable y ubi-


car el centro de esa serie ordenada, razón por la cual su cálculo no involucra los
valores individuales en una operación, sino que se determina localizando el va-
lor central en la serie ordenada. 87
Esto hace que sea una medida especialmente útil en distribuciones con
valores extremos o atípicos debido a que la Media Aritmética en este tipo de
distribuciones pierde representatividad, tal como se vio previamente.

Este archivo fue descargado de https://filadd.com


1.2.1 Propiedad de la Mediana

La suma del valor absoluto de las diferencias entre los valores de la variable y su
Mediana, es mínima.

Al igual que la media aritméti- n


ca, la mediana, es una medida
que minimiza la suma de dis-
∑x
i =1
i − Me (x) ⇒ mínimo

tancias calculadas entre los


valores de la variable y la me- Como veremos más adelante, esta propiedad es utilizada para determinar
diana, lo que responde a resol-

OM
una medida de distancia entre los valores de la variable y su valor central, de
ver el mínimo relativo de la
función suma del valor absolu-
modo que podamos analizar la dispersión de esos valores en situaciones donde
to de los desvíos, que se detalla la media aritmética no es representativa.
a continuación y cuya demos-
tración obviaremos.
Ejemplo 3
En columna se observan los valores de la variable porcentaje del costo
laboral ordenados de menor a mayor.

.C El orden o = (n + 1) / 2 = 12 / 2 = 6, (orden 6).


La mediana es el valor de la variable ubicado en el orden 6
Me(x)= 20
DD
Costos laboral / Costo total
Rama 4
3
7
10
LA

10
15
20
20
22
25
FI

30
40

Cabe mencionar que en el caso del ejemplo 2, el tamaño de la muestra es


un número impar, por lo que la ubicación de la mediana corresponde a un nú-


mero entero, (o = (n + 1) / 2 = 12 / 2 = 6, (orden 6)). No obstante si el tamaño


de la muestra es un número par, el orden será decimal con 5 décimas, en con-
secuencia la mediana será el promedio de los valores centrales.

Utilizando Infostat, se procesaron los datos de la variable porcentaje


del costo laboral /costo total para las 10 ramas de actividad, calcu-
lando la mediana.
88
A continuación se muestra el cuadro de diálogo utilizando Infostat y los resulta-
dos se presentan en la Tabla 4 (Ver instrucciones de Infostat).

Este archivo fue descargado de https://filadd.com


Capítulo 2: Parámetros y estadísticos de las distribuciones de frecuencias

OM
.C
DD
LA
FI


89

Este archivo fue descargado de https://filadd.com


Tabla 4. Mediana por rama de variable porcentaje del costo laboral.

OM
Consideremos ahora el cálculo de la Mediana a partir de una tabla de fre-
cuencias. Volviendo a nuestro ejemplo Encuesta a alumnos (base alumnos.idb)
en la tabla siguiente se presentan las frecuencias de la variable materias aproba-
das. La mediana será el valor que ocupe el lugar 83,5, es decir el promedio sim-

.C
ple entre los valores que ocupan el lugar 83º y 84º. Para determinar qué valores
son, necesitamos las frecuencias absolutas acumuladas.
DD
Tabla 5. Frecuencias de variable materias aprobadas.

MATERIAS
ni Ni
APROBADAS
0 22 22
1 32 54
LA

2 48 102
3 37 139
4 21 160
5 6 166
Total 166
FI

La frecuencia absoluta igual a 102, indica que desde el valor de la variable


que ocupa el lugar 55º hasta el 102º corresponde a 2. Como los lugares que
buscamos están en ese rango, concluimos diciendo que la Me = 2 materias
aprobadas.


1.3 Modo

El Modo o Moda es el valor de la variable que se presenta más frecuentemente.

Esto significa que debemos observar los valores de la variable y determi-


nar el valor que más veces se repite, para lo cual podemos trabajar con serie
90 simple si tenemos pocos valores de la variable o con distribución de frecuencias
si la cantidad de observaciones es grande, en cuyo caso la mayor frecuencia
absoluta indicará cuál es el valor modal o modo.

Las distribuciones pueden ser: uniformes, unimodales, bimodales o mul-


timodales. Las distribuciones uniformes son aquellas que no tienen valor modal,
es decir ningún valor de la variable se repite más veces que los demás, todos se
repiten con igual frecuencia; las unimodales son aquellas distribuciones que

Este archivo fue descargado de https://filadd.com


Capítulo 2: Parámetros y estadísticos de las distribuciones de frecuencias

tiene un solo valor modal, las bimodales tienen dos valores que se repiten más
veces que los demás y las multimodales tienen más de dos valores modales.

En la siguiente ilustración se puede observar la caracterización de cada


medida de posición.

OM
Otro criterio para calcular el modo en distribuciones de intervalos
se basa en definir el intervalo que corresponde a la mayor frecuencia,
llamado intervalo modal, y considerar que la marca de clase representa
el valor de la variable que se presenta más veces.

.C
Por último, podemos determinar el modo gráficamente con el his-
tograma de frecuencias, marcando en el rectángulo más alto el valor
modal por interpolación.
DD
Ahora le proponemos observar en el archivo “industria.idb” la va-
riable rama de actividad codificada de uno a diez. El valor modal será el
código de variable uno, al que le corresponde una frecuencia de 19 ob-
servaciones, la mayor de las frecuencias que se presentan en Tabla 6.
LA

Tabla 6. Frecuencias de variable rama de actividad.

Frecuencias absolutas
rama Total Porcentaje
1,00 19 12,84
2,00 16 10,81
FI

3,00 14 9,46
4,00 11 7,43
5,00 15 10,14
6,00 10 6,76
7,00 17 11,49


8,00 17 11,49
9,00 16 10,81
10,00 13 8,78
Total 148 100,00

Cabe aclarar que en Infostat no está la posibilidad de calcular el modo


como medida descriptiva en el resumen de medidas. Es por esa razón que se
analiza la tabla de frecuencias para determinar el valor modal.

91
Actividad 4
Con los datos de la Tabla 7, correspondientes a la producción en unidades de 7
máquinas de una empresa observadas en dos turnos:

Este archivo fue descargado de https://filadd.com


Tabla 7. Unidades Producidas Por Máquina

Turno 1 12 14 16 16 18 20 50
Turno 2 10 25 25 27 30 30 35

a) Calcule media, mediana y modo e interprete cada medida.

b) Compare resultados indicando en que turno la media aritmética es más


representativa.
n
c) Compruebe las propiedades: ∑ (x − x)
i =1
i
2
⇒ min imo y

∑ x − Me(x) ⇒ min imo


i =1
i para ambos turnos, compare

OM
Actividad 5
Examinando los registros de cuentas mensuales de una empresa que vende
libros por correo, el auditor toma una muestra de 12 de esas cuentas no paga-
das. Los montos de deudas registradas se muestran en tabla 8:

.C
Tabla 8. Valor monetario de cuentas no pagadas

$7 $7 $10 $10 $10 $15


DD
$20 $25 $26 $30 $32 $37

a) ¿Cuál es la naturaleza de la variable que estamos analizando?

b) Calcule la media, mediana y modo.


LA

c) Marque las medidas de posición en el gráfico 2, e indique que otros grá-


ficos puede realizar para mostrar el comportamiento de la variable.

Gráfico 2
Variable valor de cuentas no pagas
FI

HISTOGRAMA VALOR DE CUENTAS NO PAGAS

0,44


0,33
frecuencia relativa

0,22

0,11

0,00
92 7 15 22 30 37

Este archivo fue descargado de https://filadd.com


Capítulo 2: Parámetros y estadísticos de las distribuciones de frecuencias

1.4 Medida Geométrica

La Media Geométrica de un conjunto de ”n” valores positivos de una variable, es la raíz


enésima del producto de los “n” valores.

Mg( x ) = n ( x1 )( x2 )...( xn )

Esta medida de posición es útil para encontrar el promedio de porcentajes, razo-


nes, índices o tasas de crecimiento.
En distribución de frecuencias es:

OM
Mg( y ) = n
y1n1 .y 2n2 ...y knk

Ejemplo 4
Los rendimientos anuales, en porcentaje, de cuatro acciones de empre-
sas multinacionales son: 4.91, 5.75, 9.13, 20.86.

.C
La media geométrica es:

Mg(x) = 4 (4.91)(5.75)(9.13)(20.86) = 8.56


DD
Esta medida de posición también es útil para calcular tasas de crecimien-
to promedio a partir de los valores de la variable. Un ejemplo de esto es:
LA

Ejemplo 5
Se quiere calcular la tasa promedio de crecimiento del PBI contando con
información de los últimos 5 años:

PBI : 200 245 279 300 326


FI

Llamemos r a la tasa que buscamos

La media geométrica es:




Mg(=
x) n ( x1 )( x2 )...( =
xn ) 4 245
( 200 )( 279
245
)( 300
279
)( =
326
300
) = 1.129
4 326
200

Lo que obtuvimos es el relativo promedio es decir (1 + r), si necesitamos la tasa


de variación promedio será: (1+r) – 1, para el ejemplo 0.129, que en términos porcentua-
les es el 12,9%

En conclusión para calcular tasa promedio de crecimiento:

Valor final 93
r =n
valor inicial
−1

Este archivo fue descargado de https://filadd.com


1.4.1 Propiedades de la Medida Geométrica

a) La Media Geométrica no se podrá aplicar cuando algún valor de la va-


riable asuma el valor cero, debido a que el producto será cero.

b) La Media Geométrica no se podrá aplicar cuando el producto de los va-


lores de la variable sea negativo y la cantidad de observaciones sea un
número par, dado que el resultado de esta operación será un número
imaginario.

c) El logaritmo de la Media Geométrica es igual a la Media Aritmética de


los logaritmos de los valores de la variable.

Log Mg(x) = M(logx)

OM
Aplicando la propiedad que establece que el logaritmo de un producto de
números, es igual a la suma de los logaritmos de los números, queda:

n
Log Mg(x) = log(n (x 1 )(x 2 )...(x n ) ) = 1
n ∑ log x
i =1
i = M(log x)

.C
1.5 Medidas de posición no central
DD
Las medidas de posición no central son llamadas fractiles o cuantiles dentro de
los que encontramos, como los más utilizados:

• cuartiles
• deciles
• percentiles
LA

La r-ésima fractila o cuantil de orden “s”, se define como el valor de la


variable que supera a no más de una fracción de r/s observaciones y es
superado por no más de 1-r/s observaciones y se simboliza como P(r/s).
FI

Se determinan dividiendo la distribución en partes simbolizadas como


r/s, donde “s” es el total de partes, tales como cuartos, decenas o centenas y
“r” representa el numerador de la fracción e indica el orden de la fractila o cuan-
til. Su concepto es similar al de la Mediana pero trasladado a fracciones diferen-


tes.
Por ejemplo la fractila de orden tres en un total de diez partes, es el valor
de la variable que supera a no más del 3/10 del total de las observaciones y es
superado por no más del 7/10 del total de las observaciones y la simbolizamos
como P(3/10). No obstante lo mencionado, para los casos en que la distribución
se divide en cuatro, diez y/o cien partes, las fractilas se denominan cuartiles,
deciles y/o percentiles respectivamente, en consecuencia para el ejemplo dado
el valor P(3/10) equivale al Decil de orden 3 que se simboliza como: D3.
94

Este archivo fue descargado de https://filadd.com


Capítulo 2: Parámetros y estadísticos de las distribuciones de frecuencias

1.5.1 Cuartiles

Si consideramos la variable x representada en el eje numérico, se tiene

25% 25% 25 % 25%


Variable x
Vm Q1 Q2 Q3 VM

Donde las expresiones Vm y VM indican el mínimo y el máximo valor que


asume x, respectivamente.

Considerando sobre un eje los valores de la variable, podemos subdividir

OM
su recorrido en cuatro partes y obtener los cuartiles.

Por lo tanto, su determinación se hará como sigue:

a) ordenando los valores de la variable de acuerdo a su magnitud.


b) determinando el orden de cada cuartil:

.C
o1 = 1/4 (n + 1)

o2 = 2/4 (n + 1)
->

->
Q1 =

Q2 =
x o1

xo2 
 Me
DD
o3 = 3/4 (n + 1) -> Q3 = x o 3

Q1, será el valor de la variable que supera a no más del 25% de las obser-
vaciones y es superado por no más del 75% de las observaciones de la variable.
De igual modo con los otros dos cuartiles.
LA

Los deciles y percentiles se calculan de la misma forma, pero teniendo en


cuenta la fracción r/s. Estas medidas se utilizan para estudiar el comportamien-
to de la variable cuando la misma contiene valores atípicos que afectan la re-
presentatividad de la media aritmética.
FI

Ejemplo 6
Para obtener los cuartiles se ordenan de menor a mayor los valores de
la variable porcentaje del costo laboral para la rama 4:


Costos laboral / Costo total


Rama 4
3 o1 = 1/4 (n + 1) = 1/4 (11) = 2.75 -> Q1 = x 3 = 10
7
10 o2 = 2/4 (n +1) = 2/4 (11) = 6 ->
Q2 = 20 -> Me
10
15 o3 = 3/4 (n + 1) = 3/4 (11) = 8.25 -> Q3 = x 8 = 22
20
20 95
22
25
30
40

Aquí estamos redondeando el orden a 8, otra forma puede ser tomar el


promedio de los valores correspondientes al orden 8 y 9.

Este archivo fue descargado de https://filadd.com


La interpretación de estos resultados tiene que ver con su definición, el
cuartil uno será el valor de la variable (porcentaje del costo laboral) para el cual
habrá un 25% de empresas cuyo porcentaje es hasta 10, en tanto que en el 75%
restante el porcentaje es superior. De igual forma se interpretan los cuartiles
dos y tres. Más adelante veremos que con estas medidas podemos confeccio-
nar un diagrama llamado diagrama de caja y brazos que nos permitirá visualizar
el comportamiento de la variable y determinar su asimetría.

Hasta este punto se ha desarrollado el cálculo e interpretación de todas


las medidas de posición para la variable porcentaje del costo laboral para las
141 empresas de la muestra

OM
Utilizando Infostat, se procesaron los datos de la variable porcentaje
del costo laboral/costo total obteniendo las medidas de posición y
los cuartiles.

.C
DD
LA
FI


96

Se observa que el porcentaje promedio es de 30%, es decir que en pro-


medio el costo laboral por empresa representa el 30% del costo total y que

Este archivo fue descargado de https://filadd.com


Capítulo 2: Parámetros y estadísticos de las distribuciones de frecuencias

coincide con la mediana, lo que anticipa que la distribución está centrada en la


media y que es simétrica.
Los cuartiles uno y tres concentran el 50% de los valores de la variable,
quedando un 25% de observaciones por debajo del cuartil 1 y otro 25% de ob-
servaciones por encima del cuartil 3.

Actividad 6
Retomando la actividad 2, en la que se ha seleccionado una muestra de pedidos
de clientes, realizados en febrero/2015, a una empresa que fabrica un bien “X”
y se ha registrado la cantidad de unidades solicitadas de dicho bien.

OM
a) Calcule la mediana y compare el valor de esa medida con el valor calcu-
lado de la media aritmética, de haber diferencia explique brevemente
cual puede ser la causa de la misma.

b) Se pretende además determinar la cantidad máxima de pedidos del


25% de los clientes que menos demandan y la cantidad mínima deman-
dada del 25% de los clientes que más cantidad de pedidos realizaron en

.C
la muestra. Interprete cada valor calculado

c) ¿Qué porcentaje de clientes se encuentran entre los dos valores calcu-


lados en b?.
DD
Actividad 7
En relación a la Actividad 5, referida a montos de 12 cuentas no pagadas por
venta de libros. Se le solicita que:
LA

a) Calcule los cuartiles y marque en el histograma del gráfico 2 los valores


calculados sobre el eje que corresponda.

b) Analice las medidas marcadas en el gráfico indicando las características


observadas respecto del comportamiento de la variable. Considere el
FI

concepto de cada medida para interpretar adecuadamente.

2. Medidas de dispersión


La dispersión es una medida de distancia entre los valores individuales de la


variable y una medida de posición central o entre medidas de posición no cen-
tral. Es por ello que hay medidas de dispersión que estudian la concentración en
torno a un punto y otras que estudian rango o recorrido.

97
2.1 Varianza

Dentro de las medidas de dispersión la más importante es la Varianza,


dado que mide en el numerador de la fórmula, la distancia total mínima entre
los valores de la variable y su media aritmética, considerada al cuadrado.

Este archivo fue descargado de https://filadd.com


Al hablar de distancia mínima estamos refiriéndonos a la suma del cua-
drado de las diferencias entre los valores de la variable y su media, mínima por
la propiedad de la media aritmética que se refiere a la suma del cuadrado de los
desvíos respecto de la media. Esto indica que a mayor distancia total, habrá
mayor dispersión o heterogeneidad en los valores de la variable. La medida se
calcula mediante el promedio o media de la suma de los desvíos al cuadrado
respecto de la media aritmética.
Digamos entonces que es una medida adecuada de dispersión, en distri-
buciones de variables cuantitativas en las que la media aritmética es represen-
tativa.

En síntesis, la definición es:

Media aritmética del cuadrado de los desvíos entre los valores de la variable y

OM
su media.
N

Parámetro ∑ (x i − μ) 2
σ2 = i =1
N

2.1.1 Fórmula de cálculo

.C Si el numerador del segundo miembro de la igualdad anterior es resuelto


mediante el desarrollo del cuadrado del binomio que el mismo representa, se
tiene la siguiente fórmula con la que también se puede calcular la Varianza.
DD
2
N N
 N 
∑ [ xi− µ] ∑ xi2  ∑ xi
2

σ2 i 1
=
=
=
=i 1 =i 1
− 
N N  N 
 
 
Si desarrollamos el cuadrado del binomio:
LA

N N
− µ]∑ [x
∑ (xi2 − 2µ ∑ xi + µ 2 )
2
i
=
=
σ 2
=
i 1 =i 1=i 1

N N

Considerando sólo el término:


FI

2µ∑ x i = 2 Nµµ = 2 Nµ 2 N

∑x i
µ= i =1
⇒ Nµ = ∑ x i
N


Introduciendo sumatorio en cada término del desarrollo del cuadrado del


binomio queda:
N N

∑ [x i − μ ] ∑x − 2 Nµ 2 + Nµ 2
2 2
i
σ =
2 i =1
= i =1

N N

98 Llegamos a la fórmula alternativa del cálculo de la varianza:

σ 2 = μx 2 − (μx )2

Esta fórmula suele ser más simple para el cálculo manual.

Este archivo fue descargado de https://filadd.com


Capítulo 2: Parámetros y estadísticos de las distribuciones de frecuencias

2.1.2 Varianza de la muestra

En el caso de muestras, la Varianza se calcula con una corrección cuyo


significado tiene que ver con conceptos más avanzados de muestreo que no se
abordan en esta asignatura.

Su fórmula es:
nn

Estadístico i
2
∑ (x− x) ∑x 2
i − nx 2
=s=2 i 1 =i 1
=
n −1 n −1

OM
Para la variable porcentaje del costo laboral que fue utilizada en ejemplos
anteriores utilizando el software Infostat, se calcularon las medidas de
dispersión.
Nuevamente con el menú estadísticas se abre una ventana en la que se
debe asignar la variable y se solicita el cálculo de las medidas necesarias.

.C
DD
LA
FI


99

Este archivo fue descargado de https://filadd.com


Medidas de
dispersión

OM
.C Ejemplo 7
Consideremos una rama de actividad, papel e impresiones, para el
cálculo de la varianza mediante hoja de cálculo Excel, de la variable por-
centaje del costo laboral:
DD
Para una mejor comprensión X (x-M(x)) (x-M(x))^2
del significado del término
25 6,64 44,04
dispersión en el entorno de las
medidas descriptivas, se sugie- 7 -11,36 129,13
re a ingresar a la sección Mate- 40 21,64 468,13
LA

riales Recursos del aula virtual


15 -3,36 11,31
para ver dos audiovisuales que
explican el término. 20 1,64 2,68
20 1,64 2,68
10 -8,36 69,95
22 3,64 13,22
FI

30 11,64 135,40
10 -8,36 69,95
3 -15,36 236,04
202 1182,55


∑ (x
i =1
i − x) 2
1182.55
s2 = = = 118,25
n −1 10

La varianza de la muestra de empresas de la rama papel e impresiones es


118.25 %2 del costo laboral. La medida representa la distancia promedio al cua-
100 drado calculada respecto de la media, es por ello una medida de valores de dis-
tancia al cuadrado.

Este archivo fue descargado de https://filadd.com


Capítulo 2: Parámetros y estadísticos de las distribuciones de frecuencias

2.1.3 Propiedades de la varianza

• La varianza de una variable es una cantidad no negativa.

V(x) ≥ 0

Esto se debe a que en su cálculo se toman los valores de la variable al cuadrado.

• La varianza de una constante es cero

V(c) = 0
c: constante
Si xi = c y M(x) = c, entonces:

OM
k

∑ (c − c )
2
ni
=V( x ) = 0
i =1

lo que indica que no hay variabilidad alguna.

Verificación:

.C
Si x: 4, 4. 4
La media es 4 y la varianza:
3

∑ (x − x)2
DD
i
i =1 (4 − 4) 2 + (4 − 4) 2 + (4 − 4) 2
= =0
2 2

• La varianza una constante por una variable es la constante al cuadrado


por la varianza de la variable
LA

V(c . x) = c2 V(x)
c: constante

Si la variable es ahora cx y la media es la constante por la media de la variable,


entonces:
FI

∑ c.x − c.M ( x )  ni
2
i
V( c.x ) = i =1

n
k

∑ c ( x − M ( x ) )  ni
2
i


= i =1

n
k

∑c  xi − M ( x )  ni
2 2

= i =1

n
k

∑  x − M ( x )  ni
2
i
=c . 2 i =1

Verificación 101
Si x: 4, 5.6
La media es 5 y la varianza:
3

∑ (x
i =1
i − x)2
(4 − 5) 2 + (5 − 5) 2 + (6 − 5) 2
= =1
2 2

Este archivo fue descargado de https://filadd.com


Pero si a x la multiplicamos por 2
X’: 8,10,12 La media es 10 y la varianza:
3

∑ (x
i =1
i − x)2
(8 − 10) 2 + (10 − 10) 2 + (12 − 10) 2
= =4
2 2

Lo que equivale a:
V(c. x) = c2 V(x) 22 .1 = 4

• La varianza de la suma de una constante más una variable es la varian-


za de la variable.

OM
V(c + x) = V(x)
c: constante

Es decir la variabilidad de los datos no se modifica cuando se suma un es-


calar a la variable.

Demostrando para el caso en que sumo la constante (igualmente válido

.C
en caso de restarla):
k

∑ ( x + c ) − ( M( x ) + c )  ni
2
DD
i
V( x + c ) =i =1

Eliminando paréntesis en la base de la potencia del numerador del segun-


do término:
LA

∑(x + c − M( x ) − c ) ni
2
i
V( x + c ) =i =1

n
k

∑(x − M( x ) ) ni
2
i
V( x + c ) =i =1
FI

n
V (x)
V( x + c ) =


Actividad 8
Verifique la propiedad para un aumento constante de 3 unidades en una varia-
ble x con valores 4,5 y 6.

102 2.2 Desviación estándar

Esta medida de dispersión está asociada totalmente a la Varianza.


Se define como: la raíz cuadrada positiva de la Varianza.

Este archivo fue descargado de https://filadd.com


Capítulo 2: Parámetros y estadísticos de las distribuciones de frecuencias

N n

∑ (x − μ)
i=1
i
2
∑ (x − x)
i
2

DS(x) = σ = DS(x) = s = i =1
N n −1

Esta operación algebraica nos permite expresar el resultado en las mis-


mas unidades que la variable por lo tanto su interpretación es más fácil de reali-
zar.

Para la variable porcentaje del costo laboral de las 141 empresas la des-
viación estándar es:

σ = σ 2 = 213.98 = 14.63 %

OM
Considerando a la Media Aritmética con un valor de 30,56 %, podemos
concluir que en este caso y atendiendo a la naturaleza del problema hay baja
dispersión o, en otros términos, los datos están concentrados en torno a la me-
dia, se hallan a poca distancia de ésta, lo que indicaría que son homogéneos.

.C
2.3 Coeficiente de variación

Es una medida relativa de dispersión que se calcula como el cociente en-


tre la Desviación Estándar y la Media Aritmética.
DD
Se utiliza fundamentalmente cuando se pretende comparar, en cuanto a
su dispersión, distribuciones expresadas en diferentes unidades de medida,
mostrando cuál de ellas presenta menor dispersión ó mayor concentración o
bien, datos más homogéneos respecto de su media, lo que en definitiva confir-
ma la representatividad del promedio calculado para esos datos.
LA

DS( x )
CV( x ) =
M( x )

Si se multiplica por 100 se expresa como porcentaje e indica obviamente


el porcentaje de dispersión de la variable en torno a su media.
FI

En el ejemplo de porcentaje de costo laboral, el coeficiente de variación


será

s 14,63
CV= = = 0.4786


y 30,56

El valor del coeficiente de variación puede multiplicarse por 100 para ex-
presarlo en porcentajes e interpretar que la dispersión relativa del porcentaje
del costo laboral en torno a la media es 47.86%, lo que refleja una dispersión
inferior al 100%. Además de este análisis, la relevancia de la medida radica en
que es abstracta lo que la hace prescindir de unidad de medición, permite com-
parar variables expresadas en distintas unidades de medición, indicando cuál es
la variable que presenta datos más homogéneos para el caso en el CV sea me- 103
nor.

Este archivo fue descargado de https://filadd.com


Actividad 9
Retomando la actividad 2, en la que se ha seleccionado una muestra de pedidos
de clientes, realizados en febrero/2015, a una empresa que fabrica un bien “X”
y se ha registrado la cantidad de unidades solicitadas de dicho bien.

a) Calcule el recorrido. Emita una opinión respecto del valor calculado.

b) Calcule la varianza y desviación estándar de la variable. Emita una opi-


nión sobre cada medida en relación al comportamiento de la variable.

c) Calcule la desviación estándar si para el mes de marzo se espera que


todos los clientes soliciten 4 unidades más del bien “X” con respecto a
los pedidos de febrero.

OM
d) En otra situación, si para el mes de marzo se espera que todos los clien-
tes reduzcan en un 15 % el número de unidades del bien “X” solicitadas
con respecto a febrero, ¿cuál sería el valor de la varianza en el mes de
marzo?

Actividad 10

.C
En relación a la actividad 3, en la que se ha relevado el sueldo del entrevistado
de la encuesta permanente de hogares para las categorías patrón y cuenta pro-
pia, se le solicita a Ud. que:

a) Calcule el rango para cada categoría y analice el significado del valor.


DD
b) Calcule la varianza, desviación estándar de cada categoría y emita una
opinión en relación al significado de estos valores.

c) Calcule el coeficiente de variación de cada categoría interprete cada va-


lor comparando las distribuciones.
LA

d) Suponga que se incrementa el sueldo en 50$ para cada persona en ca-


da categoría, calcule la varianza del sueldo de cada categoría después
del incremento. (Aplique propiedades).
FI

e) Considere que en lugar de incrementar el sueldo en 50$, se incremente


un 18%. Calcule la desviación estándar del sueldo de cada categoría
después del incremento. (Aplique propiedades).

f) Para los ítem d y e, explique el efecto que produce el cambio en la varia-




ble, sobre el coeficiente de variación.

2.4 Recorrido y Recorrido Intercuartil

El recorrido es la diferencia entre el valor máximo y el mínimo de la variable.

104 Se basa en la distancia o rango de los valores y no en una concentración


en torno a un punto. Permite interpretar que la dispersión es alta en la medida
que los valores de la variable tengan amplio rango de variación, en consecuen-
cia, al no considerar en el cálculo todos los valores de la variable, es afectada
por valores extremos y, de este modo, menos precisa que la varianza.

R = VM - Vm

Este archivo fue descargado de https://filadd.com


Capítulo 2: Parámetros y estadísticos de las distribuciones de frecuencias

El Recorrido Intercuartílico es una medida de dispersión útil para determinar la


concentración del 50% central de los datos.

Se calcula mediante la diferencia entre el tercer y primer cuartil. Se aplica especialmente en


control de calidad estadístico,
para confeccionar cartas de
RI = Q3 – Q1
control de variables cuantitati-
vas en procesos productivos
Es una de las medidas que analizan la dispersión en base al rango de los como por ejemplo cuando se
valores considerados en el cálculo, por lo que no tiene en cuenta a todos los analiza si la producción de una
valores de la variable. pieza, en cuanto a sus dimen-
siones, cuenta con una variabi-
lidad que responde a los están-
dares de variabilidad del pro-

OM
3. Diagrama de caja y brazos ducto y no está en riesgo de
producir defectuosos.
Esta representación es confeccionada con la mediana y los cuartiles. Con-
siste en marcar sobre un eje real los valores de la variable, el que puede ser po- Es el caso donde mediante una
sicionado en forma horizontal o vertical (Infostat hace diagramas de caja y bra- muestra de 5 unidades, en las
zos verticales). que tomamos el diámetro de
cada pieza, la diferencia entre
el mayor y menor diámetro
Con los cuartiles se forma una caja cuyos lados son el cuartil 1 y 3 y la

.C
mediana se marca en el interior de la caja, la que representa la distribución del
50 % central de los datos. A ambos lados de la caja quedan los brazos, los que
determinan en definitiva si hay deformaciones horizontales.
Para construir los brazos se utiliza una regla empírica utilizando el Reco-
será el rango, tomando una
determinada cantidad
muestras podremos ver en qué
forma se modifica el rango y
de
DD
habrá un indicio de la variabili-
rrido Intercuartílico, definiendo dos límites: límites internos y externos. Estas dad del proceso, obviamente
barreras permiten establecer un criterio para decidir si los valores extremos de mientras mayor valor asume el
una variable son atípicos o extremadamente atípicos en relación a los demás. rango, más riesgo habrá de
producir fuera de los estánda-
Los Límites Internos, al interior del cual se consideran valores normales res establecidos.
de la variable, son determinados a una distancia de 1.5 veces el recorrido inter-
LA

cuartil, respecto a los cuartiles primero y tercero respectivamente.

[ Q1 - 1,5 RI ; Q1 + 1,5RI ] = [LIO ; LSO]

Cuando existen valores de la variable que están fuera de las barreras in-
FI

ternas significa que esos valores son alejados de los más homogéneos y se pue-
den considerar como atípicos, comúnmente identificados en las salidas de los
software con una letra O, por su designación en inglés, Outliers.


105

Cuando esos valores están muy alejados son considerados extremos, los
que se identifican calculando los llamados límites externos.

Este archivo fue descargado de https://filadd.com


Los Límites Externos se calculan a una distancia de 3 veces el recorrido
intercuartil respecto a los cuartiles primero y tercero.

[ Q1 - 3 RI ; Q1 + 3RI ]= [LIE ; LSE]

OM
.C
DD
Los valores de la variable que quedan entre los límites internos y externos
se consideran valores atípicos. Cuando existen valores de la variable que están
fuera de las barreras externas significa que esos valores son muy alejados de
los más homogéneos y se pueden considerar como extremadamente atípicos.
Generalmente en las salidas de computación estos valores son marcados con
un asterico o con la letra E.
LA

La siguiente ilustración muestra el diagrama de caja y brazos para dife-


rentes tipos de distribuciones.
FI


Observamos que en la distribución Nº 1 ambos brazos son iguales y la


mediana se ubica en el centro de la caja. Veremos más adelante que estas dis-
tribuciones son llamadas simétricas respecto de su forma, mientras que en la
distribución Nº 2 el brazo derecho es mayor que el izquierdo y, opuestamente
106 en la distribución Nº 3 el brazo izquierdo es más largo que el derecho. Estas dos
últimas distribuciones se definen respecto de la forma como asimétricas dere-
cha e izquierda respectivamente.

También podemos analizar la dispersión, ya que el tamaño de la caja re-


presenta la amplitud intercuartil y por ende determina la concentración o dis-
persión del 50% central de los valores de la variable.

Este archivo fue descargado de https://filadd.com


Capítulo 2: Parámetros y estadísticos de las distribuciones de frecuencias

Por lo tanto, si la caja es más ancha indicará que ese conjunto central de
observaciones de la variable es más disperso. La línea que se ubica dentro de la
caja indica la posición de la Mediana.

En los siguientes gráficos se presenta el diagrama de cajas y brazos


de la variable Porcentaje del costo laboral obtenidos con Infostat
para la muestra total y para empresas de las ramas 4 y 6 (ver
instructivo de Infostat).

OM
.C
DD
LA
FI


107

Este archivo fue descargado de https://filadd.com


Actividad 11

a) Con los datos de la actividad 5, confeccione el diagrama de caja y bra-


zos y emita una opinión sobre el comportamiento de la variable, anali-
zando el diagrama.

b) Explique cómo analiza la existencia de valores atípicos, que significa eso


para la distribución y determine si para la variable cantidad de pedidos
hay valores extremos o atípicos de demanda.

Actividad 12

OM
En relación a la actividad 3, en la que se ha relevado el sueldo de dos muestras
de la encuesta permanente de hogares referidas a categorías, patrón y cuenta
propia. Se le solicita a Ud. Que:

a) Confeccione el diagrama de caja y brazos para la variable sueldo en ca-


da muestra y analice el comportamiento de la variable, comparando
ambas situaciones.

.C
b) Explique cómo analiza la existencia de valores atípicos, que significa eso
para la distribución y determine si para la variable cantidad de pedidos
hay valores extremos o atípicos de la variable sueldo en cada muestra.
DD
Actividad 13
El siguiente Gráfico muestra los resultados del procesamiento con Infostat, de
la variable peso expresado en kg. de 100 personas adultas:
LA

MEDIDAS DESCRIPTIVAS

n Media Mediana Desv. Est. Min. Max. Q1 Q3


100 65.35 63.50 11.21 47 100 57 72

DIAGRAMA DE CAJA Y BRAZOS


FI

---!---------!---------!---------!---------!---------! peso
50 60 70 80 90 100


a) Marque en el diagrama de caja y brazos: la mediana y los cuartiles e in-


terprete cada medida. Analice.

b) Determine el recorrido intercuartil y emita una opinión respecto del sig-


nificado de este valor en la serie.

108 c) Considera que hay personas con peso atípico en la serie analizada. Jus-
tifique su respuesta.

Este archivo fue descargado de https://filadd.com


Capítulo 2: Parámetros y estadísticos de las distribuciones de frecuencias

4. Otras medidas
Bajo esta denominación se incluyen los momentos, medidas de posición
útiles para calcular las demás medidas de posición, dispersión y forma antes
mencionadas.

Los momentos pueden ser naturales o centrados.

4.1 Momentos naturales

Los llamados momentos naturales se definen como:

OM
La media aritmética de la potencia e-résima de la variable.

µr' ( x ) = M( x r )

Los momentos naturales de orden 0,1,2 son los siguientes:

.Cµ0' ( x ) M(
=
µ= '
1( x )
= x0 ) 1
=
M( =
x1 ) M( x) µ
DD
µ2 ( x ) = M( x )
' 2

Por lo tanto relacionando el momento natural de orden uno y el de orden


dos obtenemos la varianza de la siguiente forma:

µ2' − ( µ1' )2 =
σ2
LA

4.2 Momentos centrados

Los momentos centrados, están definidos como:


FI

La media de la diferencia entre los valores de la variable y la media aritmética,


elevada a la potencia e-résima.


µ=
r (x) M( x − µ )r

Los momentos centrados de orden 0,1,2 son entonces los siguientes:

µ0 ( x )= M( x − µ )0 = 1
µ 1 ( x ) = M( x − µ)1 = 0 por propiedad de Media Aritmética

µ2 ( x )= M( x − µ )2 = σ 2 Varianza
109

5. Medidas de forma
Las medidas de forma, al igual que las medidas de posición y dispersión,
determinan el comportamiento general de la variable.

Este archivo fue descargado de https://filadd.com


Se pueden dividir en análisis de comportamiento horizontal o asimetría, o
bien vertical llamado curtosis.

En cuanto a la asimetría, las distribuciones pueden ser:


• Asimétrica derecha
• Asimétrica izquierda
• Simétrica.

Y en cuanto a la curtosis o puntiagudez:


• Leptocúrtica
• Mesocúrtica
• Platicúrtica

OM
La siguiente imagen muestra la forma para diferentes distribuciones:

a. ASIMETRÍA b. CURTOSIS

a1. Asimétrica positiva b1 . Leptocúrtica

0,24

.C
Frecuencia Relativa

0,09
0,18

Frecuencia Relativa
0,07
0,12
0,05
DD
0,06
0,02
0,00
0,00 3,81 7,62 11,44 15,25 0,00
Variable 3,00 12,25 21,50 30,75 40,00
Variable

a2. Asimétrica negativa. b2. Mesocúrtica


LA

0,09
2,46
Frecuencia Relativa
f recuencia relativa

0,07
1,85
0,05
FI

1,23
0,02
0,62

0,00 0,00
0,00 0,25 0,50 0,75 1,00 3,00 12,25 21,50 30,75 40,00
Variable
Variable


a3. Simétrica b3. Platicúrtica

0,09
0,16
Frecuencia Relativa
Frecuencia Relativa

0,07
0,12

0,08 0,05

110
0,04
0,02
0,00
-2,25 3,88 10,00 16,12 22,25
0,00
Variable 3,00 12,25 21,50 30,75 40,00
Variable

En la imagen a1 observamos una distribución asimétrica derecha dado


que la deformación se produce a la derecha de la misma, también observamos

Este archivo fue descargado de https://filadd.com


Capítulo 2: Parámetros y estadísticos de las distribuciones de frecuencias

que los datos se concentran a la izquierda. En la imagen a2 la distribución es


asimétrica izquierda con una situación totalmente opuesta a la de la imagen a1.
En la imagen a3 la distribución es simétrica lo que significa que los datos se
encuentran distribuidos de manera equitativa a ambos lados de la Media Arit-
mética.

En lo atinente a la curtosis, se define como el grado de concentración de Para una mejor comprensión
los valores de la variable en torno al modo, mientras mayor concentración más del significado del término
puntiaguda se muestra la distribución tal como se ve en la imagen b1, llamándo- dispersión en el entorno de las
se en este caso Leptocúrtica, es Mesocúrtica cuando está menos concentrada medidas descriptivas, se su-
giere a ingresar a la sección
alcanzando una altura media como muestra la imagen b2 y es Platicúrtica en el
Materiales Recursos del aula
caso en que los valores de la variable se dispersan hasta alcanzar una forma virtual para ver la producción
aplanada en la distribución como se observa en b3 . audiovisual llamada “Medidas
de Simetría y Curtosis” que

OM
explican el término.
5.1 Coeficientes de asimetría

El coeficiente de asimetría se calcula por diversos procedimientos y se


simboliza como CA.

• Coeficiente de asimetría de PEARSON, basado en la relación empírica

.C
entre las medidas de posición central, permite determinar una medida
relativa de la distancia que se presenta entre ellas cuando la distribu-
ción es asimétrica. Su valor es cero cuando la distribución es simétrica
en virtud de que las tres medidas son idénticas en este tipo de distribu-
DD
ciones.

Para la población es:


µ − Mo 3( µ − Me )
=Ca =
σ σ
LA

Y en caso de ser una muestra es:

x − Mo 3( x − Me )
=Ca =
s s
FI

• Coeficiente basado en momentos centrados


N

∑( x
i =1
i − µ )3
µ3


= g=
Ca N =
σ
1
( µ 22 )3
3

El coeficiente de asimetría muestral es:


n

∑( xi =1
i − x )3

= g=
Ca n
1
s3
111
El coeficiente de asimetría puede asumir valores mayores, iguales o me-
nores que cero. Si es cero la distribución es perfectamente simétrica pero si es
positivo es asimétrica positiva o si es negativo asimétrica negativa.

Este archivo fue descargado de https://filadd.com


>0 (Asimetría derecha o positiva)
Ca =0 (Simétrica)
< 0 (Asimetría izquierda o negativa)

5.2 Coeficientes de curtosis

Las fórmulas más conocidas para el cálculo del coeficiente de curtosis,


simbolizado como Ck son:

• Coeficiente basado en los momentos centrados

∑( x − µ )4

OM
i
i =1

N µ4
=
Ck =
−3 −3
σ 4
( µ22 )4

El coeficiente de curtosis muestral es:


n

∑( x − x )4

.C
i
i =1

=Ck n −3
s4
DD
Estos coeficientes pueden asumir valor mayor, igual o menor que cero,
indicando que la distribución es alta (leptocúrtica), media (mesocúrtica) y baja
(platicúrtica), respectivamente.

Utilizaremos la variable gasto en movilidad mensual de la base


LA

“alumnos.idb” para realizar los cálculos de las medidas de asimetría y


curtosis utilizando Infostat. VER INSTRUCTIVO DE INFOSTAT
Se observa que el coeficiente de asimetría obtenido con la fórmula de los
momentos asume el valor 3.6, lo cual significa que la variable tiene asimetría
derecha, esto es porque el valor está por encima del valor 0 que indica un
comportamiento simétrico para la variable. Por otra parte observamos también
FI

que la media es mayor que la mediana, y eso se debe a que la media se ve


afectada por los valores de la variable ubicados en el extremo derecho de la
distribución, que es precisamente donde se produce la caída o deformación
horizontal.


112

Este archivo fue descargado de https://filadd.com


Capítulo 2: Parámetros y estadísticos de las distribuciones de frecuencias

Utilizando la fórmula de Pearson para calcular el coeficiente de asimetría


se obtiene:

3(189.91 − 135 )
=Ca = 0, 67
245.25

El valor 0,67 del coeficiente de asimetría de Pearson indica también asi-


metría derecha para la variable. No obstante, cada coeficiente de asimetría cal-
culado según la fórmula que corresponda dará numéricamente un valor diferen-
te, pero el sentido de la asimetría como derecha o izquierda será igual cualquie-

OM
ra sea el coeficiente que utilicemos.

En cuanto a la curtosis, se puede observar que la variable en estudio pre-


senta una distribución leptocurtica, es decir alta. Debe tenerse en cuenta que
esta medida de forma sólo refleja una alteración en la distribución debido a la
altura, lo cual en términos de la variable, estaría indicando que la mayor con-
centración de los valores de la variable tiene una alta frecuencia o en otros tér-
minos un alto porcentaje de valores de la variable están concentrados en ese
tramo.

.C
Gráficamente las dos medidas de forma pueden verse reflejadas en el
histograma de la Gráfico 3, donde la ubicación de las medidas de posición res-
DD
ponde a la marcada asimetría que la variable presenta. Esto nos lleva a relacio-
nar las medidas de posición central y las de forma.

Gráfico 3
Histograma de la variable gasto en movilidad mensual
LA
FI


113
La distancia entre las medidas de posición central media, mediana y mo-
do permite establecer si la distribución es simétrica o asimétrica. En las simétri-
cas las tres medidas coinciden aproximadamente, mientras que en distribucio-
nes asimétricas son diferentes. Estas relaciones se ilustran en las siguientes
imágenes.

Este archivo fue descargado de https://filadd.com


Distribución asimétrica derecha
0,24

Frecuencia Relativa
0,18

0,12

0,06

0,00

OM
0,00 3,81 7,62 11,44 15,25
Variable

Mo < Me < M(x)

Distribución asimétrica izquierda


2,30

.C
Frecuencia Relativa

1,73

1,15
DD
0,58

0,00
0,00 0,25 0,50 0,75 1,00
Variable

M(X) < Me < Mo


LA

Distribución simétrica
0,10
Frecuencia Relativa

0,08
FI

0,05

0,03

0,00
0,64 10,32 20,00 29,68 39,37


Variable

M(X) = Me = Mo

Considerando las definiciones de cada medida, vemos que en una distri-


bución asimétrica derecha el modo está más cerca del origen del sistema de
coordenadas debido a que es el valor de mayor frecuencia, la mediana estará en
el centro por ser el valor central del conjunto ordenado de valores de la variable,
114 y la media aritmética se verá afectada por los valores que se encuentran en el
extremo derecho de la distribución. Igual razonamiento podemos aplicar en
distribuciones asimétricas negativas y simétricas.

Este archivo fue descargado de https://filadd.com


Capítulo 2: Parámetros y estadísticos de las distribuciones de frecuencias

Actividad 14
Es importante para diagramar actividades, los gastos que las mismas pueden
ocasionar en los bolsillos de los estudiantes, es por eso que se analiza el gasto
en libros y movilidad, utilizando información de la base de datos de “alumnos.
Idb”. Relacione las medidas descriptivas de cada variable y los gráficos de caja y
brazos e histogramas para responder lo que se solicita:

a) Analice el valor de las medidas de forma para cada variable y compare


emitiendo una opinión respecto en tal sentido respecto de cada varia-
ble.

OM
b) Relacione su opinión con el diagrama de caja y brazo e indique qué ob-
serva en ese gráfico en relación a la opinión emitida.

c) Analice los histogramas y vincule su análisis a los ítems a y b.

Medidas descriptivas

.C
DD
LA
FI


115

Este archivo fue descargado de https://filadd.com


Histográmas

OM
.C 6. Distribuciones bidimensionales
DD
En las secciones anteriores presentamos el cálculo de medidas para des-
cribir una variable. Ahora introducimos medidas que permiten describir numé-
ricamente la relación lineal entre dos variables cuantitativas.

Las distribuciones bidimensionales son las que se refieren al tratamiento


LA

simultáneo de dos variables, por ejemplo, estatura y peso de un conjunto de


personas, ingresos mensual y gastos mensuales por familia en un grupo de fa-
milias, rendimiento por hectárea e inversión en fertilizantes, etc.

En estos ejemplos y en todos los que se puedan presentar, lo importante


FI

es saber si esas variables se relacionan o vinculan matemáticamente mediante


una función lineal, en otros términos si es factible que logremos una función
Para introducirnos en el tema, mediante la cual dando valores a una de las variables estamos generando valo-
se sugiere a ingresar a la sec-
res de la otra estimativamente parecidos a los verdaderos valores que la varia-
ción Materiales Recursos del
aula virtual para ver la produc- ble asume.


ción audiovisual llamada “Co-


varianza y Correlación”. Para cumplir ese objetivo utilizaremos la covarianza, que indica si hay
asociación lineal entre las variables y el coeficiente de correlación lineal de
Pearson que indica la intensidad o grado de asociación.

6.1 Covarianza y Coeficiente de Correlación de Pearson

116
Es una medida de dispersión conjunta entre dos variables cuantitativas que
indica la presencia de asociación lineal directa o inversa entre las mismas.

La siguiente imagen permite observar la medida vinculada al diagrama de dis-


persión.

Este archivo fue descargado de https://filadd.com


Capítulo 2: Parámetros y estadísticos de las distribuciones de frecuencias

OM
Se define como:

M [( x − M( x ))( y − M( y ))]
Cov( x,y ) =

.C ∑( x i − M( x ))( y i − M( y ))
Cov( x,y ) = i =1

n
DD
Realizando el producto de los binomios y operando se llega finalmente a
que:

n n n

∑ xi y i=∑ xi ∑ y i
Cov( x,y ) =
=i 1
− i 1 =i 1
=
M( xy ) − M( x )M( y )
n n n
LA

Si las variables son independientes entonces la Cov(x,y) es cero. Su rango


de variación oscila entre infinito negativo y positivo y su significado depende del
signo: si es positivo, la asociación entre las variables es directa y de lo contrario
es inversa.
FI

Si x,y son independientes Cov (x,y) = 0

Si x,y están asociados en forma directa Cov (x,y) › 0




Si x,y están asociados en forma inversa 

La Covarianza sólo nos indica el sentido de la relación. Para medir el gra-


do de relación, es necesario calcular una medida estandarizada denominada
Coeficiente de correlación lineal de Pearson
117
El Coeficiente de correlación lineal de Pearson mide la intensidad de
asociación lineal entre las variables. Puede asumir valores entre -1 y 1 y se calcu-
la dividiendo la covarianza por el producto de las desviaciones estándar.

COV ( X ,Y )
r =
DS( x ).DS( y )

Este archivo fue descargado de https://filadd.com


Cuando el valor del coeficiente de Pearson (r) es 0, indica que no hay
asociación lineal entre las variables analizadas, si su valor es negativo y próximo
a 1, indica asociación lineal directa o positiva e intensa en la medida que más se
aproxima a 1, similarmente si su valor es negativo indica asociación inversa o
negativa y mientras más se acerca a 1 más intensa será la asociación lineal.

En la siguiente imagen se puede observar cuatro situaciones extremas de


aplicación del coeficiente r de Pearson.

OM
.C
DD
Para aclarar este concepto, consideraremos la tasa de desempleo (x) y la
tasa de renuncia (y) para 13 regiones en un momento determinado del tiempo.
Se calculará la covarianza y el coeficiente de correlación de Pearson y se inter-
LA

pretará su resultado.

Procesando los datos con Infostat se obtienen los resultados de la


matriz de covarianza y la matriz de correlación.
FI


118

Este archivo fue descargado de https://filadd.com


Capítulo 2: Parámetros y estadísticos de las distribuciones de frecuencias

OM
.C
DD
LA

Covarianza (x,y)
FI

Coeficiente de
correlación (x,y)


En base a los resultados obtenidos puede concluirse que hay asociación


inversa entre las variables analizadas. Esto, en otros términos, significa que a
medida que la tasa de desempleo aumenta, la tasa de renuncia disminuye. Por
otra parte ante un coeficiente de correlación de Pearson de -0,82, se interpreta
que la asociación lineal es intensa. 119
• Cuando las variables son dependientes y se aplica la propiedad de una
suma o diferencia de variables, al calcular la varianza aparece la cova-
rianza, tal como se puede apreciar en la siguiente relación:

V( x y) = V(x) + V(y) 2 Cov (x,y)

Este archivo fue descargado de https://filadd.com


Por definición de varianza:
n

∑ ( x + y i ) − ( M ( x ) + M( y ) ) 
2
i
V( x + y ) =i =1

n
n

∑ ( x − M ( x ) ) + ( y i − M( y ) ) 
2
i
i =1

Resolviendo el cuadrado del binomio del numerador del segundo término:

∑ (( x )
n
− M ( x ) ) + 2 ( xi − M ( x ) ) ( y i − M( y ) ) + ( y i − M( y ) )
2 2
i
V( x + y ) =
i =1

OM
Distribuyendo el sumatorio y n:

n n n

∑(x − M ( x )) ∑(y − M ( y )) ∑(x − M ( x ) ) ( y i − M( y ) )


2 2
i i i
=
V( x + y )
=i 1=i 1
+ =i 1
+ 2.
n n n

.C Por lo que:

V ( x + y )= V ( x ) + V ( y ) + 2.Cov ( x,y )
DD
Observemos que, si la covarianza es cero, indica que hay indepen-
dencia entre las variables "x" e "y" con lo que la varianza de la suma o
diferencia de las variables "x" e "y" será igual a la suma de las varianzas
de cada una de ellas.

V( x ± y) = V(x) + V(y)
LA

Actividad 15
Considerando los datos de la base EPH.idb, un aspecto importante es la relación
entre las horas trabajadas y la antigüedad en el empleo del jefe de hogar. A par-
tir de los siguientes resultados, responda:
FI

a) La covarianza, interprete e indique el significado del valor.


b) Indique a qué medida corresponde cada valor de la diagonal principal.
c) La matriz de correlación, interprete cada valor e indique el significado
del valor.


120

Este archivo fue descargado de https://filadd.com


Capítulo 2: Parámetros y estadísticos de las distribuciones de frecuencias

7. Actividades de aprendizaje
Actividad 16
Con los datos de la base EPH, se ha analizado la variable sueldo, que representa
el ingreso de las personas consultadas en la muestra. Se ha considerado para el
análisis descriptivo el ingreso de Empleadores y trabajadores por su cuenta, las
medidas descriptivas para el ingreso de cada una de esas categorías, se mues-
tra en tabla 12:

Tabla 12. Medidas Resumen

Medidas
Cuenta
variable Empleador
propista

OM
ingreso
n 9 21
Media 1280 737,14
Var(n-1) 394075 237401,43
Mín 370 240
Máx 2200 2100
Mediana 1300 650

.C
Q1 970 320
Q3 1500 870
Asimetría 0,03 1,53
DD
a) Calcule la media general (varones y mujeres) del ingreso de ambas ca-
tegorías.
b) Calcule la desviación estándar del ingreso de cada categoría.
c) Calcule el coeficiente de variación, para cada grupo, interprete y com-
pare.
LA

d) Calcule el recorrido intercuartil para cada categoría y compare interpre-


tando adecuadamente la medida.
e) Indique observando la tabla de medidas resumen, ¿qué distribución
presenta mayor asimetría y cuál es el sentido de la misma?
f) Calcule media y varianza del ingreso para la categoría empleadores,
luego de una disminución del 20% debido a devaluaciones monetarias.
FI

(Aplique propiedades).

Actividad 17
Retomando la actividad 20 de la Unidad 1, se le solicita que analice la variable
mediante un análisis descriptivo: medidas de posición, dispersión y forma, in-


terpretando el significado que le atribuye a cada una.

Actividad 18
Conforme a la actividad 23 de la Unidad 1, en la que para 15 empresas se relevó
el precio y el margen de utilidad de un producto.

Calcule con Infostat la matriz de covarianza y correlación e interprete cada


valor estableciendo un vínculo con el gráfico a que hace referencia la actividad 121
en la unidad 1.

Actividad 19
Conforme a la actividad 24 de Unidad 1, referida a una heladería que cuenta con
dos sucursales en la Ciudad de Córdoba, una ubicada en la zona Norte y otra

Este archivo fue descargado de https://filadd.com


ubicada en la zona Sur. A continuación se presenta información sobre el número
de pedidos telefónicos recibidos por día, para una muestra aleatoria de 20 días:

Zona
4 6 7 5 5 6 7 4 8 6 8 5 7 6 7 5 6 6 7 4
Norte
Zona
4 6 5 3 6 3 5 6 5 6 4 4 5 6 6 2 3 4 5 6
Sur

a) Para cada sucursal:


Calcule las medidas descriptivas y analice cada variable

b) Efectúe comparaciones

Actividad 20

OM
A continuación se presentan los precios de venta (en miles de $) de 30 casas de
dos zonas residenciales de la Ciudad de Córdoba que fueron utilizados en la
actividad 25 de la Unidad 1.

90 116 120 95 114 97 121 108 102 91


Zona
A 107 99 92 118 100 96 98 110 104 125
100 93 105 112 96 113 100 95 105 129

B
.C
Zona
100
134
121
148
116
145
130
131
128
118
109
117
135
126
136
125
112
122
110
126
119
132
105
130
125
150
125
115
119
133
DD
Para cada zona:
Calcule las medidas de posición dispersión y forma y analice cada distribución
emitiendo una opinión en relación a las características estadísticas de los pre-
cios de venta de las viviendas en cada zona, es decir, los precios más altos, los
más variables, la zona que presenta valores muy diferentes al promedio, etc.
LA

Relacione las interpretaciones que Ud. Realiza en esta actividad con las que
realizó en la unidad 1.

Actividad 21
Un aspecto relevante para las empresas es la cantidad de personal que ocupan,
FI

con el propósito de incentivar a incorporar más empleo en las empresas, es de


interés oficial analizar esa variable por sector de la economía. Los datos proce-
sados con las medidas descriptivas se muestran en tabla 13.

Tabla 13. Medidas descriptivas de variable cantidad de personal




PRODUCTOS
DE ORIGEN PRODUCTOS OTRAS IN-
MEDIDA NO METÁLI-
AGROPECUARIO METÁLICOS DUSTRIAS
COS
n 49 36 50 13
Media 33,63 27,67 35,36 58,38
D.E. 40,81 41,19 47,61 83,7
CV 121,33 148,88 134,65 143,35
122 Mín 3 3 4 6
Máx 191 168 214 280
Q1 10 6 11 17
Asimetría 2,35 2,62 2,56 2,2
Kurtosis 4,78 5,23 5,5 2,23

Este archivo fue descargado de https://filadd.com


Capítulo 2: Parámetros y estadísticos de las distribuciones de frecuencias

a) Analice la variable en cada sector e indique en que sector el promedio


es más representativo.
b) Indique si en algún sector hay cantidad de personal muy diferente para
algunas empresas, es decir valores atípicos. Fundamente
c) ¿En qué sector considera Ud. que se debería promover más contrata-
ción de personal?
d) Se ha efectuado el análisis conjunto de las variables cantidad de perso-
nal y costo laboral sobre costo total. Los datos se transcriben en tablas
14 y 15.

Tabla 14. Matriz de covarianzas

personal costos lab/costo total


personal 2306,03 -82,87

OM
costos lab/costo total -82,87 201,06

Tabla 15. Matriz de correlación

personal costos lab/costo total


personal 1 -0,12
costos lab/costo total -0,12 1

.C
Analice la información y emita una opinión sobre la relación lineal que puede
existir entre las variables.
DD
8. Referencias Bibliográficas
LA

- Berenson, M y Levine, D (2003) Estadística Básica en Administración. Con-


ceptos y Aplicaciones. 6º Edición Prentice Hall.

- Díaz Margarita ….[et.al.] (2004) Estadística I: Guía de Estudio. -1ra Ed. Córdo-
ba Asociación Cooperadora de la Fac. de Cs. de la U.N.C., 2009.338 páginas
27x21 cm ISBN 978-987-1436-21-7.
FI

- Peña, Daniel (2001) Fundamentos de Estadística. Editorial Alianza.

- Saino Martin (2009). Estadística Descriptiva. Material de estudio y aplicacio-


nes prácticas correspondiente a los Capítulos I, II del programa de Estadística I.


Asoc Coop F.C.E. (U.N.C.). ISBN: 978-987-1436-20-0.

123

Este archivo fue descargado de https://filadd.com


Soluciones y respuestas al Capítulo 2
Guía de Estadística

Actividad 1:

A cargo del alumno.

Actividad 2:

OM
a) Medidas resumen con Infostat

Variable n Media Mediana


xi 14 23,43 22,50

.C
Interpretación:
El promedio de unidades solicitadas de él bien analizado es de 23 unidades,
para la muestra de 14 clientes.
Hay 7 clientes (50%) que solicitaron menos de 23 unidades.
DD
Hay dos valores modales, correspondientes a los valores más frecuentes que
son de 16 y 25 unidades, respectivamente.

b) ∑ (x i − M(x )) = 0

Para ello se utilizó el Excel.


LA

xi (xi- promedio)
10 -13,43
12 -11,43
FI

14 -9,43
16 -7,43
16 -7,43
18 -5,43


20 -3,43
25 1,57
25 1,57
27 3,57
30 6,57
30 6,57
35 11,57
124
50 26,57
Total 0,00

Este archivo fue descargado de https://filadd.com


Soluciones y respuestas al Capítulo 2 – Guía de Estadística

c) Aplicando propiedades de la Media aritmética.

Y=x+4

M(y) = M( x +4 )
= M(x) + M(4)
= 23,43 + 4

M(y) = 27,43

d) Aplicando propiedades de la Media aritmética.


Y= X – 0,15 X
= X (1 – 0,15) (extraemos factor común)
Y = x. 0,85

OM
M( Y) = M( x. 0,85 )
= 0,85. M( x)
= 0,85 . 23,43

M(y) = 19,92

Actividad 3
a)

.C
Muestra tamaño: 9 personas (patrones).
Muestra tamaño: 21 personas (Cuenta propia).
DD
b) Monto total
Monto total de sueldo de los 9 patrones analizados es de $11520.
Monto total de sueldo de los 21 cuentapropistas analizados es de $15480.

c) Promedios
LA

Patrón Cuenta Propia


Promedio 1280 737,14

El promedio de sueldo de los 9 patrones es de $1280, mientras que de los 21


FI

cuentapropistas es de $ 737,14, la diferencia (a pesar de que los montos totales


no difieren tanto) se debe a que las muestras son considerablemente diferen-
tes.

d) Se define la nueva variables Y = x - 0,20.x = x. (1-0,20) = 0,80. X




M (Y) = M (0,80. x)
=0,80. M(x)

Entonces para cada muestra los nuevos valores de promedio bajo el efecto in-
flacionario serán:

Patrón Cuenta Propia


Promedio 1280 737,14
Nueva media 1024 589,71 125

e) Se define la nueva variable.


Y = x + 50
M(y) = M( x +50)
= M(x) + 50

Este archivo fue descargado de https://filadd.com


Entonces para cada muestra los nuevos valores de promedio serán:

Patrón Cuenta Propia


Promedio 1280 737,14
Nueva media 1330 787

f) Definimos entonces una nueva variable que refleje ambos incrementos

W= 50+ 1,18 x

M(W) = M ( 50 + 1,18 . x)
= M(50) + M( 1,18 . x)
= 50 + 1,18. M( x)
Reemplazando ahora por las medias de cada grupo analizado tendremos

OM
Patrón Cuenta Propia
Promedio 1280 737,14
Nueva media 1560 919,83

.C
g) Promedio total = (Media grupo 1) . n1 + (media grupo 2).n2
n1 +n2

Patrón Cuenta Propia


DD
Promedio 1280 737,14
Muestra 9 21
Media total 900,00
LA

Actividad 4

a) Variable: unidades producidas (se trata de una variable cuantitativa discreta


que esta presentada en forma de una Serie Simple)

Medidas de Posición Turno 1 Turno 2


FI

Media 21 26
Mediana 16 27
Modo 16 25
Modo ---------- 30


Interpretaciones:

Media: El promedio de unidades producidas es de 21 unidades para el Turno 1 y


de 26 unidades para el Turno 2

Mediana: Para el Turno 1 el 50% de los días analizados se produjeron menos de


16 unidades
126 Para el Turno 2 el 50% de los días analizados se produjeron menos de 27 uni-
dades

Modo: Para el Turno 1 el valor más frecuente es de 16 unidades producidas,


mientras que para el Turno 2 se registraron dos valores frecuentes 25 y 30
unidades respectivamente (bimodal).
Además podemos analizar las formas de ambas distribuciones comparando las
medidas de posición, y en referencia a esto podemos concluir que los datos del

Este archivo fue descargado de https://filadd.com


Soluciones y respuestas al Capítulo 2 – Guía de Estadística

Turno 1 una distribución levemente asimétrica derecha; mientras que los datos
del Turno 2 presentan una forma asimétrica izquierda.

Los coeficientes de asimetría son:

Turno 1 Turno 2
Asimetría 2,43 -1,55

b) Para los datos correspondientes al Turno 2, la media es más representativa.


Esto podría verificarse calculando los CV, que para este caso dan los siguientes
valores:

Turno 1 Turno 2

OM
CV 62,84 30,28

Como puede verse el CV del turno 2 es más pequeño por lo tanto podemos con-
cluir que para este turno los datos son más homogéneos, están menos disper-
sos y por lo tanto el promedio para este Turno es más representativo.

c) Para verificar estas igualdades realizaremos una tabla en Excel con los datos
del Turno 1

Turno 1
.C
( xi - media ) ( xi-media)2 ( xi-mediana)2 (xi- modo)2
DD
12 -9 78,45 16 16
14 -7 47,02 4 4
16 -5 23,59 0 0
16 -5 23,59 0 0
18 -3 8,16 4 4
LA

20 -1 0,73 16 16
50 29 849,31 1156 1156
Total 0 1030,86 1196 1196

Como puede verse el cuadrado de los desvíos respecto de la media es el míni-


FI

mo.

Actividad 5


a) Variable: monto de deudas no pagadas (variable cuantitativa continua).


b) Medidas de posición

Media 19,1
Mediana 17,5
Modo 10

127

Este archivo fue descargado de https://filadd.com


HISTOGRAMA VALOR DE CUENTAS NO PAGAS

0,44

0,33

frecuencia relativa
0,22

0,11

0,00
7 15 22 30 37

OM
Mo=10 Me = 17,5 M(x)= 19,1

Actividad 6

La diferencia muestra la asimetría en la forma de la distribución.

Q1
.C
a) Para analizar esto debemos calcular los cuartiles:

15,5
DD
Mediana = Q2 22,5
Q3 28,5

Q1: la cantidad máxima de pedidos del 25% de los clientes que menos deman-
dan es de 15,5 pedidos (aproximadamente 16 pedidos).
LA

Q3: la cantidad mínima demandada del 25% de los clientes que más cantidad
demandan es de 28,5 pedidos (aproximadamente 29 pedidos).

Si realizamos estos cálculos usando Infostat los valores serian:

Medidas resumen
FI

Resumen Xi
n 14,00
Media 23,43


Mín 10,00
Máx 50,00
Mediana 22,50
Q1 16,00
Q3 30,00

b) El 50 % de las observaciones quedan comprendidas entre los dos cuartiles


128 (Q1 y Q3).

Este archivo fue descargado de https://filadd.com


Soluciones y respuestas al Capítulo 2 – Guía de Estadística

Actividad 7

a)
Medidas resumen

Resumen VALOR MON CNP


n 12,00
Mín 7,00
Máx 37,00
Mediana 17,50
Q1 10,00
Q3 26,00

OM
b)
HISTOGRAMA VALOR DE CUENTAS NO PAGAS

0,44

0,33
frecuencia relativa

0,22

0,11
.C
DD
0,00
7 15 22 30 37

Q2=17,
LA

Q1=105 Q3=26

Se observa una asimetría derecha.


FI

Actividad 8

Para una variable x con valores 4, 5 y 6 la varianza será igual a:


Var = V(x)= 1


Aplicando propiedad.

Definimos una nueva variable Y = x + 3


V (y) = V (x + 3)
= V(x) + V (3)
= 1 + 0
V (y) = 1

129
Actividad 9

a) Recorrido = 50-10= 40 unidades.


La diferencia entre el valor máximo y el valor mínimo de la variable analizada es
de 40 unidades

Este archivo fue descargado de https://filadd.com


b) Varianza = 115 unidades2

La varianza de la muestra de empresas de pedidos de clientes es 115 unidades2.


La medida representa la distancia promedio al cuadrado calculada respecto de
la media, es por ello una medida de valores de distancia al cuadrado.

Desvío estándar = 11 unidades

c) Calculamos aplicando propiedades de la varianza en primer lugar, definiendo


una nueva variable.

Y = x +4
V (y) = V(x + 4)
= V(x) + V (4)

OM
= 115 + 0
V (y) = 115 unidades2.

Por lo tanto la desviación estándar para el mes de marzo será DS (y) = 11 unida-
des, la misma que para febrero porque el incremento es constante (Vza de una
constante es igual a 0).

d) Definimos entonces una nueva variable w= x – 0,15. x

.C w =x (1 – 0,15)
w = 0,85. X

Ahora aplicamos propiedades de la varianza


DD
V (w) = V( 0,85 . x )
= (0,85)2. V(x)
V (w) = 0,7225. 115

V (w ) = 83 unidades2..
LA

La varianza para el mes de marzo será de 83 unidades2

Actividad 10
FI

a) Los valores de Rango son:

Patrón Cuenta propia




Rango 1830 1860

Es decir que la diferencia entre el valor máximo y el minino de la variable anali-


zada es de 1830 $ para la muestra de Patrones y de 1860 $ para la muestra
de Cuentapropistas

b) Las varianzas y desvíos estándar para cada grupo son:

Patrón Cuenta propia


130
Varianza 394075 237401
Desv. Est. 628 487

Se observa una menor variabilidad respecto de la media en el grupo de los tra-


bajadores por cuenta propia.

Este archivo fue descargado de https://filadd.com


Soluciones y respuestas al Capítulo 2 – Guía de Estadística

c) Los coeficientes de variación para ambos grupos son:

Patrón Cuenta propia


CV% 49,04 66,1

El grupo de los Patrones muestra un menor CV con lo que puede concluirse que
en este conjunto de datos los valores son más homogéneos, menos dispersos y
por tanto el promedio para este grupo es más representativo.

d) Si hay un incremento de $50 definimos la nueva variable Y = x + 50.

Y aplicamos propiedades:

OM
V (y) = V(x + 50)
= V(x) + V (50)
V (y) = V(x) + 0
V (y) = V(x).

Con lo que podemos concluir que si el incremento es de $50 los valores de va-
rianza y de desvío estándar no se modificaran.

.C Varianza
Patrón
394075
Cuenta propia
237401
DD
Desv. Est. 628 487

e) Si ahora se produce un incremento del 18% definimos una nueva variable:

W= x + 0,18 x
W= x.(1+0,18)
LA

W= 1,18 x

V (w) = V (1,18. X)
= (1,18)2 V(x)

(V (w) = 1,3924. V(x)


FI

Entonces los nuevos valores de varianza y de desvío estándar para cada una de
las muestras será de:


Patrón Cuenta propia


Varianza 548710 330557
Desv. Est. 741 575

f) Volvemos a calcular los CV% para los supuestos de los puntos d) y e) pero
para ello deberemos calcular la nueva media en cada caso.

Si el incremento es de $50 (inciso d)


131
Patrón Cuenta propia
Media 1330 787
Desv. Est. 628 487
CV% 47,20 61,90

Este archivo fue descargado de https://filadd.com


Si hay un incremento (fijo) de $50 se producirá una disminución en los CV%
aunque la conclusión es la misma en relación a que el grupo de Patrones mues-
tra un menor CV con lo que puede concluirse que en este conjunto de datos los
valores son más homogéneos, menos dispersos y por tanto el promedio para
este grupo es más representativo.

Si hay un incremento porcentual (inciso e)

Patrón Cuenta propia


Media 1510 870
Desv. Est. 741 575
CV% 49,04 66,10

OM
Si hay un incremento (porcentual) del 18% observamos que el CV% no variara.

Actividad 11

Medidas resumen

.C
Resumen VALOR MON CNP
n 12,00
Mín 7,00
Máx 37,00
Mediana 17,50
DD
Q1 10,00
Q3 26,00

DIAGRAMA DE CAJA Y BRAZOS


LA

38,50

30,25
VALOR MON CNP

22,00
FI

13,75

5,50


Como puede observarse la distribución presenta una asimetría derecha muy


leve, además los valores máximo y mínimo caen dentro de las barreras internas
(Izquierda y derecha, respectivamente) con lo cual podemos concluir que no
hay valores outliers ni extremos dentro de la distribución.

132 Actividad 12

Medidas resumen

Variable n Mín Máx Mediana Q1 Q3


SUELDO P 9 370 2200 1300 970 1500
SUELDO CP 21 240 2100 650 320 870

Este archivo fue descargado de https://filadd.com


Soluciones y respuestas al Capítulo 2 – Guía de Estadística

DIAGRAMA DE CAJA Y BRAZOS

2291,50

1788,25
SUELDO P

1285,00

781,75

OM
278,50

Como puede observarse la distribución de la variable sueldo para patrón pre-


senta una asimetría derecha muy leve, además los valores máximo y mínimo
caen dentro de las barreras internas (Izquierda y derecha, respectivamente)

.C
con lo cual podemos concluir que no hay valores outliers ni extremos dentro de
la distribución (son los valores 1800 y 2100 respectivamente).
DD
DIAGRAMA DE CAJA Y BRAZOS

2193,00

1681,50
LA
SUELDO CP

1170,00
FI

658,50

147,00


Como puede observarse la distribución presenta una asimetría izquierda muy


leve, además el valor mínimo caen dentro de las barreras internas (Izquierda)
pero el valor máximo supera al LSO y está ubicado antes del LSE por lo tanto
podemos concluir que hay presencia de valores outliers dentro de la distribu-
ción.

Actividad 13 133

Variable analizada: PESO (Kg.)

Muestra: 100 personas adultas

Este archivo fue descargado de https://filadd.com


OM
.C
DD
Se observa una leva asimetría derecha

Calculamos el rango intercuartilico, y los 4 Límites (internos y externos – Infe-


riores y Superiores)
LA

Me 65,35
Q1 57
Q3 72
RI 15
LIO 34,5
FI

LSO 94,5
LIE 12
LSE 117
VMIN 47


VMAX 100

Como puede observarse que el valor mínimo caen dentro de las barreras inter-
nas (Izquierda) pero el valor máximo supera a la BID y está ubicado antes de la
BED por lo tanto podemos concluir que hay presencia de valores outliers (atípi-
cos) dentro de la distribución.

134 Actividad 14

a) Analizando las medidas de posición para cada variable podemos concluir que
ambas variables presentan una forma asimétrica derecha, pero que para el caso
de la variable “gasto de movilidad” esta asimetría es más marcada. Esto puede
verse también analizando ambos coeficientes de asimetría, que como se obser-
va para el caso de la segunda variable es mayor su valor.

Este archivo fue descargado de https://filadd.com


Soluciones y respuestas al Capítulo 2 – Guía de Estadística

Podríamos calcular ambos coeficientes de variación, sus valores son:

Para “gastos en libros” (anual) = 44.32%

Para “gastos en movilidad” (mensual) = 115.53%

El mayor valor obtenido para la variable “gasto de movilidad” nos permite con-
cluir que para esta variable los datos están más dispersos , son menos homogé-
neos y que la media es menos representativa.

b) Analizando los diagramas de caja brazos podemos además de analizar las


formas asimétricas derechas de ambas distribuciones, podemos ver además
que en ambas hay valores atípicos, pero que en la segunda variable es mayor la

OM
cantidad de estos valores que se presentan.

c) Por último si observamos la forma de los histogramas y de los polígonos de


frecuencias, observamos nuevamente la forma asimétrica derecha de ambas
distribuciones, pero veos claramente que la variable “gastos de movilidad” pre-
senta una asimetría más acentuada, y en particular aproximadamente un 90%
de las observaciones se encuentran concentradas en el primer intervalo.

Actividad 15
.C
DD
LA
FI


a) Covarianza = 19,09 indica una asociación directa o positiva entre las “horas
trabajadas” y la “antigüedad”

b) La diagonal principal contiene ambas varianzas, en este caso :

Varianza (de la variable horas trabajadas) es 136,91 hs2


Varianza (de la variable antigüedad) es de 95,22 años2

c) Observando la matriz de correlación podemos ver que el coefiente de corre-


lación es igual a 0,17 podemos entonces concluir que existe una asociación
135
directa (bastante débil porque es cercano a 0) entre las dos variables que se
están analizando, es decir que cuando aumenta la antigüedad en el empleo del
jefe del hogar, la cantidad de horas trabajadas es de esperar que aumente

Este archivo fue descargado de https://filadd.com


Actividad 16

MEDIDAS VARIABLE
EMPLEADOR CUENTA PROPISTA
INGRESO

n 9 21
Media 1280 737,14
Var(n-1) 394075 237401,43
Mín 370 240
Máx 2200 2100
Mediana 1300 650
Q1 970 320
Q3 1500 870

OM
Asimetría 0,03 1,53

a) Media general

Media General 900,00

El promedio de ingreso para ambas categorías es de $900.

.C
b) Desvío estándar para cada una de las categorías.
DD
Empleador Cuenta propista

desvío estándar 627,75 487,24

c) Coeficiente de variación.
LA

Empleador Cuenta propista

CV % 49,04 66,10
FI

Se observa que los datos para el grupo de Empleadores son más homogéneos,
es decir están menos dispersos y por ende su media es más representativa,
que la del grupo de los trabajadores por Cuenta Propia.

d) Recorrido Intercuartílico.


Empleador Cuenta propista

RI 530,00 550,00

e) En el grupo Cuentapropista se observa asimetría derecha.

f) Para calcular la media y la varianza si hay una disminución del 20% definimos
136 una nueva variable ( que será nuestra variable original menos el descuento)

Le llamamos: W= X – 0.20* X =X (1-0.20) = 0,80.X

Este archivo fue descargado de https://filadd.com


Soluciones y respuestas al Capítulo 2 – Guía de Estadística

Ahora:
M(W) = M( 0,80 . X)
= 0,80. M(X)
= 0,80 . 1280

M(W) = 1024 $. Para los Empleadores.


M(W) = 589, 71 $ Para los Cuenta Propistas

Para la varianza aplicamos el mismo razonamiento pero aplicando ahora las


propiedades de la varianza.

V(W) = V( 0,80 .X)


= 0,802 V(X)

OM
= 0,64 . 394075
V(W) = 252208 $2 Para los Empleadores.
V (W) = 151936,92 $2 Para los Cuenta Propistas

Actividad 17

.C
Variable: cotizaciones de acciones en la Bolsa de Comercio n=22 días
Utilizando Infostat obtenemos la siguiente tabla de resumen de medidas
DD
Medidas resumen
Resumen cotización de acciones
n 22,00
Media 9,30
D.E. 1,82
LA

Var(n-1) 3,32
CV 19,61
Mín 3,00
Máx 11,70
Mediana 9,65
FI

Q1 8,40
Q3 10,40
Asimetría -1,91
Kurtosis 4,51


Analizando las medidas de posición en forma conjunta con los coeficientes de


asimetría, podemos concluir que el conjunto de datos analizados, presenta una
forma asimétrica izquierda, vemos que la media es menor a la mediana y que
presenta 3 valores modales = 8 , 9,7 y 11,3 (miles de $) y esto puede verificar-
se analizando el coeficiente de asimetría que es negativo. Esto hace que poda-
mos concluir que para este conjunto de datos la mediana es la medida más re-
presentativa.
137

Actividad 18

Covarianza 0,37
Coef. Correlación 0,546

Este archivo fue descargado de https://filadd.com


OM
Se puede concluir que existe una correlación lineal positiva (o directa) entre el
Precio y la Utilidad, lo cual también se observa en el diagrama de dispersión
cierta tendencia “ascendente” en la nube de puntos

.C
Actividad 19

Variable analizada: número de pedidos recibidos por día.


DD
Zona Norte Zona Sur
Promedio 6 5
Mediana 6 5
Modo 6 6
LA

Varianza 1,52 1,59


Desv Est 1,23 1,26
n 20 20
Q1 5 4
FI

Q3 7 6
Rango Intercuartilico 2 2
Vmin 4 2
Vmax 8 6
Coef. Asim -0,08 -0,59


Rango 4 4

CV% 20,75 26,82

Analizando las medidas de posición en forma conjunta con los coeficientes de


asimetría, podemos concluir que la Zona Norte presenta una forma práctica-
mente simétrica, vemos que las tres medidas de posición (media, mediana y
138 modo) son iguales y el coeficiente de asimetría es levemente distinta de 0 (en
este caso levemente negativa pero muy cercana a 0); mientras que en el caso
de la Zona Sur podemos ver que hay una asimetría izquierda. Con lo que para
los datos de la Zona Norte la media es más representativa del conjunto de da-
tos.

Por otro lado comparando ambos CV podemos ver que como para la muestra
de la Zona Norte el coeficiente de variación es menor, entonces se puede con-

Este archivo fue descargado de https://filadd.com


Soluciones y respuestas al Capítulo 2 – Guía de Estadística

cluir que para estos los datos son más homogéneos, están menos dispersos y la
media es más representativa (lo cual ya se afirmó por otra vía de análisis)
Los rangos son iguales para ambas distribuciones.

Actividad 20
Variable analizada: precio de venta (en miles de $)

Zona A Zona B
Promedio 105,03 124,73
Mediana 103,00 125,00
Modo 100,00 125,00
Varianza 114,10 142,41

OM
Desv Est 10,68 11,93
N 30 30
Q1 96,00 116,75
Q3 113,25 132,25
Rango Intercuartilico 17,25 15,50
Vmin 90,00 100,00
Vmax
Coef. Asim
Rango .C 129,00
0,58
39,00
150,00
0,15
50,00
DD
CV% 10,17 9,57

Analizando las medidas de posición en forma conjunta con los coeficientes de


asimetría, podemos concluir que la Zona A presenta una forma asimétrica de-
recha (modo < mediana < promedio), vemos el coeficiente de asimetría es po-
sitivo, lo que re afirma la conclusión de la forma asimétrica derecha (en la que
LA

la mediana es la medida de posición más representativa); mientras que en el


caso de la Zona B podemos ver que hay una asimetría derecha pero mucho me-
nos marcada, puede verse que la mediana y el modo coinciden, y esto se puede
corroborar con el valor del coeficiente de asimetría que es positivo pero cercano
a 0.
FI

Por otro lado comparando ambos CV podemos ver que como para la muestra
de la Zona A el coeficiente de variación es mayor, entonces se puede concluir
que para estos los datos son menos homogéneos (mas heterogéneos), están
más dispersos y la media es menos representativa que los de la zona B (lo


cual ya se afirmó por otra vía de análisis).

Actividad 21:
A cargo del alumno

139

Este archivo fue descargado de https://filadd.com

También podría gustarte