Documentos de Académico
Documentos de Profesional
Documentos de Cultura
ADM: 101
3ro. Semestre del Programa Administración de Empresas
APRECIACIONES GENERALES
A) COMPETENCIAS
B) ELEMENTOS DE COMPETENCIA
C.D.1. Conceptualiza los elementos que componen la Estadística para la correcta
organización de datos que permitan facilitar su correcta interpretación.
C.D.2. Aplica las diferentes medidas de la Estadística Descriptiva para el análisis e
interpretación de información de variables sistematizadas que permitan la resolución
de problemas económicos financieros de la organización.
C.D.3. Analiza el comportamiento de las variables utilizando la teoría elemental de la
probabilidad para determinar de manera apropiada sus proyecciones en función a los
requerimientos de las áreas de la organización.
1.- INTRODUCCION
a) ETAPA INICIAL
Este período se extiende desde la antigüedad hasta mediados del Siglo XVIII. Se
caracteriza por que se asocia la estadística a los censos poblacionales y el registro de los
bienes y servicios de un estado o pueblo, para medir su poderío como estado. El desarrollo
de la estadística, en este período, se asocia con el “mercantilismo” como modelo de desarrollo
económico, donde la riqueza de un pueblo o estado se pretendía medir en términos de la
cantidad de metálico que este poseía, para ello obviamente los estados debían implementar
un sistema confiable de registro de manera tal que estén permanentemente informados de la
situación de un estado con respecto del otro.
1
Asignatura: Estadística I
ADM: 101
3ro. Semestre del Programa Administración de Empresas
Los pasajes históricos más relevantes en esta etapa son:
La cultura Egipcia muestra en la composición de su patrimonio cultural interesante y
abundante material sobre recopilaciones de datos estadísticos en su administración estatal,
e incluso divinizaron a SAPHKIT como diosa de los libros y de las cuentas.
Los romanos, otra importante cultura de la humanidad, llevaron registros numéricos con
fines tributarios. El nacimiento de Cristo mismo, en esos tiempos, está relacionado con un
empadronamiento poblacional.
En la época de los reyes católicos de España (SIGLO XV), se practicaron censos bastante
completos y sofisticados para su época y durante la vigencia del mercantilismo los estados
desarrollaron técnicas de registro para cuantificar el volumen de metálico que reflejaba el
poderío y riqueza de un estado.
Para no ir muy lejos, en el imperio incaico, en lo que hoy es Latinoamérica, existen indicios
de que se practicaron registros de cuentas y población mediante los “quipus”, en la cultura
quechua.
a) ETAPA DE LA SISTEMATIZACIÓN
La Escuela Inglesa.- Cuantificaron las leyes que rigen los fenómenos sociales, a través de
aritmetización de la estadística. En esta etapa se diseñaron modelos conductistas, vale
decir modelos estadísticos no paramétricos.
La Escuela Francesa.- Introduce la teoría de las probabilidades asociándola con los juegos
de azar. La Place, famoso estudioso de la estadística, es el representante más destacado
de la época. En este período se desarrolla la inferencia estadística a partir del cálculo de
probabilidades, cuyo fundamento es la matemática.
c) ETAPA ACTUAL: Está comprendida entre principios del siglo XIX hasta nuestros días.
En esta etapa la matemática se plasma en la columna vertebral de la estadística y se
caracteriza por el gran desarrollo alcanzado como ciencia y como una metodología de la
investigación científica aplicada a todas las ramas del saber humano: Ingeniería, Biología,
Economía, medicina, agronomía, etc.
2
Asignatura: Estadística I
ADM: 101
3ro. Semestre del Programa Administración de Empresas
1.3. Definición de la Estadística
La palabra Estadística parece derivar de la palabra latina “Status”, que en el latín tenía el
sentido de estado político.
DICCIONARIO LAROUSSE: “Es la ciencia cuyo objeto es reunir, clasificar y contar todos los
hechos en un mismo orden”.
KENDALL Y STUART.-“Es la rama del método científico que trata de los datos obtenidos al
contar o medir las propiedades de las poblaciones de fenómenos humanos”.
MARIO MURILLO OPORTO.- “El significado de la estadística es mucho más amplio. Se refiere
también a un cuerpo de técnicas o metodologías para la recopilación, presentación y análisis
de los datos cuantitativos y cualitativos y al uso de tales datos para toma de decisiones.
Pero esto no es todo, ya que se refiere también a la predicción frente a la incertidumbre de los
fenómenos de la naturaleza. En otras palabras, podemos decir que la estadística es un
método que sirve para tomar decisiones cuando hay incertidumbre, sobre la base de datos
numéricos y calcular su riesgo”.
CELESTINO GARCIA ORE.- “Estadística es una disciplina que nos proporciona un conjunto
de métodos y procedimientos que permiten: recopilar , clasificar, presentar y describir datos
3
Asignatura: Estadística I
ADM: 101
3ro. Semestre del Programa Administración de Empresas
en forma adecuada para tomar decisiones frente a la incertidumbre o predecir o afirmar algo
acerca de la población o sus parámetros a partir de los datos extraídos de la misma”.
MUNDO REAL
ESTADISTICA
ESTADISTICA DECRIPTIVA
TABULACION
INFERENCIAL
GRAFICOS
MUESTREO
REGULARIDADES
CALCULO PARAMETROS
ESTIMACION
AXIOMAS DE COMPORTAMIENTO
NUMEROS
CONTRASTACION
INDICES
HIPOTESIS MODELOS TEORICOS
MODELO PROBABILIDADES
4
Asignatura: Estadística I
ADM: 101
3ro. Semestre del Programa Administración de Empresas
MUESTRA: Es una parte representativa del universo y se recurre a ella cuando es dificultoso
utilizar todos los componentes de la población.
1.4.1. Estadística Descriptiva: Es la parte de la estadística que toma en cuenta el total de los
elementos de la población en el proceso de análisis de un fenómeno en estudio. Se denomina
Estadística Descriptiva por que trata de la recopilación, clasificación, presentación y
descripción de los datos estadísticos provenientes de una población. Los datos o
características que se obtienen de la población se llaman PARAMETROS.
1.4.2. Estadística Inferencial: Nos proporciona la teoría necesaria para tomar decisiones
frente a la incertidumbre o afirmar algo acerca de la población a partir de los datos bajo estudio.
Los datos o características obtenidas de esta manera se llaman ESTADIGRAFOS.
1.5. Variable
En consecuencia, las variables discretas surgen del proceso de conteo, en cambio las
variables continuas surgen de la medición.
Profesión
Color de la Piel
Sexo
Estado Civil
etc.
5
Asignatura: Estadística I
ADM: 101
3ro. Semestre del Programa Administración de Empresas
Las variables cualitativas pueden ser NOMINALES que no implican un orden y ORDINALES
donde existe algún orden o jerarquía entre atributos.
La asignación de valores a cada una de las unidades estadísticas mediante una variable, se
hace siguiendo determinadas escalas de medición.
1.7.2. Escala Nominal.- Se tiene una escala NOMINAL si dos o más valores de una variable,
sólo permiten percibir las diferencias o semejanzas de las unidades estadísticas que se
midan. Tales valores son como etiquetas que identifican a las unidades estadísticas y las
hacen iguales o diferentes entre sí.
Por ejemplo, la variable “sexo” asigna a las personas dos valores: “masculino” y “femenino”,
que son de la escala nominal. Con los valores de esta variable las personas están en una
misma modalidad o en modalidades diferentes. Si se asigna un 0 al sexo masculino y un 1 al
sexo femenino, con estos números no se pueden realizar operaciones aritméticas. Sólo se
puede decir que el símbolo 0 es distinto al símbolo 1, pero no podemos decir que 1 es mayor
que 0, o que 0 es menor que 1. Las variables estadísticas: “estado civil”, “ideas religiosas”,
entre otras, tienen modalidades que son de escala nominal.
El método estadístico con datos obtenidos en escala nominal consiste básicamente en obtener
el número o porcentaje de casos en cada modalidad y obtener la moda (valor de mayor
frecuencia).
6
Asignatura: Estadística I
ADM: 101
3ro. Semestre del Programa Administración de Empresas
1.7.3. Escala Ordinal.- Una escala ORDINAL es una escala nominal donde los valores de la
variable se pueden ordenar en forma ascendente o descendente. En una escala ordinal los
valores o modalidades reflejan el orden de las unidades estadísticas. Si se asignan
números a tales modalidades, con estos, no se pueden realizar operaciones aritméticas. Sólo
son válidas las relaciones de igualdad (=), de no igualdad (≠) y de orden (=).
Por ejemplo, la variable “estatus económico” con sus modalidades de: clase baja, media y alta
se mide en escala ordinal. La variable “orden de mérito”, cuyas modalidades son: 1º,2º,3º etc,
miden las calificaciones de las unidades estadísticas en escala ordinal.
El método estadístico con datos obtenidos en escala ordinal consiste básicamente en obtener
el número o porcentaje de casos en cada modalidad y obtener la moda, la mediana, los
percentiles y el coeficiente de correlación por rangos.
1.7.4. Escala de Intervalos.- Una escala de INTERVALOS es una escala ordinal con cuyos
“valores” no sólo se pueden verificar: igualdad, no igualdad y orden, sino también, se puede
elegir una unidad de escala y comprobar cuántas veces la diferencia entre dos valores es
igual a la diferencia entre otros dos valores de la escala (es decir, podemos comparar
intervalos).
Esto es, si X1, X2 y X3 son tres valores en la escala de intervalo, se verifica por ejemplo, la
relación:
X3 – X1 = c (X2 – X1) ó X3 – X1 = c
X2 – X1
Donde c es una constante.
Esta relación se interpreta como que la escala de intervalos tiene un cero relativo. Este
cero no significa ausencia total de la propiedad que se observa.
Con los valores de esta escala son válidas las relaciones de igualdad, de no igualdad y de
orden. También, son válidas las operaciones de adición y sustracción entre los valores de la
escala, y la multiplicación y división entre las diferencias de dos valores de la escala. Pero no
es válida la multiplicación y división entre los mismos valores de la escala.
7
Asignatura: Estadística I
ADM: 101
3ro. Semestre del Programa Administración de Empresas
decir la diferencia de los puntajes de C menos A es igual a siete veces la diferencia de los
puntajes de B menos A. No es válida la división 16/4, pero si lo es : (16-2)/(4-2).
1.7.5. Escala de Razon o Proporción.- La escala de razón o proporción es una escala de
intervalo con cuyos valores además podemos comprobar cuántas veces un valor de la
escala es igual a otro valor de la escala. Esto es, si X1 y X2 son dos valores, en la escala
de razón se verifica la relación:
X2 = c X1 ó X2 = c
X1
Donde c es una constante, y X1 = 0.
La escala de razón tiene un cero absoluto (ausencia de la característica que se observa).
Con los números de esta escala son válidas las relaciones de igualdad, de no igualdad, de
orden y todas las operaciones matemáticas. Los valores de esta escala se obtienen en general,
por mediciones tipo conteo (discretos) o por mediciones tales como de longitud, peso,
volumen, vida útil, etc. (continuos).
Por ejemplo, si la variable X es la longitud (en metros) de un objeto, entonces, los valores de
esta variable son de escala de razón. En efecto, si tres objetos A, B y C miden 2, 4, y 16
metros, se pueden establecer las relaciones:
· 2 ≠ 4 ≠ 16
· 2 < 4 < 16
· 16 – 2 = 7(4 – 2)
a) Recopilación
b) Clasificación DE DATOS
c) Presentación
d) Descripción
8
Asignatura: Estadística I
ADM: 101
3ro. Semestre del Programa Administración de Empresas
Una parte fundamental para realizar un estudio estadístico de cualquier tipo es obtener
resultados confiables y que puedan ser aplicables. Como ya se comentó anteriormente, resulta
casi imposible o impráctico llevar a cabo algunos estudios sobre toda una población, por lo
que la solución es llevar a cabo el estudio basándose en un subconjunto de ésta denominada:
muestra.
Sin embargo, para que los estudios tengan la validez y confiabilidad buscada, es necesario
que tal subconjunto de datos, o muestra, posea algunas características específicas que
permitan, al final, generalizar los resultados hacia la población en su conjunto. Esas
características tienen que ver principalmente con el tamaño de la muestra y con la manera de
obtenerla.
El muestro, como ya se mencionó, implica algo de incertidumbre que debe ser aceptado para
poder realizar el trabajo, pues aparte de estudiar una población resulta ser un trabajo en
ocasiones demasiado grande, para Wonnacott y Wonnacott las razones principales para
utilizar muestras son:
9
Asignatura: Estadística I
ADM: 101
3ro. Semestre del Programa Administración de Empresas
Es aquella en la que los elementos se escogen del total de la población en forma individual
con una oportunidad igual e independiente para todas. Por lo general se utiliza una tabla de
números aleatorios.
Con reemplazo, la probabilidad de cada elemento de ser elegido es 1/N. Si es sin reemplazo,
la probabilidad de cada elemento de ser elegido es 1/N en la primera extracción, es 1/(N-1) en
la segunda extracción, es 1/(N-2) en la tercera extracción y así sucesivamente.
Si una muestra aleatoria se elige de tal forma que todos los elementos de la población tengan
la misma probabilidad de ser seleccionado, se llama muestra aleatoria simple.
Ejemplo:
Suponga que nos interesa elegir una muestra aleatoria de 5 estudiantes en un grupo de
estadística de 20 alumnos. 20C5 da el número total de formas de elegir una muestra no
ordenada y este resultado es 15,504 maneras diferentes de tomar la muestra. Si listamos las
15,504 en trozos separados de papel, una tarea tremenda, luego los colocamos en un
recipiente y después los revolvemos, entonces podremos tener una muestra aleatoria de 5 si
seleccionamos un trozo de papel con cinco nombres. Un procedimiento más simple para elegir
una muestra aleatoria sería escribir cada uno de los 20 nombres en pedazos separados de
papel, colocarlos en un recipiente, revolverlos y después extraer cinco papeles al mismo
tiempo.
Hay muchas situaciones en las cuales el muestreo aleatorio simple es poco práctico, imposible
o no deseado; aunque sería deseable usar muestras aleatorias simples para las encuestas
nacionales de opinión sobre productos o sobre elecciones presidenciales, sería muy costoso
o tardado.
b) MUESTREO SISTEMÁTICO
Una muestra aleatoria sistemática es aquella en la que sus elementos se eligen de la población
a intervalos uniformes a partir de un listado ordenado. El k-ésimo elemento de la muestra es
k=N/n, donde n es el tamaño de la muestra y N el tamaño de la población.
10
Asignatura: Estadística I
ADM: 101
3ro. Semestre del Programa Administración de Empresas
Por ejemplo: al elegir una muestra sistemática de 100 alumnos de una unidad educativa que
tiene 3000 estudiantes. K = 3000/100 =30, entonces el primero se elige en forma aleatoria de
los 30 primeros de la lista y los demás sistemáticamente cada 30 alumnos de la lista.
Por ejemplo: Para obtener una muestra aleatoria de 600 electores de una población de
600.000 electores de los cuales 300.000 son de clase baja, 200.000 de clase media y 100.000
de clase alta. Para ello, primeramente se obtiene el % de participación de cada estrato sobre
el total: 300.000/600.000 = 0,5 x 600 = 300; 200.000/600.000 = 0,33 x 600 = 200; y finalmente
100.000/600.000 = 0,166x600 = 100. Al interior de cada estrato se eligen en forma aleatoria
simple.
El muestreo por conglomerados requiere de elegir una muestra aleatoria simple de unidades
heterogéneas entre sí de la población llamadas conglomerados. Cada elemento de la
población pertenece exactamente a un conglomerado, y los elementos dentro de cada
conglomerado son usualmente heterogéneos o disímiles.
En el muestreo por conglomerados, éstos se forman para representar, tan fielmente como sea
posible, a toda la población; entonces se usa una muestra aleatoria simple de conglomerados
para estudiarla. Los estudios de instituciones sociales como iglesias, hospitales, escuelas y
prisiones se realizan, generalmente, con base en el muestreo por conglomerados.
2.5. Determinación del Tamaño de una Muestra.- Uno de los aspectos que deben definirse
en el proceso de muestreo, es el tamaño de la muestra. Para ello, deben tomarse en cuenta
los siguientes aspectos:
11
Asignatura: Estadística I
ADM: 101
3ro. Semestre del Programa Administración de Empresas
la muestra. Llamamos I a la amplitud total del intervalo, es decir, a la diferencia entre
sus límites superior e inferior.
d) Grado o nivel de confianza que quisiéramos poder depositar en los resultados. A dicho
nivel corresponderá el coeficiente z, dado que, según la ley de los grandes números,
la distribución de la media de muestras, en la que nos apoyamos conceptualmente para
el cálculo, es normal; a menos que se trate de una muestra pequeña (n<30), en cuyo
caso la distribución es de Student, y es necesario usar t en lugar de z.
2
n= Z x p x qxN
2 2
Z xpxq+ NxE
Donde:
n= Tamaño de la muestra
Z = Variable Z
p= probabilidad de éxito
q= probabilidad de fracaso
N=Tamaño de la población
E= Error estadístico
SOLUCIÓN
N = 42075 E = 0,05
Z = 1,96 p = 0,8 q= 0,2
2
n = (1,96) x 0,8 x 0,2 x 42074
2 2
1,96 x 0,8 x 0,2 + 42074 x 0,05
n = 245 miembros
12
Asignatura: Estadística I
ADM: 101
3ro. Semestre del Programa Administración de Empresas
Los datos presentados de esta manera, prácticamente no dicen mucho y no tienen mucha
utilidad para su aplicación. Por ello, la estadística descriptiva nos proporciona la segunda etapa
que está constituida por la “clasificación de datos”.
3 4 4 4 5 5 5 5 5 5
5 6 6 6 6 6 6 6 6 7
7 7 7 7 7
Xi = 3,4,5,6,7
13
Asignatura: Estadística I
ADM: 101
3ro. Semestre del Programa Administración de Empresas
3.3. Cuando la Variable es Continua o para un Número Grande de Observaciones
Discretas
PASO 1: Una vez establecido los valores que toma la variable, en la primera columna del
cuadro anotamos dichos valores de la siguiente manera:
CALIFICACIONES: Xi
3
4
5
6
7
PASO Nº 2: Una vez que se defina los valores que toma la variable, se debe establecer el
número de repeticiones para cada valor en particular, a estos valores se lo conoce como
FRECUENCIA ABSOLUTA o número de repeticiones. Ejemplo: El número 3 solamente se
repite una sola vez, el número 4 se repite 3 veces, el 5 se repite 7 veces y así sucesivamente.
Seguidamente estas repeticiones los anotamos en la segunda columna del cuadro.
La suma de los valores de la Frecuencia Absoluta debe ser igual al número de personas
encuestadas.
14
Asignatura: Estadística I
ADM: 101
3ro. Semestre del Programa Administración de Empresas
CALIFICACIONES FRECUENCIA FRECUENCIA ABSOLUTA
Xi ABSOLUTA ACUMULADA
Ni Ni
3 1 1+0 = 1
4 3 1+3 =4
5 7 4+7 = 11
6 8 11+8 =19
7 6 19+6 =25
TOTAL 25 .-.
Xi Ni Ni FRECUENCIA
RELATIVA ( hi )
3 1 1 1/25 = 0,04
4 3 4 3/25 = 0,12
5 7 11 7/25 = 0,28
6 8 19 8/25 = 0,32
7 6 25 6/25 = 0,24
SUMA 25 -.- 1,00
Xi Ni Ni hi FRECUENCIA RELATIVA
ACUMULADA Hi
3 1 1 0,04 0,04 + 0 = 0,04
4 3 4 0,12 0,04 + 0,12 = 0,16
5 7 11 0,28 0,04+0,12+0,28 =0,44
6 8 19 0,32 0,76
7 6 25 0,24 1,00
SUMA 25 -.- 1,00 -.-
15
Asignatura: Estadística I
ADM: 101
3ro. Semestre del Programa Administración de Empresas
En resumen tenemos como resultado la siguiente tabla:
a) En la primera casilla de la tabla están los distintos valores que toma la variable; en nuestro
ejemplo la variable calificaciones de 25 alumnos toma los siguientes valores: Xi
= 3,4,5,6,7
e) Las Frecuencias Relativas Acumuladas, también expresadas en porcentajes, nos indica que
hasta la calificación de 3 se tiene al 4 % de los alumnos; hasta la calificación de 4 el 16 %, etc.
0 < hi < 1
c) La suma de todas las frecuencias absolutas es igual al número de elementos que componen
la población o la muestra.
ni = n1 + n2 +n3 + .......... nm = n
16
Asignatura: Estadística I
ADM: 101
3ro. Semestre del Programa Administración de Empresas
hi = h1+h2+h3+.......+hm= n1+n2+n3+....nm
n
ni = n = 1
Nm = n
Hi = Ni
n
6,7,7,8,9,10,6,7,8,9,7,7,7,6,6,7,7,7,6,7,7,6,6,8,8,8,8,7,6,7,7,7,8,8,8,8,8,8,8,8,8,9,9,9,9,9,10,10
,10,10,8,10,8,8,9,9,8,8,9,10
17
Asignatura: Estadística I
ADM: 101
3ro. Semestre del Programa Administración de Empresas
7,0 + 2,0 = 3,5
2
PASO Nº 2: La diferencia entre ambos extremos o ancho de clase se divide entre un número
que oscila entre 5 ó 15, dependiendo mucho del valor de la diferencia y el número de
observaciones; en el ejemplo que nos ocupa, el número indicado es el número 5, por cuanto
la diferencia es exactamente de 5.
PASO Nº 3: Seguidamente se organizan las familias o clases tomando en cuenta como límite
inferior del primer intervalo o familia el valor mínimo que toma la variable; en el ejemplo el
número 2,0. Luego como límite superior también del primer intervalo o familia se tendrá el
límite inferior más el valor del ancho de clase 1, el resultado final será: 2+1 = 3.
El anterior procedimiento se repite hasta concluir con el último intervalo o clase, que tendrá
como límite superior el valor máximo de la variable, además los límites superiores de cada
intervalo se toman como el límite inferior de la familia o clase siguiente. Con estos datos
estamos en condiciones de estructurar la primera columna o casilla de la distribución o tabla
de frecuencias. En nuestro ejemplo:
CALIFICACIONES
Xi
2 - 3
3 - 4
4 - 5
5 - 6
6 - 7
CALIFICACIONES FRECUENCIA
Xi - Xj ABSOLUTA
Ni
2 - 3 / = 1
3 - 4 /// = 3
4 - 5 //////// = 8
5 - 6 /////// = 7
6 - 7 ////// = 6
SUMA 25
El conteo podrá efectuarse bajo cualquier procedimiento conocido o el que mejor convenga al
tabulador.
PASO Nº 5: Para completar con las casillas o columnas restantes se procede exactamente
igual que con el caso de las variables discretas o número pequeño de observaciones. El
18
Asignatura: Estadística I
ADM: 101
3ro. Semestre del Programa Administración de Empresas
resultado en el caso del ejemplo utilizado, nos permite estructurar la siguiente tabla de
frecuencias:
Xi - Xj ni Ni hi Hi
2 - 3 1 1 0,04 0,04
3 - 4 3 4 0,12 0,16
4 - 5 8 12 0,32 0,48
5 - 6 7 19 0,28 0,76
6 - 7 6 25 0,24 1,00
SUMA 25 -.- 1,00 -.-
El procedimiento convencional que se asumió en los capítulos anteriores, respecto al número
adecuado de familias o intervalos debía fluctuar entre 5 y 15, pero no explicamos como
establecer o determinar el número exacto para cada caso en particular. A continuación le
presentamos un procedimiento que constituye una buena aproximación para nuestro
cometido, el mismo se conoce con el nombre de Regla de Sturges.
40 30 60 20 50 40 10 30 50 70
60 50 40 30 20 30 20 70 40 40
50 30 20 10 40 50 40 30 60 20
60 40 30 20 10 60 40 30 60 30
60 50 40 40 30 30 40 10 60 50
19
Asignatura: Estadística I
ADM: 101
3ro. Semestre del Programa Administración de Empresas
Finalmente tenemos:
10 + 10 = 20 10 - 20
20 + 10 = 30 20 - 30
30 + 10 = 40 30 - 40
40 + 10 = 50 40 - 50
50 + 10 = 60 50 - 60
60 + 10 = 60 60 - 70
MARCA DE CLASE O PUNTO MEDIO: Otro concepto importantísimo cuando trabajamos con
distribuciones de frecuencias es el llamado MARCA DE CLASE o PUNTO MEDIO (xi), que
resulta de sumar los extremos de cada intervalo y luego dividirlos entre 2. En nuestro ejemplo:
La Marca de clase del primer intervalo será:
10 + 20 = 15
2
Una vez obtenidos los intervalos y las marcas de clase, se procede de la misma forma que en
el ejercicio o ejercicios anteriores, ósea:
Xi - Xj Xi Ni Ni hi Hi
10 - 20 15 4 4 0,08 0,08
20 - 30 25 6 10 0,12 0,20
30 - 40 35 11 21 0,22 0,42
40 - 50 45 12 33 0,24 0,66
50 - 60 55 7 40 0,14 0,80
60 - 70 65 10 50 0,20 1,00
SUMA -.- 50 -.- 1,00 -.-
Generalmente, la interpretación de los datos de una tabla de frecuencias, así como otros
cuadros que contienen información en cifras numéricas demanda, de quien lo utilice, tener un
conocimiento previo sobre estadística; esta situación puede ser superada, haciendo que
dichas informaciones sean representadas en gráficos.
20
Asignatura: Estadística I
ADM: 101
3ro. Semestre del Programa Administración de Empresas
a) En primer lugar se debe trazar el eje de coordenadas cartesianas y tomar de ella sólo el
primer cuadrante, teniendo cuidado de que el eje de las ordenadas represente las ¾ del eje
de las abcisas:
y
0 x
- ESTETICA
- SIMETRIA
- PROPORCIONALIDAD ( y = ¾ x )
a) GRAFICO DE BARRAS:
Los pasos que se desarrollan para confeccionar los gráficos son los siguientes:
Se divide el eje de las abcisas con relación a los distintos valores que toma la variable (xi).
Se divide el eje de las ordenadas tomando en cuenta el mayor valor que toman las
frecuencias absolutas y distribuirlos proporcionalmente.
Se levantan perpendiculares desde los diferentes puntos que representan los distintos
valores que toma la variable, hasta la altura que representan sus respectivas frecuencias.
21
Asignatura: Estadística I
ADM: 101
3ro. Semestre del Programa Administración de Empresas
Ejemplo:
Xi Ni Ni hi Hi
3 1 1 0,04 0,04
4 3 4 0,12 0,16
5 7 11 0,28 0,44
6 8 19 0,32 0,76
7 6 25 0,24 1,00
SUMA 25 -.- 1,00 -.-
REPRESENTACION GRAFICA:
8
7
6
5
4
3
2
1
0
3 4 5 6 7
Una vez trazado el plano y distribuidos las coordenadas, se marcan los puntos en la
intersección entre los valores de la variable y sus frecuencias acumuladas.
Luego, se traza una línea paralela al eje de las abcisas, a partir de cada punto marcado
anteriormente, hasta el siguiente punto y así sucesivamente.
22
Asignatura: Estadística I
ADM: 101
3ro. Semestre del Programa Administración de Empresas
Por estética se deja abierto a los extremos, lo que no altera la información original.
Ni
25
19
11
3 4 5 6 7 8 Xi
Cuando los datos están distribuidos en clases o familias, podemos estructurar los siguientes
gráficos:
a) HISTOGRAMA DE FRECUENCIAS:
Es una representación gráfica de uso muy frecuente y está formado por rectángulos contiguos,
que tienen como base una longitud igual a la amplitud de clase o intervalo, con una altura igual
al valor de su correspondiente frecuencia absoluta.
Una vez dividido el cuadrante y los ejes en forma proporcional, se trazan los rectángulos con
una base igual a la longitud de la amplitud de la clase y con una altura igual a sus frecuencias
absolutas (ni ).
23
Asignatura: Estadística I
ADM: 101
3ro. Semestre del Programa Administración de Empresas
REPRESENTACION GRAFICA:
6
5
2 3 4 5 6 7
B) POLIGONO DE FRECUENCIAS:
Esotro tipo de representación gráfica que tiene una superficie igual al histograma, pero
representada de manera global; permite tener una visión general del comportamiento de la
variable que se analiza.
PASOS:
El polígono se obtiene uniendo los puntos medios de cada rectángulo del histograma en su
parte superior. En los extremos se agrega un medio intervalo para cerrar el polígono.
24
Asignatura: Estadística I
ADM: 101
3ro. Semestre del Programa Administración de Empresas
REPRESENTACION GRAFICA:
6
5
3
2
2 3 4 5 6 7
Es SIMÉTRICA cuando el gráfico tiene una forma regular, similar a una campana y es
ASIMÉTRICA cuando se encuentra sesgada a la derecha o a la izquierda.
Para ajustar una distribución de frecuencias normalmente se siguen los pasos siguientes:
Fs = Fa + F + Fp
Donde:
3
Fs = Frecuencia Suavizada
Fa = Frecuencia adyacente anterior
F = Frecuencia que se suaviza
Fp = Frecuencia adyacente posterior
25
Asignatura: Estadística I
ADM: 101
3ro. Semestre del Programa Administración de Empresas
Fs = 1 + 3 + 8 = 4,00
3
REPRESENTACION GRAFICA:
6
5
3
2
2 3 4 5 6 7
El diagrama circular, más conocido como TORTA ó PASTEL, es muy utilizado cuando la
variable o atributo toma pocos valores o características. La información se expresa en
términos de porcentaje, que gráficamente se representa como un sector ó parte del círculo.
26
Asignatura: Estadística I
ADM: 101
3ro. Semestre del Programa Administración de Empresas
α = Q x 360
100
Donde:
α = Ángulo correspondiente a cada sector (Grados)
Q = Porcentaje que representa la frecuencia de cada valor
particular de La variable con relación a la población total.
360 = Grados que corresponde a una circunferencia.
Ejemplo:
Tenemos datos de alumnos inscritos en una escuelita de Villa Busch con tres cursos.
α1 = Q1 x 360 = 65,5 º
100
α2 = Q2 x 360 = 98,3 º
100
α3 = Q3 x 360 = 196,2 º
100
27
Asignatura: Estadística I
ADM: 101
3ro. Semestre del Programa Administración de Empresas
REPRESENTACION GRAFICA:
196,2
Gr
EJERCICIO EN CLASES:
Una encuesta sobre preferencias en el consumo de detergentes de cinco marcas arroja los
siguientes resultados:
4.1. Introducción:
En el tema anterior nos planteamos como objetivo “desarrollar habilidades para la recolección,
clasificación y presentación de datos estadísticos”; con la resolución de muchos ejercicios
prácticos y evaluatorios creo firmemente que el mismo ha sido logrado en forma satisfactoria.
28
Asignatura: Estadística I
ADM: 101
3ro. Semestre del Programa Administración de Empresas
2) MEDIANA
* La Moda
* Cuantilas o Fractilas
Llamadas también media o promedio, son medidas de tendencia central que intentan localizar
el “centro físico” de la distribución de los datos. Entre las medidas de tendencia central más
utilizadas tenemos:
La media Aritmética
La Media Geométrica
La Media Armónica
La Media Cuadrática
Además están:
La Mediana
La Moda
Las cuantilas o fractilas
Ejemplo: Si; x1, x2, x3, x4, ........................., xn son los valores observados
29
Asignatura: Estadística I
ADM: 101
3ro. Semestre del Programa Administración de Empresas
Entonces:
ó M(x) = Σ xi
n
Donde:
n es igual al total de las observaciones o tamaño de la muestra.
Además n = N, cuando se refiere a todos los valores de la población.
= Σ xi
n
Cuando la variable es discreta y los datos están agrupados en una distribución de frecuencias
o familias, se utiliza la siguiente fórmula:
M(x) = = Σ Xi ni
Donde:
n
M(x) = = Media Aritmética muestral
ni = Frecuencia Absoluta
n = Tamaño de la muestra
30
Asignatura: Estadística I
ADM: 101
3ro. Semestre del Programa Administración de Empresas
Ejemplo:
CALIFICACIONES FRECUENCIA ABSOLUTA
Xi Ni Xi ni
3 1 3
4 3 12
5 7 35
6 8 48
7 6 42
SUMA 25 140
En este caso los datos están agrupados en familias o intervalos; entonces el procedimiento es
algo distinto. Ejemplo tenemos las calificaciones de 25 alumnos que fue abordado en el
anterior ejemplo, sin embargo en este caso las calificaciones están agrupadas en intervalos o
clases.
Para calcular la , cuando los datos son agrupados, previamente debe determinarse o
calcularse la Marca de Clase o Punto Medio.
CALIFICACIONES DE 25 ALUMNOS
MARCA DE CLASE
Xi - Xj Xi Ni xi ni
2 - 3 2,5 1 2,5
3 - 4 3,5 3 10,5
4 - 5 4,5 8 36,0
5 - 6 5,5 7 38,5
6 - 7 6,5 6 39,0
SUMA -.- 25 126,5
31
Asignatura: Estadística I
ADM: 101
3ro. Semestre del Programa Administración de Empresas
di = Σ ( Xi - ) =0
DEMOSTRACION:
Σ ( Xi - ) = Σ ( Xi ) - Σ
n
= - n = 0
n
SEGUNDA: “la media aritmética de una constante (K) es igual a la misma constante”.
M(K)= K
DEMOSTRACION:
M(K) = Σ Ki = nK = K
n n
TERCERA: “La media aritmética de una constante multiplicada por una variable es igual a la
constante multiplicado por la media aritmética de la variable”.
M (KX) = K M (X)
M(KX) = M ( K Xi ) = K M( Xi ) = K M ( X )
n n
CUARTA: “La media aritmética de dos variables Y e Y es igual a la suma de las medias
aritméticas individuales”.
M(X+Y) = M(X) +M(Y)
4.7. Media Aritmética Ponderada: En la vida real, a veces, las variables estudiadas o
analizadas no todos tienen el mismo peso específico, sino que tienen una ponderación distinta,
entonces el cálculo de la media aritmética se obtiene a través de la siguiente fórmula:
32
Asignatura: Estadística I
ADM: 101
3ro. Semestre del Programa Administración de Empresas
M (X) = Σ wxi
wi
EJEMPLO: Si el examen final de un curso vale más que un parcial, digamos tres veces más,
que un parcial y un estudiante tiene calificación de 85 en el examen final y 70 y 90 en los dos
parciales. Calcular la calificación media.
M(X) = = Σ wi.xi
wi
MUESTRA
SM1 SM2 SMk
n1 n2 ....... ........ nk
_ _ _
X1 X2 Xk
G = Σ ni Xi
n
EJEMPLO: Determinar la media global, para una muestra de tamaño 40 que se particiona en
tres sub-muestras de tamaños: 10, 16, 14 con medias: 15,14 y 12, respectivamente.
n = 40 MEDIAS
n1 = 10 X1 = 15
n2 = 16 X2 = 14
n3 = 14 X3 = 12
33
Asignatura: Estadística I
ADM: 101
3ro. Semestre del Programa Administración de Empresas
EJERCICIOS EN CLASES:
1.- Tres profesores de Estadística dieron notas medias en sus cursos, con 32, 25 y 17
estudiantes, de 79, 74 y 82 puntos, respectivamente. Hallar la puntuación media de los tres
cursos.
2.-- El salario medio anual en una empresa es de Bs 15.000. Los de hombre y mujeres fueron,
respectivamente, de Bs 15.600 y 12.600 en media. Hallar el porcentaje de mujeres empleadas
en esa empresa.
4.9. La Media Geométrica:
La media geométrica se define como la raíz enésima del producto de los n valores observados:
n ____
G (X) = x1. x2. x3..........xn = v ?xi
Cuando los datos no están agrupados y son menores que dos, se tiene:
x1 = 4
x2 = 7
G (X) = 5,29
Ahora bien, cuando el número de observaciones es mayor que 2, se aplican logaritmos para
facilitar los cálculos.
34
Asignatura: Estadística I
ADM: 101
3ro. Semestre del Programa Administración de Empresas
Log G(X) = 1 Σ ni x Log Xi
n
Xi Ni Log xi ni x Log xi
3 2 0,4712 0,95424
4 3 0,60206 1,80618
5 2 0,69897 1,39794
6 2 0,77815 1,55630
7 1 0,84510 0,84510
Σ 10 -.- 6,55976
Para determinar G(X) necesitamos calcular el Antilogaritmo correspondiente, que en este caso
es igual a:
x
G(X) = 4,53 Antilog= 10
Se usa el promedio geométrico cuando los datos observados presentan una progresión
geométrica de donde deriva su nombre, ó cuando los datos presentan razones de cambio o
porcentajes.
Nos preguntamos ahora ¿Es correcta esta operación? No, por que la población crece a
razón compuesta. Entonces, para responder adecuadamente tendremos que aplicar otra
fórmula: El razonamiento para la resolución de este problema es el siguiente:
35
Asignatura: Estadística I
ADM: 101
3ro. Semestre del Programa Administración de Empresas
Al finalizar la segunda década = 100.000 (1 + r) + 1000(1+r) r = 1000(1+r)
2 2 3
Al finalizar la 3ra década = 100.000(1+r) + 100.000(1+r) r = 100.000(1+r)
3
Esta última expresión debe dar 120.000. Por tanto, 100.000( 1 + r) =
1.- Los siguientes datos son las velocidades ( Km/hora) de 30 carros que pasaron por un punto
de control de velocidad:
60 30 38 60 45 20 55 20 40 54 38 35 40 10
45 60 49 49 30 55 46 29 38 80 40 28
15 82 72 65
Hallar la media geométrica.
Xi - Xj xi Ni Log xi ni x Log xi
10 - 20 15 2 1,176091 2,352182
20 - 30 25 4 1,397940 5,59176
30 - 40 35 6 1,544068 9,264408
40 - 50 45 8 1,653212 13,225696
50 - 60 55 3 1,740363 5,221089
60 - 70 65 4 1,812913 7,251652
70 - 80 75 3 1,875061 5,251652
SUMA -.- 30 -.- 48,53197
Aplicamos la fórmula de la media geométrica para datos agrupados:
2.- Que capital final se tendrá al cabo de 6 años, si se invierten $u$ 1.000 al 8 % de interés
anual?
4.10.-- La Media Armonica: La media Armónica H(x), de una serie de datos: x1, x2, x3,..........,
xn, se define como LA INVERSA DE LA MEDIA ARITMETICA DE LOS VALORES
INVERTIDOS y que corresponden a los datos observados.
H(X) = 1 = 1 = n =
1 + 1 + 1+ .........+ 1 1 1
x1 x2 x3 xn xi xi
n n
En general tenemos:
H(x) = n .
1
36
xi
Asignatura: Estadística I
ADM: 101
3ro. Semestre del Programa Administración de Empresas
EJEMPLO: Si x1 = 4
x2 = 7 n=2
H(x) = . 2 . = . 2 . = 56 = 5,09
1 + 1 7+4 11
4 7 28
b) LA MEDIA ARMÓNICA PARA DATOS AGRUPADOS: Cuando los datos están agrupados
en una distribución de frecuencias, la fórmula para calcular la media armónica es el siguiente:
H(X) = . n .
ni
xi
Xi Ni ni xi ni Log xi ni Log xi
xi
3 2 0,67 6 0,47712 0,95424
4 3 0,75 12 0,60206 0,80618
5 2 0,40 10 0,69897 1,39794
6 2 0,33 12 0,77815 1,5563
7 1 0,14 7 0,84510 0,8451
? 10 2,29 47 -.- 6,55976
H(X) = 4,37
M(X) = 4,7
G(X) = 4,53
La relación anterior se explica, por que la M(X) es la más afectada por los valores extremos o
pronunciados, que la media geométrica (G(X) y la Media Armónica H(X). Si bien, estas últimas
G(X) y H(X) son también afectadas por los valores extremos, el uso del producto y la raíz en
el caso de la G(X) y el inverso en el caso de la H(X), amortiguan de algún modo la incidencia
de los valores extremos.
37
Asignatura: Estadística I
ADM: 101
3ro. Semestre del Programa Administración de Empresas
a) Promediar velocidades
b) Promediar rendimientos laborales
EJEMPLO: Una fábrica de muebles de madera ha asignado a cinco de sus trabajadores para
completar una orden de 200 sillas de un cierto tipo. Las razones de productividad de los cinco
trabajadores están dadas por la siguiente relación.
TRABAJADOR RENDIMIENTO/OBERO
A 5 HRS/SILLA
B 8 “
C 6 “
D 12 “
E 4 “
M(X) = 5 + 8 + 6+ 12 +4 = 35 = 7 sillas/hora
5 5
H(X) = . 5 . = . 5 . = 6,06
1 + 1 + 1 + 1 + 1 0,825
5 8 6 12 4
DEFINICION: “La Media Cuadrática de n valores se define como la raíz cuadrada de la media
aritmética de los cuadrados de las observaciones”.
2
Mc (X) = Σ xi
n
b) PARA DATOS AGRUPADOS:
2
Mc (X) = Σ xi . ni
n
38
Asignatura: Estadística I
ADM: 101
3ro. Semestre del Programa Administración de Empresas
EJEMPLO: Se tiene los siguientes datos
5, 8, 6, 12, 4
Como usted explica las diferencias entre ambos resultados? Cuál es la medida o promedio
más acertado? Explique por que.
4.12. La Mediana:
EJEMPLO: Si un obrero produce diariamente 4 sillas de lunes a jueves, pero el día viernes por
una dolencia apenas produce 1 silla, entonces su rendimiento promedio desciende
considerablemente. Una forma de evitar la influencia perniciosa de los valores extremos,
cundo se calcula un promedio, es utilizando la medida alternativa, que viene a ser la MEDIANA.
LA MEDIANA- DEFINICIÓN
“La mediana (Me) es un valor de las observaciones que divide en dos partes iguales el número
total de observaciones cuando éstos están ordenados de acuerdo a sus valores”.
Para calcular la mediana cuando los datos no están agrupados, se sigue el procedimiento
siguiente:
4, 5, 8, 2, 7, 2, 3
39
Asignatura: Estadística I
ADM: 101
3ro. Semestre del Programa Administración de Empresas
2, 2, 3, 4, 5, 7, 8
Entonces la Mediana = Me = 4
3, 4, 6, 7, 7, 8
¿ Cuál es la Mediana ?
En este caso dos valores se ubican físicamente en el medio 6 y7. Cuando ello acontece, se
toman ambos valores y se promedia entre dos para hallar la mediana:
50 % 50 %
______________________x__________________________
Que viene a ser el punto de equilibrio que balancea el número de observaciones de la serie
estadística.
b.1. CUANDO LA CLASE ES UNICA Y DISCRETA: Cuando ello acontece, es preciso seguir
los siguientes pasos:
40
Asignatura: Estadística I
ADM: 101
3ro. Semestre del Programa Administración de Empresas
GRAFICAMENTE TENEMOS:
Ni
Nj
n/2
N j-1
X j-1 Xj Xi
X + X
b) Si: n = N Mediana = j-1 j
2 j-1 2
EJEMPLO:
41
Asignatura: Estadística I
ADM: 101
3ro. Semestre del Programa Administración de Empresas
Ósea: Me = 40
Si n/2 está o se ubica en un punto intermedio, la clase mediana será la que corresponde a la
frecuencia Absoluta Acumulada Inmediata Superior.
En cambio, si n/2 coincide con un punto de las Frecuencias Absolutas acumuladas, la Clase
Mediana será la que corresponde a este punto.
X + c n/2 - N
a) Si: n/2 > N Me = j-1 j j-1
j-1 N - N
j j-1
b) Si: n/2 = N Me = X
j-1 j-1
42
Asignatura: Estadística I
ADM: 101
3ro. Semestre del Programa Administración de Empresas
GRAFICAMENTE TENEMOS:
Ni
Nj
n/2
N j-1
X j-1 cj Xj Xi
EJERCICIO:
CALIFICACIONES
Xj-1 - Xj Ni Ni
2 - 3 1 1
3 - 4 3 4
4 - 5 8 12
5 - 6 7 14
6 - 7 6 25
SUMA 25 -.-
En este caso:
n/2 - N
n/2 > N Me = X + c j-1
j-1 j-1 N - N
j j-1
43
Asignatura: Estadística I
ADM: 101
3ro. Semestre del Programa Administración de Empresas
Entonces: Me = 5,1
INGRESOS Nº DE OBREROS
Xj - 1 - Xj ni Ni
280 - 295 4 4
295 - 310 5 9
310 - 325 10 19
325 - 340 9 28
340 - 365 13 41
365 - 370 15 56
370 - 385 18 74
385 - 400 12 86
400 - 415 8 94
415 - 430 6 100
SUMA 100 -.-
Calcular la mediana:
n/2 = 100/2 = 50
n/2 - Nj - 1
Entonces: Xj - 1 + cj Nj - Nj - 1
Me = 15 + 50 - 41 = 364
56 - 41
44
Asignatura: Estadística I
ADM: 101
3ro. Semestre del Programa Administración de Empresas
Los cuartiles
Los deciles CUANTILAS O FRACTILAS
Los percentiles
B.- CUARTILES:
Como su nombre lo indica, divide en cuatro partes iguales al conjunto de las observaciones:
0 1Q 2Q 3Q 4Q
Por lo tanto, existen tres cuartiles que responden a las siguientes definiciones:
Los pasos para determinar los cuartiles cuando los datos se presentan sin agrupar, constan
de las siguientes etapas:
(j/4)(n+1)
SOLUCION.-
2 4 13 15 19
x1 x2 x3 x4 x5
45
Asignatura: Estadística I
ADM: 101
3ro. Semestre del Programa Administración de Empresas
PRIMER CUARTIL:
( 1 / 4 ) ( 5 + 1 ) = 1,5 valor que no es un entero, por lo tanto el primer cuartil estará entre
las observaciones x1 y x2. Para ello efectuamos la siguiente operación:
2 4 13 15 19
x1 x2 x3 x4 x5
Me
SEGUNDO CUARTIL:
Entonces Q2 = x3 = 13
TERCER QUARTIL.- Para calcular el 3er cuartil tenemos:
j=3 n=5
( 3/4) (5+1) = 3/4.6= 4,5 Que no es un valor entero, entonces el 3er cuartil está entre x4 y
x5
Despejamos Q3:
Q3 Q3 - x4 = (0,5) ( x5 - x4 )
46
Asignatura: Estadística I
ADM: 101
3ro. Semestre del Programa Administración de Empresas
Q3 = x4 + 0,5 . x5 - 0,5 . x4
Q3 = 15 + (0,5) (19) - (0,5) ( 15)
Q3 = 15 + 0,5 ( 19 - 15)
Q3 = 15 + 2
Q3 = 17
B.2. LOS CUARTILES PARA DATOS AGRUPADOS: Cuando los datos están distribuidos
en una tabla de distribución de frecuencias, el procedimiento que se sigue para determinar
los cuartiles es similar al utilizado para calcular la mediana para datos agrupados, Ósea:
PRIMER CUARTIL:
n/4 - Nj - 1
Q1/4 = Xj -1 + c Nj - Nj - 1
EJEMPLO:
Se tienen los siguientes datos, organizados en una tabla de distribución de frecuencias:
Xj-1 - Xj Ni Ni
2 - 3 1 1
3 - 4 2 4
4 - 5 8 12
5 - 6 7 19
6 - 7 6 25
SUMA 25 -.-
n/4 = 6,25
Remplazamos Datos:
Q1/4 = 4,28
SEGUNDO CUARTIL:
El segundo cuartil o cuartil medio coincide exactamente con la Mediana, para lo cual se utiliza
el mismo procedimiento de la mediana.
47
Asignatura: Estadística I
ADM: 101
3ro. Semestre del Programa Administración de Empresas
Q2/4 = Q ½ = Me
TERCER CUARTIL:
El Tercer Cuartil ( Q 3/4) o cuartil superior es un valor que supera a no más del 75 % de las
observaciones y es superado por no más del 25 % de las mismas.
3n/4 = Q3
Xj-1 - Xj Ni Ni
2 - 3 1 1
3 - 4 3 4
4 - 5 8 12
5 - 6 7 19
6 - 7 6 25
SUMA 25 -.-
4.14. Los Deciles: Los deciles dividen en 10 partes iguales al conjunto de las observaciones.
Por lo tanto, existen los siguientes deciles:
0 1 2 3 4 5 6 7 8 9
48
Asignatura: Estadística I
ADM: 101
3ro. Semestre del Programa Administración de Empresas
El procedimiento tanto para datos sin agrupar y agrupados es axactamente el mismo que se
aplica a los cuartiles.
4.15. Los Percentiles: El uso de los percentiles o centiles solo es justificable cuando existen
tantos numerosos valores de la variable, como una frecuencia total bastante alta. Los
percentiles dividen en 100 partes iguales el número de observaciones.
EJERCICIOS EN CLASES:
SOLUCION:
0 3 3 4 4 8 9 10 10 15 18 20
DECIL 2:
j=2 n = 12
D2 = D2 - x2 = 0,6
x3 - x2 1
D2 - x2 = 0,6 ( x3 - x2)
D2 = x2 + 0,6 (x3 - x2)
D2 = 3 + 0 = 3
49
Asignatura: Estadística I
ADM: 101
3ro. Semestre del Programa Administración de Empresas
DECIL 9:
J=9 n = 12
PERCENTIL 50: j = 50 n = 13
PERCENTIL 80:
j =80 n = 13
P80 = (80/100) (13) = 10,4 Entonces P80 estará entre x10 y x11
4.16. La Moda
Para determinar la Moda de un conjunto de datos sin agrupar, previamente se ordenan los
mismos en forma ascendente o descendente, respetando la correlatividad de los mismos.
EJEMPLO:
50
Asignatura: Estadística I
ADM: 101
3ro. Semestre del Programa Administración de Empresas
Cuando un conjunto de datos presentan dos modas, se dice que es BIMODAL; si son más de
dos modas se llama MULTIMODAL.
Cuando los datos están expresados en una tabla de distribución de frecuencias, es posible
diferenciar dos situaciones:
Cuando la clase es única y discreta, entonces la MODA es la frecuencia que más veces se
repite.
EJEMPLO:
Xi ni
3 2
4 3
5 2
6 2
7 1
SUMA 10
En el presente ejemplo, la frecuencia que más veces se repite es el 4; ósea este valor se
repite tres veces.
La moda = Mo = 4
Mo = X j-1 + c . d1 .
d1 + d2
Donde: X j-1 = Límite inferior de la clase modal, ósea el intervalo que tiene
Mayor frecuencia.
d1 = Diferencia entre la frecuencia de la clase modal y la frecuencia
pre-modal.
d2 = Diferencia entre la frecuancia de la clase modal y la frecuencia
de la clase post-modal.
c = Tamaño del intervalo de la clase modal.
51
Asignatura: Estadística I
ADM: 101
3ro. Semestre del Programa Administración de Empresas
GRAFICAMENTE TENEMOS:
Ni
Clase modal
d2
d1
X j-1 Xj Xi
Me
EJEMPLO:
X j-1 - Xj ni
2 - 3 1
3 - 4 3
4 - 5 8
5 - 6 7
6 - 7 6
SUMA 25
Mo = X j-1 + c . d1 .
52
Asignatura: Estadística I
ADM: 101
3ro. Semestre del Programa Administración de Empresas
d1 + d2
Donde:
X j-1 = 4
c = 1
d1 = 8-3=5
d2 = 8-7=1
Mo = 4 + 5 = 4 + 0,83 = 4,83
6
Mo = 4,83 Mo = 4,8
2. No es una medida única como la media y la mediana. Un conjunto de datos puede tener
más de una moda.
3. El cálculo de la Moda es independiente de la magnitud de las observaciones. Como tal,
puede permanecer igual variando los valores o incrementando el
4. número de ellas.
EJERCICIO EN CLASES: Calcular la Moda para los salarios semanales de 100 obreros, que
trabajan en distintas empresas constructoras de viviendas:
INGRESOS Nº DE OBREROS
280 - 295 4
295 - 310 5
310 - 325 10
325 - 340 9
340 - 355 13
355 - 370 15
370 - 385 18
53
Asignatura: Estadística I
ADM: 101
3ro. Semestre del Programa Administración de Empresas
385 - 400 12
400 - 415 8
415 - 430 6
SUMA 100
Me = 364
Mo = 375
M(x) = 360,85
Mo ( aproximado) = 370,30
EJEMPLO:
1. Una baja dispersión de los salarios mensuales de un grupo de trabajadores indica que los
salarios son aproximadamente iguales.
2. En cambio, una alta dispersión indica que los salarios son muy diferentes.
Por otro lado, estas medidas de dispersión son utilizadas para complementar una medida de
tendencia central, como por ejemplo la Media, y también para comparar una información con
otra.
54
Asignatura: Estadística I
ADM: 101
3ro. Semestre del Programa Administración de Empresas
Por eso es importante contar con otras medidas complementarias que nos permitan salir de
esta disyuntiva, en particular en situaciones como el presente las medidas de dispersión suelen
jugar un papel importantísimo para dirimir la disyuntiva.
1. El Recorrido = R
2. La desviación Media = DM
3. La varianza = V(x)
4. La Desviación Estándar o Típica =
5. El Coeficiente de Variación = CV
5.2.1 El Recorrido:
El Recorrido o rango es la medida más simple de dispersión y está dada por la diferencia entre
el mayor y menor valor de las observaciones.
Ósea:
R = X máximo - X mínimo
Donde: R = Recorrido
X max = Valor máximo observado
X min. = Valor mínimo observado
Ejemplo:
Si: X máximo = 430
X mínimo = 280
Sin embargo, como esta medida no contempla todos los valores contemplados entre el valor
máximo y el mínimo, se dice que no es un indicador de dispersión muy relevante.
EJEMPLO DE APLICACIÓN:
FABRICA “ A “ FABRICA “ B “
55
Asignatura: Estadística I
ADM: 101
3ro. Semestre del Programa Administración de Empresas
a = 50 b = 50
Ra = 20 - 65 = 45 Rb = 35 - 65 = 30
Entonces, podemos señalar a partir del análisis del recorrido que la media de “B” es más
representativa que la media de “A”, ósea hay mayor dispersión en la fábrica “A”.
DM
Me Sin embargo, los más usual es con
respecto a la Media Aritmética.
Pero se sabe, por la primera propiedad de la sumatoria de los desvíos respecto a la media
aritmética es igual a cero, por esta razón es que se utilizan los desvíos en su valor absoluto.
DM = M ( / d / ) = | Xi - |
n
La fórmula para calcular la desviación media para datos sin agrupar está dada por:
DM = | Xi - |
n
DM = | Xi - | ni
n
EJEMPLO DE APLICACIÓN:
3, 4, 5, 4, 6, 5, 4, 6, 7, 3
56
Asignatura: Estadística I
ADM: 101
3ro. Semestre del Programa Administración de Empresas
Xi |Xi - |
Xi -
3 - 1,7 1,7
4 - 0,7 0,7
5 0,3 0,3
4 - 0,7 0,7
6 1,3 1,3
5 0,3 0,3
4 - 0,7 0,7
6 1,3 1,3
7 2,3 2,3
3 - 1,7 1,7
SUMA 0 11
= 47 = 4,7
10
Entonces, La DM = 11 = 1,1
10
a) Sea la información expresada en la siguiente tabla de distribución de frecuencias:
Xi ni
3 2
4 3
5 2
6 2
7 1
SUMA 10
SOLUCIÓN:
Utilizamos la fórmula de la DM para datos agrupados y calculamos previamente |Xi - |y
luego multiplicar la relación por la frecuencia absoluta ni.
Xi ni Xi . ni |Xi - | |Xi - |. ni
3 2 6 1,7 3,4
4 3 12 0,7 2,1
5 2 10 0,3 0,6
6 2 12 1,3 2,6
7 1 7 2,3 2,3
57
Asignatura: Estadística I
ADM: 101
3ro. Semestre del Programa Administración de Empresas
SUMA 10 47 -.- 11
= 47 = 4,7 DM = 11 = 1,1
10 10
Si bien la desviación media como medida de dispersión toma en cuenta todos los valores
observados, la misma es poco frágil debido a que ignora el signo de los desvíos, lo que hace
que se tenga que recurrir a otra medida alternativa.
EJERCICIO EN CLASES:
INGRESOS Nº DE OBREROS
280 - 295 4
295 - 310 5
310 - 325 10
325 - 340 9
340 - 355 13
355 - 370 15
370 - 385 18
385 - 400 12
400 - 415 8
415 - 430 6
SUMA 100
“Se denomina Varianza a la media aritmética de los cuadrados de las desviaciones respecto
a la Media Aritmética de dichas distribuciones”.
Cuanto mayor sea la magnitud de la varianza los datos están más dispersos o diseminados
con respecto de la media y cuanto menor sea la varianza los datos estarán más concentrados
al rededor de la media.
58
Asignatura: Estadística I
ADM: 101
3ro. Semestre del Programa Administración de Empresas
a) LA VARIANZA Y LA DESVIACIÓN STANDAR PARA DATOS SIN AGRUPAR:
2 2 2 2
V(x) = S = = ( Xi - ) = M ( Xi - )
n
_____
DS = S = = V(x)
Las formulas que determinan la Varianza y la desviación Standar para datos agrupados son:
2 2
S = V(x) = ( Xi - ). ni
n
_____
S = = V(x)
EJEMPLO: Del conjunto de calificaciones de 10 alumnos: 3,4,5,4,6,5,4,6,7,3. Calcular la
varianza para datos agrupados y para datos sin agrupar.
2
Xi ( Xi - )
3 2,89
4 0,49
5 0,09
4 0,49
6 1,69
5 0,09
4 0,49
6 1,69
7 5,29
3 2,89
SUMA 16,1
= 47 = 4,7
10
2
V(x) = ( Xi - ) = 16,1 = 1,61
10 10
2 2
Xi ni Xi . ni ( Xi - ) (Xi - ) ni
3 2 6 2,89 5,78
59
Asignatura: Estadística I
ADM: 101
3ro. Semestre del Programa Administración de Empresas
4 3 12 0,49 1,47
5 2 10 0,09 0,18
6 2 12 1,69 3,38
7 1 7 5,29 5,29
SUMA 10 47 -.- 16,1
= Xi . ni = 47 = 4,7
n 10
2 2
V(x) = S = ( Xi - ).ni = 16,1 = 1,61
n 10
_____
DS = S = 1,61 =
PROPIEDADES DE LA VARIANZA:
V(x) > 0
DEMOSTRACIÓN:
2
Por definición sabemos que la M (d) = 0, pero si elevamos al cuadrado M(d)
Entonces: 2
(Xi - ) > 0 Cualquiera sea el valor de di
2
M(d ) > 0
Propiedad Nº 2.-- Si todos los valores de Xi son iguales a una constante k, entonces:
V(k) = 0
2
V ( k ) = M k - M( k )
Pero como M ( k ) = k
Entonces: V (k ) = M ( k - k ) = M(0) = 0
60
Asignatura: Estadística I
ADM: 101
3ro. Semestre del Programa Administración de Empresas
PROPIEDAD Nº 3.- Si k es una constante cualquiera, entonces:
V ( X + k ) = V (x)
DEMOSTRACION:
2
V ( X+k) = M[ (x+k) - M ( x+k)
2
V(X+K) = M (X+K) - M(X) - M(K)
2
X(X+K) = M ( X+K-M(X) - K )
2
V(X+K) = M ( X - M(X) = V(X)
DEMOSTRACION:
2 2
V(X.K) = M [KX - M(KX) = M[XK - KM(X)
2
Sacamos fsctor comun K
2 2 2 2
M [ K ( X - M(X) = M [ K ( X - M(X)
2 2
V(K.X) = K M [ X - M(X)
VK.X) = K V(X)
PROPIEDAD Nº 5.-
2 2
V(X) = M(X) - [ M(X)
2 2
V(x) = Xi - 2 . Xi +
n n n
2 2
V(x) = M( X ) - [ M(x)
61
Asignatura: Estadística I
ADM: 101
3ro. Semestre del Programa Administración de Empresas
Esta última propiedad es muy útil para fines prácticos, la gran ventaja radica en que no es
necesario el cálculo de los desvíos. Entonces alternativamente se puede usar las fórmulas
siguientes:
2 2
V(x) = Xi - [Xi
n n
2 2
Xi Ni Xi . ni Xi Xi . ni
3 2 6 9 18
4 3 12 16 48
5 2 10 25 50
6 2 12 36 72
7 1 7 49 49
SUMA 10 47 135 237
= Xi . ni = 47 = 4,7
n 10
Xi . ni = 237 = 23,7
n 10
2 2
V(X) = M ( X ) - [ M(X)
2
V(X) = 23,7 - ( 4,7 ) = 23,7 - 22,09
V(X) = 1,61
62
Asignatura: Estadística I
ADM: 101
3ro. Semestre del Programa Administración de Empresas
comparación se dificulta (Sólo es posible comparar dos fenómenos si existen características
comunes entre ambos).
Por ejemplo, ¿ como comparar números de libros con horas de viaje, o como comparar horas
de estudio con número de automóviles en una ciudad ? .
El Coeficiente de Variación (CV) es una medida de dispersión relativa y está dada por la
siguiente expresión:
CV = _s_ = %
Donde:
CV = Coeficiente de Variación
s = Desviación Standar
= Media Aritmética
EJEMPLO DE APLICACIÓN:
El ingreso mensual de cierto grupo de trabajadores adultos es de M(X) = 1.875 Bs con una
desviación Standar de s=285 Bs. En tanto que el ingreso medio mensual para un grupo del
mismo tamaño de voceadores es de M(X) = 315 y la Desviación Stándar es de s = 80 Bs.
¿Podemos afirmar categóricamente que el salario de los adultos tiene mayor dispersión? La
respuesta es: ! no !
Por que estaríamos comparando dos grupos heterogéneos ó diferentes, ósea adultos y niños
y las ocupaciones son distintos. En consecuencia, no sirven mucho en estos casos las
medidas de dispersión absolutas, como la Varianza, la desviación Standar o el Rango.
Para estos casos es que utilizamos el CV.
63
Asignatura: Estadística I
ADM: 101
3ro. Semestre del Programa Administración de Empresas
Entonces, podemos afirmar definitivamente que los salarios de los niños presentan mayor
variabilidad que los adultos.
INGRESOS Nº DE OBREROS
280 - 295 4
295 - 310 5
310 - 325 10
325 - 340 9
340 - 355 13
355 -- 370 15
370 - 385 18
385 - 400 12
400 - 415 8
415 - 430 6
SUMA 100
2.- Una región se divide en dos zonas: A y B. En la zona A existen diez cooperativas con una
producción promedio de arroz de 100 TM y una desviación Standar de 10 TM. En la zona B
existen 15 cooperativas con una producción promedio de 120 TM de arroz y una desviación
Standar o típica de 9 TM. Determinar el Coeficiente de Variación de la región.
6. DISTRIBUCIONES BIDIMENSIONALES
Sin embargo, en la vida real los fenómenos no suelen presentarse solos, a menudo es preciso
estudiar más de una característica u observación ligada a un fenómeno. Ejm. La estatura y el
peso de los estudiantes de una unidad educativa. En este caso, se trata de distribuciones
bidimensionales o bivariadas.
En el caso que nos ocupa, una muestra de tamaño n se representa como un conjunto de pares
ordenados de la siguiente forma:
64
Asignatura: Estadística I
ADM: 101
3ro. Semestre del Programa Administración de Empresas
El par ordenado ( Xi,Yi) representa la estatura y el peso de cada estudiante.
Considerando en forma separada cada una de las variables o atributos (X1 ,X2 ,X3,.......Xn) o
(Y1, Y2, Y3,..........Yn), como valores independientes de la variable univariante X o Y, se
pueden calcular todas las medidas descriptivas hasta ahora estudiadas, como ser:
En forma análoga puede suceder con la variable Y, donde también se pueden calcular por
separado los mismos estadísticos o indicadores.
Sin embargo, al analizar las observaciones bivariadas conjuntamente surgen otras medidas
que relacionan ambas variables. Estos son:
LA COVARIANZA O CORRELACION
LA REGRESION
La Covarianza y la correlación miden el grado de asociación entre las variables. Ejemplo, los
alumnos más altos suelen ser los más pesados y los más bajos son generalmente de menos
peso.
Por otro lado, si nos interesa el grado y tipo de relación funcional que se presenta entre las
dos variables estudiadas (X,Y), estamos frente a un problema de REGRESION, es decir si la
variación conjunta la podemops establecer mediante una relación funcional y estimar el peso
de un alumno sobre la base de su estatura, entonces es un problema de REGRESION.
65
Asignatura: Estadística I
ADM: 101
3ro. Semestre del Programa Administración de Empresas
Este segmento también se llama relación cualitativa. En cambio la medida cuantitativa del
grado de correlación lineal entre las variables es proporcionada por el coeficiente de
correlación lineal de PEARSON, denotado por la siguiente fórmula:
r = n Xi Yi - Xi . Yi .
xy
2 2 2 2
n [ Xi - ( Xi ) [ n Yi - ( Yi )
0<r>1
Y Y
r=1 r
= -1
66
Asignatura: Estadística I
ADM: 101
3ro. Semestre del Programa Administración de Empresas
X
X
+ +
r=0 + + +
+ +
+ +
X
Los casos analizados anteriormente son casos extremos, lo normal es que r fluctúe entre 0 y
1:
+ +
+ + +
+ + +
+ + +
+ + r = 0,95 + + r = 0,95
+ + +
+
67
Asignatura: Estadística I
ADM: 101
3ro. Semestre del Programa Administración de Empresas
NOTA.- El Coeficiente de Correlación de PEARSON ( r ), refleja únicamente la relación lineal
entre las dos variables ( X e Y ). Sin embargo, puede ser que las dos variables estén
relacionados en forma no lineal, por ejemplo: exponencial.
En este último caso, la “r” de Pearson no será una medida apropiada para establecer el grado
de correlación entre las variables.
SOLUCION:
Y = Peso
100
+
90 + +
+ NUBE
DE PUNTOS
80
+
+
70 +
+
60 +
X =
Estatura
CONCLUSIONES DE LA GRAFICA:
r = n Xi Yi - Xi Yi .
68
Asignatura: Estadística I
ADM: 101
3ro. Semestre del Programa Administración de Empresas
2 2 2 2
[ n Xi - ( Xi) [ n Yi - (Yi)
Para ello debemos calcular previamente los valores que requiere la fórmula de r, dado en la
expresión anterior:
ESTATURA PESO 2 2
Xi Yi Xi Yi Xi Yi
1,54 60 92,40 2,3716 3.600
1,82 94 171,08 3,3124 8.836
1,57 65 102,05 2,4649 4.225
1,60 66 105,60 2,5600 4.356
1,75 85 148,75 3,0625 7.225
1,65 72,5 119,62 2,7225 5.256,25
1,69 77 130,13 2,8561 5.929
1,62 70 113,40 2,6294 4.900
1,77 89,5 158,41 3,1329 8.10,25
1,70 80 136,0 2,8900 6.400
16,71 759,0 1.277,45 27,9973 58.737,50
n = 10
CONCLUSION: Existe alta correlación lineal directa entre estatura y peso de los alumnos
estudiados.
VEHICULOS ACCIDENTES DE
AÑOS MATRICULADOS CARRETERA
( EN MILLONES) ( EN MILES )
1947 352 166
1948 373 153
69
Asignatura: Estadística I
ADM: 101
3ro. Semestre del Programa Administración de Empresas
1949 411 177
1950 441 201
1951 462 216
1952 490 208
1953 529 227
1954 577 238
1955 641 268
1956 692 268
1957 743 274
Calcular “r”:
6.4. Analisis de Regresion.- El objeto del análisis de regresión es establecer una relación
funcional matemática entre variables, de manera que seamos capaces de predecir el valor de
una variable en base al comportamiento de otra u otras variables, es decir una relación
funcional del siguiente tipo:
Y = f(X)
Donde:
Y = Variable dependiente o ENDOGENA
X = Variable Independiente o EXOGENA
SIMPLE : Y = f (X)
Tipo de relación
No lineal : PARABOLA, LOGARITMICA,
HIPERBOLICA.
70
Asignatura: Estadística I
ADM: 101
3ro. Semestre del Programa Administración de Empresas
GRAFICAMENTE TENEMOS:
Y Y
2
Y = a + bX Y=
a+b+cX
X
X LINEA RECTA PARABOLA
Y Y = . 1 . Y
a+bX Y = a + b Log X
X
X
HIPERBOLA LOGARITMICA
La relación de dependencia más simple y la más utilizada por el método científico es el modelo
de regresión lineal simple o LINEA RECTA y está dada por la siguiente expresión algebraica:
Y = a + bX
71
Asignatura: Estadística I
ADM: 101
3ro. Semestre del Programa Administración de Empresas
Donde:
Y = Variable dependiente (ENDOGENA)
a = Ordenada en el origen; ósea el punto donde la línea recta corta
al eje de la ordenada.
b = Pendiente o grado de inclinación de la RECTA
X = Variable Independiente (EXÓGENA)
EJEMPLO: La relación funcional entre el nivel del salario y la antigüedad o años de servicio,
esta dada por:
Y = f (X)
Dependencia Total
Independencia total
Dependencia estadística parcial
EJEMPLO: La relación entre el nivel del salario y la antigüedad o años de servicio, están dados
por la siguiente tabla:
SALARIO/HORA ANTIGUEDAD
12 1
16 3
18 4
22 6
28 9
Ahora bien, para determinar como están relacionadas ambas variables primeramente se
deben identificar la variable dependiente y la variable independiente. En el caso que nos ocupa
estos son:
72
Asignatura: Estadística I
ADM: 101
3ro. Semestre del Programa Administración de Empresas
Sin embargo, para no complicar el análisis de la relación lineal entre ambas variables podemos
asumir el supuesto de que los salarios únicamente dependen de los años de servicio, mientras
las otras variables permanecen constantes; estamos aplicando acá uno de los supuestos
básicos de economía cual es el concepto de CEATERIS PARIBUS.
Una vez definidas ambas variables, el paso siguiente de la metodología es graficar la relación
funcional en un eje de coordenadas cartesianas para determinar la forma y el tipo de relación
existente entre ambas:
SALARIO
30
+
25
+
20
+
15
+ = 8 = 2
10 4
4
5
1 2 3 4 5 6 7 8 9 10 ANTIGUEDAD
73
Asignatura: Estadística I
ADM: 101
3ro. Semestre del Programa Administración de Empresas
En el ejemplo que nos ocupa, podemos advertir que los puntos o pares ordenados trazados
en la gráfica coinciden exactamente sobre una línea RECTA, que cortan al eje de las
ordenadas en el punto 10 y la recta tiene una pendiente de 2; con estos datos estamos en
condiciones de establecer la relación funcional del siguiente tipo:
Y = 10 + 2 X
La ecuación anterior corresponde a una línea recta y se dice que entre ambas variables existe
DEPENDENCIA TOTAL.
Supongamos ahora, que los datos del ejemplo anterior son los siguientes:
SALARIO/HORA ANTIGÜEDAD
16 1
10 3
13 4
10 6
16 9
Para determinar el tipo de relacionamiento entre ambas variables trazamos los puntos o pares
ordenados en un eje de coordenadas cartesianas.
SALARIO
16 + +
12 +
+ +
8
1 2 3 4 5 6 7 8 9 10
ANTIGUEDAD
En este segundo caso, tenemos el otro extremo del ejemplo donde ambas variables no
muestran ningún tipo de relación funcional ni lineal ni no lineal entre ambos, vale decir no hay
74
Asignatura: Estadística I
ADM: 101
3ro. Semestre del Programa Administración de Empresas
lógica de los pares ordenados. Ejemplo, un obrero con 1 o 9 años llega a ganar el mismo
nivel de salario o uno con 4 años de antigüedad gana más que otro de tres años. En
consecuencia, cuando no existe una relación de dependencia entre ambos se dice que entre
ambos existe INDEPENDENCIA TOTAL de variables.
Los dos casos anteriores son casos extremos, lo normal es que exista una relación más o
menos fuerte entre dos variables relacionadas. Esta relación por tanto hace que el coeficiente
de correlación r fluctúe entre 0 y 1.
SALARIO/HORA ANTIGÜEDAD
10 1
18 3
16 4
20 6
30 9
SALARIO
30 +
25
20 +
+
+
15
10 +
1 2 3 4 5 6 7 8 9 10
ANTIGUEDAD
75
Asignatura: Estadística I
ADM: 101
3ro. Semestre del Programa Administración de Empresas
c) Pero en general existe una tendencia a crecer cuando se incrementa la antigüedad.
d) A diferencia del primer ejemplo, en este caso no se puede directamente ajustar una recta
en base a los datos cuantificados.
Existen dos métodos para ajustar una ecuación de la línea recta para una nube de puntos que
muestren dicha tendencia, estos son:
Debido a que el segundo método es el más utilizado, en este texto solamente trataremos el
método analítico.
Y = a+ bX
SALARIO
+
+
+
= CO
+ CA
a
+
76
Asignatura: Estadística I
ADM: 101
3ro. Semestre del Programa Administración de Empresas
1 2 3 4 5 6 7 8 9
10 ANTIGUEDAD
Para estimar los parámetros a y b a través del método analítico de los mínimos cuadrados,
debemos partir de la siguiente expresión matemática de la recta de los valores teóricos:
Remplazando i en ii tenemos:
2
Di = ( Yi - a - b Xi )
Esta función luego debemos minimizarla; para ello hay que saber si cumple las condiciones
de un mínimo, que son las siguientes:
1RA. CONDICION: La primera derivada parcial de la función debe ser igual a cero.
2DA, CONDICION: La segunda derivada parcial de la función debe ser mayor que cero
D = -2 ( Yi - a - b Xi) / -2
a
D = -2 ( Yi - a - b Xi ) Xi / -2
b
Al dividir ambas expresiones entre -2, e igualamos a cero para que cumpla la primera condición
de un mínimo, tenemos:
( Yi - a - b Xi ) =0
( Yi - a - b Xi ) Xi = 0
Yi - na - b Xi = 0
77
Asignatura: Estadística I
ADM: 101
3ro. Semestre del Programa Administración de Empresas
2
Yi Xi - a xi - b Xi = 0
Yi = na + b Xi
2
Yi Xi = a Xi + b Xi
D > 0 D > 0
a b
Comprobamos a partir del resultado obtenido con la aplicación de la primera derivada:
D = -2 ( Yi - a - b Xi )
a
Previamente hacemos operaciones en la sumatoria y obtenemos la segunda derivada parcial
respecto de a:
D = - 2 Yi + 2 na + 2b Xi
a
Entonces: 2
D = 2n que es mayor a cero, por que siendo n el tamaño de la muestra
a en ningún caso puede ser menor que 1.
D = -2 ( Yi - a - b Xi ) Xi
b
Haciendo operaciones tenemos:
2
D = -2 Yi + 2na + 2b Xi
b
2 2
D = 2 Xi > 0
b
Es mayor que cero, por que tratándose Xi de una observación o dato no puede ser menor que
cero, por cuanto si así fuera utilizando el cuadrado automáticamente se vuelve positivo.
Yi = na + b Xi / Xi
78
Asignatura: Estadística I
ADM: 101
3ro. Semestre del Programa Administración de Empresas
2
Yi Xi = a Xi + b Xi / -n
2 2
Yi Xi - n Yi Xi = b (Xi ) - n Xi
Finalmente tenemos:
b = Yi Xi - n Yi Xi
2 2
( Xi ) - n Xi
El valor de (a) lo obtenemos remplazando el valor obtenido para (b) en cualquiera de las
ecuaciones normales, con ambos parámetros cuantificados estamos en condiciones de
construir la ecuación de la recta ajustada o de los valores teóricos.
SALARIO ANTIGÜEDAD
10 1
18 3
16 4
20 6
30 9
SOLUCION:
SALARIOS
30
+
25
79
Asignatura: Estadística I
ADM: 101
3ro. Semestre del Programa Administración de Empresas
20 +
+
15 +
10 +
1 2 3 4 5 6 7 8 9 10
ANTIGUEDAD
Como podemos apreciar en la gráfica anterior, la nube de puntos nos señala que los puntos
tienen una tendencia muy cercana a la línea recta, por tanto es posible ajustar una función de
Línea Recta del tipo: Y = a + b X
Paso Nº 2.- Determinamos los parámetros (a) y (b), a través de la resolución de las ecuaciones
normales:
El parámetro (b) se calculará a partir de la siguiente expresión matemática:
b = Yi Xi - n Yi Xi
2 2
(Xi) - n Xi
De acuerdo con los requerimientos de la fórmula se deberán calcular los datos solicitados de
la siguiente manera:
2
Yi Xi Yi . Xi Xi
10 1 10 1
18 3 54 9
16 4 64 16
20 6 120 36
30 9 270 81
94 23 518 143
n=5
Remplazamos los datos en la fórmula:
b = 2,30
80
Asignatura: Estadística I
ADM: 101
3ro. Semestre del Programa Administración de Empresas
94 = 5 (a) + 2,30 (23)
94 - 52,9 = 5a
41,1 = 5a
a = 41,1 a = 8,22
5
Con los dos parámetros calculados podemos finalmente estructurar la ecuación de la Recta:
Yi = 8,22 + 2,30 Xi
A partir de la ecuación anterior es posible estimar valores de Yi dando valores a Xi. Esta
operación se conoce como PRONOSTICO ESTADISTICO.
EJERCICIO PARA RESOLVER EN CLASES: La siguiente tabla contiene las estaturas y los
pesos de una muestra de hombres adultos:
ESTATURA PESO
Cms Kgs
155 61,5
152 50,0
152 54,5
155 57,5
157 63,5
152 59,0
157 61,5
165 72,0
162 66,0
178 72,0
183 84,0
178 82,0
Se pide:
81
Asignatura: Estadística I
ADM: 101
3ro. Semestre del Programa Administración de Empresas
SOLUCION
90
80
70
60
50
PESO
40
30
20
10
0
0 20 40 60 80 100 120 140 160 180 200
ESTATURA
Cuando una de las variables es el tiempo (En días, meses o años), la regresión se denomina
SERIE DE TIEMPO. Supongamos que la producción (En millones) de un determinado artículo
fabricado por una compañía durante los años 1980-1989 es como sigue:
Años 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989
Producción 92,2 92,3 80,0 89,1 83,5 68,9 69,2 67,1 58,3 61,2
82
Asignatura: Estadística I
ADM: 101
3ro. Semestre del Programa Administración de Empresas
Primeramente debemos trazar el diagrama de dispersión para determinar la tendencia de los
puntos y el grado de correlación entre ambas variables.
PRODUCCIÓN DE X EN 10 AÑOS
100
90
80
70
PRODUCCION
60
50
40
30
20
10
0
1978 1980 1982 1984 1986 1988 1990
AÑOS
Serie1
Seguidamente hacemos los cálculos para hallar los valores de “b” y “a”, utilizando las fórmulas
del método de mínimos cuadrados:
AÑOS No PRODUCCIÓN 2 2
X Y XY X Y
1980 1 92,2 92,2 1,0 8.500,8
1981 2 92,3 184,6 4,0 8.519,3
1982 3 80,0 240,0 9,0 6.400,0
1983 4 89,1 356,4 16,0 7.938,8
1984 5 83,5 417,5 25,0 6.972,3
1985 6 68,9 413,4 36,0 4.747,2
1986 7 69,2 484,4 49,0 4.788,6
1987 8 67,1 536,8 64,0 4.502,4
1988 9 58,3 524,7 81,0 3.398,9
1989 10 61,2 612,0 100,0 3.745,4
SUMA 55 761,8 3.862,0 385,0 59.513,8
b= 10 (3.862) – 55(761,8) = - 3,97
2
10(385) – (55)
83
Asignatura: Estadística I
ADM: 101
3ro. Semestre del Programa Administración de Empresas
Yi = na + b Xi
761,8 = 10 a + (- 3,97)(55)
a = 98
Entonces la Recta de Regresión estará dada por:
Y = 98 – 3,97 X
A partir de esta Recta de Regresión podemos hacer proyecciones estadísticas: Ejemplo, para
el año 1990, X = 11, la producción para este año será:
Existe necesidad de incorporar en el análisis más de dos variables, con lo cuál ingresamos a
la regresión lineal múltiple, donde participan más de dos variables; ósea, una variable
dependiente y más de una variable independiente:
EJEMPLO:
En todos los ejemplos señalados anteriormente tendremos una función lineal múltiple del
siguiente tipo:
Y = a + b X + cZ
Donde:
Y = Variable Dependiente
a = Es la intersección entre el plano y el eje Y o la ordenada.
b y c = Son los coeficientes de regresión parcial que miden:
b= Es el estimador que mide la cantidad por el cuál un cambio
unitario en X, provoca un cambio en Y, cuando Z permanece
constante.
c = Mide la cantidad de cambio en Y provocado por un cambio unitario
84
Asignatura: Estadística I
ADM: 101
3ro. Semestre del Programa Administración de Empresas
en Z mientras permanece constante X.
Y
x
x a Y=a
+ bX +c Z
Y =a+bX+cZ
Para obtener las ecuaciones normales de regresión lineal múltiple recurrimos al criterio de los
mínimos cuadrados, ósea minimizamos la siguiente función:
2
Di = ( Yi - Yi )
Remplazando términos tenemos:
85
Asignatura: Estadística I
ADM: 101
3ro. Semestre del Programa Administración de Empresas
2
Di = ( Yi - a - b Xi - c Zi)
La primera condición de un mínimo exige que las primeras derivadas parciales con respecto a
los parámetros: a, b, y c deben igualados a cero.
D = - 2 ( Yi - a - b Xi - c Zi) /-2
a
D = - 2 ( Yi - a - b Xi - c Zi) Xi /-2
b
D = - 2 ( Yi - a - b Xi - c Zi) Zi /-2
c
D = ( Yi - a - b Xi - c Zi) = 0
a
D = ( Yi - a - b Xi - c Zi) Xi = 0
b
D = ( Yi - a - b Xi - c Zi) Zi = 0
c
Haciendo operaciones de sumatoria tenemos:
Yi - na - b xi - c Zi = 0
2
Yi Xi - aXi - bXi - c Zi Xi = 0
2
Yi Zi - a Zi - b Xi Zi - c Zi = 0
Yi = na + b xi + c Zi
2
Yi Xi = a xi + b Xi + c Zi Xi ECUACIONES NORMALES
2
Yi Zi = a Zi + b Xi Zi + c Zi
Las ecuaciones normales pueden ser resueltas mediante los métodos de Eliminación y
Cramer.
86
Asignatura: Estadística I
ADM: 101
3ro. Semestre del Programa Administración de Empresas
1970 43 58 11
1971 50 62 14
1972 53 64 18
1973 62 69 20
AÑOS Y X Z YX X2 ZX Z2 YZ
1967 39 48 9 1872 2304 432 81 351
1968 40 54 10 2160 2916 540 100 400
1969 45 55 12 2475 3025 660 144 540
1970 43 58 11 2494 3364 638 121 473
1971 50 62 14 3100 3844 868 196 700
1972 53 64 18 3392 4096 1152 324 954
1973 62 69 20 4278 4761 1380 400 1240
SUMA 332 410 94 19771 24310 5670 1361 4658
87
Asignatura: Estadística I
ADM: 101
3ro. Semestre del Programa Administración de Empresas
2
( Yi - a - b Xi - c Zi )
rxyz = 1 - n
__ 2
( Yi - Y)
n
Al igual que el concepto de coeficiente de correlación lineal simple ( r ), mientras más próximo
se halle a 1 se dice que las dos variables independientes explican de manera casi total a la
variable dependiente Y, ósea existe plena dependencia entre las tres variables. Cuando r está
próximo a cero, existe escasa correlación entre las tres variables o si es cero la correlación
es NULA.
2 _2
AÑOS Y X Z bX cZ (Yi-a-bc+cZ) (Y - Y)
1967 39 48 9 12 13,77 0,98 70,56
1968 40 54 10 13,5 15,3 1,08 54,76
1969 45 55 12 13,75 18,36 0,42 5,76
1970 43 58 11 14,5 16,83 0,32 19,36
1971 50 62 14 15,5 21,42 0,70 6,76
1972 53 64 18 16 27,54 7,73 31,36
1973 62 69 20 17,25 30,6 3,65 213,16
SUMA 332 410 94 102,5 143,82 14,88 401,72
Donde:
14,88
88
Asignatura: Estadística I
ADM: 101
3ro. Semestre del Programa Administración de Empresas
r= 1 - 7 . = 1 - 104,16 = 1 - 0,037 = 0,963
401,72 2.812,04
7
r = 0,98
EJERCICIO PARA RESOLVER EN CLASES: El gerente de una Compañia de seguros desea
estimar el monto total de préstamos que hará durante el año 1974, sobre las pólizas emitidas
por su compañia; para esto, los consejeros de inversiones de la Cia., decidieron efectuar un
estudio al respecto en base a los resultados obtenidos durante los primeros 10 años de
existencia de la compañia; tomando en cuenta además otras variables como ser: el ingreso y
la población estimada. Las estadísticas recopiladas se detallan en el cuadro siguiente:
En muchos casos cuando los valores en parejas de las variables X e Y, no se ajustan a una
línea recta, se puede conseguir una relación lineal mediante una transformación de estos
valores.
89
Asignatura: Estadística I
ADM: 101
3ro. Semestre del Programa Administración de Empresas
EJEMPLO: Ajustar por el método de mínimos cuadrados una curva de la forma:
B
Y = AX
Gráficamente tenemos:
2,5
1,5 Serie1
0,5
0
0 1 2 3 4 5 6
90
Asignatura: Estadística I
ADM: 101
3ro. Semestre del Programa Administración de Empresas
Entonces:
Uno de los métodos estadísticos que se utilizan con mayor frecuencia en economía,
administración de empresas, demografía y otros campos de la estadística aplicada, son los
números índices.
El número índice simple se calcula a partir de una sola variable, mientras que un índice
compuesto se calcula a partir de dos o más variables.
INDICES SIMPLES
It/to = Xt x 100 %
Xo
91
Asignatura: Estadística I
ADM: 101
3ro. Semestre del Programa Administración de Empresas
EJEMPLO: En el cuadro siguiente se muestran los promedios de los salarios, en dólares, de
los trabajadores de una empresa, de 1975 a 1983. Calcular los correspondientes índices para
cada uno de los nueve años utilizando como base:
Interpretación de la tabla.- La primera columna del cuadro se obtuvo dividiendo cada cifra
anual entre 310, que corresponde al salario del año base 1975 (1975=100), lo que es lo mismo
que multiplicar cada cifra anual por su recíproco: 100/300=0,323
La interpretación es como sigue: El índice 183,9 por ejemplo, significa que en 1983 ha habido
un aumento respecto a 1975 de 83,9 %. Por otra parte, si la cifra resultante es negativa se
dice que ha habido una baja.
INDICES COMPUESTOS:
La finalidad del índice de precios consiste en combinar movimientos de muchos precios a fin
de estimar el movimiento promedio de algún grupo en particular de precios.
Ejemplo, supongamos que nos interesa el comportamiento de los precios de los productos
cerealeros entre 1955 y 1963. Para ello elegimos el trigo, el maíz, el centeno y la cebada como
cereales típicos y recogemos los siguientes datos referentes a los precios y las cantidades que
se consumieron en los dos años seleccionados:
92
Asignatura: Estadística I
ADM: 101
3ro. Semestre del Programa Administración de Empresas
Precio Cantidad Precio Cantidad
(en dólares) Consumida en (En dólares) consumida en
Tn Tn
Trigo 1,75 100 2,10 90
Maíz 1,20 90 1,80 120
Centeno 0,50 30 1,50 50
Cebada 1,00 20 0,80 40
TOTALES 4,45 240 6,20 300
Ahora queremos calcular un número índice del precio de los cereales para 1963 usando 1955
como período base. La forma más sencilla de hacerlo sería calcular una razón de precios para
cada uno de los cuatro cereales y promediarlas en forma conjunta. Las relaciones de precios
son las que aparecen a continuación:
Los precios relativos obtenidos son en realidad números índices para cada mercancía en
particular, y expresan tan solo el precio de ella en 1963 como un porcentaje de su precio en
1955. El precio del trigo en 1963 era el 120 % de su precio en 1955, etc. El número índice
global lo obtenemos con solo sumar las cuatro relaciones de precios y dividiendo el resultado
entre cuatro. De esta manera, el número índice es 162,5 (650/4=162,5).
Como el número índice para el año base (1955 en este caso) es siempre 100, el cálculo sugiere
que el precio de los cereales era en 1963 un 62,5 % superior al de 1955.
El índice así calculado, si bien es legítimo, tiene sus restricciones por cuanto no refleja o no
acompaña las cantidades de cada cereal en la construcción del índice de precios, por tanto
introduciremos otro índice compuesto más realista denominado INDICE AGREGATIVO
PONDERADO. Para ello hacemos las siguientes operaciones:
P1963 = 2,10 x 100 + 1,80 x 90 + 1,50 x 30 + 0,80 x 20 = 433 = 136,2
1,75 x 100 + 1,20 x 90 + 0,50 x 30 + 1,00 x 20 318
El número índice 136,2 representa que el promedio de los precios de los cereales ha
aumentado cerca de un 36,2 % entre 1955 y 1963. Esta estimación es muy inferior a la
anteriormente calculada, sobre todo por que atribuimos al centeno una ponderación menor
con relación a la importancia de su consumo en 1955. Este índice emplea las ponderaciones
del año base y tiene una significación precisa, que puede explicarse de la siguiente manera:
93
Asignatura: Estadística I
ADM: 101
3ro. Semestre del Programa Administración de Empresas
Con los datos ya presentados, podemos calcular también un índice agregativo ponderado
usando las cantidades de 1963 como ponderaciones. La estimación de dicho número índice
es el siguiente:
El significado de este resultado es “La compra de cantidades realizada durante 1963 cuesta a
los consumidores un 39,7 % más de lo que les hubieran costado en 1955”.
Los dos números índices agregativos o compuestos ocupan un lugar importante en la teoría
de los números índices. El índice con ponderación del año base se determina por la siguiente
fórmula:
Pg = ∑pg.qb
∑pb.qb
Donde:
g = Significa el año dado ósea el año del cual se computa el número
índice.
b = El año base
p = Significa el precio
q = La cantidad
P = El número índice
Así pues, el numerador de la fórmula nos dice que hay que multiplicar el precio en determinado
año de cada mercancía por su cantidad en el año base, y sumar luego estos productos para
todas las mercancías. El denominador, en cambio, indica multiplicar el precio en el año base
de cada mercancía por su cantidad en el año base y sumar luego esos productos por todas
las mercancías.
Por otro lado, la fórmula para el índice ponderado de determinado año es la siguiente:
Pg = ∑pg.qg
∑pb.qg
Para los ejemplos anteriores, en consecuencia, las fórmulas generales serían las siguientes:
El índice de precios al consumidor (IPC) se construye para medir los cambios de precios en
los bienes y servicios que adquieren los asalariados urbanos y los trabajadores. El IPC se
calcula mensualmente empleando el año base con ponderaciones del año seleccionado. Así
para marzo de 1969, el número índice se calculó a través de la siguiente fórmula:
94
Asignatura: Estadística I
ADM: 101
3ro. Semestre del Programa Administración de Empresas
Pmar1969 = ∑pmar.1969.q1960
∑pbase1955.q1960
La muestra utilizada para preparar el índice contiene más de un centenar de bienes y servicios
(alimentación, vivienda, vestimenta, transporte, salud y recreación).
TAREA PARA INVESTIGAR: Investigar como se calcula el IPC en nuestro país y explicar
con ejemplos.
BIBLIOGRAFIA
95