Está en la página 1de 23

ESTADISTICA

La estadística es un término que es usado


ESTADÍSTICA APLICADA A LA INVESTIGACIÓN con mucha frecuencia para hacer referencia a
cualquier información o datos; sin embargo,
la estadística es mucho más que la simple
Julián Chura Chuquija colección de información ya que involucra
todo un conjunto de procesos que tienen
como objetivo alcanzar un mayor
Huancavelica Mayo 2017 conocimiento de una realidad que es
desconocida y sobre la cual se desea tomar
decisiones.

CONCEPTOS BÁSICOS Población


En la aplicación de los diversos procesos Es el conjunto de todas las unidades que tienen una
estadísticos es necesario tener presente cierta característica común, la cual se desea estudiar.
Dependiendo del número de elementos que la
terminología asociada a esta ciencia para una conforman, una población puede ser finita o infinita.
mejor comprensión de los resultados que se Cuando se estudian uno o varios caracteres de todos
obtengan con su aplicación. los elementos de la población, se dice que se realiza
Ejemplo, cuando los estadísticos hacen un censo.
referencia a Población, Individuo, Observación, Por ejemplo:
etc., el concepto asociado a estos términos
• Conjunto de familias de una ciudad.
tiene un significado particular que es
• Conjunto de empresas de una región.
conveniente precisar. • Conjunto de bombillas eléctricas producidas en un día.

Muestra Muestras no aleatorias:


Es cualquier subconjunto de unidades elementales, Son aquellas cuyos elementos son elegidos
elegidas de una población. Por ejemplo: mediante criterios no probabilísticos.

• 200 familias elegidas de una ciudad. Las ventaja de las muestras aleatorias sobre las no
• 30 empresas elegidas de una región. aleatorias es que brindan una mayor confianza que los
• 80 bombillas eléctricas elegidas de las producidas en datos recopilados no estén afectados por sesgos o
un día. factores extraños a la investigación, y por que permiten
Dependiendo de la forma como se eligen dichas aplicar los métodos de inferencia estadística, siendo
unidades elementales, las muestras pueden ser: posible generalizar sus resultados a la población de
donde se eligieron sus elementos. Esto último no es
Muestras aleatorias : posible mediante la muestras no aleatorias. En lo
sucesivo, al hacer referencia a una muestra,
Son aquellas cuyos elementos son elegidos usando
implícitamente se tendrá presente que se trata de una
algún criterio probabilístico.
muestra aleatoria.

1
Observación
Individuo o unidad elemental
Es el dato o registro realizado, producto de la
Es todo elemento que está afectado por la
apreciación de una característica en un individuo o
característica o factor que se desea estudiar.
unidad elemental. Una observación puede ser
Constituye la unidad más pequeña de las
poblaciones y de las muestras. Por ejemplo: cualitativa o cuantitativa. Por ejemplo:

• Al estudiar el ingreso familiar de una ciudad, la


característica en estudio será el ingreso familiar, y • 12 milímetros, como la observación del diámetro de
cada familia de la ciudad será un individuo o un perno.
unidad elemental. • 900 soles, como la observación del precio de un
• Al estudiar el grado de tecnificación de los artículo.
empleados de una empresa, una característica en • Bueno, como la observación de la calidad de un
estudio podría ser el grado de instrucción, y cada artículo.
empleado de la empresa será una unidad
elemental o individuo.

Variable
Es todo factor o característica que puede tomar valores • Nominales: Si sus valores no se pueden ordenar.
diferentes cuando se observa a los individuos de una Sexo, Grupo Sanguíneo, Religión, Nacionalidad,
muestra o población. Las variables pueden ser: Fumar (Sí/No)
A Variables cualitativas (VC) • Ordinales: Si sus valores se pueden ordenar.
Mejoría a un tratamiento, Grado de satisfacción,
Son aquellas cuyos resultados no pueden ser Intensidad del dolor.
expresadas en forma numérica. Por ejemplo:

• La calidad de los artículos producidos por una


empresa.
• El color de preferencia de !as personas.
• El grado de instrucción de los empleados de una
empresa.

B Variables cuantitativas B.2 Variables cuantitativas continuas (VCC)


Son aquellas cuyos resultados pueden ser expresados Son aquellas que tienen un número infinito de valores
en forma numérica. Las variables cuantitativas pueden posibles y son expresados mediante números de un
ser: intervalo real. Por ejemplo:
• El peso neto de un artículo.
B.l Variables cuantitativas discretas. (VCD) • El volumen de contenedor..
Son aquellas que tienen un número finito de valores
posibles. Usualmente se las asocia a procesos de
conteo, donde el resultado es expresado mediante un
número entero. Por ejemplo:

• El número de accidentes semanales en una empresa.


• El número de hijos por familia.

2
Parámetro Valor estadístico o estimador
Es una función de todas las observaciones de una
población. Un parámetro resume la información Es una función de las observaciones muéstrales y
contenida en las observaciones que comprenden a que no depende de parámetro alguno. Un valor
una población, por lo cual su valor es único y estadístico o estimador define un procedimiento para
constituye usualmente la incógnita que todo resumir la información contenida en las
investigador desea conocer. Los parámetros se observaciones que comprenden a una muestra. Se
definen también como valores constantes que caracterizan por que pueden tomar valores
caracterizan a una población. Algunos de los diferentes de muestra a muestra, debido a que las
parámetros a los cuales se hará referencia son: observaciones captadas en muestras diferentes no
son necesariamente iguales. Los valores
- Media poblacional, cuya notación es : u, estadísticos o estimadores son útiles por que
- Variancia poblacional, cuya notación es : 2 permiten obtener estimaciones del valor de los
- Moda poblacional. cuya notación es : Mo parámetros. Algunos de los estimadores son:

Ejemplos:
• Promedio o media muestral, cuya notación es :X 1. Considere la población de todas las
• Variancia muestral, cuya notación es : S2 computadoras laptop propiedad de los
• Moda muestral, cuya notación es : mo. alumnos de la UNALM. Usted quiere saber el
peso de la laptop.
Los valores que se obtienen al aplicar los
estimadores o valores estadísticos a una muestra a) Especifique la unidad de población
particular son llamados estimaciones de los valores b) Especifique la variable de interés
de los parámetros. Es decir, si para una muestra se
obtiene:
X = 38.12 , S2 = 8.45 , mo = 37.25 , Solución:
luego, estos son las estimaciones de los a) Laptop
parámetros definidos como: media poblacional (), b) peso
variancia poblacional (2 ), y moda poblacional
(Mo), respectivamente.

A) Estadística descriptiva
1.2 Estadística
Estadística es la ciencia que se ocupa de la creación, Es la rama de la estadística que se ocupa del resumen y
desarrollo y aplicación de técnicas, que permitan hacer descripción de los datos colectados; es decir, se ocupa
una análisis confiable de una población. de: la colección y clasificación de información, de su
En términos generales, se ocupa de la colección, resumen en tabulaciones y de su presentación mediante
cuadros y gráficos que describan en forma apropiada el
resumen y presentación de información, del análisis e
comportamiento de la información captada.
interpretación de datos y resultados, de modo tal que
pueda evaluarse la confiabilidad y riesgos asociados a Por ejemplo, cuando se hace una encuesta para
las conclusiones que se puedan derivar a partir de la estudiar la opinión del público sobre la calidad y el
información captada precio posible de un nuevo producto, con la aplicación
de la estadística descriptiva seria posible entre otras
cosas: clasificar las respuestas de modo tal que sea
posible tener una idea general de la opinión del público;
con las respuestas sobre el precio evaluar su promedio
y la variabilidad de las respuestas; construir cuadros,
tablas y gráficos que permitan evaluar visualmente el
comportamiento de la información.

3
Debe tenerse presente que la estadística
descriptiva es el paso inicial en un análisis
Población (toda la
estadístico, el cual concluye con el proceso de producción del mes)
generalización o inferencia sobre la población Aleatoriamente Muestra (representativa de
la producción del mes)
de donde fueron tomados los datos.
PARAMETROS
B) Inferencia estadística µ =? (siempre desconocidos)
 =? S
Es la rama de la estadística que se ocupa de ESTADISTICOS
(conocidos)
los procesos de estimación, análisis y pruebas
de hipótesis, con el propósito de llegar a Inferencia
conclusiones que brinden una adecuada base
científica para la toma de decisiones, tomando
como base la información muestral captada.

1.3 Etapas de un trabajo estadístico b) Formulación del plan de recopilación de datos.

La estadística como ciencia tiene como objetivo En esta etapa debe definirse qué información se debe
desarrollar procedimientos que permitan obtener recopilar y cómo se debe recopilar dicha información
conclusiones acerca de los parámetros de una (muestra o censo ?). El objetivo es obtener un conjunto
población, a partir de los datos muéstrales captados. adecuado de datos que permitan alcanzar los objetivos
de la investigación.
Para la aplicación objetiva y pragmática de los
procedimientos y técnicas estadísticas es c) Recopilación de datos
recomendable tener presente las siguientes etapas:
En esta etapa se recogen los datos de acuerdo a los
a) Definición del problema planes establecidos en la etapa anterior, teniendo
En esta etapa debe determinarse con claridad cuales cuidado de controlar la calidad de la información que se
son los problemas que se presentan y cuales son los recopila. El éxito de una investigación depende en gran
objetivos de la investigación. parte en la calidad de los datos captados.

d) Clasificación, análisis e interpretación


ORGANIZACION Y REPRESENTACION DE DATOS
En esta etapa se clasifica a la información según sus
características y se la resume mediante la aplicación Organización de datos cualitativos
de estimadores o valores estadísticos para su
posterior análisis e interpretación. Para la organización de datos cualitativos es
necesario determinar el tipo de datos a procesar,
e) Generalización e inferencia. según el orden en que pueden ser presentadas las
Mediante la aplicación de los métodos de inferencia respuestas en cuadros y gráficos.
estadística, las conclusiones de la investigación son A los datos cualitativos que pueden ser presentados
generalizadas a la población de donde se obtuvo la en ordenes diferentes se les llama datos cualitativos
información. nominales, por ejemplo los colores de preferencia de
las personas. A los datos cualitativos a los cuales se
puede asociar algún orden en su presentación se les
llama datos cualitativos jerárquicos, por ejemplo las
opiniones sobre la calidad de un producto.

4
Ejemplo: Supongamos que la empresa DIETA S.A. Tiene Para este caso, las frecuencias absolutas son el
interés en conocer la preferencia del publico sobre resultado de un proceso de conteo de las respuestas
diferentes tipos de mermelada para lo cual toma una obtenidas de las 50 personas consultadas. Así por
muestra aleatoria de 50 personas. Luego de clasificar ejemplo. 11 personas respondieron que la
las respuestas observadas, se ha obtenido por un mermelada de durazno era de su preferencia, 17
proceso de conteo los resultados siguientes: personas respondieron que preferían la mermelada
de fresa, etc.
Preferencia sobre tipos de mermelada
Considerando que el número total de personas
Mermelada de Frecuencia Frecuencia Frecuencia consultadas es 50, las frecuencias relativas se
preferencia absoluta relativa porcentual obtienen dividiendo cada frecuencia absoluta entre
Durazno 11 0.22 22.0 50. Por ejemplo, para el caso de durazno, su
Fresa 17 0.34 34.0 frecuencia relativa se obtiene del siguiente modo:
Piña 12 0.24 24.0 fr1 = f1/50 = 11/50 = 0.22; para fresa, fr2= f2/50 = 17/50
Manzana 10 0.20 20.0 = 0.34; etc.
Total 50 1.00 100.0

Las frecuencias relativas y porcentuales tienen una


De manera similar las frecuencias porcentuales se similar interpretación, y se usan indistintamente. Por
obtienen dividiendo cada frecuencia absoluta ejemplo, para el caso de durazno, la frecuencia
entre 50 y multiplicando luego por 100; también se relativa o porcentual indica que el 11% de las
pueden obtener multiplicando cada frecuencia personas consultadas prefieren la mermelada de
relativa por 100. Por ejemplo, para el caso de durazno. De manera similar se interpreta las otras
durazno, p1 = (f1/50)(100) = (11/50X100)=22, o p1 = frecuencias. Como puede apreciarse, la ventaja del
100 fr1 = (100)(0.22) = 22; la frecuencia porcentual uso de este tipo de frecuencias es que su valor brinda
para fresa será: p2 = (f2/50X100) = (17/50)(100) = 34, información sobre la incidencia de una respuesta, sin
o p2 = 100 fr2 = (100)(0.34) = 34. requerir del total de personas consultadas.
Para un análisis más sencillo de la información es
conveniente representarla mediante gráficos. Existe
una gran diversidad de representaciones gráficas,
siendo los más sencillos y frecuentes los gráficos de
barras (verticales u horizontales) y los gráficos
circulares.

Preferencia sobre tipos de mermelada


Preferencia sobre tipos de mermelada

M an z an a
40 D ur a z n o
2 0 %
2 2 %
35
30
25
20
15

10
5
P iñ a
0
2 4 %
Dur a z no Fr e sa P i ña M a nz a na

T I P O D E M ER M EL A D A Fr esa

3 4 %

5
Organización de datos cuantitativos discretos
Preferencia sobre tipos de mermelada
Cuando se tiene datos cuantitativos discretos cuyo
número de resultados posibles no es grande (no es
mayor de 12 o 15), la información puede ser
M a nza na D ura zno
20% 22% clasificada y presentada directamente sin pérdida de
la identidad de la misma.
En estos casos primero se ordena la información
según su magnitud, a continuación se obtiene las
frecuencias absolutas asociadas a cada valor
P iña observado. Las frecuencias relativas y porcentuales
24%
F re s a
se obtienen de manera similar.
34%

Organización de datos cuantitativos discretos


Al ordenar ascendentemente los datos observados se tiene:
Ejemplo: Supongamos que la empresa VENDE S.A.
Tiene interés en conocer el comportamiento de la
frecuencia de ventas de un articulo WW, para lo cual 2 2 3 3 3 3 3 4 4 4
toma una muestra aleatoria de 40 días y observa el
número de unidades que vende por día, considerando 4 4 5 5 5 5 5 6 5 5
los siguientes resultados: 5 6 6 6 6 6 6 6 6 7
7 7 7 7 7 7 8 8 8 8
2 8 3 6 3 7 4 8 5 6
4 7 5 7 4 6 5 3 7 5
6 4 5 8 6 5 6 7 5 3
7 2 5 6 3 6 5 8 4 7

Con lo cual se tiene el siguiente cuadro de distribución


de frecuencias.

Distribución del número de artículos vendidos por día


Distribucion del numero de articulos vendidos por dia

Frecuencia Frecuencia Frecuencia 25


Número de artículos absoluta relativa porcentual
vendidos por día fi fri Pi 20
2 2 0.050 5.0
Porcentaje

15
3 5 0.125 12.5
4 5 0.125 12.5 10
5 9 0.225 22.5 5
6 8 0.200 20.0
7 7 0.175 17.5 0
8 4 0.100 10.0 2 3 4 5 6 7 8
Total 40 1.000 100.0 Numero de articulos vendidos por dia

6
Organización de datos cuantitativos continuos
Cuando se utiliza intervalos de igual amplitud, el
proceso de generación de tales intervalos es el
Cuando se tiene información para una variable siguiente:
cuantitativa continua las observaciones son
usualmente diferentes entre si . En estos casos los 1. En primer lugar debe establecerse el número de
datos son clasificados de acuerdo a ciertos rangos o intervalos que se van a utilizar. Dicho número es
intervalos mutuamente excluyentes llamados recomendable que esté entre 5 y 15. No existe una
intervalos de clase, para lo cual es necesario tener en regla fija para determinar el número óptimo de
cuenta: la amplitud o rango de cada intervalo y el intervalos. El criterio del investigador juega un
número de intervalos que se deben generar. El papel importante en la determinación del mismo.
objetivo es clasificar la información para una Como forma de referencia se puede utilizar la regla
evaluación más sencilla de la misma. de Sturges, la cual indica que el número de
intervalos es dado por : k= 1 + 3.322 log10(n), donde
n es el número de observaciones disponibles. El
valor de k debe ser redondeado al entero más
cercano.

2. Determinar el rango o amplitud de los datos; es


decir, determinar: A = Xmax – Xmin, donde Xmax, es Los límites inferiores de los otros intervalos se
el valor de la observación de mayor magnitud y obtienen hallando: LIi = LI(i-1) + TIC, para
Xmin es el valor de la observación de menor i=2,3,......,k.
magnitud . Los límites superiores de los intervalos se
obtienen hallando: LSi = LI(i+1), para ,i=1,2,...,k-1;
Determinar el tamaño de cada intervalo de
o también de la siguiente manera: LSi = LS(i-1)
clase: TIC= A/k
+TIC , para i=2,3,...,k
3. Cuando el cociente A/k no es exacto, el valor del
TIC debe ser redondeado al valor superior más
cercano, según las cifras decimales de los datos. 5. Cada uno de los intervalos (LIi, LSi) se considera
cerrado a la izquierda y abierto a la derecha; es
4. Generar los límites de los intervalos. Para el decir, se considera desde LIi a menos de LSi .
primer intervalo se considera como límite Esta regla no se aplica al último intervalo, el cual
inferior al valor de la observación de menor se considera cerrado a la derecha; es decir, se
magnitud; es decir, LI1 = Xmin considera: desde LIk hasta LSk.

Una vez que se ha definido los intervalos de


Frecuencias acumuladas absolutas:
clase, el paso siguiente consiste en clasificar
cada observación en uno de dichos intervalos y i

determinar las frecuencias absolutas; es decir, el Fi   f i  f 1  f 2  .........  f i  Fi 1  f i


i 1
número de observaciones que están dentro de
Frecuencias acumuladas relativas:
cada intervalo. A partir de estas frecuencias se
obtienen, las frecuencias relativas y porcentuales i
correspondientes a cada intervalo. Fri   fri  fr1  fr2  .........  fri  Fri 1  fri
i 1

Adicionalmente, cuando se dispone de datos


Frecuencias acumuladas porcentuales:
cuantitativos continuos es conveniente obtener
las frecuencias acumuladas, para lo cual se i

procede de la siguiente manera: Pi   pi  p1  p 2  .........  p i  Pi 1  p i


i 1

7
Es necesario tener presente que las frecuencias
están asociadas a los intervalos y no a las El procedimiento descrito puede ser aplicado
observaciones, como se consideró anteriormente también cuando se tiene datos cuantitativos
para información cualitativa y cuantitativa discreta. discretos cuyo número de resultados posibles es
grande (es mayor de 20) y su representación gráfica
Para representar gráficamente la información se mediante los procedimientos descritos
puede usar cualquier tipo de frecuencia. En anteriormente no resulte apropiada.
especial se recomienda utilizar las frecuencias
relativas o porcentuales puesto que permiten
analizar la información independientemente del
número de observaciones captadas, siendo
además posible comparar los resultados con los
obtenidos en estudios similares, siempre que los
intervalos de clase sean iguales, o al menos
similares.

Organización de datos cuantitativos continuos


Para obtener la tabla de distribución de
frecuencias se procede de la siguiente manera:
Suponga que los datos que se presentan a
continuación representan los precios del articulo n = 40, k= 1 + 3.322 log(40) = 6.322= 6
WW (nuevos soles) en 40 establecimientos elegidos al A = Xmax - Xmin = 10.2 - 5.2 = 5.0 ,
azar.
TIC = A/k = 5.0/6 = 0.8333 = 0.9 (redondeo por
exceso, a un decimal a la misma precisión de
5.2 10.2 7.0 7.1 10.2 8.3 9.4 9.2 5.4
los datos)
8.1 6.5 7.1 6.6 7.8 6.8 7.2 8.4 9.6
8.7 7.3 8.5 5.7 6.4 10.1 8.2 9.0 7.8
LI1 = Xmin = 5.2
8.2 7.8 6.6 5.3 6.2 9.1 8.6 7.0 7.7
LI2 = LI1 + TIC =5.2 +0.9 = 6.1
8.3 7.5 9.8 7.5
LI3 = LI2 + TIC = 6.1 +0.9 = 7.0
LS1= LI2 = 6.1 M1 = (LI1 + LS1 )/2 = 5.65
LS2= LI3 =7.0 M2 = (LI2 + LS2 )/2 = 6.55

De manera similar se obtienen los otros límites de Para obtener las frecuencias acumuladas se
clase y sus marcas de clase. Las marcas de clase procede de la siguiente manera:
son los valores representativos de la información
contenida en un intervalo. Numéricamente se F 1 = f1 = 4 Fr1 = fr1 = 0.10 P1 =p1 =10.0
obtiene promediando los límites inferior y superior
de cada intervalo y viene a ser una aproximación F2 = F1 + f1 = 4 + 6 =10
al valor promedio de las observaciones
clasificadas en cada intervalo. Este valor es de Fr2 = Fr1 + fr1 = 0.10 + 0.15 = 0.25
importancia pues permite calcular en forma
aproximada algunas medidas estadísticas. P2 = P1 + p1 = 10.0 + 15.0 = 25

Una vez que se han construido los intervalos de De manera similar se procede con los otros
clase, se clasifican las observaciones para intervalos. Con los resultados anteriores se obtiene
obtener las frecuencias absolutas y relativas. el siguiente cuadro de distribución de frecuencias:

8
Histograma de Frecuencias

Distribución de los precios de artículo WW. Distribución de los precios del artículo WW

Marca Frec. Frec. Frec. Frec. Frec. Frec.


Precio del artículo de absoluta relativa acum. acum. porcen- acum. %
35
Clase absoluta relativa tual porcentual
(Intervalos de clase) (Mi) (fi) (fri) (Fi) (Fri) (Pi) (Pi) 30

De 5.2 a menos de 6.1 5.65 4 0.100 4 0.100 10.0 10.0


25
De 6.1 a menos de 7.0 6.55 6 0.150 10 0.250 15.0 25.0
De 7.0 a menos de 7.9 7.45 12 0.300 22 0.550 30.0 55.0 20
De 7.9 a menos de 8.8 8.35 9 0.225 31 0.775 22.5 77.5
De 8.8 a menos de 9.7 9.25 5 0.125 36 0.900 12.5 90.0 1 5
De 9.7 hasta 10.6 10.15 4 0.100 40 1.000 10.0 100.0
Total 40 1.000 100.0 1 0

Donde: k=6 y n=40 0

5.65 6. 55 7. 45 8. 35 9. 25 1 0.1 5

P R E C I O D E L A R T I C U LO W W

Polígono de Frecuencias Polígono de Frecuencias Acumuladas (curva OJIVA)

Distribución de los precios del artículo WW


Distribución acumulativa de los precios del artículo WW
% 35

30 Fri 1.1
1.0
25
0.9
20 0.8
0.7
15
0.6
10 0.5
0.4
5
0.3
0 0.2
4.75 5.65 6.55 7.45 8.35 9.25 10.15 11.05 0.1
PRECIO DEL ARTICULO WW 0.0
5.2 6.1 7.0 7.9 8.8 9.7
PRECIO DEL ARTICULO WW

MEDIDAS DE TENDENCIA CENTRAL Los valores numéricos que se toman como


referencia para señalar el comportamiento de un
conjunto de datos se llaman medidas de tendencia
Cuando se dispone de un conjunto de datos una de o medidas de posición, las medidas de tendencia
las inquietudes de mayor interés es como resumir la que se usan con mayor frecuencia, son tales como
información recolectada en indicadores que reflejen el promedio aritmético, la media aritmética
la forma en que los datos se agrupan o concentran ponderada, la mediana, la moda, etc.
alrededor de ciertos valores de una variable en
estudio. El objetivo es determinar los valores que
pueden ser considerados como representativos de
un conjunto de datos.

9
Media aritmética
La media o promedio aritmético de un conjunto de Este promedio presenta la desventaja de estar
datos se define como la suma de todas las influenciado por los valores extremos; es decir, si en un
observaciones dividida entre el número de conjunto de observaciones existen valores muy
pequeños o muy elevados, el valor del promedio
observaciones. Dependiendo de la información
aritmético quedara influenciado por dichos valores y en
disponible (poblacional o muestral) se puede tener:
estos casos ya no será un indicador representativo de la
1 N
Media o promedio poblacional 
N
X
i 1
i
tendencia central de las observaciones.

1 n Propiedades:
Media o promedio muestral X  Xi
n i 1 1. La media aritmética es un valor representativo
donde: debido a que es el centro de gravedad o punto de
Xi = Valor de la i-ésima observación de la variable equilibrio de un conjunto de observaciones.
en estudio 2. Si se sustituye el valor de cada observación por el
N = Tamaño de la población valor del promedio aritmético no varia la suma de
n = Tamaño de la muestra todas las observaciones.

Debido a esta propiedad, esta suma de cuadrados sirve


3. La suma de las desviaciones de las observaciones para definir medidas de dispersión o variabilidad.
con respecto al promedio aritmético es igual a
cero. 5. La media de una muestra de tamaño n es igual a la
media ponderada de dos o más submuestras, que
X i  X    X i   X   X i  n X   X i  n 1  X i    X i   X i  0
n n n n n n n n


i 1 i 1 i 1 i 1 i 1  n i 1  i 1 i 1 unidas formen la muestra original, tomando como
pesos o ponderaciones a los tamaños de las
4. La suma de los cuadrados de las desviaciones de submuestras..
las observaciones con respecto al promedio 6. Si a cada observación de una muestra se le suma
aritmético es menor o igual que la suma de los una constante, el promedio de las nuevas
cuadrados de las desviaciones de las observaciones será igual al promedio de la
observaciones con respecto a cualquier otro valor. muestra original más la constante.
7. Si a cada observación de una muestra se le
2 multiplica por una constante, el promedio de las
donde k  R
 X  X    X i  k 
n n

i nuevas observaciones será igual al promedio de la


i 1 i 1
muestra original multiplicado por la constante.

Cuando se tienen datos agrupados en tablas de


8. El promedio de la suma o diferencia de dos o más frecuencia, el promedio aritmético puede ser calculado
variables es igual a la suma o diferencia de los de la siguiente manera:
promedios de las variables. Por ejemplo: Yi = Xi +
Wi - Zi; entonces, Y  X  W  Z
9. Si Yi = a + bXi; entonces, Y  a  b X 1 k k

Media o promedio poblacional   


N i1
f i M i  fri M i
i 1

1 k
Media o promedio muestral X  fi M i
n i 1
donde:
Mi = Marca de clase del i-ésimo intervalo
fi = Frecuencia absoluta del intervalo i.
k = Número de intervalos de clase.
N = Tamaño de la población
n = Tamaño de la muestra

10
Ejemplo 3.1
Para el caso de datos discretos organizados en
cuadros de frecuencia se debe considerar:
Suponga que los datos que se presentan a
1 k k continuación representan los precios del articulo
Media o promedio poblacional    f i X i  fri X i WW (nuevos soles) en 40 establecimientos elegidos al
N i 1 i 1
azar.
1 k
Media o promedio muestral X  fi X i
n i 1 5.2 10.2 7.0 7.1 10.2 8.3 9.4 9.2 5.4
8.1 6.5 7.1 6.6 7.8 6.8 7.2 8.4 9.6
8.7 7.3 8.5 5.7 6.4 10.1 8.2 9.0 7.8
Donde: 8.2 7.8 6.6 5.3 6.2 9.1 8.6 7.0 7.7
Xi = Valor observado "i" de la variable en estudio. 8.3 7.5 9.8 7.5
fi = Frecuencia absoluta del valor observado "i"
k = Número de valores diferentes observados.

a) Hallar el valor del precio promedio


Distribución de los precios de artículo WW.
1 n
X   Xi
n i 1 Precio del artículo
Marca
de
Frec. Frec.
absoluta relativa
Frec.
acum.
Frec. Frec.
acum. porcen-
Frec.
acum.
Clase absoluta relativa tual porcentual
(Intervalos de clase) (Mi) (fi) (fri) (Fi) (Fri) (Pi) (Pi)
De 5.2 a menos de 6.1 5.65 4 0.100 4 0.100 10.0 10.0
5.2  10.2  7.0  .....  7.5 311.4 De 6.1 a menos de 7.0 6.55 6 0.150 10 0.250 15.0 25.0
X    7.785 nuevos soles De 7.0 a menos de 7.9 7.45 12 0.300 22 0.550 30.0 55.0
40 40 De 7.9 a menos de 8.8
De 8.8 a menos de 9.7
8.35
9.25
9
5
0.225
0.125
31
36
0.775
0.900
22.5
12.5
77.5
90.0
De 9.7 hasta 10.6 10.15 4 0.100 40 1.000 10.0 100.0
Total 40 1.000 100.0
Luego, se puede expresar que el precio estimado del
artículo WW es aproximadamente 7.785 soles
Donde: k=6 y n=40

b) Obtener el cuadro de distribución de frecuencias


hallar el valor del precio promedio.

Como puede apreciarse ambos resultados anteriores


1 k
X   fi M i
no son iguales. Esto se debe a que se esta utilizando
las marcas de clase como valores representativos de
n i 1 las observaciones clasificadas en cada intervalo; es
decir, cuando se tiene datos agrupados, el promedio
aritmético se calcula asumiendo que la marca de
X
45.65  66.55  .....  410.15  313.3  7.8325 clase es igual al promedio de las observaciones
40 40 clasificadas en cada intervalo. Obviamente, en la
práctica esto ocurre raras veces y por tanto el valor
nuevos soles obtenido es una aproximación al valor del promedio
aritmético que se obtiene con la suma de cada una de
las observaciones.

11
Media aritmética ponderada
Los valores que se obtienen al aplicar las
expresiones para datos sin agrupar y para datos La media o promedio ponderado de un conjunto de
agrupados serán iguales solamente si el promedio observaciones X1, X2, .............Xn, con pesos o
de las observaciones en cada intervalo es ponderaciones W1, W2,.., Wn se define como:
numéricamente igual a la marca de clase del
respectivo intervalo. n

W X i i
W1 X 1  W2 X 2  ......  Wn X n
XP  i 1

n
W1  W2  ......  Wn
W i 1
i

donde:
Xi = Valor de la i-ésima observación
Wi = Ponderación o importancia relativa de la i-ésima
observación.

Este promedio es usado para el cálculo de números Costo de producción Cantidad producida (Wi)
índices, porcentaje promedio, costo promedio, etc.; Sucursal (Xi) (soles) (número de unidades)
A 1.20 500
es decir, en todos aquellos casos donde las B 1.60 200
observaciones no tienen la misma importancia dentro C 1.05 900
de una población o muestra.
Luego, el costo de producción promedio por unidad
Ejemplo 3.2. producida, para la empresa en su conjunto, será:

Suponga que los costos de producción y las n

cantidades producidas por tres sucursales A, B y C W X i i


5001.20  2001.60  9001.05n 1865
XP  i 1
   1.165625 soles
de una empresa son:
n
500  200  900 1600
 Wii 1

Este valor indica que el costo de producción promedio


por artículo, para la empresa es de 1.165625 soles por
cada unidad producida. Si se hubiese usado el n X  16001.28333  2053.328 soles 1865 soles
promedio aritmético se tendría:
pero,
1.20  1.60  1.05 3.85
X    1.28333 soles
3 3 n X P  16001.165625  1865 soles
Este valor indicaría que el costo de producción promedio
por artículo, de las sucursales es 1.2833 soles, bajo el
supuesto que las tres sucursales producen el mismo
número de artículos. Para el ejemplo este promedio no
es correcto, pues no se cumple que el producto del
promedio por el número de observaciones es igual al
total; es decir, que el producto del promedio por la
cantidad de artículos producidos sea igual al costo total
de producción, el cual es 1865 soles para el ejemplo.

12
Media geométrica Ejemplo 3.3

Suponga que una fábrica ha experimentado un incremento


La media geométrica de un conjunto de n
de su producción del: 15% en el año 1989, 10% en 1990 y
observaciones positivas X1, X2, ....Xn se define como:
16% en 1991. Hallar el promedio de crecimiento anual.
n
X P  n X 1 . X 2 ........... X n  n  X i
i 1 X P  3 1.151.101.16  1.136361

Este promedio es usado en la elaboración de Este resultado indica que la producción se ha


números índices y para el cálculo de tasas promedio incrementado anualmente a un ritmo promedio del
de variación. 13.6461 %.

Media armónica
Por otro lado, la media armónica es útil para
La media armónica de un conjunto de n observaciones promediar razones que tienen dimensiones físicas
no nulas (diferentes de cero) X1, X2,..., Xn se define tales como kilómetros por galón, costo por kilómetro,
como el recíproco de la media aritmética de los kilómetros por hora, etc. Con frecuencia resulta
recíprocos de las observaciones; es decir: dificultoso distinguir que promedio debe utilizarse,
por lo cual, como una referencia debe tenerse en
1 n n
XA    cuenta que cuando la unidad del valor constante o
1 n 1 n
1 1 1 1 unidad de evaluación es igual a la unidad del

n i 1 X 1

i 1 X i

X1 X 2
 ......... 
Xn numerador de una razón, se usa el promedio
armónico, y si es igual a la unidad del denominador se
usa el promedio aritmético.
Este promedio tiene la particularidad que los valores
extremos de las observaciones (valores muy
pequeños o muy elevados) afectan al promedio
armónico con menor intensidad que al promedio
geométrico y al promedio aritmético.

Ejemplo 3.4
Mediana
Suponga que las velocidades de producción de tres La mediana de un conjunto de observaciones
obreros son 0.5, 0.625 y 0.4 horas por artículo. Hallar el ordenadas de acuerdo a su magnitud, es el valor de
tiempo promedio por artículo producido después de una la observación que ocupa la posición central de
jornada de 6 horas de trabajo. dicho conjunto. La mediana para la población se
Puesto que cada obrero trabaja 6 horas; luego, en la razón simboliza como Me y la mediana para la muestra se
artículos/hora la unidad constante es el tiempo de trabajo simboliza como me.
(6 horas) por lo cual se debe usar el promedio armónico.

3 3 horas/articulo
XA    0.491803
1 1 1 6.1
  ......... 
0.5 0.625 0.4

esto quiere decir que en promedio se necesita 0.491803


horas por artículo producido.

13
Características Cálculo de la mediana

1. La mediana divide a un conjunto de observaciones 1. Para datos no agrupados. La mediana de un


en dos partes iguales. El 50% con valores mayores conjunto de n observaciones se obtiene de la
a la mediana y el otro 50% con valores menores a la siguiente manera:
mediana.
2. Como medida de posición, la mediana es
influenciada por el número de observaciones y no me  X n1 , si n es impar
por los valores de las observaciones. 2
3. La suma de las desviaciones absolutas de las
observaciones, con respecto a la mediana, es Xn  Xn
menor o igual a la suma de las desviaciones 1 , si n es par
absolutas de las observaciones, con respecto a me  2 2

cualquier otro valor. 2


n n

 X
i 1
i  M e     X i  K  , donde K  R
i 1

Ejemplo: Si se tiene las observaciones: 5, 8, 7, 9, 6, 5, 4 2. Para datos agrupados. La mediana para datos
En este caso los datos ordenados son: 4, 5, 5, 6, 7, 8, 9 agrupados en tablas de frecuencia se puede
y con n =7 se tiene
obtener utilizando las frecuencias absolutas o las
me  X n1  X 71  X 4  6 frecuencias relativas de la siguiente manera:
2 2
n 
  Fk 1 
Ejemplo: Si se tiene las observaciones: 5, 8, 7, 9, 6, 5, 4, 3 me  LI k   2 TIC
 fk 
En este caso los datos ordenados son: 3, 4, 5, 5, 6, 7, 8, 9 y  
con n = 8 se tiene:
 0.5  Frk 1 
Xn  Xn X8  X8 me  LI k   TIC
1 1 X4  X5 5 6  frk 
me  2 2
 2 2
   5.5
2 2 2 2

donde: Ejemplo Con los datos de la tabla de frecuencia del


k = intervalo que contiene a la mediana ejemplo 3.1 se tiene que el intervalo que contiene a la
(primer intervalo donde Frk.  0.5). mediana es k=3 puesto su frecuencia acumulada relativa es
Fk-1, Frk-1= frecuencia acumulada (absoluta o relativa) mayor de 0.5 y por tanto:
del intervalo de clase k -1
fk , frk= frecuencia (absoluta o relativa) del  0.5  Fr2   0.5  0.25 
intervalo de clase k me  LI 3   TIC  7.0    0.9  7.75
 fr3   0.3 

es decir, en el 50% de establecimientos observados se


encontró un precio menor a 7.75 soles y en el otro 50%
observados se encontró un precio superior a 7.75 soles,
aproximadamente.

14
1. Para datos no agrupados. La moda de un conjunto
MODA
de n observaciones se obtiene de la siguiente
La moda de un conjunto de observaciones se define manera:
como el valor, clase o categoría que ocurre con Ejemplo Si se tiene la observaciones: 5, 8, 7, 9, 6, 5, 4
mayor frecuencia. La moda para la población se Ordenando los datos se tiene: 4, 5, 5, 6, 7, 8, 9 , con lo cual
simboliza como M0 y la moda para la muestra se la moda es m0 = 5 pues es el valor observado que se repite
simboliza como mo con mayor frecuencia.
Ejemplo: Si se tiene la observaciones: 5, 8, 5, 9, 6, 5, 4, 9
Características Ordenando los datos se tiene: 4, 5, 5, 5, 6, 8, 9, 9 , con lo
1. La moda puede no existir, ó puede existir más cual se deduce que existen las modas m01 = 5 y m02 = 9 ,
de una moda. siendo la primera la moda de mayor importancia puesto que
2. No se ve afectada por los valores extremos. es el valor de la observación de mayor frecuencia.
3. Se aplica tanto a información cuantitativa
como a información cualitativa.
4. La moda es una medida de tendencia
inestable y es difícil de estimar.

2. Para datos agrupados La moda para datos


Ejemplo Con los datos de la tabla de frecuencia del
agrupados en tablas de frecuencia se obtiene
ejemplo 3.1 se tiene que el intervalo que contiene a la
de la siguiente manera:
moda es k=3 puesto que es el intervalo de mayor
frecuencia y por tanto:
 d1 
mo  LI k   TIC
 d1  d 2  k=3, d,= f3-f2= 12-6 = 6. d2= f3 - f4 = 12-9 = 3

donde:
k = intervalo o clase modal  d1   6 
mo  LI k   TIC  7.0    0.9  7.6 soles
d 1 = f k – fk – 1 o d1 = frk –frk-1  d1  d 2   6  3
d2 = fk – fk +1 o d2 = frk - frk+1
Este valor indica que el precio que se ha observado con
mayor frecuencia se ubica alrededor de 7.6 soles

Usos de la media, mediana y moda La moda se utiliza:


1.Cuando se desea conocer el valor de la observación más
La media se utiliza:
frecuente.
1.Cuando no existen valores extremos que afecten a la 2.Cuando se analiza variables cualitativas.
media. 3.Cuando se desea tener una estimación rápida y
2.Cuando se tenga que calcular otros valores estadísticos, aproximada.
como la variancia por ejemplo.

La mediana se utiliza: Una relación aproximada entre la media, la mediana y


la moda es la siguiente:
1. Cuando se desea conocer el valor de posición central.
mo  X  3 X  me 
2. Cuando se tiene valores extremos que afectan a la media.

15
Medias Recortadas Ejemplo
Consiste en calcular la media aritmética sobre un
subconjunto central del conjunto de datos, no
Calcula la media recortada al 5% de los
considerándose una determinada proporción p por cada siguientes datos:
extremo. (p se expresa normalmente como porcentaje).
3, 4, 4, 5, 5, 6, 7, 8, 9, 11
Por ejemplo, una media recortada al 40% en una secuencia
de 10 datos implica no tener en cuenta ni los 4 valores El valor debe ser 6.11
menores ni los 4 valores mayores.
Calcula la media recortada al 10% de los datos
La media recortada al 0% es la media aritmética. anteriores (da 6)
A la media recortada al 25% se la denomina centrimedia. Calcula la centrimedia (da 5.8)

Otras medidas de tendencia


donde:
A) Percentiles k = intervalo que contiene a la mediana (primer intervalo
donde Frk.: > p).
Un percentil Pp es un valor que divide a un conjunto Fk-1 , Frk - 1 = frecuencia acumulada (absoluta o relativa)
de datos en dos partes, el 100p % de ellos con del intervalo de clase k-1
valores inferiores a Pp , y el 100(1-p) % con valores fk , frk = frecuencia (absoluta o relativa) del intervalo
superiores a Pp. Para datos agrupados en tablas de de clase k
frecuencia se obtiene de la siguiente manera: p = 0.01, 0.02, 0.03,...., 0.99 (0<p<l)

 np  Fk 1 
Pp  LI k   TIC
 fk 

 p  Frk 1 
Pp  LI k   TIC
 frk 

B) Deciles y cuartiles
Ejemplo Con los datos de la tabla de frecuencia del
ejemplo 3.1, el valor del percentil P0.8 o P80 se ubica en Son medidas de tendencia que se definen en forma
el intervalo k = 5 puesto su frecuencia acumulada similar a los percentiles. Es decir: un decil Dk es un
relativa es mayor de "p=0.8" y por tanto: valor que divide a un conjunto de datos en dos
partes, el (100)(k/10) % de ellos con valores
 0.8  Fr4   0.8  0.775  inferiores a Dk y el resto con valores superiores a
P0.8  LI 5   TIC  8.8   0.9  8.98 soles
 fr5   0.125  Dk; mientras que un cuartil Qk es un valor que
divide a un conjunto de datos en dos partes, el
(100)(k/4) % de ellos con valores inferiores a Qk y el
es decir, en el 80% de establecimientos se observó restó con valores superiores a Qk. Numéricamente
un precio menor a 8.98 soles y en el 20% restante se se tiene que:
observó un precio superior a 8.98 soles.

16
Un decil es equivalente a: Di = Pi/10 , para i =1,2,3,...,9
Un cuartil es equivalente a: Qi = Pi/4 , para i =1,2,3
 0.75  Fr3   0.75  0.55 
Q3  P0.75  LI 4   TIC  7.9   0.9  8.7 soles.
 fr4   0.225 
De lo anterior puede deducirse que Me = P0.5 = Q2 = D5.

es decir, en el 75% de establecimientos se observó un


Ejemplo Con los datos de la tabla de frecuencia del precio menor a 8.7 soles y en el 25% restante se
ejemplo 3.1, el valor del tercer cuartil ( Q3 ) se ubica en el observó un precio superior a 8.7 soles.
intervalo k = 4 puesto su frecuencia acumulada relativa es
mayor de "p = 0.75 = 3/4" y por tanto:

MEDIDAS DE VARIABILIDAD
Cuando se dispone de información sobre una variable es Los indicadores que se utilizan para analizar el grado
necesario conocer si los datos recopilados muestran una de heterogeneidad o de variabilidad de un conjunto
variabilidad significativa. Si los datos son semejantes entre si, de observaciones son llamados en general medidas
se observará que no se encuentran muy dispersos con respecto de variabilidad o medidas de dispersión. Las
a la media aritmética y en estos casos se expresa que los datos
medidas de mayor uso son tales como: el rango, la
no son muy variables; sin embargo, cuando los datos presentan
diferencias importantes entre si se apreciará que tienden a variancia, la desviación estándar y el coeficiente de
dispersarse y en estos casos se expresa que la información es variabilidad.
variable o heterogénea. El grado de variabilidad de la
información disponible es muy importante en todo análisis
estadístico pues de esto depende el grado de confiabilidad de
las estimaciones que se puedan establecer, de acuerdo a esto,
para un tamaño de muestra determinado, un análisis en una
población con datos homogéneos será más confiable que el
realizado en una población con datos heterogéneos.

Rango Variancia
El rango o amplitud de un conjunto de datos es la
diferencia entre la observación de mayor valor y la La variancia de un conjunto de observaciones se
observación de menor valor. Es decir, define de la siguiente manera:
2
1 N

R = Xmax -Xmin Variancia poblacional 2 


N
 X
i 1
i  

2
Variancia muestral 1 n
Ejemplo: El rango para los datos siguientes 32. 54, 21, 33,
45, 49. 61 es R = Xmax - Xmin = 61 - 21 = 40 Como puede
S2   X i  X 
n  1 i1
apreciarse, el rango es una medida muy simple que muestra
la diferencia entre las observaciones de mayor y menor De estas expresiones se deduce que la variancia de
valor, pero que no evalúa el grado de variabilidad de la un conjunto de observaciones esta expresada en
observaciones intermedias unidades cuadráticas: por ejemplo, si las unidades de
las observaciones es metros, la variancia será
expresada en metros2. Este hecho dificulta la
interpretación de la variancia.

17
Desviación estándar Coeficiente de variabilidad
La desviación estándar de un conjunto de Es una medida de dispersión relativa que se define
observaciones se define como la raíz cuadrada de la como el cociente entre la desviación estándar y la
variancia. Es decir: media aritmética de un conjunto de observaciones.
Poblacional :    2 Muestral : S  S2 Coeficiente de variabilidad poblacional CV   100 

Como puede apreciarse la desviación estándar de un Coeficiente de variabilidad muestral: CV 
S
100 
conjunto de observaciones esta expresada en las X
mismas unidades de la variable en estudio, por De .estas expresiones se deduce que el coeficiente de
ejemplo, si las unidades de las observaciones es variabilidad no se puede definir si el promedio es igual
metros, la desviación estándar será expresada en a cero. Si el promedio es un valor negativo, debe
metros. Este hecho brinda una clara ventaja con considerarse su valor absoluto para evaluar el
respecto a la variancia. en cuanto a su interpretación. coeficiente de variabilidad.

Para comparar la variabilidad de dos conjuntos de


observaciones se debe tener en cuenta lo siguiente: Si CV Grado de variabilidad
las unidades de medida de las observaciones de dos o 0 < cv < 10 Datos muy homogéneos
más conjuntos de datos es la misma y sus promedios 10  cv < 15 Datos regularmente homogéneos
son iguales o semejantes, se debe utilizar la variancia o 15  cv < 20 Datos regularmente variables
la desviación estándar: Si las unidades de medida de las 20 . cv < 25 Datos variables
observaciones de dos o mas conjuntos de datos es
cv  25 Datos muy variables
diferente o si sus promedios son diferentes, se debe
utilizar el coeficiente de variabilidad.
Para la evaluación del valor del coeficiente de Si bien esta escala no es rígida, se puede
variabilidad, cuando se trabaja con datos económicos utilizar como referencia. Para definir otra
se puede utilizar la siguiente escala. escala se debe tener en cuenta cuánto de
control se tiene sobre otros factores que
pueden influenciar en un conjunto de datos.

Variancia muestral
Cálculo de las medidas de variabilidad
  n  
2
a) Con datos no agrupados 2 n  Xi  
1 1  2 1
 X i  X   X i2  n X   n  1  X i2    
n m
i 1
S2  
Cuando se dispone de un conjunto de n  1 i 1 n  1  i 1 i 1 n 
 
observaciones no agrupadas se debe tener en
 
cuenta las siguientes expresiones para el cálculo
de la variancia. Ejemplo 4.1

1 N 2
1 N 2  Suponga que los datos que se presentan a
Variancia poblacional: 
2

N
 X
i 1
i     X i  N 2 
N  i 1 continuación corresponden a los precios
observados del artículo XX (en soles) en 32
establecimientos elegidos al azar del Distrito de Ate.

18
250.2
5.2 10.2 7.0 7.1 1'0.2- 8.3 '9.4 9.2 6.5 X   7.81875 soles
7.1 6.6 7.8 6.8 7.2 8.4 9.6 8.5 5.7 30
6.4 10.1 8.2 9.0 7.8 8.2 5.3 6.2 9.1   n  
2

8.6 7.0 7.7 8.3 7.5   X  


1  n 2  i 1   1  250.22  soles
S 
2
 X i  n   32.  1 2015.04  32   1.896411
n  1  i 1
   
a) El rango es: R = Xmax - Xmin = 10.2 - 5.2 = 5.0  
b) La variancia muestral. Primero se obtiene la suma
de las observaciones y la suma de los cuadrados c) La desviación estándar es: = 1.377102 soles
de las observaciones.
n d) El coeficiente de variabilidad. se tiene:
X
i 1
i = 5.2 + 10.2 + 7.0 + ... + 7.5 = 250.2 soles

n
= (5.2)2 + (10.2)2 + (7.0)2 + ... + (7.5)2 = 2015.04
CV 
S
100    1.377102 100   17.612882 %
X
i 1
i
2

soles2
X  7.81875 

Lo cual indica que los precios del producto XX, en el b) Con datos agrupados
distrito de Ate, son regularmente variables.
Cuando se dispone de un conjunto de observaciones
agrupados en tablas de frecuencias se debe tener en
cuenta las siguientes expresiones para el cálculo de
la variancia:

Variancia poblacional:
2
1 k
1 k  k
2 
N
 f M
i 1
i i     f i M i2  N 2   
N  i 1 i 1
fri M i2   2

Variancia muestral:
  n  
2

2    fi M i  
1 k 1 k 2 1 k
S2   f i X i  X     f i M i2  n X    f i M i2   i 1  
n  1 i 1 n  1  i 1  n  1  i 1 n 
 
 

NOTA Cuando se tiene datos discretos organizados en Para obtener indicadores de variabilidad se debe
tablas de frecuencia considerar también estas expresiones, obtener primero:
pero tomando Mi=Xi.
k

Ejemplo 4.2 fM


i 1
i i = (3)(5.65) + (5)(6.55) + ... + (3)(10.15)
= 251.9 soles
Intervalo de clase Mi fi fri Fi Fri Pi Pi
De 5.2 a menos de 6.1 5.65 3 0.094 3 0.094 9.4 9.4
k
De 6.1 a menos de 7.0 6.55 5 0.156 8 0.250 15.6 25.0
De 7.0 a menos de 7.9 7.45 9 0.281 17 0.531 28.1 53.1 fM i i
2
= (3)(5.65)2 + (5)(6.55)2 + ... + (3)(10.15)2
De 7.9 a menos de 8.8
De 8.8 a menos de 9.7
8.35
9.25
7
5
0.219
0.156
24
29
0.750
0.906
21.9
15.6
75.0
90.6
i 1
= 2034.74 soles2
De 9.7 a 10.6 10.15 3 0.094 32 1.000 9.4 100.0

251.9
X   7.871875 soles
32

19
a) Variancia muestral. Se tiene: MEDIDAS DE ASIMETRÍA Y CURTOSIS

  n  
2

   fi M i  
1  k     1 2034 .75  251 .9    1.671442
2
soles2 Al analizar un conjunto de datos, además del
S 
2
 fi M i 
n  1  i 1
2 i 1
 32  1  

n
  32 
estudio de las medidas de tendencia y de
 
variabilidad, es conveniente evaluar la forma
b) La desviación estándar es: como están concentradas las observaciones.
Con frecuencia se menciona que es deseable
S  1.671442  1.292843 Soles que las medidas de tendencia sean
representativas, es decir, que reflejen de
Lo cual indica que los precios del producto XX, en el manera apropiada el comportamiento de un
distrito de Ate, son regularmente variables. Como
conjunto de observaciones.
puede apreciarse, este resultado es similar al obtenido
anteriormente en el ejemplo 4.1

Cuando se dispone de información sobre una


Simetría de una distribución de datos
variable además de ser necesario resumirla en
indicadores que permitan conocer su
tendencia para agruparse alrededor de ciertos Cuando los datos de una población se
valores y su grado de dispersión, es necesario distribuyen con igual frecuencia y
evaluar de que manera los datos están alejamiento por debajo y por encima de la
dispersos alrededor de las medidas de media aritmética, se dice que la distribución
tendencia. es simétrica; pero, si los datos por debajo de
Este análisis permite evaluar cuan la media son más frecuentes que aquellos
representativos son las valores de tendencia y por encima de la media, o viceversa, se dice
su confiabilidad dentro de un estudio. que la distribución es asimétrica.
Algunos indicadores que pueden ser usados
para determinar la forma como están
dispersos un conjunto de observaciones.

Coeficiente de asimetría de Pearson ASIMETRIA

El coeficiente de asimetría de Pearson se define como:

Para una población 3  M e 


S kp 

3 X  me 
Para una muestra s kp 
S

En base a este coeficiente se puede tener

20
Curtosis
Con datos del ejemplo 4.2 se encuentra
Viene a ser el grado de concentración de
Skp = 3(7.871875 – 7.807)/1.292843
un conjunto de datos, con relación a la
=0.165159
media aritmética. Coeficiente de curtosis
El coeficiente de curtosis se define como:
Esto indica que los precios del producto
XX tienen una distribución con asimetría o
1
sesgo a la derecha; es decir, que existen Q3  Q1 
valores extremos superiores, o que
Ku  2
existen algunos establecimientos donde D9  D1 
los precios son muy elevados.

KURTOSIS
Con datos del ejemplo 4.2 se encuentra:
Q1 = P0.25 =7.0 Q3 = P0.75 = 8.8 D1 = P0.10
= 6.136 D9 = P0.90 = 9.664
1
8.8  7.0
Ku  2  0.255102
9.664  6.136

Esto indica que los precios del producto


tienen una distribución que es
aproximadamente mesocúrtica; es decir, que
existe una regular concentración con respecto
a la media aritmética.

Ejemplo:
PASOS PARA CONSTRUIR UN DIAGRAMA
En la oficina de un diario, el tiempo que se
DE TALLO Y HOJAS
tardan en imprimir la primera plana fue
registrado durante 50 días. A continuación
1. Seleccione uno o más dígitos directores
se transcriben los datos, aproximados a
para los valores del tallo. Los dígitos
décimas de minuto:
finales se convierten en las hojas
2. Liste los posibles valores del tallo en 20.8 22.8 21.9 22.0 20.7 20.9 25.0 22.2 22.8 20.1
una columna vertical
25.3 20.7 22.5 21.2 23.8 23.3 20.9 22.9 23.5 19.5
3. Registre la hoja por cada observación
junto al valor correspondiente del tallo 23.7 20.3 23.6 19.0 25.1 25.0 19.5 24.1 24.2 21.8
4. Indique las unidades para tallos y hojas 21.3 21.5 23.1 19.9 24.2 24.1 19.8 23.9 22.8 23.9
en algún lugar del diagrama
19.7 24.2 23.8 20.7 23.8 24.3 21.1 20.9 21.6 22.7

21
DIAGRAMA DE TALLOS Y HOJAS Un diagrama de tallo y hojas transmite
información acerca de los siguientes
Los datos tienen un Stem-and-Leaf Display: Tiempo
decimal Stem-and-leaf of Tiempo N = 50 aspectos de los datos.
TALLO Leaf Unit = 0.10
HOJAS • Identificación de un valor característico
1 19 0 Terminación de dígitos del 0 al 4
o representativo.
15 datos menores e
iguales que 20.9
6 19 55789
8 20 13
Terminación de dígitos del 5 al 9 • Grado de dispersión respecto al valor
15 20 7778999 característico.
6 datos entre 22.5 y 18 21 123
22.9 y uno de ellos 22 21 5689 • Presencia de algún hueco en los datos.
es la mediana 24 22 02
(6) 22 578889
• Grado de simetría en la distribución de
20 23 13
18 23 56788899
los valores.
10 datos mayores e
iguales 24.1
10 24 112223 • Cantidad y ubicación de picos.
4 24
4 25 0013 • Presencia de cualquier valor atípico.

Pasos para construir un diagrama de caja

Ordene las n observaciones de menor a En general las posiciones de las


mayor y separe la mitad más pequeña de observaciones en el 25% más pequeño o
la mitad más grande, la mediana promedio el 25% más grande de los datos no afecta
se incluye en ambas mitades si n es impar. a la cuarta dispersión.
Entonces, el cuarto inferior es la mediana El diagrama de caja más sencillo se basa
de la mitad más pequeña y el cuarto en el siguiente resumen de cinco
superior es la mediana de la mitad más unidades:
grande. Una medida de la dispersión que
es resistente a los valores atípicos es la X, mínima Cuarto inferior Mediana
cuarta dispersión fx dada por: Cuarto superior X, máxima
fx = Cuarto superior – cuarto inferior.

BOXPLOT (DIAGRAMA DE CAJAS)


Primero, trace una escala horizontal de medición. A
continuación, coloque sobre este eje, el lado Xmínimo Q1 Mediana Q3 Xmáximo
izquierdo del rectángulo está en el cuarto inferior y
el derecho en el cuarto superior (así, ancho de la
caja = fx). Coloque un segmento de recta vertical o
algún otro símbolo dentro del rectángulo en el lugar
de la mediana la posición del símbolo de la mediana
en relación con los dos lados transmite la
información acerca del sesgo en el 50% intermedio
de los datos. Por último, trace unos bigotes desde Xmínimo : Es la observación de menor valor
cualquier extremo del rectángulo hasta las Xmáximo : Es la observación de menor valor
observaciones mínima y máxima. También se puede
Q1 : Primer Cuartil
trazar un diagrama de caja con orientación vertical,
haciendo las modificaciones obvias en el proceso Q3 : Tercer Cuartil
de construcción.

22
Cualquier observación más allá del 1.5fx
desde el cuarto más cercano es un valor
atípico. Un valor atípico es extremo si
está a más de 3fx del cuarto más
cercano y es moderado en cualquier
otro caso.

19.0
20.875 22.6 23.825 25.3

GRACIAS

chura@lamolina.edu.pe

23

También podría gustarte