Documentos de Académico
Documentos de Profesional
Documentos de Cultura
• 200 familias elegidas de una ciudad. Las ventaja de las muestras aleatorias sobre las no
• 30 empresas elegidas de una región. aleatorias es que brindan una mayor confianza que los
• 80 bombillas eléctricas elegidas de las producidas en datos recopilados no estén afectados por sesgos o
un día. factores extraños a la investigación, y por que permiten
Dependiendo de la forma como se eligen dichas aplicar los métodos de inferencia estadística, siendo
unidades elementales, las muestras pueden ser: posible generalizar sus resultados a la población de
donde se eligieron sus elementos. Esto último no es
Muestras aleatorias : posible mediante la muestras no aleatorias. En lo
sucesivo, al hacer referencia a una muestra,
Son aquellas cuyos elementos son elegidos usando
implícitamente se tendrá presente que se trata de una
algún criterio probabilístico.
muestra aleatoria.
1
Observación
Individuo o unidad elemental
Es el dato o registro realizado, producto de la
Es todo elemento que está afectado por la
apreciación de una característica en un individuo o
característica o factor que se desea estudiar.
unidad elemental. Una observación puede ser
Constituye la unidad más pequeña de las
poblaciones y de las muestras. Por ejemplo: cualitativa o cuantitativa. Por ejemplo:
Variable
Es todo factor o característica que puede tomar valores • Nominales: Si sus valores no se pueden ordenar.
diferentes cuando se observa a los individuos de una Sexo, Grupo Sanguíneo, Religión, Nacionalidad,
muestra o población. Las variables pueden ser: Fumar (Sí/No)
A Variables cualitativas (VC) • Ordinales: Si sus valores se pueden ordenar.
Mejoría a un tratamiento, Grado de satisfacción,
Son aquellas cuyos resultados no pueden ser Intensidad del dolor.
expresadas en forma numérica. Por ejemplo:
2
Parámetro Valor estadístico o estimador
Es una función de todas las observaciones de una
población. Un parámetro resume la información Es una función de las observaciones muéstrales y
contenida en las observaciones que comprenden a que no depende de parámetro alguno. Un valor
una población, por lo cual su valor es único y estadístico o estimador define un procedimiento para
constituye usualmente la incógnita que todo resumir la información contenida en las
investigador desea conocer. Los parámetros se observaciones que comprenden a una muestra. Se
definen también como valores constantes que caracterizan por que pueden tomar valores
caracterizan a una población. Algunos de los diferentes de muestra a muestra, debido a que las
parámetros a los cuales se hará referencia son: observaciones captadas en muestras diferentes no
son necesariamente iguales. Los valores
- Media poblacional, cuya notación es : u, estadísticos o estimadores son útiles por que
- Variancia poblacional, cuya notación es : 2 permiten obtener estimaciones del valor de los
- Moda poblacional. cuya notación es : Mo parámetros. Algunos de los estimadores son:
Ejemplos:
• Promedio o media muestral, cuya notación es :X 1. Considere la población de todas las
• Variancia muestral, cuya notación es : S2 computadoras laptop propiedad de los
• Moda muestral, cuya notación es : mo. alumnos de la UNALM. Usted quiere saber el
peso de la laptop.
Los valores que se obtienen al aplicar los
estimadores o valores estadísticos a una muestra a) Especifique la unidad de población
particular son llamados estimaciones de los valores b) Especifique la variable de interés
de los parámetros. Es decir, si para una muestra se
obtiene:
X = 38.12 , S2 = 8.45 , mo = 37.25 , Solución:
luego, estos son las estimaciones de los a) Laptop
parámetros definidos como: media poblacional (), b) peso
variancia poblacional (2 ), y moda poblacional
(Mo), respectivamente.
A) Estadística descriptiva
1.2 Estadística
Estadística es la ciencia que se ocupa de la creación, Es la rama de la estadística que se ocupa del resumen y
desarrollo y aplicación de técnicas, que permitan hacer descripción de los datos colectados; es decir, se ocupa
una análisis confiable de una población. de: la colección y clasificación de información, de su
En términos generales, se ocupa de la colección, resumen en tabulaciones y de su presentación mediante
cuadros y gráficos que describan en forma apropiada el
resumen y presentación de información, del análisis e
comportamiento de la información captada.
interpretación de datos y resultados, de modo tal que
pueda evaluarse la confiabilidad y riesgos asociados a Por ejemplo, cuando se hace una encuesta para
las conclusiones que se puedan derivar a partir de la estudiar la opinión del público sobre la calidad y el
información captada precio posible de un nuevo producto, con la aplicación
de la estadística descriptiva seria posible entre otras
cosas: clasificar las respuestas de modo tal que sea
posible tener una idea general de la opinión del público;
con las respuestas sobre el precio evaluar su promedio
y la variabilidad de las respuestas; construir cuadros,
tablas y gráficos que permitan evaluar visualmente el
comportamiento de la información.
3
Debe tenerse presente que la estadística
descriptiva es el paso inicial en un análisis
Población (toda la
estadístico, el cual concluye con el proceso de producción del mes)
generalización o inferencia sobre la población Aleatoriamente Muestra (representativa de
la producción del mes)
de donde fueron tomados los datos.
PARAMETROS
B) Inferencia estadística µ =? (siempre desconocidos)
=? S
Es la rama de la estadística que se ocupa de ESTADISTICOS
(conocidos)
los procesos de estimación, análisis y pruebas
de hipótesis, con el propósito de llegar a Inferencia
conclusiones que brinden una adecuada base
científica para la toma de decisiones, tomando
como base la información muestral captada.
La estadística como ciencia tiene como objetivo En esta etapa debe definirse qué información se debe
desarrollar procedimientos que permitan obtener recopilar y cómo se debe recopilar dicha información
conclusiones acerca de los parámetros de una (muestra o censo ?). El objetivo es obtener un conjunto
población, a partir de los datos muéstrales captados. adecuado de datos que permitan alcanzar los objetivos
de la investigación.
Para la aplicación objetiva y pragmática de los
procedimientos y técnicas estadísticas es c) Recopilación de datos
recomendable tener presente las siguientes etapas:
En esta etapa se recogen los datos de acuerdo a los
a) Definición del problema planes establecidos en la etapa anterior, teniendo
En esta etapa debe determinarse con claridad cuales cuidado de controlar la calidad de la información que se
son los problemas que se presentan y cuales son los recopila. El éxito de una investigación depende en gran
objetivos de la investigación. parte en la calidad de los datos captados.
4
Ejemplo: Supongamos que la empresa DIETA S.A. Tiene Para este caso, las frecuencias absolutas son el
interés en conocer la preferencia del publico sobre resultado de un proceso de conteo de las respuestas
diferentes tipos de mermelada para lo cual toma una obtenidas de las 50 personas consultadas. Así por
muestra aleatoria de 50 personas. Luego de clasificar ejemplo. 11 personas respondieron que la
las respuestas observadas, se ha obtenido por un mermelada de durazno era de su preferencia, 17
proceso de conteo los resultados siguientes: personas respondieron que preferían la mermelada
de fresa, etc.
Preferencia sobre tipos de mermelada
Considerando que el número total de personas
Mermelada de Frecuencia Frecuencia Frecuencia consultadas es 50, las frecuencias relativas se
preferencia absoluta relativa porcentual obtienen dividiendo cada frecuencia absoluta entre
Durazno 11 0.22 22.0 50. Por ejemplo, para el caso de durazno, su
Fresa 17 0.34 34.0 frecuencia relativa se obtiene del siguiente modo:
Piña 12 0.24 24.0 fr1 = f1/50 = 11/50 = 0.22; para fresa, fr2= f2/50 = 17/50
Manzana 10 0.20 20.0 = 0.34; etc.
Total 50 1.00 100.0
M an z an a
40 D ur a z n o
2 0 %
2 2 %
35
30
25
20
15
10
5
P iñ a
0
2 4 %
Dur a z no Fr e sa P i ña M a nz a na
T I P O D E M ER M EL A D A Fr esa
3 4 %
5
Organización de datos cuantitativos discretos
Preferencia sobre tipos de mermelada
Cuando se tiene datos cuantitativos discretos cuyo
número de resultados posibles no es grande (no es
mayor de 12 o 15), la información puede ser
M a nza na D ura zno
20% 22% clasificada y presentada directamente sin pérdida de
la identidad de la misma.
En estos casos primero se ordena la información
según su magnitud, a continuación se obtiene las
frecuencias absolutas asociadas a cada valor
P iña observado. Las frecuencias relativas y porcentuales
24%
F re s a
se obtienen de manera similar.
34%
15
3 5 0.125 12.5
4 5 0.125 12.5 10
5 9 0.225 22.5 5
6 8 0.200 20.0
7 7 0.175 17.5 0
8 4 0.100 10.0 2 3 4 5 6 7 8
Total 40 1.000 100.0 Numero de articulos vendidos por dia
6
Organización de datos cuantitativos continuos
Cuando se utiliza intervalos de igual amplitud, el
proceso de generación de tales intervalos es el
Cuando se tiene información para una variable siguiente:
cuantitativa continua las observaciones son
usualmente diferentes entre si . En estos casos los 1. En primer lugar debe establecerse el número de
datos son clasificados de acuerdo a ciertos rangos o intervalos que se van a utilizar. Dicho número es
intervalos mutuamente excluyentes llamados recomendable que esté entre 5 y 15. No existe una
intervalos de clase, para lo cual es necesario tener en regla fija para determinar el número óptimo de
cuenta: la amplitud o rango de cada intervalo y el intervalos. El criterio del investigador juega un
número de intervalos que se deben generar. El papel importante en la determinación del mismo.
objetivo es clasificar la información para una Como forma de referencia se puede utilizar la regla
evaluación más sencilla de la misma. de Sturges, la cual indica que el número de
intervalos es dado por : k= 1 + 3.322 log10(n), donde
n es el número de observaciones disponibles. El
valor de k debe ser redondeado al entero más
cercano.
7
Es necesario tener presente que las frecuencias
están asociadas a los intervalos y no a las El procedimiento descrito puede ser aplicado
observaciones, como se consideró anteriormente también cuando se tiene datos cuantitativos
para información cualitativa y cuantitativa discreta. discretos cuyo número de resultados posibles es
grande (es mayor de 20) y su representación gráfica
Para representar gráficamente la información se mediante los procedimientos descritos
puede usar cualquier tipo de frecuencia. En anteriormente no resulte apropiada.
especial se recomienda utilizar las frecuencias
relativas o porcentuales puesto que permiten
analizar la información independientemente del
número de observaciones captadas, siendo
además posible comparar los resultados con los
obtenidos en estudios similares, siempre que los
intervalos de clase sean iguales, o al menos
similares.
De manera similar se obtienen los otros límites de Para obtener las frecuencias acumuladas se
clase y sus marcas de clase. Las marcas de clase procede de la siguiente manera:
son los valores representativos de la información
contenida en un intervalo. Numéricamente se F 1 = f1 = 4 Fr1 = fr1 = 0.10 P1 =p1 =10.0
obtiene promediando los límites inferior y superior
de cada intervalo y viene a ser una aproximación F2 = F1 + f1 = 4 + 6 =10
al valor promedio de las observaciones
clasificadas en cada intervalo. Este valor es de Fr2 = Fr1 + fr1 = 0.10 + 0.15 = 0.25
importancia pues permite calcular en forma
aproximada algunas medidas estadísticas. P2 = P1 + p1 = 10.0 + 15.0 = 25
Una vez que se han construido los intervalos de De manera similar se procede con los otros
clase, se clasifican las observaciones para intervalos. Con los resultados anteriores se obtiene
obtener las frecuencias absolutas y relativas. el siguiente cuadro de distribución de frecuencias:
8
Histograma de Frecuencias
Distribución de los precios de artículo WW. Distribución de los precios del artículo WW
5.65 6. 55 7. 45 8. 35 9. 25 1 0.1 5
P R E C I O D E L A R T I C U LO W W
30 Fri 1.1
1.0
25
0.9
20 0.8
0.7
15
0.6
10 0.5
0.4
5
0.3
0 0.2
4.75 5.65 6.55 7.45 8.35 9.25 10.15 11.05 0.1
PRECIO DEL ARTICULO WW 0.0
5.2 6.1 7.0 7.9 8.8 9.7
PRECIO DEL ARTICULO WW
9
Media aritmética
La media o promedio aritmético de un conjunto de Este promedio presenta la desventaja de estar
datos se define como la suma de todas las influenciado por los valores extremos; es decir, si en un
observaciones dividida entre el número de conjunto de observaciones existen valores muy
pequeños o muy elevados, el valor del promedio
observaciones. Dependiendo de la información
aritmético quedara influenciado por dichos valores y en
disponible (poblacional o muestral) se puede tener:
estos casos ya no será un indicador representativo de la
1 N
Media o promedio poblacional
N
X
i 1
i
tendencia central de las observaciones.
1 n Propiedades:
Media o promedio muestral X Xi
n i 1 1. La media aritmética es un valor representativo
donde: debido a que es el centro de gravedad o punto de
Xi = Valor de la i-ésima observación de la variable equilibrio de un conjunto de observaciones.
en estudio 2. Si se sustituye el valor de cada observación por el
N = Tamaño de la población valor del promedio aritmético no varia la suma de
n = Tamaño de la muestra todas las observaciones.
i 1 i 1 i 1 i 1 i 1 n i 1 i 1 i 1 unidas formen la muestra original, tomando como
pesos o ponderaciones a los tamaños de las
4. La suma de los cuadrados de las desviaciones de submuestras..
las observaciones con respecto al promedio 6. Si a cada observación de una muestra se le suma
aritmético es menor o igual que la suma de los una constante, el promedio de las nuevas
cuadrados de las desviaciones de las observaciones será igual al promedio de la
observaciones con respecto a cualquier otro valor. muestra original más la constante.
7. Si a cada observación de una muestra se le
2 multiplica por una constante, el promedio de las
donde k R
X X X i k
n n
1 k
Media o promedio muestral X fi M i
n i 1
donde:
Mi = Marca de clase del i-ésimo intervalo
fi = Frecuencia absoluta del intervalo i.
k = Número de intervalos de clase.
N = Tamaño de la población
n = Tamaño de la muestra
10
Ejemplo 3.1
Para el caso de datos discretos organizados en
cuadros de frecuencia se debe considerar:
Suponga que los datos que se presentan a
1 k k continuación representan los precios del articulo
Media o promedio poblacional f i X i fri X i WW (nuevos soles) en 40 establecimientos elegidos al
N i 1 i 1
azar.
1 k
Media o promedio muestral X fi X i
n i 1 5.2 10.2 7.0 7.1 10.2 8.3 9.4 9.2 5.4
8.1 6.5 7.1 6.6 7.8 6.8 7.2 8.4 9.6
8.7 7.3 8.5 5.7 6.4 10.1 8.2 9.0 7.8
Donde: 8.2 7.8 6.6 5.3 6.2 9.1 8.6 7.0 7.7
Xi = Valor observado "i" de la variable en estudio. 8.3 7.5 9.8 7.5
fi = Frecuencia absoluta del valor observado "i"
k = Número de valores diferentes observados.
11
Media aritmética ponderada
Los valores que se obtienen al aplicar las
expresiones para datos sin agrupar y para datos La media o promedio ponderado de un conjunto de
agrupados serán iguales solamente si el promedio observaciones X1, X2, .............Xn, con pesos o
de las observaciones en cada intervalo es ponderaciones W1, W2,.., Wn se define como:
numéricamente igual a la marca de clase del
respectivo intervalo. n
W X i i
W1 X 1 W2 X 2 ...... Wn X n
XP i 1
n
W1 W2 ...... Wn
W i 1
i
donde:
Xi = Valor de la i-ésima observación
Wi = Ponderación o importancia relativa de la i-ésima
observación.
Este promedio es usado para el cálculo de números Costo de producción Cantidad producida (Wi)
índices, porcentaje promedio, costo promedio, etc.; Sucursal (Xi) (soles) (número de unidades)
A 1.20 500
es decir, en todos aquellos casos donde las B 1.60 200
observaciones no tienen la misma importancia dentro C 1.05 900
de una población o muestra.
Luego, el costo de producción promedio por unidad
Ejemplo 3.2. producida, para la empresa en su conjunto, será:
12
Media geométrica Ejemplo 3.3
Media armónica
Por otro lado, la media armónica es útil para
La media armónica de un conjunto de n observaciones promediar razones que tienen dimensiones físicas
no nulas (diferentes de cero) X1, X2,..., Xn se define tales como kilómetros por galón, costo por kilómetro,
como el recíproco de la media aritmética de los kilómetros por hora, etc. Con frecuencia resulta
recíprocos de las observaciones; es decir: dificultoso distinguir que promedio debe utilizarse,
por lo cual, como una referencia debe tenerse en
1 n n
XA cuenta que cuando la unidad del valor constante o
1 n 1 n
1 1 1 1 unidad de evaluación es igual a la unidad del
n i 1 X 1
i 1 X i
X1 X 2
.........
Xn numerador de una razón, se usa el promedio
armónico, y si es igual a la unidad del denominador se
usa el promedio aritmético.
Este promedio tiene la particularidad que los valores
extremos de las observaciones (valores muy
pequeños o muy elevados) afectan al promedio
armónico con menor intensidad que al promedio
geométrico y al promedio aritmético.
Ejemplo 3.4
Mediana
Suponga que las velocidades de producción de tres La mediana de un conjunto de observaciones
obreros son 0.5, 0.625 y 0.4 horas por artículo. Hallar el ordenadas de acuerdo a su magnitud, es el valor de
tiempo promedio por artículo producido después de una la observación que ocupa la posición central de
jornada de 6 horas de trabajo. dicho conjunto. La mediana para la población se
Puesto que cada obrero trabaja 6 horas; luego, en la razón simboliza como Me y la mediana para la muestra se
artículos/hora la unidad constante es el tiempo de trabajo simboliza como me.
(6 horas) por lo cual se debe usar el promedio armónico.
3 3 horas/articulo
XA 0.491803
1 1 1 6.1
.........
0.5 0.625 0.4
13
Características Cálculo de la mediana
X
i 1
i M e X i K , donde K R
i 1
Ejemplo: Si se tiene las observaciones: 5, 8, 7, 9, 6, 5, 4 2. Para datos agrupados. La mediana para datos
En este caso los datos ordenados son: 4, 5, 5, 6, 7, 8, 9 agrupados en tablas de frecuencia se puede
y con n =7 se tiene
obtener utilizando las frecuencias absolutas o las
me X n1 X 71 X 4 6 frecuencias relativas de la siguiente manera:
2 2
n
Fk 1
Ejemplo: Si se tiene las observaciones: 5, 8, 7, 9, 6, 5, 4, 3 me LI k 2 TIC
fk
En este caso los datos ordenados son: 3, 4, 5, 5, 6, 7, 8, 9 y
con n = 8 se tiene:
0.5 Frk 1
Xn Xn X8 X8 me LI k TIC
1 1 X4 X5 5 6 frk
me 2 2
2 2
5.5
2 2 2 2
14
1. Para datos no agrupados. La moda de un conjunto
MODA
de n observaciones se obtiene de la siguiente
La moda de un conjunto de observaciones se define manera:
como el valor, clase o categoría que ocurre con Ejemplo Si se tiene la observaciones: 5, 8, 7, 9, 6, 5, 4
mayor frecuencia. La moda para la población se Ordenando los datos se tiene: 4, 5, 5, 6, 7, 8, 9 , con lo cual
simboliza como M0 y la moda para la muestra se la moda es m0 = 5 pues es el valor observado que se repite
simboliza como mo con mayor frecuencia.
Ejemplo: Si se tiene la observaciones: 5, 8, 5, 9, 6, 5, 4, 9
Características Ordenando los datos se tiene: 4, 5, 5, 5, 6, 8, 9, 9 , con lo
1. La moda puede no existir, ó puede existir más cual se deduce que existen las modas m01 = 5 y m02 = 9 ,
de una moda. siendo la primera la moda de mayor importancia puesto que
2. No se ve afectada por los valores extremos. es el valor de la observación de mayor frecuencia.
3. Se aplica tanto a información cuantitativa
como a información cualitativa.
4. La moda es una medida de tendencia
inestable y es difícil de estimar.
donde:
k = intervalo o clase modal d1 6
mo LI k TIC 7.0 0.9 7.6 soles
d 1 = f k – fk – 1 o d1 = frk –frk-1 d1 d 2 6 3
d2 = fk – fk +1 o d2 = frk - frk+1
Este valor indica que el precio que se ha observado con
mayor frecuencia se ubica alrededor de 7.6 soles
15
Medias Recortadas Ejemplo
Consiste en calcular la media aritmética sobre un
subconjunto central del conjunto de datos, no
Calcula la media recortada al 5% de los
considerándose una determinada proporción p por cada siguientes datos:
extremo. (p se expresa normalmente como porcentaje).
3, 4, 4, 5, 5, 6, 7, 8, 9, 11
Por ejemplo, una media recortada al 40% en una secuencia
de 10 datos implica no tener en cuenta ni los 4 valores El valor debe ser 6.11
menores ni los 4 valores mayores.
Calcula la media recortada al 10% de los datos
La media recortada al 0% es la media aritmética. anteriores (da 6)
A la media recortada al 25% se la denomina centrimedia. Calcula la centrimedia (da 5.8)
np Fk 1
Pp LI k TIC
fk
p Frk 1
Pp LI k TIC
frk
B) Deciles y cuartiles
Ejemplo Con los datos de la tabla de frecuencia del
ejemplo 3.1, el valor del percentil P0.8 o P80 se ubica en Son medidas de tendencia que se definen en forma
el intervalo k = 5 puesto su frecuencia acumulada similar a los percentiles. Es decir: un decil Dk es un
relativa es mayor de "p=0.8" y por tanto: valor que divide a un conjunto de datos en dos
partes, el (100)(k/10) % de ellos con valores
0.8 Fr4 0.8 0.775 inferiores a Dk y el resto con valores superiores a
P0.8 LI 5 TIC 8.8 0.9 8.98 soles
fr5 0.125 Dk; mientras que un cuartil Qk es un valor que
divide a un conjunto de datos en dos partes, el
(100)(k/4) % de ellos con valores inferiores a Qk y el
es decir, en el 80% de establecimientos se observó restó con valores superiores a Qk. Numéricamente
un precio menor a 8.98 soles y en el 20% restante se se tiene que:
observó un precio superior a 8.98 soles.
16
Un decil es equivalente a: Di = Pi/10 , para i =1,2,3,...,9
Un cuartil es equivalente a: Qi = Pi/4 , para i =1,2,3
0.75 Fr3 0.75 0.55
Q3 P0.75 LI 4 TIC 7.9 0.9 8.7 soles.
fr4 0.225
De lo anterior puede deducirse que Me = P0.5 = Q2 = D5.
MEDIDAS DE VARIABILIDAD
Cuando se dispone de información sobre una variable es Los indicadores que se utilizan para analizar el grado
necesario conocer si los datos recopilados muestran una de heterogeneidad o de variabilidad de un conjunto
variabilidad significativa. Si los datos son semejantes entre si, de observaciones son llamados en general medidas
se observará que no se encuentran muy dispersos con respecto de variabilidad o medidas de dispersión. Las
a la media aritmética y en estos casos se expresa que los datos
medidas de mayor uso son tales como: el rango, la
no son muy variables; sin embargo, cuando los datos presentan
diferencias importantes entre si se apreciará que tienden a variancia, la desviación estándar y el coeficiente de
dispersarse y en estos casos se expresa que la información es variabilidad.
variable o heterogénea. El grado de variabilidad de la
información disponible es muy importante en todo análisis
estadístico pues de esto depende el grado de confiabilidad de
las estimaciones que se puedan establecer, de acuerdo a esto,
para un tamaño de muestra determinado, un análisis en una
población con datos homogéneos será más confiable que el
realizado en una población con datos heterogéneos.
Rango Variancia
El rango o amplitud de un conjunto de datos es la
diferencia entre la observación de mayor valor y la La variancia de un conjunto de observaciones se
observación de menor valor. Es decir, define de la siguiente manera:
2
1 N
2
Variancia muestral 1 n
Ejemplo: El rango para los datos siguientes 32. 54, 21, 33,
45, 49. 61 es R = Xmax - Xmin = 61 - 21 = 40 Como puede
S2 X i X
n 1 i1
apreciarse, el rango es una medida muy simple que muestra
la diferencia entre las observaciones de mayor y menor De estas expresiones se deduce que la variancia de
valor, pero que no evalúa el grado de variabilidad de la un conjunto de observaciones esta expresada en
observaciones intermedias unidades cuadráticas: por ejemplo, si las unidades de
las observaciones es metros, la variancia será
expresada en metros2. Este hecho dificulta la
interpretación de la variancia.
17
Desviación estándar Coeficiente de variabilidad
La desviación estándar de un conjunto de Es una medida de dispersión relativa que se define
observaciones se define como la raíz cuadrada de la como el cociente entre la desviación estándar y la
variancia. Es decir: media aritmética de un conjunto de observaciones.
Poblacional : 2 Muestral : S S2 Coeficiente de variabilidad poblacional CV 100
Como puede apreciarse la desviación estándar de un Coeficiente de variabilidad muestral: CV
S
100
conjunto de observaciones esta expresada en las X
mismas unidades de la variable en estudio, por De .estas expresiones se deduce que el coeficiente de
ejemplo, si las unidades de las observaciones es variabilidad no se puede definir si el promedio es igual
metros, la desviación estándar será expresada en a cero. Si el promedio es un valor negativo, debe
metros. Este hecho brinda una clara ventaja con considerarse su valor absoluto para evaluar el
respecto a la variancia. en cuanto a su interpretación. coeficiente de variabilidad.
Variancia muestral
Cálculo de las medidas de variabilidad
n
2
a) Con datos no agrupados 2 n Xi
1 1 2 1
X i X X i2 n X n 1 X i2
n m
i 1
S2
Cuando se dispone de un conjunto de n 1 i 1 n 1 i 1 i 1 n
observaciones no agrupadas se debe tener en
cuenta las siguientes expresiones para el cálculo
de la variancia. Ejemplo 4.1
1 N 2
1 N 2 Suponga que los datos que se presentan a
Variancia poblacional:
2
N
X
i 1
i X i N 2
N i 1 continuación corresponden a los precios
observados del artículo XX (en soles) en 32
establecimientos elegidos al azar del Distrito de Ate.
18
250.2
5.2 10.2 7.0 7.1 1'0.2- 8.3 '9.4 9.2 6.5 X 7.81875 soles
7.1 6.6 7.8 6.8 7.2 8.4 9.6 8.5 5.7 30
6.4 10.1 8.2 9.0 7.8 8.2 5.3 6.2 9.1 n
2
n
= (5.2)2 + (10.2)2 + (7.0)2 + ... + (7.5)2 = 2015.04
CV
S
100 1.377102 100 17.612882 %
X
i 1
i
2
soles2
X 7.81875
Lo cual indica que los precios del producto XX, en el b) Con datos agrupados
distrito de Ate, son regularmente variables.
Cuando se dispone de un conjunto de observaciones
agrupados en tablas de frecuencias se debe tener en
cuenta las siguientes expresiones para el cálculo de
la variancia:
Variancia poblacional:
2
1 k
1 k k
2
N
f M
i 1
i i f i M i2 N 2
N i 1 i 1
fri M i2 2
Variancia muestral:
n
2
2 fi M i
1 k 1 k 2 1 k
S2 f i X i X f i M i2 n X f i M i2 i 1
n 1 i 1 n 1 i 1 n 1 i 1 n
NOTA Cuando se tiene datos discretos organizados en Para obtener indicadores de variabilidad se debe
tablas de frecuencia considerar también estas expresiones, obtener primero:
pero tomando Mi=Xi.
k
251.9
X 7.871875 soles
32
19
a) Variancia muestral. Se tiene: MEDIDAS DE ASIMETRÍA Y CURTOSIS
n
2
fi M i
1 k 1 2034 .75 251 .9 1.671442
2
soles2 Al analizar un conjunto de datos, además del
S
2
fi M i
n 1 i 1
2 i 1
32 1
n
32
estudio de las medidas de tendencia y de
variabilidad, es conveniente evaluar la forma
b) La desviación estándar es: como están concentradas las observaciones.
Con frecuencia se menciona que es deseable
S 1.671442 1.292843 Soles que las medidas de tendencia sean
representativas, es decir, que reflejen de
Lo cual indica que los precios del producto XX, en el manera apropiada el comportamiento de un
distrito de Ate, son regularmente variables. Como
conjunto de observaciones.
puede apreciarse, este resultado es similar al obtenido
anteriormente en el ejemplo 4.1
20
Curtosis
Con datos del ejemplo 4.2 se encuentra
Viene a ser el grado de concentración de
Skp = 3(7.871875 – 7.807)/1.292843
un conjunto de datos, con relación a la
=0.165159
media aritmética. Coeficiente de curtosis
El coeficiente de curtosis se define como:
Esto indica que los precios del producto
XX tienen una distribución con asimetría o
1
sesgo a la derecha; es decir, que existen Q3 Q1
valores extremos superiores, o que
Ku 2
existen algunos establecimientos donde D9 D1
los precios son muy elevados.
KURTOSIS
Con datos del ejemplo 4.2 se encuentra:
Q1 = P0.25 =7.0 Q3 = P0.75 = 8.8 D1 = P0.10
= 6.136 D9 = P0.90 = 9.664
1
8.8 7.0
Ku 2 0.255102
9.664 6.136
Ejemplo:
PASOS PARA CONSTRUIR UN DIAGRAMA
En la oficina de un diario, el tiempo que se
DE TALLO Y HOJAS
tardan en imprimir la primera plana fue
registrado durante 50 días. A continuación
1. Seleccione uno o más dígitos directores
se transcriben los datos, aproximados a
para los valores del tallo. Los dígitos
décimas de minuto:
finales se convierten en las hojas
2. Liste los posibles valores del tallo en 20.8 22.8 21.9 22.0 20.7 20.9 25.0 22.2 22.8 20.1
una columna vertical
25.3 20.7 22.5 21.2 23.8 23.3 20.9 22.9 23.5 19.5
3. Registre la hoja por cada observación
junto al valor correspondiente del tallo 23.7 20.3 23.6 19.0 25.1 25.0 19.5 24.1 24.2 21.8
4. Indique las unidades para tallos y hojas 21.3 21.5 23.1 19.9 24.2 24.1 19.8 23.9 22.8 23.9
en algún lugar del diagrama
19.7 24.2 23.8 20.7 23.8 24.3 21.1 20.9 21.6 22.7
21
DIAGRAMA DE TALLOS Y HOJAS Un diagrama de tallo y hojas transmite
información acerca de los siguientes
Los datos tienen un Stem-and-Leaf Display: Tiempo
decimal Stem-and-leaf of Tiempo N = 50 aspectos de los datos.
TALLO Leaf Unit = 0.10
HOJAS • Identificación de un valor característico
1 19 0 Terminación de dígitos del 0 al 4
o representativo.
15 datos menores e
iguales que 20.9
6 19 55789
8 20 13
Terminación de dígitos del 5 al 9 • Grado de dispersión respecto al valor
15 20 7778999 característico.
6 datos entre 22.5 y 18 21 123
22.9 y uno de ellos 22 21 5689 • Presencia de algún hueco en los datos.
es la mediana 24 22 02
(6) 22 578889
• Grado de simetría en la distribución de
20 23 13
18 23 56788899
los valores.
10 datos mayores e
iguales 24.1
10 24 112223 • Cantidad y ubicación de picos.
4 24
4 25 0013 • Presencia de cualquier valor atípico.
22
Cualquier observación más allá del 1.5fx
desde el cuarto más cercano es un valor
atípico. Un valor atípico es extremo si
está a más de 3fx del cuarto más
cercano y es moderado en cualquier
otro caso.
19.0
20.875 22.6 23.825 25.3
GRACIAS
chura@lamolina.edu.pe
23