Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Teorı́a y aplicaciones en R
Estadı́stica Descriptiva CONTENIDO
Contenido
1. Introducción 3
1.1. Que es la estadı́stica ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2. Conceptos Básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3. Tipos de variables Estadı́sticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3.1. Variable Cualitativas: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3.2. Variable Cuantitativas: . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4. Escalas de medición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
3. Medidas de posición 10
3.1. Medidas de posición centrales . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3.2. Media Aritmética . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3.3. Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3.4. Moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.5. Medidas de posición no centrales . . . . . . . . . . . . . . . . . . . . . . . . . . 12
4. Medidas de dispersión 13
4.1. Rango . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
4.2. Rango Intercuartil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
4.3. Varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
4.4. Desviación estándar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
4.5. Coeficiente de variación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
5. Medidas de forma 15
5.1. Asimetrı́a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
5.2. Curtosis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
6. Representación gráfica 17
6.1. Gráfico de barras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
6.2. Gráfico de circular o pie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
6.3. Gráfico de caja o Boxplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1
Estadı́stica Descriptiva CONTENIDO
7.2.2. Deciles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
7.2.3. Percentiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2
Estadı́stica Descriptiva 1 INTRODUCCIÓN
1. Introducción
Lo que mas podemos relacionar con las estadı́sticas son las encuestas y los gráficos, muchas de
las encuestas que salen por lo medios de comunicación han sido realizadas de diferente forma,
por ejemplo, en la calle o te pueden llamar por teléfono, por Internet, todas esasrespuestas que
damos las organizan, la clasifican y con eso obtienen datos y representaciones.
Población: Una población es el conjuntos de elementos que deseo analizar, por ejemplo si
quiero saber cuanto es la estatura promedio de Colombia, cual es la comida favorita de
los Colombianos o cual es la empresa de telefonı́a mas barata en Colombia, la población
de aves en el parque lineal, el promedio de notas de los exámenes en clases, etc. Cualquier
estudio estadı́stico necesita de una población.
Cual es el problema ? Que yo no puedo preguntarle a todo el mundo que hace, entonces
nace el otro concepto.
3
Estadı́stica Descriptiva 1 INTRODUCCIÓN
Muestra: Una muestra es una parte de la población escogida según ciertos criterios para poder
estudiar y obtener conclusiones sobre la población, es decir, para hacer un estudio sobre
el promedio de notas de todos los exámenes, realizados durante un semestre, tomo una
muestra, puede ser, 20 exámenes y las conclusiones que yo saque de esta muestra, quizás
la pueda extender a todos los estudiantes, es decir, si calculo el promedio de esos exámenes
quizás pueda sacar como conclusión que es el promedio de todos los estudiantes.
Individuo: Un individuo o unidad estadı́stica es cada uno de los elementos que componen la
población. estos pueden ser, personas, animales, elementos, objetos, etc
Carácter estadı́stico: Un carácter estadı́stico es una propiedad que se estudia en los indivi-
duos de una población, una vez que tengo la población me pregunto que es lo que voy a
estudiar de esa población, cual es la caracterı́stica que vamos a analizar, cuando te hacen
una encuesta, te pregunta: ¿ Cuantos hermanos tienes?, ¿ Cual es tu equipo de fútbol
favorito?, eso es lo que estamos estudiando, es la caracterı́stica que es el objeto de nuestro
estudio:
El Carácter estadı́stico o la variable estadı́stica tiene una clasificación: Las variables pueden ser
cualitativas o cuantitativas
Las variables cualitativas son aquellas que no presentan valores numéricos sino caracterı́sticas
o cualidades. Las variables cualitativas se pueden codificar numéricamente pero sus números
no tienen porque tener sentido.Dependiendo del número de categorı́as pueden ser dicótomas
o politómicas: Ejemplos: El sexo, Estado civil, Dolor, Grupo sanguı́neo, Compañı́a telefónica,
deporte que practican, lugar de nacimiento, color de pelo.
Nominal: son aquellas que carecer de o no admiten un criterio de orden y no cuentan con un
valor numérico asignado, Ejemplos: El miedo, La belleza, La felicidad
4
Estadı́stica Descriptiva 1 INTRODUCCIÓN
Ordinal: son aquellas que admiten un criterio de orden a pesar de que carecen de un valor
numérico. Ejemplos: El hambre, Estado civil, La calificación de un examen
Una variable cuantitativa es aquella que pueden ser expresadas mediante un valor numérico..
Es decir, es aquella caracterı́stica de la población o de la muestra que es posible representar
numéricamente, algunos ejemplos: Año de nacimiento, número de hermanos, Número de asig-
naturas,estatura, Tiempo empleado en llegar a la universidad, la velocidad, peso o la masa,
volumen de alcohol de una bebida.
Discreta: Las variables discretas se caracterizan por contar únicamente valores finitos. Ejem-
plos. El número de miembros de una familia, El número de asaltos de un combate, Can-
tidad de empleados que trabajan en una tienda, Número de clientes que visitan un su-
permercado por dı́a, Número de personas que llegan a un consultorio en una hora.
Continua: Las variables continuas por su parte son aquellas que pueden tomar un número
infinito de valores dentro de dos números, es decir, cuentan con la asignación de número
decimales. Ejemplos: la altura de una persona, Los grados o volumen de alcohol en una
bebida, El ancho de una pelota de fútbol. La velocidad a la que va a un tren, Velocidad
a la que viaja un avión, El diámetro de una esfera.
Todos los datos son generados por una de las cuatro escalas de medición: nominal, ordinal, de
intervalo o de razón. A continuación se definen cada una de estas escalas de medición.
Escala nominal: Una escala de medición es nominal si los datos son etiquetas o categorı́as
que se usan para definir un atributo de un elemento. Los datos nominales pueden ser
numéricos o no numéricos. Un ejemplo: El sexo de una persona es un dato nominal no
numérico. El numero de seguro social de una persona es un dato nominal numérico.
Escala ordinal: Una escala de medición es ordinal si los datos pueden usarse para jerarquizar
u ordenar las observaciones. Los datos ordinales pueden ser numéricos o no numéricos.
Un ejemplo: Las medidas pequeño, mediano y grande para dar el tamaño de un objeto
son datos ordinales no numéricos. cuando se recibe una encuesta con una pregunta como:
¿ Qué tan satisfecho está con la experiencia gastronómica? En esta las opciones de res-
puesta pueden ser algo como calificar del 0 al 10, siendo 10 extremadamente satisfecho y
0 extremadamente insatisfecho.
5
Estadı́stica2 Descriptiva
FORMAS DE PRESENTACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN
Escala de intervalo: Una escala de medición es de intervalo si los datos tienen las propiedades
de los datos ordinales y los intervalos entre observaciones se expresan en términos de una
unidad de medición fija. Los datos de intervalo tienen que ser numéricos. El cero es
arbitrario, no indica la ausencia de atributo. En otras palabras, las variables se miden en
valores reales y no de forma relativa. Esto significa que la diferencia entre dos variables
en una escala es una distancia real o igual. Por ejemplo, la diferencia entre 40 grados
centı́grados y50 grados centı́grados es exactamente la misma que la diferencia entre 50
grados centı́grados y 60 grados centı́grados. Los datos de la escala de intervalo pueden
ser discretos, como por ejemplo números tipo 8 grados, 4 años, 2 meses, etc. O continuos,
con números fraccionarios como 12.2 grados, 3.5 semanas o 4.2 kilómetros.
Escala de razón: Los datos de escala de razón tienen todas las propiedades de los datos de
la escala de intervalo, por ejemplo, los datos deben tener valores numéricos, la distancia
entre los dos puntos es igual, etc., sin embargo, a diferencia de los datos de intervalo
donde el cero es arbitrario, en los datos de una escala de razón el cero es absoluto (lo que
significa que no hay ningún valor numérico negativo). Un excelente ejemplo de los datos
de escala de razón es la medición de alturas. La altura puede medirse en centı́metros,
metros, pulgadas o pies. No es posible tener una altura negativa. Los datos de escala de
razón pueden ser multiplicados y divididos, esta es una de las principales diferencias entre
los datos de escala de razón y los datos de una escala de intervalo, los cuales solo pueden
ser sumados y restados.
Cuatro personas son seleccionadas al azar y se les pregunta cuánto dinero traen. Estos
son los resultados: 21, 50, 65 y 300.
¿ Existe un orden para estos datos? Si, 21 < 50 < 65 < 300.
¿ Las diferencias entre los valores de datos son significativas? Claro, la persona que
tiene 50 tiene 29 más que la persona con 21.
La persona con 300 tienen 6 veces más que la persona con 50.
6
Estadı́stica2 Descriptiva
FORMAS DE PRESENTACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN
Los datos organizados por tablas pueden ser representados de dos formas, en tablas ordenadas
por clases o tablas ordenadas por intervalos, En esta primera estudiaremos como organizar los
datos a través de tablas agrupadas por clase:
Los datos agrupados en tablas por clase pueden cualitativos o cuantitativos (siempre y cuando
muchos de ello se repitan, para facilitar su análisis)
Consideremos una muestra de n individuos, descrita según un carácter o variable c cuyas mo-
dalidades han sido agrupadas en un número k de clases, que denotamos mediante c1 , c2 , . . . , ck .
Para cada una de las clases ci , i = 1, . . . , k, introducimos las siguientes conceptos:
Frecuencia Absoluta: Es el número de veces que aparece un valor, se representa con fi donde
el subı́ndice representa cada uno de los valores.
La suma de las frecuencias absolutas es igual al número total de datos, que se representa por
n.
f1 + f2 + · · · + fn = n
fi
hi =
n
La suma de las frecuencias relativas es igual a 1.
k
X
Fi = f1 + f2 + . . . + fk = fj
i=1
Frecuencia Relativa Acumulada: Es la suma de las frecuencias relativas de todos los valores
inferiores o iguales al valor considerado. Se representa por Hi y se puede expresar en tantos
por ciento.
7
Estadı́stica2 Descriptiva
FORMAS DE PRESENTACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN
Se representa por Hi
k
X
Hi = h1 + h2 + . . . + hk = hj
i=1
Clases Frec. abs Frec. rel Frec. Abs. Acum Frec. Rel. Acum
ci fi hi Fi Hi
f1
c1 f1 h1 = F 1 = f1 H1 = h1
n
f2
c2 f2 h2 = F 2 = f1 + f2 H2 = h1 + h2
n
.. .. .. .. ..
. . . . .
fk
ck fk hn = F n = f1 + . . . + fk Hn = h1 + . . . + hk
n
Ejemplo 1. Suponga que el área de talento humano decide realizar un estudio para determinar
el número de hermanos de los estudiantes de segundo semestre de geografı́a para ello se toma
una muestra de 17 alumnos a los que se le pregunta cuantos hermanos tienen. Las respuestas
obtenidas fueron:
1, 1, 2, 0, 3, 2, 1, 5, 2, 3, 1, 0, 0, 1, 2, 5, 7
El área de talento humano desea organizar los datos en una tabla agrupada por clases para
poder obtener unos resultados más representativos de dicha muestra.
8
Estadı́stica2 Descriptiva
FORMAS DE PRESENTACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN
Hermanos fi hi Fi Hi
3 3
0 3 ( 17 ∗ 100) = 17.65 % 3 ( 17 ∗ 100) = 17.65 %
5 8
1 5 ( 17 ∗ 100) = 29.41 % 3+5=8 ( 17 ∗ 100) = 47.06 %
4 12
2 4 ( 17 ∗ 100) = 23.53 % 3 + 5 + 4 = 12 ( 17 ∗ 100) = 70.59 %
2 14
3 2 ( 17 ∗ 100) = 11.76 % 3 + 5 + 4 + 2 = 14 ( 17 ∗ 100) = 82.35 %
2 16
5 2 ( 17 ∗ 100) = 11.76 % 3 + 5 + 4 + 2 + 2 = 16 ( 17 ∗ 100) = 94.12 %
1 17
7 1 ( 17 ∗ 100) = 5.88 % 3 + 5 + 4 + 2 + 2 + 1 = 17 ( 17 ∗ 100) = 100 %
P
17
M T R M R T C T R R C M C C M T M R
T M M T M R M R M C T C R M R C T M
9
Estadı́stica Descriptiva 3 MEDIDAS DE POSICIÓN
El departamento de ciencias agrı́colas desea desea organizar los datos en una tabla agrupada
por clases para poder obtener unos resultados más representativos de dicha muestra.
Árboles fi hi Fi Hi
8 8
T 8 ( 36 ∗ 100) = 22.22 % 8 ( 36 ∗ 100) = 22.22 %
M 12 ( 12 20
36 ∗ 100) = 33.33 % 20 ( 36 ∗ 100) = 55.56 %
7
C 7 ( 36 ∗ 100) = 19.44 % 27 ( 27
36 ∗ 100) = 75 %
9
R 9 ( 36 ∗ 100) = 23.08 % 36 ( 36
36 ∗ 100) = 100 %
P
36
3. Medidas de posición
Este número (medida de posición) suele situarse hacia el centro de la distribución de los datos,
en cuyo caso se denomina medida de tendencia central.
10
Estadı́stica Descriptiva 3 MEDIDAS DE POSICIÓN
n
1X
x̄ = xi (1)
n i=1
1, 1, 2, 0, 3, 2, 1, 5, 2, 3, 1, 0, 0, 1, 2, 5, 7
17
1 X (1 + 1 + 2 + · · · + 5 + 7) 36
x̄ = = = = 2.118
17 i=1 17 17
3.3. Mediana
La mediana representa aquel valor de la variable (ordenada) que divide los datos en dos partes
porcentualmente iguales. Si se quiere hallar el valor de la variable que deja por debajo de si el
50 % del resto de los valores de la variable, una expresión general para su cálculo es:
2. Encontramos el valor de h
h = 0.5(17 − 1) + 1 = 9
x̃ = 2
11
Estadı́stica Descriptiva 3 MEDIDAS DE POSICIÓN
3.4. Moda
La moda representa el valor o valores que tienen la mayor frecuencia dentro del conjunto de
datos. La moda puede o no existir; en el evento en que exista, puede no ser única, ya que una
distribución puede eventualmente tener una o varias modas.
Como podemos observar la dato con mas frecuencia es uno, puesto que se repite cinco veces
Mo = 1
Las medidas de posición no central permiten conocer otros puntos caracterı́sticos de la distribu-
ción que no son los valores centrales. Entre las medidas de posición no central más importantes
están los cuartiles, deciles y percentiles.
Cuartiles: Son tres valores que divides la serie de datos en cuatro partes iguales, en los que
cada uno de ellos concentra el 25 % de las observaciones. Se representan por Q1 ( primer
cuartil), Q2 ( segundo cuartil) y Q3 ( tercer cuartil)
Deciles: Son nueve valores que dividen la serie de datos en 10 partes iguales, en los que cada
uno de ellos concentra el 10 % de las observaciones. D1 , D2 , . . . , D9 .
Percentiles: Son 99 valores que dividen la serie de datos en 100 partes iguales, en los que cada
uno de ellos concentra el 1 % de las observaciones. P1 , P2 , . . . , P99 .
h = 0.25(17 − 1) + 1 = 5 → bhc = 5
Q0.25 = 1
12
Estadı́stica Descriptiva 4 MEDIDAS DE DISPERSIÓN
h = 0.75(17 − 1) + 1 = 13 → bhc = 13
Q0.75 = 3
4. Medidas de dispersión
Las medidas de dispersión o variabilidad permiten establecer que tan dispersos están entre si
un conjunto de datos observados. Algunas de estas medidas se refieren a la dispersión respecto
a una medida particular de tendencia central.
4.1. Rango
El cual denotaremos IQR, es la diferencia entre Q3 y Q1. Permite determinar que tan disperso
está el 50 % de la información más central.
4.3. Varianza
n n
!
2 1 X 1 X
s = (xi − x̄)2 = x2i − nx̄ 2
n − 1 i=1 n−1 i=1
Cuando los valores de la varianza son pequeños, el valor del promedio esta representando bien
a los datos
Ejemplo, supongamos las edades de un grupo de amigos (10,14,23,25, 28) y (18, 19, 21, 22) en
cual de los dos esta mejor presentado el valor de la media ?
Una media con una varianza baja es un buen representante de los datos
13
Estadı́stica Descriptiva 4 MEDIDAS DE DISPERSIÓN
Pn
i=1 x2i = 12 + 12 + . . . + 52 + 72 = 138
entonces
Es la raı́z cuadrada de la varianza por tanto tiene las mismas unidades que la variable original.
Indica la media de las distancias que tienen los datos respecto de su media aritmética.
v
u n
u 1 X
s=t (xi − x̄)2
n − 1 i=1
Ejemplo 8.
√
s= 3.859 = 1.964
Es una medida de dispersión invariante ante cambios de escala que se usa para comparar
dispersiones de diferentes conjuntos de datos. A mayor valor del coeficiente de variación mayor
heterogeneidad de los valores de la variable. Se calcula como
s
cv = × 100
x̄
y tiene la propiedad de encontrarse entre 0 y 1, por tanto se puede interpretar en términos
porcentuales.
Ejemplo 9.
1.964
cv = × 100 = (0.927) × 100 = 92.7 %
2.118
El número de hermanos por estudiante tiene una variabilidad del 92.7 %, lo que representa una
alta heterogeneidad en la muestra seleccionada.
14
Estadı́stica Descriptiva 5 MEDIDAS DE FORMA
5. Medidas de forma
Las medidas de forma comparan la forma que tiene la representación gráfica, bien sea el histo-
grama o el diagrama de de barras de la distribución, con una situación ideal en la que los datos
se reparten en igual medida a la derecha y a la izquierda de la media.
5.1. Asimetrı́a
Esta medida nos permite identificar si los datos se distribuyen de forma uniforme alrededor del
punto central (Media aritmética). El coeficiente de asimetrı́a indican si hay el mismo número
de elementos a izquierda y derecha de la media.
El coeficiente de asimetrı́a de Fisher g1 evalúa la proximidad de los datos a su media x̄. Cuanto
mayor sea la suma (xi − x̄)3 , mayor será la asimetrı́a.
P
n
(xi − x̄)3
P
i=1
g1 =
ns3
Para datos agrupados en tablas por clases o intervalos:
n
(xc − x̄)3
P
fi
i=1
g1 =
ns3
donde Xc es la clase o la marca de clase si tenemos los datos agrupados por intervalos
Si g1 < 0 La distribución tiene una asimetrı́a negativa y se alarga a valores menores que
la media.
Si g1 = 0 La distribución es simétrica.
Si g1 > 0 La distribución tiene una asimetrı́a positiva y se alarga a valores mayores que
la media.
Una asimetrı́a positiva implica que hay más valores distintos a la derecha de la media.
15
Estadı́stica Descriptiva 5 MEDIDAS DE FORMA
Las medidas de asimetrı́a, sobre todo el coeficiente de asimetrı́a de Fisher, junto con las medidas
de apuntamiento o curtosis se utilizan para contrastar si se puede aceptar que una distribución
estadı́stica sigue la distribución normal. Esto es necesario para realizar numerosos contrastes
estadı́sticos en la teorı́a de inferencia estadı́stica.
Ejemplo 10.
Como podemos observar g1 = 1.0095 > 0 por lo tanto el conjunto de observaciones tiene una
asimetrı́a positiva, es decir, existen mas valores distintos a la derecha de la media
5.2. Curtosis
La curtosis (o apuntamiento) es una medida de forma que mide cuán apuntada o aplastada
está una curva o distribución.
Este coeficiente indica la cantidad de datos que hay cercanos a la media, de manera que a mayor
grado de curtosis, más apuntada será la forma de la curva.
Una mayor curtosis implica una mayor concentración de datos muy cerca de la media de la
distribución coexistiendo al mismo tiempo con una relativamente elevada frecuencia de datos
muy alejados de la misma.
n
(xi − x̄)4
P
i=1
g2 = −3
ns4
Para datos agrupados en tablas por clases o intervalos:
n
(xc − x̄)4
P
fi
i=1
g2 = −3
ns4
donde Xc es la clase o la marca de clase si tenemos los datos agrupados por intervalos
16
Estadı́stica Descriptiva 6 REPRESENTACIÓN GRÁFICA
Ejemplo 11.
Como podemos observar g2 = 0.061 > 0, por lo tanto, el conjunto de observaciones tiene una
curtosis más apuntada con las colas menos anchas de lo normal
6. Representación gráfica
Para construir el diagrama de barras las categorı́as se ubican en el eje horizontal y sobre éstas
se dibujan barras (rectángulos) de un alto proporcional a la frecuencia de la categorı́a, definida
como el número de observaciones que pertenecen a ella.
17
Estadı́stica Descriptiva 6 REPRESENTACIÓN GRÁFICA
El diagrama circular (también llamado diagrama de sectores o diagrama de pastel) sirve pa-
ra representar variables cualitativas o discretas. Se utiliza para representar la proporción de
elementos de cada uno de los valores de la variable.
18
Estadı́stica Descriptiva 6 REPRESENTACIÓN GRÁFICA
Opiniones extremas
Acontecimientos extraordinarios.
Causas no conocidas.
Las observaciones que están por fuera de estos lı́mites se clasifican como datos atı́picos y se
ubican en el diagrama.
2. Construir un rectángulo cuyo borde inferior se ubica en el cuartil inferior (Q1 ) y cuyo
borde superior se ubica en el cuartil superior (Q3 ).
4. Prolongar una recta (el bigote) desde el extremo superior de la caja hasta la observación
más grande que es menor o igual que Q3 + 1.5 ∗ (Q3 − Q1 ).
5. Prolongar una recta (el otro bigote) desde el extremo inferior de la caja hasta la obser-
vación más pequeña que es mayor o igual que Q3 − 1.5 ∗ (Q3 − Q1 ).
Como se interpreta:
Mientras más larga la caja y los bigotes, más dispersa es la distribución de datos.
19
Estadı́stica Descriptiva 6 REPRESENTACIÓN GRÁFICA
El bigote de la izquierda (Xmı́m, Q1) es más corto que el de la derecha; por ello el 25 % de los
que tiene menos hermanos están más concentrados que el 25 % de los que tienen más hermanos.
20
Estadı́stica Descriptiva 7 DATOS AGRUPADOS EN TABLAS POR INTERVALOS
Los datos agrupados en tablas por intervalos nacen porque siempre se requiere mostrar simpli-
cidad de la información, esto no es posible cuando el tamaño de la muestra es considerable o
grande y cuando los datos numéricos son muy diversos, por tal motivo, conviene agrupar los
datos de tal manera que permita establecer patrones, tendencias o regularidades de los valores
observados en dichas tablas.
R = Xmax − Xmin
I = 1 + 3.33 Log(n)
R
A=
I
El valor de la amplitud se redondea al número inmediato superior de acuerdo a la cantidad
de decimales que tienen los datos o según la precisión con que se desea trabajar.
21
Estadı́stica Descriptiva 7 DATOS AGRUPADOS EN TABLAS POR INTERVALOS
y paréntesis respectivamente. Por razones naturales, el último intervalo será cerrado por
ambos extremos. El primer intervalo se construye de la siguiente manera: Habrá de iniciar
con el dato menor, el cual será el extremo inferior del intervalo; el otro extremo se obtiene
de la suma del dato menor y la amplitud, con este mismo valor iniciamos el segundo inter-
valo, el otro extremo se encuentra sumando al valor anterior mas la amplitud nuevamente
y este proceso se repite sistemáticamente hasta completar el total de intervalos indicado
por k.
Intervalos de Clase Son los intervalos en los que se agrupan y ordenan los valores observa-
dos. Cada uno de estos intervalos está delimitado (acotado) por dos valores extremos que les
llamamos lı́mites.
Los valores extremos o lı́mites de intervalo Los intervalos de clase deben estar definidos
por lı́mites que permitan identificar plenamente si un dato pertenece a uno u otro intervalo.
Estos lı́mites son los valores extremos de cada intervalo.
También será muy útil conocer y calcular la Marca de Clase (Xc ) de cada intervalo: Se refiere
al Punto Medio del intervalo y a través de él representaremos a todo el intervalo y una de las
maneras de calcularla es promediando los valores lı́mite de cada intervalo, su fórmula es:
Li + Ls
Xc =
2
Datos agrupados por clases
Intervalos M Clases Frec Abs Frec rel Frec. Abs. Acum Frec. Rel. Acum
Linf − Lsup Xc fi hi Fi Hi
L1 +L2 f1
L1 − L2 2
f1 h1 = F 1 = f1 H1 = h1
n
L2 +L3 f2
L2 − L3 2
f2 h2 = F 2 = f1 + f2 H2 = h1 + h2
n
.. .. .. .. ..
. . . . .
fj
Lj − Lm fj hj = F j = f1 + . . . + fj Hj = h1 + . . . + hj
n
.. .. .. .. ..
. . . . .
fk
Lm − Lk fk hn = F n = f1 + . . . + fk Hn = h1 + . . . + hk
n
22
Estadı́stica Descriptiva 7 DATOS AGRUPADOS EN TABLAS POR INTERVALOS
Suponga que en un laboratorio Geográfico desean determinar los cambios en las temperaturas
que ocurren durante los dı́as de Diciembre en el cabo de San Lucas en México, dado que han
notado cambios en los mapas de temperaturas ( ◦ C) registrados en los últimos meses, para ello
obtuvieron una muestra de las temperaturas máximas en los 31 dı́as de Diciembre de 2016,
dando los siguientes resultados
16.9 17.3 18.1 17.2 16.3 17.2 17.3 16.2 15.2 14.1 17.2 15.8 17.4 15.9 14.2 14.3
14.0 16.3 15.1 13.9 13.2 13.8 14.2 16.0 16.2 19.3 17.2 21.2 17.9 15.3 15.8
El laboratorio desea organizar los datos en un tabla agrupada por intervalos y obtener los re-
sultados más relevantes.
Veamos.
Calculamos el Rango R =
Mucha gente manifiesta reacciones de alergia sistémica a las picaduras de insectos. Estas reac-
ciones varı́an de paciente a paciente, no sólo en cuanto a gravedad, sino también en el tiempo
transcurrido hasta que se inicia la reacción. Los datos siguientes representan este tiempo de
inicio hasta la reacción en minutos de 35 pacientes que experimentaron una reacción sistémica
a la picadura de abeja.
10.5 12.7 4.5 9.1 15.6 11.2 13.4 14.7 9.9 11.6 11.7 12.3 11.5 10.9 10.1 8.
15.0 6.2 8.4 5.9 11.5 11.4 12.5 11.4 10.9 8.3 11.2 9.8 12.9 9.1 10.4 8.
i Linf Lsup Xc fi hi Fi Hi
1 4.50 6.40 5.45 3 8.82 3 8.82
2 6.40 8.30 7.35 2 5.88 5 14.71
3 8.30 10.20 9.25 9 26.47 14 41.18
4 10.20 12.10 11.15 12 35.29 26 76.47
5 12.10 14.00 13.05 5 14.71 31 91.18
6 14.00 15.90 14.95 3 8.82 34 100.00
Cuando la muestra está agrupada en una tabla de frecuencias por clases o intervalos, la media
aritmética, mediana y moda se calculan de la siguiente forma:
23
Estadı́stica Descriptiva 7 DATOS AGRUPADOS EN TABLAS POR INTERVALOS
7.1.1. Promedio
n
P
X c fi
X1 f 1 + X2 f 2 + . . . + Xn f n i=1
x̄ = =
n n
donde
Xc : Marcas de clase
fi : frecuencia absoluta
7.1.2. Mediana
7.1.3. Moda
(fi − fi−1 )
Mo = Linf + ∗A
(fi − fi−1 ) + (fi − fi+1 )
donde
A : amplitud
24
Estadı́stica Descriptiva 8 COVARIANZA Y EL COEFICIENTE DE CORRELACIÓN
7.2.1. Cuartiles
7.2.2. Deciles
7.2.3. Percentiles
8.1. Covarianza
n
P
xi yi − nx̄ȳ
i=1
sxy =
n−1
El coeficiente de correlación lineal es una medida de asociación entre las dos variables definido
como:
sxy
rxy =
sx sy
con −1 ≤ rxy ≤ 1
Ejemplo 15. Considere los siguientes datos de una muestra del tiempo de espera entre erup-
ciones en minutos (y) y la duración de la erupción en minutos (x) del Geiser Old Faithful en
el Yellowstone National Park, EE.UU.
y 79 54 74 62 85 55 88 85 51 85 54 84 78 47 83
x 3.6 1.8 3.3 2.3 4.5 2.9 4.7 3.6 1.9 4.4 1.8 3.9 4.2 1.7 4.7
Entonces
x̄ = 3.287 sx = 1.137
ȳ = 70.93 sy = 15.125
3723.3 − 15(3.287)(70.93)
sxy = = 16.163
14
25
Estadı́stica Descriptiva 8 COVARIANZA Y EL COEFICIENTE DE CORRELACIÓN
16.163
rxy = = 0.9399
(1.137)(15.125)
Tenemos ası́ que el grado de relación lineal entre tiempo de espera entre erupciones y la duración
de la erupción es del 93.99 % lo cual indica una relación fuerte positiva .
26