Unidad I - Descriptiva

Estadı́stica I
Teorı́a y aplicaciones en R
Estadı́stica Descriptiva CONTENIDO
Contenido
1. Introducción 3
1.1. Que es la estadı́stica ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2. Conceptos Básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3. Tipos de variables Estadı́sticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3.1. Variable Cualitativas: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3.2. Variable Cuantitativas: . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4. Escalas de medición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2. Formas de presentación y organización de la información 6

2.1. Representación en tablas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.1.1. Datos agrupados en tablas por clases o categorı́as . . . . . . . . . . . . . 7
3. Medidas de posición 10
3.1. Medidas de posición centrales . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3.2. Media Aritmética . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3.3. Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3.4. Moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.5. Medidas de posición no centrales . . . . . . . . . . . . . . . . . . . . . . . . . . 12
4. Medidas de dispersión 13
4.1. Rango . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
4.2. Rango Intercuartil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
4.3. Varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
4.4. Desviación estándar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
4.5. Coeficiente de variación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
5. Medidas de forma 15
5.1. Asimetrı́a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
5.2. Curtosis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
6. Representación gráfica 17
6.1. Gráfico de barras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
6.2. Gráfico de circular o pie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
6.3. Gráfico de caja o Boxplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
7. Datos agrupados en tablas por Intervalos 21

7.1. Medidas de posición central . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
7.1.1. Promedio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
7.1.2. Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
7.1.3. Moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
7.2. Medidas de posición no central . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
7.2.1. Cuartiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
1
Estadı́stica Descriptiva CONTENIDO
7.2.2. Deciles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
7.2.3. Percentiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
8. Covarianza y el coeficiente de correlación 25

8.1. Covarianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
8.2. Coeficiente de correlación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2
Estadı́stica Descriptiva 1 INTRODUCCIÓN
1. Introducción
En esta sección conoceremos diversos conceptos de interés sobre la estructura de la estadı́stica

y sus aplicaciones en la vida cotidiana.
1.1. Que es la estadı́stica ?
1. La estadı́stica se ocupa de recopilar, organizar, procesar, analizar e interpretar los datos

con el fin de deducir caracterı́sticas de una población objetivo.
2. La estadı́stica es el arte de entender los fenómenos (sociales, educativos, médicos . . .) a

través de los números
Lo que mas podemos relacionar con las estadı́sticas son las encuestas y los gráficos, muchas de
las encuestas que salen por lo medios de comunicación han sido realizadas de diferente forma,
por ejemplo, en la calle o te pueden llamar por teléfono, por Internet, todas esasrespuestas que
damos las organizan, la clasifican y con eso obtienen datos y representaciones.
¿ Cual es su objetivo?, el objetivo de la estadı́stica es mejorar la comprensión de hechos o

fenómenos a partir de los datos.
Con la estadı́stica aprendemos a manejar la información para clasificar y comprender un

fenómeno, y en consecuencia obtener resultados y hacer previsiones.
¿ Cuáles son los tipos de estadı́stica?
Básicamente se tienen dos tipos de estadı́stica, a saber:
1. Estadı́stica descriptiva: La finalidad de la estadı́stica descriptiva es resumir la infor-

mación de conjuntos más o menos numerosos de datos.
2. Estadı́stica inferencial: La inferencia estadı́stica intenta tomar decisiones basadas en

la aceptación o el rechazo de ciertas relaciones que se toman como hipótesis.
1.2. Conceptos Básicos
Población: Una población es el conjuntos de elementos que deseo analizar, por ejemplo si
quiero saber cuanto es la estatura promedio de Colombia, cual es la comida favorita de
los Colombianos o cual es la empresa de telefonı́a mas barata en Colombia, la población
de aves en el parque lineal, el promedio de notas de los exámenes en clases, etc. Cualquier
estudio estadı́stico necesita de una población.
Cual es el problema ? Que yo no puedo preguntarle a todo el mundo que hace, entonces
nace el otro concepto.
3
Muestra: Una muestra es una parte de la población escogida según ciertos criterios para poder
estudiar y obtener conclusiones sobre la población, es decir, para hacer un estudio sobre
el promedio de notas de todos los exámenes, realizados durante un semestre, tomo una
muestra, puede ser, 20 exámenes y las conclusiones que yo saque de esta muestra, quizás
la pueda extender a todos los estudiantes, es decir, si calculo el promedio de esos exámenes
quizás pueda sacar como conclusión que es el promedio de todos los estudiantes.
Una muestra debe ser representativa de la población. Es decir, respetar la estructura y

proporciones de las caracterı́sticas que se van a estudiar, es decir, si queremos estudiar la
estatura media de los Colombianos, entonces cogemos una muestra y vamos preguntando
cuanto mide, y donde nos vamos a colocar en una cancha de baloncesto, dado que esa
muestra no es representativa, se deben respetar todas las proporciones.
Individuo: Un individuo o unidad estadı́stica es cada uno de los elementos que componen la
población. estos pueden ser, personas, animales, elementos, objetos, etc
Carácter estadı́stico: Un carácter estadı́stico es una propiedad que se estudia en los indivi-
duos de una población, una vez que tengo la población me pregunto que es lo que voy a
estudiar de esa población, cual es la caracterı́stica que vamos a analizar, cuando te hacen
una encuesta, te pregunta: ¿ Cuantos hermanos tienes?, ¿ Cual es tu equipo de fútbol
favorito?, eso es lo que estamos estudiando, es la caracterı́stica que es el objeto de nuestro
estudio:
1.3. Tipos de variables Estadı́sticas
El Carácter estadı́stico o la variable estadı́stica tiene una clasificación: Las variables pueden ser
cualitativas o cuantitativas
1.3.1. Variable Cualitativas:
Las variables cualitativas son aquellas que no presentan valores numéricos sino caracterı́sticas
o cualidades. Las variables cualitativas se pueden codificar numéricamente pero sus números
no tienen porque tener sentido.Dependiendo del número de categorı́as pueden ser dicótomas
o politómicas: Ejemplos: El sexo, Estado civil, Dolor, Grupo sanguı́neo, Compañı́a telefónica,
deporte que practican, lugar de nacimiento, color de pelo.
Se clasifican en: Nominales u Ordinales
Nominal: son aquellas que carecer de o no admiten un criterio de orden y no cuentan con un
valor numérico asignado, Ejemplos: El miedo, La belleza, La felicidad
4
Ordinal: son aquellas que admiten un criterio de orden a pesar de que carecen de un valor
numérico. Ejemplos: El hambre, Estado civil, La calificación de un examen
1.3.2. Variable Cuantitativas:
Una variable cuantitativa es aquella que pueden ser expresadas mediante un valor numérico..
Es decir, es aquella caracterı́stica de la población o de la muestra que es posible representar
numéricamente, algunos ejemplos: Año de nacimiento, número de hermanos, Número de asig-
naturas,estatura, Tiempo empleado en llegar a la universidad, la velocidad, peso o la masa,
volumen de alcohol de una bebida.
Se clasifican en : discretas o continuas
Discreta: Las variables discretas se caracterizan por contar únicamente valores finitos. Ejem-
plos. El número de miembros de una familia, El número de asaltos de un combate, Can-
tidad de empleados que trabajan en una tienda, Número de clientes que visitan un su-
permercado por dı́a, Número de personas que llegan a un consultorio en una hora.
Continua: Las variables continuas por su parte son aquellas que pueden tomar un número
infinito de valores dentro de dos números, es decir, cuentan con la asignación de número
decimales. Ejemplos: la altura de una persona, Los grados o volumen de alcohol en una
bebida, El ancho de una pelota de fútbol. La velocidad a la que va a un tren, Velocidad
a la que viaja un avión, El diámetro de una esfera.
1.4. Escalas de medición
Todos los datos son generados por una de las cuatro escalas de medición: nominal, ordinal, de
intervalo o de razón. A continuación se definen cada una de estas escalas de medición.
Escala nominal: Una escala de medición es nominal si los datos son etiquetas o categorı́as
que se usan para definir un atributo de un elemento. Los datos nominales pueden ser
numéricos o no numéricos. Un ejemplo: El sexo de una persona es un dato nominal no
numérico. El numero de seguro social de una persona es un dato nominal numérico.
Escala ordinal: Una escala de medición es ordinal si los datos pueden usarse para jerarquizar
u ordenar las observaciones. Los datos ordinales pueden ser numéricos o no numéricos.
Un ejemplo: Las medidas pequeño, mediano y grande para dar el tamaño de un objeto
son datos ordinales no numéricos. cuando se recibe una encuesta con una pregunta como:
¿ Qué tan satisfecho está con la experiencia gastronómica? En esta las opciones de res-
puesta pueden ser algo como calificar del 0 al 10, siendo 10 extremadamente satisfecho y
0 extremadamente insatisfecho.
5
Estadı́stica2 Descriptiva
FORMAS DE PRESENTACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN
Escala de intervalo: Una escala de medición es de intervalo si los datos tienen las propiedades
de los datos ordinales y los intervalos entre observaciones se expresan en términos de una
unidad de medición fija. Los datos de intervalo tienen que ser numéricos. El cero es
arbitrario, no indica la ausencia de atributo. En otras palabras, las variables se miden en
valores reales y no de forma relativa. Esto significa que la diferencia entre dos variables
en una escala es una distancia real o igual. Por ejemplo, la diferencia entre 40 grados
centı́grados y50 grados centı́grados es exactamente la misma que la diferencia entre 50
grados centı́grados y 60 grados centı́grados. Los datos de la escala de intervalo pueden
ser discretos, como por ejemplo números tipo 8 grados, 4 años, 2 meses, etc. O continuos,
con números fraccionarios como 12.2 grados, 3.5 semanas o 4.2 kilómetros.
Escala de razón: Los datos de escala de razón tienen todas las propiedades de los datos de
la escala de intervalo, por ejemplo, los datos deben tener valores numéricos, la distancia
entre los dos puntos es igual, etc., sin embargo, a diferencia de los datos de intervalo
donde el cero es arbitrario, en los datos de una escala de razón el cero es absoluto (lo que
significa que no hay ningún valor numérico negativo). Un excelente ejemplo de los datos
de escala de razón es la medición de alturas. La altura puede medirse en centı́metros,
metros, pulgadas o pies. No es posible tener una altura negativa. Los datos de escala de
razón pueden ser multiplicados y divididos, esta es una de las principales diferencias entre
los datos de escala de razón y los datos de una escala de intervalo, los cuales solo pueden
ser sumados y restados.
Cuatro personas son seleccionadas al azar y se les pregunta cuánto dinero traen. Estos
son los resultados: 21, 50, 65 y 300.
¿ Existe un orden para estos datos? Si, 21 < 50 < 65 < 300.
¿ Las diferencias entre los valores de datos son significativas? Claro, la persona que
tiene 50 tiene 29 más que la persona con 21.
¿ Podemos calcular razones en función a estos datos? Sı́, porque 0 es la cantidad

mı́nima absoluta de dinero que una persona podrı́a traer con ella.
La persona con 300 tienen 6 veces más que la persona con 50.
2. Formas de presentación y organización de la informa-

ción
Existen dos formas básicas para la representación de la información recolectada, a través de

tablas o cuadros estadı́sticos y a través de un gráfico.
6
2.1. Representación en tablas
Una tabla o cuadro estadı́stico es una representación en forma ordenada de la variación de

un fenómeno, clasificado bajo una o más variables. Puede ser simple (clasificación bajo una
variable) o compuesto (clasificación bajo dos o más variables).
Los datos organizados por tablas pueden ser representados de dos formas, en tablas ordenadas
por clases o tablas ordenadas por intervalos, En esta primera estudiaremos como organizar los
datos a través de tablas agrupadas por clase:
Los datos agrupados en tablas por clase pueden cualitativos o cuantitativos (siempre y cuando
muchos de ello se repitan, para facilitar su análisis)
2.1.1. Datos agrupados en tablas por clases o categorı́as
Consideremos una muestra de n individuos, descrita según un carácter o variable c cuyas mo-
dalidades han sido agrupadas en un número k de clases, que denotamos mediante c1 , c2 , . . . , ck .
Para cada una de las clases ci , i = 1, . . . , k, introducimos las siguientes conceptos:
Frecuencia Absoluta: Es el número de veces que aparece un valor, se representa con fi donde
el subı́ndice representa cada uno de los valores.
La suma de las frecuencias absolutas es igual al número total de datos, que se representa por
n.
f1 + f2 + · · · + fn = n
Frecuencia Relativa : Es el resultado de dividir la frecuencia absoluta de un determinado

valor entre el número total de datos, se representa por hi . La suma de la frecuencias relativas es
igual a 1.. La frecuencia relativa se puede expresar en porcentajes ( %) para esto simplemente
multiplicamos el resultado por 100
fi
hi =
n
La suma de las frecuencias relativas es igual a 1.
Frecuencia Absoluta Acumulada : Es la suma de las frecuencias absolutas de todos los

valores inferiores o iguales al valor considerado. Se representa por Fi
k
X
Fi = f1 + f2 + . . . + fk = fj
i=1
Frecuencia Relativa Acumulada: Es la suma de las frecuencias relativas de todos los valores
inferiores o iguales al valor considerado. Se representa por Hi y se puede expresar en tantos
por ciento.
7
Se representa por Hi
k
X
Hi = h1 + h2 + . . . + hk = hj
i=1
Su forma general es la siguiente:
Datos agrupados por clases
Clases Frec. abs Frec. rel Frec. Abs. Acum Frec. Rel. Acum
ci fi hi Fi Hi
f1
c1 f1 h1 = F 1 = f1 H1 = h1
n
f2
c2 f2 h2 = F 2 = f1 + f2 H2 = h1 + h2
n
.. .. .. .. ..
. . . . .
fk
ck fk hn = F n = f1 + . . . + fk Hn = h1 + . . . + hk
n
Ejemplo 1. Suponga que el área de talento humano decide realizar un estudio para determinar
el número de hermanos de los estudiantes de segundo semestre de geografı́a para ello se toma
una muestra de 17 alumnos a los que se le pregunta cuantos hermanos tienen. Las respuestas
obtenidas fueron:
1, 1, 2, 0, 3, 2, 1, 5, 2, 3, 1, 0, 0, 1, 2, 5, 7
El área de talento humano desea organizar los datos en una tabla agrupada por clases para
poder obtener unos resultados más representativos de dicha muestra.
8
Hermanos fi hi Fi Hi
3 3
0 3 ( 17 ∗ 100) = 17.65 % 3 ( 17 ∗ 100) = 17.65 %
5 8
1 5 ( 17 ∗ 100) = 29.41 % 3+5=8 ( 17 ∗ 100) = 47.06 %
4 12
2 4 ( 17 ∗ 100) = 23.53 % 3 + 5 + 4 = 12 ( 17 ∗ 100) = 70.59 %
2 14
3 2 ( 17 ∗ 100) = 11.76 % 3 + 5 + 4 + 2 = 14 ( 17 ∗ 100) = 82.35 %
2 16
5 2 ( 17 ∗ 100) = 11.76 % 3 + 5 + 4 + 2 + 2 = 16 ( 17 ∗ 100) = 94.12 %
1 17
7 1 ( 17 ∗ 100) = 5.88 % 3 + 5 + 4 + 2 + 2 + 1 = 17 ( 17 ∗ 100) = 100 %
P
17
Defina la población, muestra, individuos y variable estadı́stica
Tipo de variable Variable cuantitativa discreta
Población: Estudiantes del departamento de Geografı́a
Muestra: Estudiantes de segundo semestre de geografı́a
Individuos: Cada estudiante del segundo semestre
Variable: Número de hermanos de cada individuo
Algunas conclusiones que podemos hacer son las siguientes:
f2 : De la muestra seleccionada existen 5 estudiantes de geográfica que tienen un hermano
h1 : De la muestra seleccionada el 17.65 % de los estudiantes de geográfica no tiene hermanos
F5 : De la muestra seleccionada 16 estudiantes de geografı́a tiene entre 1 y 5 hermanos
H3 : De la muestra seleccionada el 70.59 % de los estudiantes de geográfica tiene entre 1 y 4

hermanos
¿ Que porcentaje de alumnos tiene entre 2 y 5 hermanos?
¿ Cuantos estudiantes tienen menos de 5 hermanos ?
¿ Que porcentaje de estudiantes tienen a lo mucho 2 hermanos ?
Ejemplo 2. El departamento de ciencias agrı́colas de la Universidad de Córdoba desea realizar

un estudio para identificar el tipo de árboles maderable dentro del campus Universitario para
ello se delimita una área especifica en el cual se realiza la recolección de las muestras, dentro
de estas, los árboles identificados en parcelas de muestreo fueron los siguientes (T = Teca,
R=Roble, M=Mango, C=Cedro).
M T R M R T C T R R C M C C M T M R
T M M T M R M R M C T C R M R C T M
9
Estadı́stica Descriptiva 3 MEDIDAS DE POSICIÓN
El departamento de ciencias agrı́colas desea desea organizar los datos en una tabla agrupada
por clases para poder obtener unos resultados más representativos de dicha muestra.
Árboles fi hi Fi Hi
8 8
T 8 ( 36 ∗ 100) = 22.22 % 8 ( 36 ∗ 100) = 22.22 %
M 12 ( 12 20
36 ∗ 100) = 33.33 % 20 ( 36 ∗ 100) = 55.56 %
7
C 7 ( 36 ∗ 100) = 19.44 % 27 ( 27
36 ∗ 100) = 75 %
9
R 9 ( 36 ∗ 100) = 23.08 % 36 ( 36
36 ∗ 100) = 100 %
P
36
Defina la población, muestra, individuos y variable estadı́stica
Tipo de variable Variable cualitativa nominal
Población: Árboles de la Universidad de Córdoba
Muestra: Clases de árboles maderables en el área especifica
Individuos: El Árbol maderable
Variable: Cantidad de árboles de cada especie
Algunas conclusiones que podemos hacer son las siguientes:
f2 : En la muestra seleccionada existen 12 árboles en el área especifica seleccionada de Mango
h1 : En la muestra seleccionada el 22.22 % de los árboles en el área especifica seleccionada son

de Teca
F3 : En la muestra seleccionada 27 de los árboles en el área especifica seleccionada son de Teca,

Mango y Cedro
H3 : En la muestra seleccionada el 55.56 % de los de los árboles en el área especifica seleccionada

son de Teca, Mango y Cedro
3. Medidas de posición
Al describir conjuntos de datos, con frecuencia es conveniente resumir la información con un

solo número.
3.1. Medidas de posición centrales
Este número (medida de posición) suele situarse hacia el centro de la distribución de los datos,
en cuyo caso se denomina medida de tendencia central.
10
3.2. Media Aritmética
También conocida como promedio o simplemente media. La media de un conjunto de observa-

ciones x1 , x2 , . . . , xn denotada por x̄ está dada por:
n
1X
x̄ = xi (1)
n i=1
Ejemplo 3. Considere el ejemplo 1: Las respuestas obtenidas fueron:
1, 1, 2, 0, 3, 2, 1, 5, 2, 3, 1, 0, 0, 1, 2, 5, 7
17
1 X (1 + 1 + 2 + · · · + 5 + 7) 36
x̄ = = = = 2.118
17 i=1 17 17
El promedio para el número de hermanos de los estudiantes de segundo semestre de Geografı́a

es de 2.1 por estudiante
3.3. Mediana
La mediana representa aquel valor de la variable (ordenada) que divide los datos en dos partes
porcentualmente iguales. Si se quiere hallar el valor de la variable que deja por debajo de si el
50 % del resto de los valores de la variable, una expresión general para su cálculo es:
x̃ = xbhc + (h − bhc)(xbhc+1 − xbhc ) (2)
donde h = 0.5(n − 1) + 1 y bhc es el mayor entero no mayor que h.
Ejemplo 4. Continuando con el ejemplo 1:

1, 1, 2, 0, 3, 2, 1, 5, 2, 3, 1, 0, 0, 1, 2, 5, 7
1. Ordenamos los datos: 0 0 0 1 1 1 1 1 2 2 2 2 3 3 5 5 7
2. Encontramos el valor de h
h = 0.5(17 − 1) + 1 = 9
por lo tanto, el valor de la mediana en la posición x9 del conjunto de datos es:
x̃ = 2
11
3.4. Moda
La moda representa el valor o valores que tienen la mayor frecuencia dentro del conjunto de
datos. La moda puede o no existir; en el evento en que exista, puede no ser única, ya que una
distribución puede eventualmente tener una o varias modas.
Ejemplo 5. Continuando con el ejemplo 1:

1, 1, 2, 0, 3, 2, 1, 5, 2, 3, 1, 0, 0, 1, 2, 5, 7
Como podemos observar la dato con mas frecuencia es uno, puesto que se repite cinco veces
Mo = 1
3.5. Medidas de posición no centrales
Las medidas de posición no central permiten conocer otros puntos caracterı́sticos de la distribu-
ción que no son los valores centrales. Entre las medidas de posición no central más importantes
están los cuartiles, deciles y percentiles.
Cuartiles: Son tres valores que divides la serie de datos en cuatro partes iguales, en los que
cada uno de ellos concentra el 25 % de las observaciones. Se representan por Q1 ( primer
cuartil), Q2 ( segundo cuartil) y Q3 ( tercer cuartil)
Deciles: Son nueve valores que dividen la serie de datos en 10 partes iguales, en los que cada
uno de ellos concentra el 10 % de las observaciones. D1 , D2 , . . . , D9 .
Percentiles: Son 99 valores que dividen la serie de datos en 100 partes iguales, en los que cada
uno de ellos concentra el 1 % de las observaciones. P1 , P2 , . . . , P99 .
Una expresión general para su cálculo es:
Qp = xbhc + (h − bhc)(xbhc+1 − xbhc )
donde h = p(n − 1) + 1 y bhc es el mayor entero no mayor que h.
Ejemplo 6. Continuando con el ejemplo 1, hallemos los cuartiles 1 y 3
Ordenamos los datos: 0 0 0 1 1 1 1 1 2 2 2 2 3 3 5 5 7
Para el cuartil 1, primero determinamos el valor de h tomando p = 0.25
h = 0.25(17 − 1) + 1 = 5 → bhc = 5
Luego, el dato ordenado en la posición 5, es x5 = 1 , por lo tanto
Q0.25 = 1
Ası́, el 25 % de los estudiantes encuestados tiene menos de un hermano
12
Estadı́stica Descriptiva 4 MEDIDAS DE DISPERSIÓN
Para el cuartil 3: Primero determinamos el valor de h tomando p = 0.75
h = 0.75(17 − 1) + 1 = 13 → bhc = 13
Luego, el dato ordenado en la posición 13, es x13 = 3 , por lo tanto
Q0.75 = 3
Ası́, el 75 % de los estudiantes encuestados tiene menos de tres hermano
4. Medidas de dispersión
Las medidas de dispersión o variabilidad permiten establecer que tan dispersos están entre si
un conjunto de datos observados. Algunas de estas medidas se refieren a la dispersión respecto
a una medida particular de tendencia central.
4.1. Rango
Es la diferencia entre el máximo valor observado y el mı́nimo: R = xmax − xmin .
4.2. Rango Intercuartil
El cual denotaremos IQR, es la diferencia entre Q3 y Q1. Permite determinar que tan disperso
está el 50 % de la información más central.
4.3. Varianza
La varianza de un conjunto de datos x1 , x2 . . . , xn es, en esencia, el promedio del cuadrado de

las diferencias entre cada observación y la media del conjunto de las observaciones, se denota
por:
n n
!
2 1 X 1 X
s = (xi − x̄)2 = x2i − nx̄ 2
n − 1 i=1 n−1 i=1
pero tiene el inconveniente de estar en unidades cuadradas de la variable.
Cuando los valores de la varianza son pequeños, el valor del promedio esta representando bien
a los datos
Ejemplo, supongamos las edades de un grupo de amigos (10,14,23,25, 28) y (18, 19, 21, 22) en
cual de los dos esta mejor presentado el valor de la media ?
Una media con una varianza baja es un buen representante de los datos
13
Estadı́stica Descriptiva 4 MEDIDAS DE DISPERSIÓN
Ejemplo 7. Continuación ejemplo 1, Como
Pn
i=1 x2i = 12 + 12 + . . . + 52 + 72 = 138
entonces
138 − (17)(2.118)2 61.73929

s2 = = = 3.859
17 − 1 16
4.4. Desviación estándar
Es la raı́z cuadrada de la varianza por tanto tiene las mismas unidades que la variable original.
Indica la media de las distancias que tienen los datos respecto de su media aritmética.
v
u n
u 1 X
s=t (xi − x̄)2
n − 1 i=1
Ejemplo 8.
√
s= 3.859 = 1.964
La variabilidad promedio del número de hermanos por estudiantes es de 1.964.
4.5. Coeficiente de variación
Es una medida de dispersión invariante ante cambios de escala que se usa para comparar
dispersiones de diferentes conjuntos de datos. A mayor valor del coeficiente de variación mayor
heterogeneidad de los valores de la variable. Se calcula como
s
cv = × 100
x̄
y tiene la propiedad de encontrarse entre 0 y 1, por tanto se puede interpretar en términos
porcentuales.
Ejemplo 9.
1.964
cv = × 100 = (0.927) × 100 = 92.7 %
2.118
El número de hermanos por estudiante tiene una variabilidad del 92.7 %, lo que representa una
alta heterogeneidad en la muestra seleccionada.
14
Estadı́stica Descriptiva 5 MEDIDAS DE FORMA
5. Medidas de forma
Las medidas de forma comparan la forma que tiene la representación gráfica, bien sea el histo-
grama o el diagrama de de barras de la distribución, con una situación ideal en la que los datos
se reparten en igual medida a la derecha y a la izquierda de la media.
5.1. Asimetrı́a
Esta medida nos permite identificar si los datos se distribuyen de forma uniforme alrededor del
punto central (Media aritmética). El coeficiente de asimetrı́a indican si hay el mismo número
de elementos a izquierda y derecha de la media.
El coeficiente de asimetrı́a de Fisher g1 evalúa la proximidad de los datos a su media x̄. Cuanto
mayor sea la suma (xi − x̄)3 , mayor será la asimetrı́a.
P
Sea x1 , x2 , . . . , xn el conjunto de observaciones entonces el coeficiente de asimetrı́a será:
Para datos sin agrupar:
n
(xi − x̄)3
P
i=1
g1 =
ns3
Para datos agrupados en tablas por clases o intervalos:
n
(xc − x̄)3
P
fi
i=1
g1 =
ns3
donde Xc es la clase o la marca de clase si tenemos los datos agrupados por intervalos
Si g1 < 0 La distribución tiene una asimetrı́a negativa y se alarga a valores menores que
la media.
Si g1 = 0 La distribución es simétrica.
Si g1 > 0 La distribución tiene una asimetrı́a positiva y se alarga a valores mayores que
la media.
Una asimetrı́a positiva implica que hay más valores distintos a la derecha de la media.
15
Estadı́stica Descriptiva 5 MEDIDAS DE FORMA
Las medidas de asimetrı́a, sobre todo el coeficiente de asimetrı́a de Fisher, junto con las medidas
de apuntamiento o curtosis se utilizan para contrastar si se puede aceptar que una distribución
estadı́stica sigue la distribución normal. Esto es necesario para realizar numerosos contrastes
estadı́sticos en la teorı́a de inferencia estadı́stica.
Ejemplo 10.
(1 − 2.12)3 + . . . + (7 − 2.12)3 130.173

g1 = 3
= = 1.009582
(17)(1.96) 128.9376
Como podemos observar g1 = 1.0095 > 0 por lo tanto el conjunto de observaciones tiene una
asimetrı́a positiva, es decir, existen mas valores distintos a la derecha de la media
5.2. Curtosis
La curtosis (o apuntamiento) es una medida de forma que mide cuán apuntada o aplastada
está una curva o distribución.
Este coeficiente indica la cantidad de datos que hay cercanos a la media, de manera que a mayor
grado de curtosis, más apuntada será la forma de la curva.
Una mayor curtosis implica una mayor concentración de datos muy cerca de la media de la
distribución coexistiendo al mismo tiempo con una relativamente elevada frecuencia de datos
muy alejados de la misma.
Sea x1 , x2 , . . . , xn el conjunto de observaciones entonces el coeficiente de curtosis será:
Para datos sin agrupar:
n
(xi − x̄)4
P
i=1
g2 = −3
ns4
Para datos agrupados en tablas por clases o intervalos:
n
(xc − x̄)4
P
fi
i=1
g2 = −3
ns4
donde Xc es la clase o la marca de clase si tenemos los datos agrupados por intervalos
Si g2 < 0 Menos apuntada y con colas más anchas que la normal.
Si g2 = 0 Tiene una distribución normal.
Si g2 > 0 Más apuntada y con colas menos anchas que la normal.
16
Estadı́stica Descriptiva 6 REPRESENTACIÓN GRÁFICA
Ejemplo 11.
(1 − 2.12)4 + . . . + (7 − 2.12)4 775.6096

g2 = − 3 = − 3 = 3.061635 − 3 = 0.06163538
(17)(1.96)4 253.3318
Como podemos observar g2 = 0.061 > 0, por lo tanto, el conjunto de observaciones tiene una
curtosis más apuntada con las colas menos anchas de lo normal
6. Representación gráfica
Un gráfico es un tipo de representación de datos, generalmente numéricos, mediante recursos

gráficos (lineas, vectores, superficies o sı́mbolos) para que se manifieste visualmente la relación
matemática o correlación estadı́stica que guardan entre si.
También es el nombre de conjunto de puntos que se plasman en coordenadas cartesianas y

sirven para analizar el comportamiento de un proceso o conjunto de elementos o signos que
permiten la interpretación de un fenómeno.
Después de la Organización de los datos y su presentación en Tablas Estadı́sticas, la información

contenida en una tabla estadı́stica también se puede presentar mediante gráficas
6.1. Gráfico de barras
Para construir el diagrama de barras las categorı́as se ubican en el eje horizontal y sobre éstas
se dibujan barras (rectángulos) de un alto proporcional a la frecuencia de la categorı́a, definida
como el número de observaciones que pertenecen a ella.
17
6.2. Gráfico de circular o pie
El diagrama circular (también llamado diagrama de sectores o diagrama de pastel) sirve pa-
ra representar variables cualitativas o discretas. Se utiliza para representar la proporción de
elementos de cada uno de los valores de la variable.
Consiste en partir el cı́rculo en porciones proporcionales a la frecuencia relativa. Entiéndase

como porción la parte del cı́rculo que representa a cada valor que toma la variable.
Sea (X1 , X2 , . . . , XN ) un conjunto de elementos. La fórmula para calcular el ángulo de cada

sector es la siguiente:
α = hi ∗ 360
18
6.3. Gráfico de caja o Boxplot
El gráfico de caja para un conjunto de datos revela información respecto a la magnitud de

la dispersión, localización de la concentración, simetrı́a de los datos y determinar si existen
datos atı́picos en la muestra. Los datos atı́picos son aquellos mucho más grandes o mucho más
pequeños que el resto de los datos. Se representan con un punto en cualquier extremo del
diagrama. Los datos atı́picos son ocasionados regularmente por:
Opiniones extremas
Errores de medición o registro.
Acontecimientos extraordinarios.
Causas no conocidas.
Las observaciones que están por fuera de estos lı́mites se clasifican como datos atı́picos y se
ubican en el diagrama.
Para construir el diagrama de caja siga los siguientes pasos:
1. Dibujar y marcar un eje de medida vertical (eje de coordenadas).
2. Construir un rectángulo cuyo borde inferior se ubica en el cuartil inferior (Q1 ) y cuyo
borde superior se ubica en el cuartil superior (Q3 ).
3. Dibujar un segmento de recta horizontal dentro de la caja justo en el segundo cuartil

(mediana).
4. Prolongar una recta (el bigote) desde el extremo superior de la caja hasta la observación
más grande que es menor o igual que Q3 + 1.5 ∗ (Q3 − Q1 ).
5. Prolongar una recta (el otro bigote) desde el extremo inferior de la caja hasta la obser-
vación más pequeña que es mayor o igual que Q3 − 1.5 ∗ (Q3 − Q1 ).
Como se interpreta:
Mientras más larga la caja y los bigotes, más dispersa es la distribución de datos.
La lı́nea que representa la mediana indica la simetrı́a. Si está relativamente en el centro

de la caja la distribución es simétrica. Si por el contrario se acerca al primer o tercer
cuartil, la distribución pudiera ser sesgada a la derecha (asimétrica positiva) o sesgada a
la izquierda (asimétrica negativa respectivamente. Esto suele suceder cuando las opiniones
de los estudiantes tienden a concentrase más hacia un punto de la escala.
19
Ejemplo 12. Continuamos con ejem 1.
Tenemos que los cuartiles Q1 = 1, Q2 = 2, Q3 = 3
El bigote de la izquierda (Xmı́m, Q1) es más corto que el de la derecha; por ello el 25 % de los
que tiene menos hermanos están más concentrados que el 25 % de los que tienen más hermanos.
El rango IQR = Q3 − Q1 = 2 es decir, el 50 % de la población tiene aproximadamente dos

hermanos.
Como podemos observar existe un dato atı́pico en la muestra, corresponde a siete
20
Estadı́stica Descriptiva 7 DATOS AGRUPADOS EN TABLAS POR INTERVALOS
7. Datos agrupados en tablas por Intervalos
Los datos agrupados en tablas por intervalos nacen porque siempre se requiere mostrar simpli-
cidad de la información, esto no es posible cuando el tamaño de la muestra es considerable o
grande y cuando los datos numéricos son muy diversos, por tal motivo, conviene agrupar los
datos de tal manera que permita establecer patrones, tendencias o regularidades de los valores
observados en dichas tablas.
Pasos para Construir Intervalos de Frecuencia
1. Calcular el rango de los datos

Se obtiene de la diferencia entre el dato mayor y el dato menor. Se representa con la letra
R.
R = Xmax − Xmin
2. Determinar la cantidad de intervalos

La selección del número adecuado de intervalos y de los lı́mites entre ellos dependen del
criterio o experiencia de quien realiza el estudio. Sin embargo, existen reglas que permiten
calcular el número de intervalos; la más empleada es la Regla de Sturges, cuya expresión
es:
I = 1 + 3.33 Log(n)
Donde: K = Número de intervalos el cual siempre debe ser un número entero y n =

Número de datos
3. Obtención de la amplitud que tendrá cada intervalo.
Se encuentra dividiendo el rango por el número de intervalos
R
A=
I
El valor de la amplitud se redondea al número inmediato superior de acuerdo a la cantidad
de decimales que tienen los datos o según la precisión con que se desea trabajar.
Puede haber intervalos con distinta amplitud.
Puede haber intervalos con amplitud indefinida (intervalos abiertos)
4. Construcción de los intervalos
Las dos caracteres mencionadas anteriormente se logran construyendo intervalos cerrados

por la izquierda y abiertos por la derecha; esto se simboliza a través del uso de corchetes
21
y paréntesis respectivamente. Por razones naturales, el último intervalo será cerrado por
ambos extremos. El primer intervalo se construye de la siguiente manera: Habrá de iniciar
con el dato menor, el cual será el extremo inferior del intervalo; el otro extremo se obtiene
de la suma del dato menor y la amplitud, con este mismo valor iniciamos el segundo inter-
valo, el otro extremo se encuentra sumando al valor anterior mas la amplitud nuevamente
y este proceso se repite sistemáticamente hasta completar el total de intervalos indicado
por k.
Intervalos de Clase Son los intervalos en los que se agrupan y ordenan los valores observa-
dos. Cada uno de estos intervalos está delimitado (acotado) por dos valores extremos que les
llamamos lı́mites.
Los valores extremos o lı́mites de intervalo Los intervalos de clase deben estar definidos
por lı́mites que permitan identificar plenamente si un dato pertenece a uno u otro intervalo.
Estos lı́mites son los valores extremos de cada intervalo.
Lı́mite Inferior: Es el valor menor de cada intervalo, se denota por Li
Lı́mite Superior: Es el número mayor de cada intervalo, se denota por Ls
También será muy útil conocer y calcular la Marca de Clase (Xc ) de cada intervalo: Se refiere
al Punto Medio del intervalo y a través de él representaremos a todo el intervalo y una de las
maneras de calcularla es promediando los valores lı́mite de cada intervalo, su fórmula es:
Li + Ls
Xc =
2
Datos agrupados por clases
Intervalos M Clases Frec Abs Frec rel Frec. Abs. Acum Frec. Rel. Acum
Linf − Lsup Xc fi hi Fi Hi
L1 +L2 f1
L1 − L2 2
f1 h1 = F 1 = f1 H1 = h1
n
L2 +L3 f2
L2 − L3 2
f2 h2 = F 2 = f1 + f2 H2 = h1 + h2
n
.. .. .. .. ..
. . . . .
fj
Lj − Lm fj hj = F j = f1 + . . . + fj Hj = h1 + . . . + hj
n
.. .. .. .. ..
. . . . .
fk
Lm − Lk fk hn = F n = f1 + . . . + fk Hn = h1 + . . . + hk
n
22
Ejemplo 13. Geografı́a
Suponga que en un laboratorio Geográfico desean determinar los cambios en las temperaturas
que ocurren durante los dı́as de Diciembre en el cabo de San Lucas en México, dado que han
notado cambios en los mapas de temperaturas ( ◦ C) registrados en los últimos meses, para ello
obtuvieron una muestra de las temperaturas máximas en los 31 dı́as de Diciembre de 2016,
dando los siguientes resultados
16.9 17.3 18.1 17.2 16.3 17.2 17.3 16.2 15.2 14.1 17.2 15.8 17.4 15.9 14.2 14.3
14.0 16.3 15.1 13.9 13.2 13.8 14.2 16.0 16.2 19.3 17.2 21.2 17.9 15.3 15.8
El laboratorio desea organizar los datos en un tabla agrupada por intervalos y obtener los re-
sultados más relevantes.
Veamos.
Calculamos el Rango R =
Ejemplo 14. Biologı́a
Mucha gente manifiesta reacciones de alergia sistémica a las picaduras de insectos. Estas reac-
ciones varı́an de paciente a paciente, no sólo en cuanto a gravedad, sino también en el tiempo
transcurrido hasta que se inicia la reacción. Los datos siguientes representan este tiempo de
inicio hasta la reacción en minutos de 35 pacientes que experimentaron una reacción sistémica
a la picadura de abeja.
10.5 12.7 4.5 9.1 15.6 11.2 13.4 14.7 9.9 11.6 11.7 12.3 11.5 10.9 10.1 8.
15.0 6.2 8.4 5.9 11.5 11.4 12.5 11.4 10.9 8.3 11.2 9.8 12.9 9.1 10.4 8.
i Linf Lsup Xc fi hi Fi Hi
1 4.50 6.40 5.45 3 8.82 3 8.82
2 6.40 8.30 7.35 2 5.88 5 14.71
3 8.30 10.20 9.25 9 26.47 14 41.18
4 10.20 12.10 11.15 12 35.29 26 76.47
5 12.10 14.00 13.05 5 14.71 31 91.18
6 14.00 15.90 14.95 3 8.82 34 100.00
7.1. Medidas de posición central
Cuando la muestra está agrupada en una tabla de frecuencias por clases o intervalos, la media
aritmética, mediana y moda se calculan de la siguiente forma:
23
7.1.1. Promedio
n
P
X c fi
X1 f 1 + X2 f 2 + . . . + Xn f n i=1
x̄ = =
n n
donde
Xc : Marcas de clase
fi : frecuencia absoluta
7.1.2. Mediana
fi : frecuencia absoluta de la clase mediana

n
− Fi−1
A : amplitud
2
Me = Linf + ∗A n : número de datos en la muestra
fi Linf : limite inferior de la clase mediana
Fi−1 : frecuencia absoluta acumulada anterior de la clase mediana
7.1.3. Moda

(fi − fi−1 )
Mo = Linf + ∗A
(fi − fi−1 ) + (fi − fi+1 )
donde
A : amplitud
Linf : limite inferior de la clase modal
fi : frecuencia absoluta de la clase modal
fi−1 : frecuencia absoluta anterior de la clase modal
fi+1 : frecuencia absoluta siguiente de la clase modal
24
Estadı́stica Descriptiva 8 COVARIANZA Y EL COEFICIENTE DE CORRELACIÓN
7.2. Medidas de posición no central
7.2.1. Cuartiles
7.2.2. Deciles
7.2.3. Percentiles
8. Covarianza y el coeficiente de correlación
8.1. Covarianza
La covarianza en una medida de variabilidad conjunta entre un par de variables X y Y medidas

sobre un conjunto de n individuos. En general, si disponemos de muestras de pares de datos
(x1 , y1 ), . . . , (xn , yn ) se define la covarianza como:
n
P
xi yi − nx̄ȳ
i=1
sxy =
n−1
8.2. Coeficiente de correlación
El coeficiente de correlación lineal es una medida de asociación entre las dos variables definido
como:
sxy
rxy =
sx sy
con −1 ≤ rxy ≤ 1
Ejemplo 15. Considere los siguientes datos de una muestra del tiempo de espera entre erup-
ciones en minutos (y) y la duración de la erupción en minutos (x) del Geiser Old Faithful en
el Yellowstone National Park, EE.UU.
y 79 54 74 62 85 55 88 85 51 85 54 84 78 47 83
x 3.6 1.8 3.3 2.3 4.5 2.9 4.7 3.6 1.9 4.4 1.8 3.9 4.2 1.7 4.7
Entonces
x̄ = 3.287 sx = 1.137
ȳ = 70.93 sy = 15.125
3723.3 − 15(3.287)(70.93)
sxy = = 16.163
14
25
Estadı́stica Descriptiva 8 COVARIANZA Y EL COEFICIENTE DE CORRELACIÓN
16.163
rxy = = 0.9399
(1.137)(15.125)
Tenemos ası́ que el grado de relación lineal entre tiempo de espera entre erupciones y la duración
de la erupción es del 93.99 % lo cual indica una relación fuerte positiva .
26

Unidad I - Descriptiva

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Unidad I - Descriptiva

Cargado por

Copyright:

Formatos disponibles

Estadı́stica I

2. Formas de presentación y organización de la información 6

7. Datos agrupados en tablas por Intervalos 21

8. Covarianza y el coeficiente de correlación 25

En esta sección conoceremos diversos conceptos de interés sobre la estructura de la estadı́stica

1.1. Que es la estadı́stica ?

1. La estadı́stica se ocupa de recopilar, organizar, procesar, analizar e interpretar los datos

2. La estadı́stica es el arte de entender los fenómenos (sociales, educativos, médicos . . .) a

¿ Cual es su objetivo?, el objetivo de la estadı́stica es mejorar la comprensión de hechos o

Con la estadı́stica aprendemos a manejar la información para clasificar y comprender un

¿ Cuáles son los tipos de estadı́stica?

Básicamente se tienen dos tipos de estadı́stica, a saber:

1. Estadı́stica descriptiva: La finalidad de la estadı́stica descriptiva es resumir la infor-

2. Estadı́stica inferencial: La inferencia estadı́stica intenta tomar decisiones basadas en

1.2. Conceptos Básicos

Una muestra debe ser representativa de la población. Es decir, respetar la estructura y

1.3. Tipos de variables Estadı́sticas

1.3.1. Variable Cualitativas:

Se clasifican en: Nominales u Ordinales

1.3.2. Variable Cuantitativas:

Se clasifican en : discretas o continuas

1.4. Escalas de medición

¿ Podemos calcular razones en función a estos datos? Sı́, porque 0 es la cantidad

2. Formas de presentación y organización de la informa-

Existen dos formas básicas para la representación de la información recolectada, a través de

2.1. Representación en tablas

Una tabla o cuadro estadı́stico es una representación en forma ordenada de la variación de

2.1.1. Datos agrupados en tablas por clases o categorı́as

Frecuencia Relativa : Es el resultado de dividir la frecuencia absoluta de un determinado

Frecuencia Absoluta Acumulada : Es la suma de las frecuencias absolutas de todos los

Su forma general es la siguiente:

Datos agrupados por clases

Defina la población, muestra, individuos y variable estadı́stica

Tipo de variable Variable cuantitativa discreta

Población: Estudiantes del departamento de Geografı́a

Muestra: Estudiantes de segundo semestre de geografı́a

Individuos: Cada estudiante del segundo semestre

Variable: Número de hermanos de cada individuo

Algunas conclusiones que podemos hacer son las siguientes:

f2 : De la muestra seleccionada existen 5 estudiantes de geográfica que tienen un hermano

h1 : De la muestra seleccionada el 17.65 % de los estudiantes de geográfica no tiene hermanos

F5 : De la muestra seleccionada 16 estudiantes de geografı́a tiene entre 1 y 5 hermanos

H3 : De la muestra seleccionada el 70.59 % de los estudiantes de geográfica tiene entre 1 y 4

¿ Que porcentaje de alumnos tiene entre 2 y 5 hermanos?

¿ Cuantos estudiantes tienen menos de 5 hermanos ?

¿ Que porcentaje de estudiantes tienen a lo mucho 2 hermanos ?

Ejemplo 2. El departamento de ciencias agrı́colas de la Universidad de Córdoba desea realizar

Defina la población, muestra, individuos y variable estadı́stica

Tipo de variable Variable cualitativa nominal

Población: Árboles de la Universidad de Córdoba

Muestra: Clases de árboles maderables en el área especifica

Individuos: El Árbol maderable

Variable: Cantidad de árboles de cada especie

Algunas conclusiones que podemos hacer son las siguientes:

f2 : En la muestra seleccionada existen 12 árboles en el área especifica seleccionada de Mango

h1 : En la muestra seleccionada el 22.22 % de los árboles en el área especifica seleccionada son

F3 : En la muestra seleccionada 27 de los árboles en el área especifica seleccionada son de Teca,

H3 : En la muestra seleccionada el 55.56 % de los de los árboles en el área especifica seleccionada

Al describir conjuntos de datos, con frecuencia es conveniente resumir la información con un

3.1. Medidas de posición centrales

3.2. Media Aritmética

También conocida como promedio o simplemente media. La media de un conjunto de observa-

Ejemplo 3. Considere el ejemplo 1: Las respuestas obtenidas fueron:

El promedio para el número de hermanos de los estudiantes de segundo semestre de Geografı́a