Está en la página 1de 27

Estadı́stica I

Teorı́a y aplicaciones en R
Estadı́stica Descriptiva CONTENIDO

Contenido
1. Introducción 3
1.1. Que es la estadı́stica ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2. Conceptos Básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3. Tipos de variables Estadı́sticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3.1. Variable Cualitativas: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3.2. Variable Cuantitativas: . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4. Escalas de medición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2. Formas de presentación y organización de la información 6


2.1. Representación en tablas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.1.1. Datos agrupados en tablas por clases o categorı́as . . . . . . . . . . . . . 7

3. Medidas de posición 10
3.1. Medidas de posición centrales . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3.2. Media Aritmética . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3.3. Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3.4. Moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.5. Medidas de posición no centrales . . . . . . . . . . . . . . . . . . . . . . . . . . 12

4. Medidas de dispersión 13
4.1. Rango . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
4.2. Rango Intercuartil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
4.3. Varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
4.4. Desviación estándar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
4.5. Coeficiente de variación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

5. Medidas de forma 15
5.1. Asimetrı́a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
5.2. Curtosis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

6. Representación gráfica 17
6.1. Gráfico de barras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
6.2. Gráfico de circular o pie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
6.3. Gráfico de caja o Boxplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

7. Datos agrupados en tablas por Intervalos 21


7.1. Medidas de posición central . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
7.1.1. Promedio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
7.1.2. Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
7.1.3. Moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
7.2. Medidas de posición no central . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
7.2.1. Cuartiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

1
Estadı́stica Descriptiva CONTENIDO

7.2.2. Deciles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
7.2.3. Percentiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

8. Covarianza y el coeficiente de correlación 25


8.1. Covarianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
8.2. Coeficiente de correlación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

2
Estadı́stica Descriptiva 1 INTRODUCCIÓN

1. Introducción

En esta sección conoceremos diversos conceptos de interés sobre la estructura de la estadı́stica


y sus aplicaciones en la vida cotidiana.

1.1. Que es la estadı́stica ?

1. La estadı́stica se ocupa de recopilar, organizar, procesar, analizar e interpretar los datos


con el fin de deducir caracterı́sticas de una población objetivo.

2. La estadı́stica es el arte de entender los fenómenos (sociales, educativos, médicos . . .) a


través de los números

Lo que mas podemos relacionar con las estadı́sticas son las encuestas y los gráficos, muchas de
las encuestas que salen por lo medios de comunicación han sido realizadas de diferente forma,
por ejemplo, en la calle o te pueden llamar por teléfono, por Internet, todas esasrespuestas que
damos las organizan, la clasifican y con eso obtienen datos y representaciones.

¿ Cual es su objetivo?, el objetivo de la estadı́stica es mejorar la comprensión de hechos o


fenómenos a partir de los datos.

Con la estadı́stica aprendemos a manejar la información para clasificar y comprender un


fenómeno, y en consecuencia obtener resultados y hacer previsiones.

¿ Cuáles son los tipos de estadı́stica?

Básicamente se tienen dos tipos de estadı́stica, a saber:

1. Estadı́stica descriptiva: La finalidad de la estadı́stica descriptiva es resumir la infor-


mación de conjuntos más o menos numerosos de datos.

2. Estadı́stica inferencial: La inferencia estadı́stica intenta tomar decisiones basadas en


la aceptación o el rechazo de ciertas relaciones que se toman como hipótesis.

1.2. Conceptos Básicos

Población: Una población es el conjuntos de elementos que deseo analizar, por ejemplo si
quiero saber cuanto es la estatura promedio de Colombia, cual es la comida favorita de
los Colombianos o cual es la empresa de telefonı́a mas barata en Colombia, la población
de aves en el parque lineal, el promedio de notas de los exámenes en clases, etc. Cualquier
estudio estadı́stico necesita de una población.
Cual es el problema ? Que yo no puedo preguntarle a todo el mundo que hace, entonces
nace el otro concepto.

3
Estadı́stica Descriptiva 1 INTRODUCCIÓN

Muestra: Una muestra es una parte de la población escogida según ciertos criterios para poder
estudiar y obtener conclusiones sobre la población, es decir, para hacer un estudio sobre
el promedio de notas de todos los exámenes, realizados durante un semestre, tomo una
muestra, puede ser, 20 exámenes y las conclusiones que yo saque de esta muestra, quizás
la pueda extender a todos los estudiantes, es decir, si calculo el promedio de esos exámenes
quizás pueda sacar como conclusión que es el promedio de todos los estudiantes.

Una muestra debe ser representativa de la población. Es decir, respetar la estructura y


proporciones de las caracterı́sticas que se van a estudiar, es decir, si queremos estudiar la
estatura media de los Colombianos, entonces cogemos una muestra y vamos preguntando
cuanto mide, y donde nos vamos a colocar en una cancha de baloncesto, dado que esa
muestra no es representativa, se deben respetar todas las proporciones.

Individuo: Un individuo o unidad estadı́stica es cada uno de los elementos que componen la
población. estos pueden ser, personas, animales, elementos, objetos, etc

Carácter estadı́stico: Un carácter estadı́stico es una propiedad que se estudia en los indivi-
duos de una población, una vez que tengo la población me pregunto que es lo que voy a
estudiar de esa población, cual es la caracterı́stica que vamos a analizar, cuando te hacen
una encuesta, te pregunta: ¿ Cuantos hermanos tienes?, ¿ Cual es tu equipo de fútbol
favorito?, eso es lo que estamos estudiando, es la caracterı́stica que es el objeto de nuestro
estudio:

1.3. Tipos de variables Estadı́sticas

El Carácter estadı́stico o la variable estadı́stica tiene una clasificación: Las variables pueden ser
cualitativas o cuantitativas

1.3.1. Variable Cualitativas:

Las variables cualitativas son aquellas que no presentan valores numéricos sino caracterı́sticas
o cualidades. Las variables cualitativas se pueden codificar numéricamente pero sus números
no tienen porque tener sentido.Dependiendo del número de categorı́as pueden ser dicótomas
o politómicas: Ejemplos: El sexo, Estado civil, Dolor, Grupo sanguı́neo, Compañı́a telefónica,
deporte que practican, lugar de nacimiento, color de pelo.

Se clasifican en: Nominales u Ordinales

Nominal: son aquellas que carecer de o no admiten un criterio de orden y no cuentan con un
valor numérico asignado, Ejemplos: El miedo, La belleza, La felicidad

4
Estadı́stica Descriptiva 1 INTRODUCCIÓN

Ordinal: son aquellas que admiten un criterio de orden a pesar de que carecen de un valor
numérico. Ejemplos: El hambre, Estado civil, La calificación de un examen

1.3.2. Variable Cuantitativas:

Una variable cuantitativa es aquella que pueden ser expresadas mediante un valor numérico..
Es decir, es aquella caracterı́stica de la población o de la muestra que es posible representar
numéricamente, algunos ejemplos: Año de nacimiento, número de hermanos, Número de asig-
naturas,estatura, Tiempo empleado en llegar a la universidad, la velocidad, peso o la masa,
volumen de alcohol de una bebida.

Se clasifican en : discretas o continuas

Discreta: Las variables discretas se caracterizan por contar únicamente valores finitos. Ejem-
plos. El número de miembros de una familia, El número de asaltos de un combate, Can-
tidad de empleados que trabajan en una tienda, Número de clientes que visitan un su-
permercado por dı́a, Número de personas que llegan a un consultorio en una hora.

Continua: Las variables continuas por su parte son aquellas que pueden tomar un número
infinito de valores dentro de dos números, es decir, cuentan con la asignación de número
decimales. Ejemplos: la altura de una persona, Los grados o volumen de alcohol en una
bebida, El ancho de una pelota de fútbol. La velocidad a la que va a un tren, Velocidad
a la que viaja un avión, El diámetro de una esfera.

1.4. Escalas de medición

Todos los datos son generados por una de las cuatro escalas de medición: nominal, ordinal, de
intervalo o de razón. A continuación se definen cada una de estas escalas de medición.

Escala nominal: Una escala de medición es nominal si los datos son etiquetas o categorı́as
que se usan para definir un atributo de un elemento. Los datos nominales pueden ser
numéricos o no numéricos. Un ejemplo: El sexo de una persona es un dato nominal no
numérico. El numero de seguro social de una persona es un dato nominal numérico.

Escala ordinal: Una escala de medición es ordinal si los datos pueden usarse para jerarquizar
u ordenar las observaciones. Los datos ordinales pueden ser numéricos o no numéricos.
Un ejemplo: Las medidas pequeño, mediano y grande para dar el tamaño de un objeto
son datos ordinales no numéricos. cuando se recibe una encuesta con una pregunta como:
¿ Qué tan satisfecho está con la experiencia gastronómica? En esta las opciones de res-
puesta pueden ser algo como calificar del 0 al 10, siendo 10 extremadamente satisfecho y
0 extremadamente insatisfecho.

5
Estadı́stica2 Descriptiva
FORMAS DE PRESENTACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN

Escala de intervalo: Una escala de medición es de intervalo si los datos tienen las propiedades
de los datos ordinales y los intervalos entre observaciones se expresan en términos de una
unidad de medición fija. Los datos de intervalo tienen que ser numéricos. El cero es
arbitrario, no indica la ausencia de atributo. En otras palabras, las variables se miden en
valores reales y no de forma relativa. Esto significa que la diferencia entre dos variables
en una escala es una distancia real o igual. Por ejemplo, la diferencia entre 40 grados
centı́grados y50 grados centı́grados es exactamente la misma que la diferencia entre 50
grados centı́grados y 60 grados centı́grados. Los datos de la escala de intervalo pueden
ser discretos, como por ejemplo números tipo 8 grados, 4 años, 2 meses, etc. O continuos,
con números fraccionarios como 12.2 grados, 3.5 semanas o 4.2 kilómetros.

Escala de razón: Los datos de escala de razón tienen todas las propiedades de los datos de
la escala de intervalo, por ejemplo, los datos deben tener valores numéricos, la distancia
entre los dos puntos es igual, etc., sin embargo, a diferencia de los datos de intervalo
donde el cero es arbitrario, en los datos de una escala de razón el cero es absoluto (lo que
significa que no hay ningún valor numérico negativo). Un excelente ejemplo de los datos
de escala de razón es la medición de alturas. La altura puede medirse en centı́metros,
metros, pulgadas o pies. No es posible tener una altura negativa. Los datos de escala de
razón pueden ser multiplicados y divididos, esta es una de las principales diferencias entre
los datos de escala de razón y los datos de una escala de intervalo, los cuales solo pueden
ser sumados y restados.

Cuatro personas son seleccionadas al azar y se les pregunta cuánto dinero traen. Estos
son los resultados: 21, 50, 65 y 300.

¿ Existe un orden para estos datos? Si, 21 < 50 < 65 < 300.

¿ Las diferencias entre los valores de datos son significativas? Claro, la persona que
tiene 50 tiene 29 más que la persona con 21.

¿ Podemos calcular razones en función a estos datos? Sı́, porque 0 es la cantidad


mı́nima absoluta de dinero que una persona podrı́a traer con ella.

La persona con 300 tienen 6 veces más que la persona con 50.

2. Formas de presentación y organización de la informa-


ción

Existen dos formas básicas para la representación de la información recolectada, a través de


tablas o cuadros estadı́sticos y a través de un gráfico.

6
Estadı́stica2 Descriptiva
FORMAS DE PRESENTACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN

2.1. Representación en tablas

Una tabla o cuadro estadı́stico es una representación en forma ordenada de la variación de


un fenómeno, clasificado bajo una o más variables. Puede ser simple (clasificación bajo una
variable) o compuesto (clasificación bajo dos o más variables).

Los datos organizados por tablas pueden ser representados de dos formas, en tablas ordenadas
por clases o tablas ordenadas por intervalos, En esta primera estudiaremos como organizar los
datos a través de tablas agrupadas por clase:

Los datos agrupados en tablas por clase pueden cualitativos o cuantitativos (siempre y cuando
muchos de ello se repitan, para facilitar su análisis)

2.1.1. Datos agrupados en tablas por clases o categorı́as

Consideremos una muestra de n individuos, descrita según un carácter o variable c cuyas mo-
dalidades han sido agrupadas en un número k de clases, que denotamos mediante c1 , c2 , . . . , ck .
Para cada una de las clases ci , i = 1, . . . , k, introducimos las siguientes conceptos:

Frecuencia Absoluta: Es el número de veces que aparece un valor, se representa con fi donde
el subı́ndice representa cada uno de los valores.

La suma de las frecuencias absolutas es igual al número total de datos, que se representa por
n.

f1 + f2 + · · · + fn = n

Frecuencia Relativa : Es el resultado de dividir la frecuencia absoluta de un determinado


valor entre el número total de datos, se representa por hi . La suma de la frecuencias relativas es
igual a 1.. La frecuencia relativa se puede expresar en porcentajes ( %) para esto simplemente
multiplicamos el resultado por 100

fi
hi =
n
La suma de las frecuencias relativas es igual a 1.

Frecuencia Absoluta Acumulada : Es la suma de las frecuencias absolutas de todos los


valores inferiores o iguales al valor considerado. Se representa por Fi

k
X
Fi = f1 + f2 + . . . + fk = fj
i=1

Frecuencia Relativa Acumulada: Es la suma de las frecuencias relativas de todos los valores
inferiores o iguales al valor considerado. Se representa por Hi y se puede expresar en tantos
por ciento.

7
Estadı́stica2 Descriptiva
FORMAS DE PRESENTACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN

Se representa por Hi
k
X
Hi = h1 + h2 + . . . + hk = hj
i=1

Su forma general es la siguiente:

Datos agrupados por clases

Clases Frec. abs Frec. rel Frec. Abs. Acum Frec. Rel. Acum
ci fi hi Fi Hi
f1
c1 f1 h1 = F 1 = f1 H1 = h1
n
f2
c2 f2 h2 = F 2 = f1 + f2 H2 = h1 + h2
n
.. .. .. .. ..
. . . . .
fk
ck fk hn = F n = f1 + . . . + fk Hn = h1 + . . . + hk
n

Ejemplo 1. Suponga que el área de talento humano decide realizar un estudio para determinar
el número de hermanos de los estudiantes de segundo semestre de geografı́a para ello se toma
una muestra de 17 alumnos a los que se le pregunta cuantos hermanos tienen. Las respuestas
obtenidas fueron:

1, 1, 2, 0, 3, 2, 1, 5, 2, 3, 1, 0, 0, 1, 2, 5, 7

El área de talento humano desea organizar los datos en una tabla agrupada por clases para
poder obtener unos resultados más representativos de dicha muestra.

8
Estadı́stica2 Descriptiva
FORMAS DE PRESENTACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN

Hermanos fi hi Fi Hi
3 3
0 3 ( 17 ∗ 100) = 17.65 % 3 ( 17 ∗ 100) = 17.65 %
5 8
1 5 ( 17 ∗ 100) = 29.41 % 3+5=8 ( 17 ∗ 100) = 47.06 %
4 12
2 4 ( 17 ∗ 100) = 23.53 % 3 + 5 + 4 = 12 ( 17 ∗ 100) = 70.59 %
2 14
3 2 ( 17 ∗ 100) = 11.76 % 3 + 5 + 4 + 2 = 14 ( 17 ∗ 100) = 82.35 %
2 16
5 2 ( 17 ∗ 100) = 11.76 % 3 + 5 + 4 + 2 + 2 = 16 ( 17 ∗ 100) = 94.12 %
1 17
7 1 ( 17 ∗ 100) = 5.88 % 3 + 5 + 4 + 2 + 2 + 1 = 17 ( 17 ∗ 100) = 100 %
P
17

Defina la población, muestra, individuos y variable estadı́stica

Tipo de variable Variable cuantitativa discreta

Población: Estudiantes del departamento de Geografı́a

Muestra: Estudiantes de segundo semestre de geografı́a

Individuos: Cada estudiante del segundo semestre

Variable: Número de hermanos de cada individuo

Algunas conclusiones que podemos hacer son las siguientes:

f2 : De la muestra seleccionada existen 5 estudiantes de geográfica que tienen un hermano

h1 : De la muestra seleccionada el 17.65 % de los estudiantes de geográfica no tiene hermanos

F5 : De la muestra seleccionada 16 estudiantes de geografı́a tiene entre 1 y 5 hermanos

H3 : De la muestra seleccionada el 70.59 % de los estudiantes de geográfica tiene entre 1 y 4


hermanos

¿ Que porcentaje de alumnos tiene entre 2 y 5 hermanos?

¿ Cuantos estudiantes tienen menos de 5 hermanos ?

¿ Que porcentaje de estudiantes tienen a lo mucho 2 hermanos ?

Ejemplo 2. El departamento de ciencias agrı́colas de la Universidad de Córdoba desea realizar


un estudio para identificar el tipo de árboles maderable dentro del campus Universitario para
ello se delimita una área especifica en el cual se realiza la recolección de las muestras, dentro
de estas, los árboles identificados en parcelas de muestreo fueron los siguientes (T = Teca,
R=Roble, M=Mango, C=Cedro).

M T R M R T C T R R C M C C M T M R
T M M T M R M R M C T C R M R C T M

9
Estadı́stica Descriptiva 3 MEDIDAS DE POSICIÓN

El departamento de ciencias agrı́colas desea desea organizar los datos en una tabla agrupada
por clases para poder obtener unos resultados más representativos de dicha muestra.

Árboles fi hi Fi Hi
8 8
T 8 ( 36 ∗ 100) = 22.22 % 8 ( 36 ∗ 100) = 22.22 %
M 12 ( 12 20
36 ∗ 100) = 33.33 % 20 ( 36 ∗ 100) = 55.56 %
7
C 7 ( 36 ∗ 100) = 19.44 % 27 ( 27
36 ∗ 100) = 75 %
9
R 9 ( 36 ∗ 100) = 23.08 % 36 ( 36
36 ∗ 100) = 100 %
P
36

Defina la población, muestra, individuos y variable estadı́stica

Tipo de variable Variable cualitativa nominal

Población: Árboles de la Universidad de Córdoba

Muestra: Clases de árboles maderables en el área especifica

Individuos: El Árbol maderable

Variable: Cantidad de árboles de cada especie

Algunas conclusiones que podemos hacer son las siguientes:

f2 : En la muestra seleccionada existen 12 árboles en el área especifica seleccionada de Mango

h1 : En la muestra seleccionada el 22.22 % de los árboles en el área especifica seleccionada son


de Teca

F3 : En la muestra seleccionada 27 de los árboles en el área especifica seleccionada son de Teca,


Mango y Cedro

H3 : En la muestra seleccionada el 55.56 % de los de los árboles en el área especifica seleccionada


son de Teca, Mango y Cedro

3. Medidas de posición

Al describir conjuntos de datos, con frecuencia es conveniente resumir la información con un


solo número.

3.1. Medidas de posición centrales

Este número (medida de posición) suele situarse hacia el centro de la distribución de los datos,
en cuyo caso se denomina medida de tendencia central.

10
Estadı́stica Descriptiva 3 MEDIDAS DE POSICIÓN

3.2. Media Aritmética

También conocida como promedio o simplemente media. La media de un conjunto de observa-


ciones x1 , x2 , . . . , xn denotada por x̄ está dada por:

n
1X
x̄ = xi (1)
n i=1

Ejemplo 3. Considere el ejemplo 1: Las respuestas obtenidas fueron:

1, 1, 2, 0, 3, 2, 1, 5, 2, 3, 1, 0, 0, 1, 2, 5, 7

17
1 X (1 + 1 + 2 + · · · + 5 + 7) 36
x̄ = = = = 2.118
17 i=1 17 17

El promedio para el número de hermanos de los estudiantes de segundo semestre de Geografı́a


es de 2.1 por estudiante

3.3. Mediana

La mediana representa aquel valor de la variable (ordenada) que divide los datos en dos partes
porcentualmente iguales. Si se quiere hallar el valor de la variable que deja por debajo de si el
50 % del resto de los valores de la variable, una expresión general para su cálculo es:

x̃ = xbhc + (h − bhc)(xbhc+1 − xbhc ) (2)

donde h = 0.5(n − 1) + 1 y bhc es el mayor entero no mayor que h.

Ejemplo 4. Continuando con el ejemplo 1:


1, 1, 2, 0, 3, 2, 1, 5, 2, 3, 1, 0, 0, 1, 2, 5, 7

1. Ordenamos los datos: 0 0 0 1 1 1 1 1 2 2 2 2 3 3 5 5 7

2. Encontramos el valor de h

h = 0.5(17 − 1) + 1 = 9

por lo tanto, el valor de la mediana en la posición x9 del conjunto de datos es:

x̃ = 2

11
Estadı́stica Descriptiva 3 MEDIDAS DE POSICIÓN

3.4. Moda

La moda representa el valor o valores que tienen la mayor frecuencia dentro del conjunto de
datos. La moda puede o no existir; en el evento en que exista, puede no ser única, ya que una
distribución puede eventualmente tener una o varias modas.

Ejemplo 5. Continuando con el ejemplo 1:


1, 1, 2, 0, 3, 2, 1, 5, 2, 3, 1, 0, 0, 1, 2, 5, 7

Como podemos observar la dato con mas frecuencia es uno, puesto que se repite cinco veces

Mo = 1

3.5. Medidas de posición no centrales

Las medidas de posición no central permiten conocer otros puntos caracterı́sticos de la distribu-
ción que no son los valores centrales. Entre las medidas de posición no central más importantes
están los cuartiles, deciles y percentiles.

Cuartiles: Son tres valores que divides la serie de datos en cuatro partes iguales, en los que
cada uno de ellos concentra el 25 % de las observaciones. Se representan por Q1 ( primer
cuartil), Q2 ( segundo cuartil) y Q3 ( tercer cuartil)

Deciles: Son nueve valores que dividen la serie de datos en 10 partes iguales, en los que cada
uno de ellos concentra el 10 % de las observaciones. D1 , D2 , . . . , D9 .

Percentiles: Son 99 valores que dividen la serie de datos en 100 partes iguales, en los que cada
uno de ellos concentra el 1 % de las observaciones. P1 , P2 , . . . , P99 .

Una expresión general para su cálculo es:

Qp = xbhc + (h − bhc)(xbhc+1 − xbhc )

donde h = p(n − 1) + 1 y bhc es el mayor entero no mayor que h.

Ejemplo 6. Continuando con el ejemplo 1, hallemos los cuartiles 1 y 3

Ordenamos los datos: 0 0 0 1 1 1 1 1 2 2 2 2 3 3 5 5 7

Para el cuartil 1, primero determinamos el valor de h tomando p = 0.25

h = 0.25(17 − 1) + 1 = 5 → bhc = 5

Luego, el dato ordenado en la posición 5, es x5 = 1 , por lo tanto

Q0.25 = 1

Ası́, el 25 % de los estudiantes encuestados tiene menos de un hermano

12
Estadı́stica Descriptiva 4 MEDIDAS DE DISPERSIÓN

Para el cuartil 3: Primero determinamos el valor de h tomando p = 0.75

h = 0.75(17 − 1) + 1 = 13 → bhc = 13

Luego, el dato ordenado en la posición 13, es x13 = 3 , por lo tanto

Q0.75 = 3

Ası́, el 75 % de los estudiantes encuestados tiene menos de tres hermano

4. Medidas de dispersión

Las medidas de dispersión o variabilidad permiten establecer que tan dispersos están entre si
un conjunto de datos observados. Algunas de estas medidas se refieren a la dispersión respecto
a una medida particular de tendencia central.

4.1. Rango

Es la diferencia entre el máximo valor observado y el mı́nimo: R = xmax − xmin .

4.2. Rango Intercuartil

El cual denotaremos IQR, es la diferencia entre Q3 y Q1. Permite determinar que tan disperso
está el 50 % de la información más central.

4.3. Varianza

La varianza de un conjunto de datos x1 , x2 . . . , xn es, en esencia, el promedio del cuadrado de


las diferencias entre cada observación y la media del conjunto de las observaciones, se denota
por:

n n
!
2 1 X 1 X
s = (xi − x̄)2 = x2i − nx̄ 2
n − 1 i=1 n−1 i=1

pero tiene el inconveniente de estar en unidades cuadradas de la variable.

Cuando los valores de la varianza son pequeños, el valor del promedio esta representando bien
a los datos

Ejemplo, supongamos las edades de un grupo de amigos (10,14,23,25, 28) y (18, 19, 21, 22) en
cual de los dos esta mejor presentado el valor de la media ?

Una media con una varianza baja es un buen representante de los datos

13
Estadı́stica Descriptiva 4 MEDIDAS DE DISPERSIÓN

Ejemplo 7. Continuación ejemplo 1, Como

Pn
i=1 x2i = 12 + 12 + . . . + 52 + 72 = 138

entonces

138 − (17)(2.118)2 61.73929


s2 = = = 3.859
17 − 1 16

4.4. Desviación estándar

Es la raı́z cuadrada de la varianza por tanto tiene las mismas unidades que la variable original.
Indica la media de las distancias que tienen los datos respecto de su media aritmética.

v
u n
u 1 X
s=t (xi − x̄)2
n − 1 i=1

Ejemplo 8.

s= 3.859 = 1.964

La variabilidad promedio del número de hermanos por estudiantes es de 1.964.

4.5. Coeficiente de variación

Es una medida de dispersión invariante ante cambios de escala que se usa para comparar
dispersiones de diferentes conjuntos de datos. A mayor valor del coeficiente de variación mayor
heterogeneidad de los valores de la variable. Se calcula como

s
cv = × 100

y tiene la propiedad de encontrarse entre 0 y 1, por tanto se puede interpretar en términos
porcentuales.

Ejemplo 9.
1.964
cv = × 100 = (0.927) × 100 = 92.7 %
2.118
El número de hermanos por estudiante tiene una variabilidad del 92.7 %, lo que representa una
alta heterogeneidad en la muestra seleccionada.

14
Estadı́stica Descriptiva 5 MEDIDAS DE FORMA

5. Medidas de forma

Las medidas de forma comparan la forma que tiene la representación gráfica, bien sea el histo-
grama o el diagrama de de barras de la distribución, con una situación ideal en la que los datos
se reparten en igual medida a la derecha y a la izquierda de la media.

5.1. Asimetrı́a

Esta medida nos permite identificar si los datos se distribuyen de forma uniforme alrededor del
punto central (Media aritmética). El coeficiente de asimetrı́a indican si hay el mismo número
de elementos a izquierda y derecha de la media.

El coeficiente de asimetrı́a de Fisher g1 evalúa la proximidad de los datos a su media x̄. Cuanto
mayor sea la suma (xi − x̄)3 , mayor será la asimetrı́a.
P

Sea x1 , x2 , . . . , xn el conjunto de observaciones entonces el coeficiente de asimetrı́a será:

Para datos sin agrupar:

n
(xi − x̄)3
P
i=1
g1 =
ns3
Para datos agrupados en tablas por clases o intervalos:

n
(xc − x̄)3
P
fi
i=1
g1 =
ns3
donde Xc es la clase o la marca de clase si tenemos los datos agrupados por intervalos

Si g1 < 0 La distribución tiene una asimetrı́a negativa y se alarga a valores menores que
la media.

Si g1 = 0 La distribución es simétrica.

Si g1 > 0 La distribución tiene una asimetrı́a positiva y se alarga a valores mayores que
la media.

Una asimetrı́a positiva implica que hay más valores distintos a la derecha de la media.

15
Estadı́stica Descriptiva 5 MEDIDAS DE FORMA

Las medidas de asimetrı́a, sobre todo el coeficiente de asimetrı́a de Fisher, junto con las medidas
de apuntamiento o curtosis se utilizan para contrastar si se puede aceptar que una distribución
estadı́stica sigue la distribución normal. Esto es necesario para realizar numerosos contrastes
estadı́sticos en la teorı́a de inferencia estadı́stica.

Ejemplo 10.

(1 − 2.12)3 + . . . + (7 − 2.12)3 130.173


g1 = 3
= = 1.009582
(17)(1.96) 128.9376

Como podemos observar g1 = 1.0095 > 0 por lo tanto el conjunto de observaciones tiene una
asimetrı́a positiva, es decir, existen mas valores distintos a la derecha de la media

5.2. Curtosis

La curtosis (o apuntamiento) es una medida de forma que mide cuán apuntada o aplastada
está una curva o distribución.

Este coeficiente indica la cantidad de datos que hay cercanos a la media, de manera que a mayor
grado de curtosis, más apuntada será la forma de la curva.

Una mayor curtosis implica una mayor concentración de datos muy cerca de la media de la
distribución coexistiendo al mismo tiempo con una relativamente elevada frecuencia de datos
muy alejados de la misma.

Sea x1 , x2 , . . . , xn el conjunto de observaciones entonces el coeficiente de curtosis será:

Para datos sin agrupar:

n
(xi − x̄)4
P
i=1
g2 = −3
ns4
Para datos agrupados en tablas por clases o intervalos:

n
(xc − x̄)4
P
fi
i=1
g2 = −3
ns4
donde Xc es la clase o la marca de clase si tenemos los datos agrupados por intervalos

Si g2 < 0 Menos apuntada y con colas más anchas que la normal.

Si g2 = 0 Tiene una distribución normal.

Si g2 > 0 Más apuntada y con colas menos anchas que la normal.

16
Estadı́stica Descriptiva 6 REPRESENTACIÓN GRÁFICA

Ejemplo 11.

(1 − 2.12)4 + . . . + (7 − 2.12)4 775.6096


g2 = − 3 = − 3 = 3.061635 − 3 = 0.06163538
(17)(1.96)4 253.3318

Como podemos observar g2 = 0.061 > 0, por lo tanto, el conjunto de observaciones tiene una
curtosis más apuntada con las colas menos anchas de lo normal

6. Representación gráfica

Un gráfico es un tipo de representación de datos, generalmente numéricos, mediante recursos


gráficos (lineas, vectores, superficies o sı́mbolos) para que se manifieste visualmente la relación
matemática o correlación estadı́stica que guardan entre si.

También es el nombre de conjunto de puntos que se plasman en coordenadas cartesianas y


sirven para analizar el comportamiento de un proceso o conjunto de elementos o signos que
permiten la interpretación de un fenómeno.

Después de la Organización de los datos y su presentación en Tablas Estadı́sticas, la información


contenida en una tabla estadı́stica también se puede presentar mediante gráficas

6.1. Gráfico de barras

Para construir el diagrama de barras las categorı́as se ubican en el eje horizontal y sobre éstas
se dibujan barras (rectángulos) de un alto proporcional a la frecuencia de la categorı́a, definida
como el número de observaciones que pertenecen a ella.

17
Estadı́stica Descriptiva 6 REPRESENTACIÓN GRÁFICA

6.2. Gráfico de circular o pie

El diagrama circular (también llamado diagrama de sectores o diagrama de pastel) sirve pa-
ra representar variables cualitativas o discretas. Se utiliza para representar la proporción de
elementos de cada uno de los valores de la variable.

Consiste en partir el cı́rculo en porciones proporcionales a la frecuencia relativa. Entiéndase


como porción la parte del cı́rculo que representa a cada valor que toma la variable.

Sea (X1 , X2 , . . . , XN ) un conjunto de elementos. La fórmula para calcular el ángulo de cada


sector es la siguiente:
α = hi ∗ 360

18
Estadı́stica Descriptiva 6 REPRESENTACIÓN GRÁFICA

6.3. Gráfico de caja o Boxplot

El gráfico de caja para un conjunto de datos revela información respecto a la magnitud de


la dispersión, localización de la concentración, simetrı́a de los datos y determinar si existen
datos atı́picos en la muestra. Los datos atı́picos son aquellos mucho más grandes o mucho más
pequeños que el resto de los datos. Se representan con un punto en cualquier extremo del
diagrama. Los datos atı́picos son ocasionados regularmente por:

Opiniones extremas

Errores de medición o registro.

Acontecimientos extraordinarios.

Causas no conocidas.

Las observaciones que están por fuera de estos lı́mites se clasifican como datos atı́picos y se
ubican en el diagrama.

Para construir el diagrama de caja siga los siguientes pasos:

1. Dibujar y marcar un eje de medida vertical (eje de coordenadas).

2. Construir un rectángulo cuyo borde inferior se ubica en el cuartil inferior (Q1 ) y cuyo
borde superior se ubica en el cuartil superior (Q3 ).

3. Dibujar un segmento de recta horizontal dentro de la caja justo en el segundo cuartil


(mediana).

4. Prolongar una recta (el bigote) desde el extremo superior de la caja hasta la observación
más grande que es menor o igual que Q3 + 1.5 ∗ (Q3 − Q1 ).

5. Prolongar una recta (el otro bigote) desde el extremo inferior de la caja hasta la obser-
vación más pequeña que es mayor o igual que Q3 − 1.5 ∗ (Q3 − Q1 ).

Como se interpreta:

Mientras más larga la caja y los bigotes, más dispersa es la distribución de datos.

La lı́nea que representa la mediana indica la simetrı́a. Si está relativamente en el centro


de la caja la distribución es simétrica. Si por el contrario se acerca al primer o tercer
cuartil, la distribución pudiera ser sesgada a la derecha (asimétrica positiva) o sesgada a
la izquierda (asimétrica negativa respectivamente. Esto suele suceder cuando las opiniones
de los estudiantes tienden a concentrase más hacia un punto de la escala.

19
Estadı́stica Descriptiva 6 REPRESENTACIÓN GRÁFICA

Ejemplo 12. Continuamos con ejem 1.

Tenemos que los cuartiles Q1 = 1, Q2 = 2, Q3 = 3

El bigote de la izquierda (Xmı́m, Q1) es más corto que el de la derecha; por ello el 25 % de los
que tiene menos hermanos están más concentrados que el 25 % de los que tienen más hermanos.

El rango IQR = Q3 − Q1 = 2 es decir, el 50 % de la población tiene aproximadamente dos


hermanos.

Como podemos observar existe un dato atı́pico en la muestra, corresponde a siete

20
Estadı́stica Descriptiva 7 DATOS AGRUPADOS EN TABLAS POR INTERVALOS

7. Datos agrupados en tablas por Intervalos

Los datos agrupados en tablas por intervalos nacen porque siempre se requiere mostrar simpli-
cidad de la información, esto no es posible cuando el tamaño de la muestra es considerable o
grande y cuando los datos numéricos son muy diversos, por tal motivo, conviene agrupar los
datos de tal manera que permita establecer patrones, tendencias o regularidades de los valores
observados en dichas tablas.

Pasos para Construir Intervalos de Frecuencia

1. Calcular el rango de los datos


Se obtiene de la diferencia entre el dato mayor y el dato menor. Se representa con la letra
R.

R = Xmax − Xmin

2. Determinar la cantidad de intervalos


La selección del número adecuado de intervalos y de los lı́mites entre ellos dependen del
criterio o experiencia de quien realiza el estudio. Sin embargo, existen reglas que permiten
calcular el número de intervalos; la más empleada es la Regla de Sturges, cuya expresión
es:

I = 1 + 3.33 Log(n)

Donde: K = Número de intervalos el cual siempre debe ser un número entero y n =


Número de datos

3. Obtención de la amplitud que tendrá cada intervalo.

Se encuentra dividiendo el rango por el número de intervalos

R
A=
I
El valor de la amplitud se redondea al número inmediato superior de acuerdo a la cantidad
de decimales que tienen los datos o según la precisión con que se desea trabajar.

Puede haber intervalos con distinta amplitud.

Puede haber intervalos con amplitud indefinida (intervalos abiertos)

4. Construcción de los intervalos

Las dos caracteres mencionadas anteriormente se logran construyendo intervalos cerrados


por la izquierda y abiertos por la derecha; esto se simboliza a través del uso de corchetes

21
Estadı́stica Descriptiva 7 DATOS AGRUPADOS EN TABLAS POR INTERVALOS

y paréntesis respectivamente. Por razones naturales, el último intervalo será cerrado por
ambos extremos. El primer intervalo se construye de la siguiente manera: Habrá de iniciar
con el dato menor, el cual será el extremo inferior del intervalo; el otro extremo se obtiene
de la suma del dato menor y la amplitud, con este mismo valor iniciamos el segundo inter-
valo, el otro extremo se encuentra sumando al valor anterior mas la amplitud nuevamente
y este proceso se repite sistemáticamente hasta completar el total de intervalos indicado
por k.

Intervalos de Clase Son los intervalos en los que se agrupan y ordenan los valores observa-
dos. Cada uno de estos intervalos está delimitado (acotado) por dos valores extremos que les
llamamos lı́mites.

Los valores extremos o lı́mites de intervalo Los intervalos de clase deben estar definidos
por lı́mites que permitan identificar plenamente si un dato pertenece a uno u otro intervalo.
Estos lı́mites son los valores extremos de cada intervalo.

Lı́mite Inferior: Es el valor menor de cada intervalo, se denota por Li

Lı́mite Superior: Es el número mayor de cada intervalo, se denota por Ls

También será muy útil conocer y calcular la Marca de Clase (Xc ) de cada intervalo: Se refiere
al Punto Medio del intervalo y a través de él representaremos a todo el intervalo y una de las
maneras de calcularla es promediando los valores lı́mite de cada intervalo, su fórmula es:

Li + Ls
Xc =
2
Datos agrupados por clases

Intervalos M Clases Frec Abs Frec rel Frec. Abs. Acum Frec. Rel. Acum
Linf − Lsup Xc fi hi Fi Hi
L1 +L2 f1
L1 − L2 2
f1 h1 = F 1 = f1 H1 = h1
n

L2 +L3 f2
L2 − L3 2
f2 h2 = F 2 = f1 + f2 H2 = h1 + h2
n
.. .. .. .. ..
. . . . .

fj
Lj − Lm fj hj = F j = f1 + . . . + fj Hj = h1 + . . . + hj
n
.. .. .. .. ..
. . . . .

fk
Lm − Lk fk hn = F n = f1 + . . . + fk Hn = h1 + . . . + hk
n

22
Estadı́stica Descriptiva 7 DATOS AGRUPADOS EN TABLAS POR INTERVALOS

Ejemplo 13. Geografı́a

Suponga que en un laboratorio Geográfico desean determinar los cambios en las temperaturas
que ocurren durante los dı́as de Diciembre en el cabo de San Lucas en México, dado que han
notado cambios en los mapas de temperaturas ( ◦ C) registrados en los últimos meses, para ello
obtuvieron una muestra de las temperaturas máximas en los 31 dı́as de Diciembre de 2016,
dando los siguientes resultados

16.9 17.3 18.1 17.2 16.3 17.2 17.3 16.2 15.2 14.1 17.2 15.8 17.4 15.9 14.2 14.3
14.0 16.3 15.1 13.9 13.2 13.8 14.2 16.0 16.2 19.3 17.2 21.2 17.9 15.3 15.8

El laboratorio desea organizar los datos en un tabla agrupada por intervalos y obtener los re-
sultados más relevantes.

Veamos.

Calculamos el Rango R =

Ejemplo 14. Biologı́a

Mucha gente manifiesta reacciones de alergia sistémica a las picaduras de insectos. Estas reac-
ciones varı́an de paciente a paciente, no sólo en cuanto a gravedad, sino también en el tiempo
transcurrido hasta que se inicia la reacción. Los datos siguientes representan este tiempo de
inicio hasta la reacción en minutos de 35 pacientes que experimentaron una reacción sistémica
a la picadura de abeja.

10.5 12.7 4.5 9.1 15.6 11.2 13.4 14.7 9.9 11.6 11.7 12.3 11.5 10.9 10.1 8.
15.0 6.2 8.4 5.9 11.5 11.4 12.5 11.4 10.9 8.3 11.2 9.8 12.9 9.1 10.4 8.

i Linf Lsup Xc fi hi Fi Hi
1 4.50 6.40 5.45 3 8.82 3 8.82
2 6.40 8.30 7.35 2 5.88 5 14.71
3 8.30 10.20 9.25 9 26.47 14 41.18
4 10.20 12.10 11.15 12 35.29 26 76.47
5 12.10 14.00 13.05 5 14.71 31 91.18
6 14.00 15.90 14.95 3 8.82 34 100.00

7.1. Medidas de posición central

Cuando la muestra está agrupada en una tabla de frecuencias por clases o intervalos, la media
aritmética, mediana y moda se calculan de la siguiente forma:

23
Estadı́stica Descriptiva 7 DATOS AGRUPADOS EN TABLAS POR INTERVALOS

7.1.1. Promedio

n
P
X c fi
X1 f 1 + X2 f 2 + . . . + Xn f n i=1
x̄ = =
n n
donde

Xc : Marcas de clase

fi : frecuencia absoluta

7.1.2. Mediana

fi : frecuencia absoluta de la clase mediana


n
− Fi−1
 A : amplitud
2
Me = Linf + ∗A n : número de datos en la muestra
fi Linf : limite inferior de la clase mediana
Fi−1 : frecuencia absoluta acumulada anterior de la clase mediana

7.1.3. Moda

 
(fi − fi−1 )
Mo = Linf + ∗A
(fi − fi−1 ) + (fi − fi+1 )

donde

A : amplitud

Linf : limite inferior de la clase modal

fi : frecuencia absoluta de la clase modal

fi−1 : frecuencia absoluta anterior de la clase modal

fi+1 : frecuencia absoluta siguiente de la clase modal

24
Estadı́stica Descriptiva 8 COVARIANZA Y EL COEFICIENTE DE CORRELACIÓN

7.2. Medidas de posición no central

7.2.1. Cuartiles

7.2.2. Deciles

7.2.3. Percentiles

8. Covarianza y el coeficiente de correlación

8.1. Covarianza

La covarianza en una medida de variabilidad conjunta entre un par de variables X y Y medidas


sobre un conjunto de n individuos. En general, si disponemos de muestras de pares de datos
(x1 , y1 ), . . . , (xn , yn ) se define la covarianza como:

n
P
xi yi − nx̄ȳ
i=1
sxy =
n−1

8.2. Coeficiente de correlación

El coeficiente de correlación lineal es una medida de asociación entre las dos variables definido
como:

sxy
rxy =
sx sy

con −1 ≤ rxy ≤ 1

Ejemplo 15. Considere los siguientes datos de una muestra del tiempo de espera entre erup-
ciones en minutos (y) y la duración de la erupción en minutos (x) del Geiser Old Faithful en
el Yellowstone National Park, EE.UU.
y 79 54 74 62 85 55 88 85 51 85 54 84 78 47 83
x 3.6 1.8 3.3 2.3 4.5 2.9 4.7 3.6 1.9 4.4 1.8 3.9 4.2 1.7 4.7
Entonces

x̄ = 3.287 sx = 1.137
ȳ = 70.93 sy = 15.125

3723.3 − 15(3.287)(70.93)
sxy = = 16.163
14

25
Estadı́stica Descriptiva 8 COVARIANZA Y EL COEFICIENTE DE CORRELACIÓN

16.163
rxy = = 0.9399
(1.137)(15.125)

Tenemos ası́ que el grado de relación lineal entre tiempo de espera entre erupciones y la duración
de la erupción es del 93.99 % lo cual indica una relación fuerte positiva .

26

También podría gustarte