Está en la página 1de 32

Probabilidad y estadística

Unidad 1: Estadística descriptiva


Presentación de datos

• Organización de datos.
– Tablas y datos

• Presentación gráfica de los datos.


– Gráficas
Organización de datos

Supongamos que estamos verificando la


calidad del concreto utilizado para una
construcción.
Para ello se prepara mezcla con diferentes
cantidades de grava, cemento, etcétera.
Luego se prueba en un laboratorio con
equipo y se determina la resistencia a la
compresión.
Organización de datos

Al hacer las mediciones obtenemos series de datos que, por lo general,


están desordenados; por ejemplo:
Resistencia de compresión del concreto (MPa)
20, 42, 21, 27, 20, 32, 44, 45, 37, 29, 28, 20, 27, 32, 33, 44, 41, 20, 26, 38,
25, 46, 27, 36.
Es necesario ordenar los datos para que estos sean más fáciles de manejar.
Organización de datos

Las tablas son el método más usado


para ordenar los datos, ya que la
información puede leerse y
comprenderse fácilmente.
Estas tablas son conocidas como
tablas de frecuencias ya que en ellas
se presentan la cantidad de veces
que se repiten los datos.
Organización de datos: su clasificación

De acuerdo a la forma como estén organizados, los datos pueden ser:


– Aislados.
– Ordenados.
– Agrupados.
Datos aislados

Estos datos, simplemente, se enlistan, pudiendo estar ordenados de


alguna forma (ascendente, descendente o nula)
Nuestro ejemplo cae en este caso.
Sin embargo, resulta confuso cuando la cantidad de datos es grande.
Sólo es factible utilizarla cuando los datos son pocos y/o están
separados entre sí.
Este tipo de dato no requiere el uso de tablas.
Datos ordenados

Los datos ordenados implican el uso de tablas de frecuencia. Se


recomienda su uso cuando los datos se repiten frecuentemente y
existe una cantidad grande y poco manejable.
Sólo hay que contar el número de veces que se repite cada dato y
apuntarlo en una columna de frecuencia.

1. Ordenamiento de datos
Datos ordenados

Usando nuestro ejemplo:


20, 42, 21, 27, 20, 32, 44, 45, 37, 29, 28, 20, 27, 32, 33, 44, 41, 20,
26, 38, 25, 46, 27, 36.
Datos (x) Frecuencia (f) Datos (x) Frecuencia (f) Datos (x) Frecuencia (f)
20 4 32 2 44 2
21 1 33 1 45 1
25 1 36 1 46 1
26 1 37 1 Total 26
27 3 38 1
28 1 41 1
29 1 42 1
Definiciones importantes

• Frecuencia o frecuencia absoluta: número de veces que aparecen los datos. Cumple que:

• Frecuencia relativa: es el cociente de la frecuencia absoluta de entre el tamaño de la


muestra :
se cumple que
• Frecuencia acumulada (absoluta): para el valor i-ésimo es la suma de las frecuencias de
las clases anteriores:

• Frecuencia acumulada relativa: del valor i-ésimo es la suma de las frecuencias relativas
de las clases anteriores.
,
Definiciones importantes

• ¡Los siguientes son sólo para datos agrupados!


• Límites reales: es el valor real del intervalo, puesto que siempre queda un
espacio “fuera” de estos. Hay dos tipos:
– Inferior: se calcula con el promedio entre el límite inferior de la clase y el límite superior de la
clase anterior.
– Superior: se calcula con el promedio entre el límite superior de la clase y el límite inferior de la
clase posterior.

• Marca de clase: es el valor medio del intervalo.


Datos agrupados

• En este caso, los datos se encuentran demasiado extendidos y/o no se


repiten para que sea factible una tabla ordenada.
• Para ello, se requiere crear intervalos en la tabla de un ancho adecuado.
• Aunque se puede hacer al tanteo, es conveniente utilizar la regla de
Sturges para determinar el rango de cada intervalo o clase.
¿Cómo agrupar datos?

Tomemos nuestro ejemplo:


20, 42, 21, 27, 20, 32, 44, 45, 37, 29, 28, 20, 27, 32, 33, 44, 41, 20, 26, 38, 25,
46, 27, 36.
1. Se calcula el rango, es decir, la separación entre los datos mayor y menor.
– Dato mayor: 46.
– Dato menor: 20.
– Entonces: 46 – 20 = 26.
¿Cómo agrupar datos?

2. Para determinar el número de intervalos (clases) se usa la regla de Sturges,


y se redondea hacia abajo siempre:

– Donde i es el número de intervalos y n el total de datos.


– El resultado obtenido es 5.58 5.
– Por lo tanto, se usarán 5 intervalos.
¿Cómo agrupar datos?

3. Se definen los límites de clase.


– Para ello, se usa la siguiente fórmula:

– El número se redondea al siguiente valor. En este caso, 6.


– Se redondea también cuando se obtiene un valor entero.
– Es importante recalcar que este valor es para los límites reales.
¿Cómo agrupar datos?

4. Para crear la tabla, es necesario utilizar el valor menor y revisar el


número de decimales que tienen los datos.
– Con esto en mente, restamos una cantidad para estar seguros de que ese
valor estará incluido, de acuerdo con el siguiente criterio:
Número Valor restado
de
decimales
0 0.5
1 0.05
2 0.005
Etc Siempre añadir
un cero más.
¿Cómo agrupar datos?

– En nuestro caso, el valor menor es 20, entonces el límite real inferior es


20 – 0.5 = 19.5.
– El límite real superior del intervalo se obtiene sumando el ancho al
límite real inferior:
19.5 + 6 = 25.5.
– El límite real inferior del siguiente intervalo es el límite real superior
del intervalo siguiente.
– Se repite el procedimiento hasta obtener el número de intervalos dado
por la regla de Sturges.
Importante

• Aunque este método permite organizar muy bien los datos, implica pérdida
de parte de la información, ya que no se sabe el valor exacto al que se
refieren.
• Por lo tanto, este método es útil cuando los datos se extienden mucho y hay
una gran cantidad de ellos.
Tabla de datos agrupados, procesados

Datos Marcas de Límites Frecuencia Frecuencia Frecuencia Frecuencia


(x) clase (Mk) reales (Li) (f) relativa (fr) acumulada acumulada relativa
(fa) (far)
20 – 25 22.5 19.5 – 6 6/24 = 25% 6 25%
25.5
26 – 31 28.5 25.5 – 6 6/24 = 25% 12 50%
31.5
32 – 37 34.5 31.5 – 5 5/24 = 17 70.83%
37.5 20.83%
38 – 43 40.5 37.5 – 3 3/24 = 12.5% 20 83.33%
43.5
44 – 49 46.5 43.5 – 4 4/24 = 24 100%
49.5 16.67%
Total 24 100% 24 100%
Presentación gráfica de los datos

Las gráficas permiten una presentación más visual, lo que las hace
concisas y claras.
Se clasifican por gráficas y datos usados:

2. Presentación gráfica de datos


Clasificación de las gráficas

Por presentación:
– Histogramas.
– Polígono de frecuencias.
– Ojiva.
– Gráfica circular o de pastel.
– Diagrama tallo – hoja.

Por datos utilizados:


– Frecuencias (absolutas)
– Frecuencias relativas.
Gráficos de barras

Helados comprados en la
semana Las gráficas de barras se utilizan para
50
presentar las frecuencias, ya sean absolutas o
45
40
relativas, de variables categóricas.
35 No es necesario que las barras se toquen
30 La altura del rectángulo indica la frecuencia
25
de cada ítem.
20
15 Su uso es más relevante cuando se comparan
10 las frecuencias de diferentes individuos con
5 características similares entre sí.
0
Lunes Martes Miércoles Jueves

Chocolate Vainilla Fresa


Histogramas

Los histogramas son las gráficas de barras para una


distribución de frecuencias.
Algunas características importantes son:
– Los intervalos que se deben utilizar son los límites reales.
Cada barra debe quedar comprendida entre ambos límites, en
el eje X.
– La escala debe permanecer constante si los intervalos son
iguales.
– Cada barra debe estar junto a la siguiente, pero si la frecuencia
no existe para el intervalo, se debe dejar el espacio vacío.
– Sin embargo, la primera debe estar separado por un espacio
equivalente al de un intervalo.
– La altura puede estar dada por
• La frecuencia
• La frecuencia relativa.
Polígono de frecuencias

Indica los valores importantes, mediante


puntos que son unidos con líneas rectas.
Características importantes:
– Se utiliza el dato real, o la marca de
clase si los datos están agrupados.
– Debe comenzar y terminar en la
frecuencia (o frecuencia relativa) cero.
– Los puntos deben estar unidos.
– Puede ponerse junto con un
histograma.
Ojiva

La ojiva es un polígono de frecuencias


acumuladas.
Características importantes:
– Sólo funciona con frecuencias
acumuladas.
– La gráfica siempre aumenta; por lo tanto,
comienza en cero, en su límite real
inferior, y termina en el número total, en
su límite real superior.
– Los puntos deben estar unidos.
– Se usa el límite real superior o el dato
real.
Gráfica circular o de pastel

Es una representación circular que resulta adecuada


para mostrar la proporción de datos comparados con
los demás.
Para crearlo es necesario dibujar un círculo con
compás. Si recordamos que un círculo tiene 360°,
este sería el número total de frecuencias.
A continuación se efectúa una regla de 3 para cada
sector; por ejemplo:

El número calculado en es la cantidad de grados que


debe medirse con transportador para representar
apropiadamente al sector.
Diagrama tallo - hoja

Es un método gráfico que consiste en dividir los datos en dos partes, las cuales se
ordenan considerando repeticiones.
La primera parte es el tallo, y la segunda se vuelve la hoja.
Considerando el ejemplo mostrado:
20, 42, 21, 27, 20, 32, 44, 45, 37, 29, 28, 20, 27, 32, 33, 44, 41, 20, 26, 38, 25, 46, 27,
36.
Esto puede colocarse así:
2 000015677789
3 2223678
4 1234456
Ejemplo 1

En la tabla siguiente se muestra el salario inicial anual (en miles de dólares) de 42


estudiantes recién egresados de ingeniería eléctrica.
– Realiza el histograma correspondiente.
– Dibuja el polígono de frecuencias. Salario inicial Frecuencia
27 4
– Calcula las frecuencias relativas.
28 1
29 3
30 5
31 8
32 10
33 0
34 5
36 2
37 3
40 1
Ejemplo 1

Lo primero que hay que considerar es que la tabla ya está definida para datos
ordenados.
Introducimos los datos en una tabla de Excel:
Salario inicial Frecuencias
12
0
27 4 10
28 1
29 3 8

Frecuencias
30 5
31 8 6
32 10
33 0 4
34 5
35 0 2
36 2
0
37 3
27 28 29 30 31 32 33 34 35 36 37 38 39 40
38 0
Salario anual (miles de dólares)
39 0
40 1
Ejemplo 1

En el caso de un polígono de frecuencias:


0 12
27 4
28 1 10
29 3
30 5 8

Frecuencia
31 8
6
32 10
33 0 4
34 5
35 0 2
36 2
37 3 0
38 0 27 28 29 30 31 32 33 34 35 36 37 38 39 40
39 0 Salario inicial (en miles de dólares)
40 1
0

2. Presentación gráfica de datos


Ejemplo 1

Para calcular las frecuencias relativas se requiere dividir cada valor entre el
total:
Salario inicial Frecuencias Frecuencia relativa
27 4 0.095238095
28 1 0.023809524
29 3 0.071428571
30 5 0.119047619
31 8 0.19047619
32 10 0.238095238
33 0 0
34 5 0.119047619
36 2 0.047619048
37 3 0.071428571
40 1 0.023809524
42 1
Actividad

A continuación se presenta la cantidad de nicotina presente en cigarrillos de


100 mm de largo con filtro. Construye una distribución de frecuencias para los
datos. ¿Es posible considerar que la distribución tiene un comportamiento
normal (o al menos simétrico)?

1.2 1.2 1.0 0.8 0.1 0.8


0.8 1.0 1.0 1.0 1.1 1.2
1.2 0.7 0.9 0.2 1.4 1.2
1.1 1.0 1.3 0.8 1.0 1.0
0.5 0.6 0.7 1.4 1.1

También podría gustarte