Está en la página 1de 32

Probabilidad y estadística

Unidad 1: Estadística descriptiva


Presentación de datos

• Organización de datos.
– Tablas y datos

• Presentación gráfica de los datos.


– Gráficas
Organización de datos

Supongamos que estamos


verificando la calidad del concreto
utilizado para una construcción.
Para ello se prepara mezcla con
diferentes cantidades de grava,
cemento, etcétera.
Luego se prueba en un laboratorio
con equipo y se determina la
resistencia a la compresión.
Organización de datos

Al hacer las mediciones obtenemos series de datos que, por


lo general, están desordenados; por ejemplo:
Resistencia de compresión del concreto (MPa)
20, 42, 21, 27, 20, 32, 44, 45, 37, 29, 28, 20, 27, 32, 33, 44, 41,
20, 26, 38, 25, 46, 27, 36.
Es necesario ordenar los datos para que estos sean más
fáciles de manejar.
Organización de datos

Las tablas son el método más


usado para ordenar los datos,
ya que la información puede
leerse y comprenderse
fácilmente.
Estas tablas son conocidas
como tablas de frecuencias ya
que en ellas se presentan la
cantidad de veces que se
repiten los datos.
Organización de datos: su
clasificación

De acuerdo a la forma como estén organizados, los datos


pueden ser:
– Aislados.
– Ordenados.
– Agrupados.
Datos aislados

Estos datos, simplemente, se enlistan, pudiendo estar


ordenados de alguna forma (ascendente, descendente o
nula)
Nuestro ejemplo cae en este caso.
Sin embargo, resulta confuso cuando la cantidad de datos
es grande.
Sólo es factible utilizarla cuando los datos son pocos y/o
están separados entre sí.
Este tipo de dato no requiere el uso de tablas.
Datos ordenados

Los datos ordenados implican el uso de tablas de


frecuencia. Se recomienda su uso cuando los datos se
repiten frecuentemente y existe una cantidad grande y
poco manejable.
Sólo hay que contar el número de veces que se repite
cada dato y apuntarlo en una columna de frecuencia.

1. Ordenamiento de datos
Datos ordenados

Usando nuestro ejemplo:


20, 42, 21, 27, 20, 32, 44, 45, 37, 29, 28, 20, 27, 32, 33,
44, 41, 20, 26, 38, 25, 46, 27, 36.
Datos (x) Frecuencia (f) Datos (x) Frecuencia (f) Datos (x) Frecuencia (f)
20 4 32 2 44 2
21 1 33 1 45 1
25 1 36 1 46 1
26 1 37 1 Total 26
27 3 38 1
28 1 41 1
29 1 42 1
Definiciones importantes

• Frecuencia o frecuencia absoluta: número de veces que aparecen los datos. Cumple que:
𝑘

෍ 𝑓𝑖 = 𝑓1 + 𝑓2 + ⋯ + 𝑓𝑘 = 𝑛
𝑖=1
• Frecuencia relativa: es el cociente de la frecuencia absoluta de 𝑥𝑖 𝑓𝑖 entre el tamaño de la
muestra 𝑛 :
𝑓
𝑓𝑟𝑖 = 𝑖 , se cumple que σ𝑘𝑖=1 𝑓𝑟𝑖 = 1
𝑛
• Frecuencia acumulada (absoluta): para el valor i-ésimo es la suma de las frecuencias de
las clases anteriores:
𝑓𝑎𝑖 = 𝑓1 + 𝑓2 + ⋯ + 𝑓𝑖
• Frecuencia acumulada relativa: del valor i-ésimo es la suma de las frecuencias relativas de
las clases anteriores.
𝑓𝑎𝑖
𝑓𝑎𝑟𝑖 = 𝑓𝑟1 + 𝑓𝑟2 + ⋯ + 𝑓𝑟𝑖 , 𝑓𝑎𝑟𝑖 =
𝑛
Definiciones importantes

• ¡Los siguientes son sólo para datos agrupados!


• Límites reales: es el valor real del intervalo, puesto que siempre
queda un espacio “fuera” de estos. Hay dos tipos:
– Inferior: se calcula con el promedio entre el límite inferior de la clase y el
límite superior de la clase anterior.
– Superior: se calcula con el promedio entre el límite superior de la clase y el
límite inferior de la clase posterior.

• Marca de clase: es el valor medio del intervalo.


Datos agrupados

• En este caso, los datos se encuentran demasiado extendidos


y/o no se repiten para que sea factible una tabla ordenada.
• Para ello, se requiere crear intervalos en la tabla de un ancho
adecuado.
• Aunque se puede hacer al tanteo, es conveniente utilizar la
regla de Sturges para determinar el rango de cada intervalo o
clase.
¿Cómo agrupar datos?

Tomemos nuestro ejemplo:


20, 42, 21, 27, 20, 32, 44, 45, 37, 29, 28, 20, 27, 32, 33, 44, 41,
20, 26, 38, 25, 46, 27, 36.
1. Se calcula el rango, es decir, la separación entre los datos
mayor y menor.
– Dato mayor: 46.
– Dato menor: 20.
– Entonces: 46 – 20 = 26.
¿Cómo agrupar datos?

2. Para determinar el número de intervalos (clases) se usa la


regla de Sturges, y se redondea hacia abajo siempre:
𝑖 = 1 + 3.322 log 𝑛
– Donde i es el número de intervalos y n el total de datos.
– El resultado obtenido es 5.58 ≈ 5.
– Por lo tanto, se usarán 5 intervalos.
¿Cómo agrupar datos?

3. Se definen los límites de clase.


– Para ello, se usa la siguiente fórmula:
𝑹𝒂𝒏𝒈𝒐 26
𝑨𝒏𝒄𝒉𝒐 = = = 5.2
# 𝒅𝒆 𝒊𝒏𝒕𝒆𝒓𝒗𝒂𝒍𝒐𝒔 5
– El número se redondea al siguiente valor. En este caso, 6.
– Se redondea también cuando se obtiene un valor entero.
– Es importante recalcar que este valor es para los límites
reales.
¿Cómo agrupar datos?

4. Para crear la tabla, es necesario utilizar el valor menor y


revisar el número de decimales que tienen los datos.
– Con esto en mente, restamos una cantidad para estar
seguros de que ese valor estará incluido, de acuerdo con el
siguiente criterio:
Número Valor restado
de
decimales
0 0.5
1 0.05
2 0.005
Etc Siempre añadir
un cero más.
¿Cómo agrupar datos?

– En nuestro caso, el valor menor es 20, entonces el límite


real inferior es 20 – 0.5 = 19.5.
– El límite real superior del intervalo se obtiene sumando el
ancho al límite real inferior:
19.5 + 6 = 25.5.
– El límite real inferior del siguiente intervalo es el límite
real superior del intervalo siguiente.
– Se repite el procedimiento hasta obtener el número de
intervalos dado por la regla de Sturges.
Importante

• Aunque este método permite organizar muy bien los datos,


implica pérdida de parte de la información, ya que no se sabe
el valor exacto al que se refieren.
• Por lo tanto, este método es útil cuando los datos se
extienden mucho y hay una gran cantidad de ellos.
Tabla de datos agrupados, procesados

Datos Marcas de Límites Frecuenci Frecuencia Frecuencia Frecuencia


(x) clase (Mk) reales (Li) a (f) relativa (fr) acumulada acumulada relativa
(fa) (far)
20 – 25 22.5 19.5 – 6 6/24 = 25% 6 25%
25.5
26 – 31 28.5 25.5 – 6 6/24 = 25% 12 50%
31.5
32 – 37 34.5 31.5 – 5 5/24 = 17 70.83%
37.5 20.83%
38 – 43 40.5 37.5 – 3 3/24 = 12.5% 20 83.33%
43.5
44 – 49 46.5 43.5 – 4 4/24 = 24 100%
49.5 16.67%
Total 24 100% 24 100%
Presentación gráfica de los datos

Las gráficas permiten una presentación más visual, lo que


las hace concisas y claras.
Se clasifican por gráficas y datos usados:

2. Presentación gráfica de datos


Clasificación de las gráficas

Por presentación:
– Histogramas.
– Polígono de frecuencias.
– Ojiva.
– Gráfica circular o de pastel.
– Diagrama tallo – hoja.

Por datos utilizados:


– Frecuencias (absolutas)
– Frecuencias relativas.
Gráficos de barras

Helados comprados en la
semana Las gráficas de barras se utilizan para
50 presentar las frecuencias, ya sean
45 absolutas o relativas, de variables
40 categóricas.
35 No es necesario que las barras se
30 toquen
25 La altura del rectángulo indica la
20 frecuencia de cada ítem.
15 Su uso es más relevante cuando se
10 comparan las frecuencias de diferentes
5 individuos con características similares
0 entre sí.
Lunes Martes Miércoles Jueves
Chocolate Vainilla Fresa
Histogramas

Los histogramas son las gráficas de barras para


una distribución de frecuencias.
Algunas características importantes son:
– Los intervalos que se deben utilizar son los
límites reales. Cada barra debe quedar
comprendida entre ambos límites, en el eje X.
– La escala debe permanecer constante si los
intervalos son iguales.
– Cada barra debe estar junto a la siguiente, pero
si la frecuencia no existe para el intervalo, se
debe dejar el espacio vacío.
– Sin embargo, la primera debe estar separado
por un espacio equivalente al de un intervalo.
– La altura puede estar dada por
• La frecuencia
• La frecuencia relativa.
Polígono de frecuencias

Indica los valores importantes,


mediante puntos que son unidos con
líneas rectas.
Características importantes:
– Se utiliza el dato real, o la
marca de clase si los datos
están agrupados.
– Debe comenzar y terminar en la
frecuencia (o frecuencia
relativa) cero.
– Los puntos deben estar unidos.
– Puede ponerse junto con un
histograma.
Ojiva

La ojiva es un polígono de frecuencias


acumuladas.
Características importantes:
– Sólo funciona con frecuencias
acumuladas.
– La gráfica siempre aumenta;
por lo tanto, comienza en cero,
en su límite real inferior, y
termina en el número total, en
su límite real superior.
– Los puntos deben estar unidos.
– Se usa el límite real superior o
el dato real.
Gráfica circular o de pastel

Es una representación circular que resulta


adecuada para mostrar la proporción de datos
comparados con los demás.
Para crearlo es necesario dibujar un círculo
con compás. Si recordamos que un círculo
tiene 360°, este sería el número total de
frecuencias.
A continuación se efectúa una regla de 3 para
cada sector; por ejemplo:
𝑥 20
=
360 100
El número calculado en 𝒙 es la cantidad de
grados que debe medirse con transportador
para representar apropiadamente al sector.
Diagrama tallo - hoja

Es un método gráfico que consiste en dividir los datos en dos partes,


las cuales se ordenan considerando repeticiones.
La primera parte es el tallo, y la segunda se vuelve la hoja.
Considerando el ejemplo mostrado:
20, 42, 21, 27, 20, 32, 44, 45, 37, 29, 28, 20, 27, 32, 33, 44, 41, 20, 26,
38, 25, 46, 27, 36.
Esto puede colocarse así:
2 000015677789
3 2223678
4 1234456
Ejemplo 1

En la tabla siguiente se muestra el salario inicial anual (en miles de


dólares) de 42 estudiantes recién egresados de ingeniería eléctrica.
– Realiza el histograma correspondiente.
– Dibuja el polígono de frecuencias. Salario inicial Frecuencia
27 4
– Calcula las frecuencias relativas.
28 1
29 3
30 5
31 8
32 10
33 0
34 5
36 2
37 3
40 1
Ejemplo 1

Lo primero que hay que considerar es que la tabla ya está


definida para datos ordenados.
Introducimos los datos en una tabla de Excel:
Salario inicial Frecuencias 12
0
27 4 10
28 1
29 3 8

Frecuencias
30 5
31 8 6
32 10
33 0 4
34 5
2
35 0
36 2
0
37 3
27 28 29 30 31 32 33 34 35 36 37 38 39 40
38 0
Salario anual (miles de dólares)
39 0
40 1
Ejemplo 1

En el caso de un polígono de frecuencias:


0 12
27 4
28 1 10
29 3
30 5 8

Frecuencia
31 8
6
32 10
33 0 4
34 5
35 0 2
36 2
37 3 0
27 28 29 30 31 32 33 34 35 36 37 38 39 40
38 0
Salario inicial (en miles de dólares)
39 0
40 1
0

2. Presentación gráfica de datos


Ejemplo 1

Para calcular las frecuencias relativas se requiere dividir cada


valor entre el total:
Salario inicial Frecuencias Frecuencia relativa
27 4 0.095238095
28 1 0.023809524
29 3 0.071428571
30 5 0.119047619
31 8 0.19047619
32 10 0.238095238
33 0 0
34 5 0.119047619
36 2 0.047619048
37 3 0.071428571
40 1 0.023809524
42 1
Actividad

A continuación se presenta la cantidad de nicotina presente en


cigarrillos de 100 mm de largo con filtro. Construye una
distribución de frecuencias para los datos. ¿Es posible
considerar que la distribución tiene un comportamiento normal
(o al menos simétrico)?
1.2 1.2 1.0 0.8 0.1 0.8
0.8 1.0 1.0 1.0 1.1 1.2
1.2 0.7 0.9 0.2 1.4 1.2
1.1 1.0 1.3 0.8 1.0 1.0
0.5 0.6 0.7 1.4 1.1

También podría gustarte