Está en la página 1de 38

Probabilidad y

Estadística
Clase #2
Ing. Marco González Víquez
2 25/02/22

Contenido
 Organización y presentación de datos univariables
 Distribuciones de frecuencia (relativas y
acumulativas)
 Descripción numérica de datos sin agrupar:
medidas de tendencia central, posición y
dispersión

Ing. Marco González-Ingeniería Industrial-


Universidad de Costa Rica
3 25/02/22

Datos vs Información

Implica:
resumirlos,
tratarlos,
presentarlos

Ing. Marco González-Ingeniería Industrial-Universidad de Costa Rica


4 25/02/22

Presentación de la información
 Cuatro formas básicas:
 Textual
 “Elnúmero de fallos en la producción de la línea ha
aumentado a un ritmo de 3% mensual”...
 Semitabular
 La cantidad de fallos en la línea durante el último año se
muestra a continuación
 Enero: 97 unidades
 Febrero: 100 unidades
 Marzo: 104 unidades

Ing. Marco González-Ingeniería Industrial-Universidad de Costa Rica


5 25/02/22

Presentación de la información
 Tabular
 Recurre a los cuadros y utiliza únicamente las cifras.
 Tabla: ordenación sistemática de datos en filas y columnas, de
acuerdo al criterio o criterios de clasificación que interesen, y
de forma tal, que puedan ser interpretados rápidamente, extraer
conclusiones de ellos y hacer comparaciones.

Ing. Marco González-Ingeniería Industrial-


Universidad de Costa Rica
6 25/02/22

Ejemplo
 El desglose de los fallos por tipo de línea en los meses de enero a julio
del 2008 se presentan en el siguiente cuadro:

Departamento de Control de Calidad


Cantidad de fallos por tipo de línea durante el 2008

Mes

Tipo de línea Enero Febrero Marzo Abril Mayo Junio Julio Total

Línea 1 21 25 14 25 23 41 47 196

Línea 2 10 12 13 12 10 8 18 83

Línea 3 3 5 4 5 8 4 5 34

Línea 4 10 11 10 12 11 10 9 73
* Valores absolutos tomados en la inspección final del proceso

Fuente: Informe de Calidad, Departamento de Control de Calidad, agosto 2008.


Ing. Marco González-Ingeniería Industrial-
Universidad de Costa Rica
7 25/02/22

Componentes de los cuadros estadísticos.


 Título: Dar una idea del tipo de información que contiene el
cuadro. Debe incluir el qué son los datos (a qué se refieren),
dónde se recogieron, cuándo ocurrieron los hechos, bajo qué
criterios se clasificaron.
 Encabezados
 Columna matriz: primera columna, indica clasificación
principal.
 Cuerpo o contenido
 Nota preliminar (si es necesaria)
 Notas al pie (si es necesaria)
 Fuente

Ing. Marco González-Ingeniería Industrial-


Universidad de Costa Rica
8 25/02/22

Gráficos
 Gráfico de Barras
 Horizontales: Cuando la serie es cualitativa o geográfica.
 Verticales: Cuando la serie es cronológica o cuantitativa
discreta (Ocupa poco espacio)
 Gráfico de pastel
 Gráfico lineal
 Gráfico de brechas

Ing. Marco González-Ingeniería Industrial-


Universidad de Costa Rica
Cualitativa o geográfica
250

M illo n e s 200

150

100

50

0
Cronológica o cuantitativa discreta
1983
1982

1981
1980
1979

1978
1977

0 50 100 150 200 250


Millones

250

200

150
Millones

100

50

0
1977 1978 1979 1980 1981 1982 1983
11 25/02/22

Presentación de gráficos
 Se debe dejar igual espacio entre cada barra y se recomienda que sea de la mitad de la
barra.
250

200

150
Millones

100

50

0
1977 1978 1979 1980 1981 1982 1983

 Las series cualitativas y geográficas deben ordenarse de acuerdo con su longitud, de


mayor a menor

Industria

Agricultura

Ganadería

Comercio

Consumo

Pesca

Otros

0 100 200 300 400 500 600 700 800


Ing. Marco González-Ingeniería Industrial-
Millones Universidad de Costa Rica
12 25/02/22

Distribuciones de frecuencias
 Pueden definirse como una ordenación o arreglo de datos en
CLASES O CATEGORÍAS que muestran, para cada una de
ellas, el número de elementos que contiene o frecuencia.

Ing. Marco González-Ingeniería Industrial-


Universidad de Costa Rica
13 25/02/22

Distribuciones de frecuencia
 Son clasificaciones que se refieren a variables cuantitativas,
CONTINUAS O DISCRETAS y que constituyen un instrumento muy útil
en el trabajo estadístico.
 Tres aspectos
 Forma o patrón de distribución de los datos
 Posición de la distribución, alrededor de que valor se tienden a
concentrar los datos (valores centrales)
 Dispersión de los datos alrededor de los datos centrales o
promedios (variabilidad)

Ing. Marco González-Ingeniería Industrial-


Universidad de Costa Rica
14 25/02/22

Distribuciones de frecuencia para


variables discretas
120

100

80
Frecuencia

60

40

20

0
1 2 3 4 5 6 7
Numero Errores en Proceso
Ing. Marco González-Ingeniería Industrial-
Universidad de Costa Rica
15 25/02/22

Distribuciones de frecuencia para


variables continuas
120

100

80
Frecuencia

60

40

20

0
39 -- 45,6 45,6 -- 52,2 52,2 -- 58,8 58,8 -- 65,4 65,4 -- 72
Dimensión del Diámetro
Ing. Marco González-Ingeniería Industrial-
Universidad de Costa Rica
16 25/02/22

Distribuciones de frecuencias
 Lista de la muestra= ordenados conforme
una posición relativa, por ejemplo:
creciente, decreciente
Libras de presión por pulgada cuadrada que puede soportar el concreto
2509,5 2505 2502,5 2500,8 2499,9 2498,1 2496,9 2491,6
2508,4 2504,1 2502,3 2500,8 2499,7 2497,8 2496,7 2491,3
2508,2 2503,7 2502 2500,7 2499,2 2497,8 2495,3 2490,5
2508,1 2503,2 2501,3 2500,2 2498,4 2497,1 2493,8 2490,4
2506,4 2502,5 2500,8 2500 2498,3 2496,9 2493,4

En EXCEL, marca los


datos …
•Menú Datos Ing. Marco González-Ingeniería Industrial-
•Ordenar Universidad de Costa Rica
17 25/02/22

Distribuciones de frecuencias
 Datos brutos o sin agrupar
 Listados según fueron recolectados

Libras de presión por pulgada cuadrada que puede soportar el concreto

2500,2 2497,8 2496,9 2500,8 2491,6 2503,7 2501,3 2500

2500,8 2502,5 2503,2 2496,9 2495,3 2497,1 2499,7 2505

2490,5 2504,1 2508,2 2500,8 2052,2 2508,1 2493,8 2497,8

2499,2 2498,3 2496,7 2490,4 2493,4 2500,7 2502 2502,5

2506,4 2499,9 2508,4 2502,3 2491,3 2509,5 2498,4 2498,1

Ing. Marco González-Ingeniería Industrial-


Universidad de Costa Rica
18 25/02/22

Cuadros de distribución de frecuencias


En datos sin agrupar, consiste en un ordenamiento de datos que muestra
el número de observaciones registradas por cada evento muestral.

La frecuencia absoluta (fi) es el número de observaciones que la


variable toma en cada clase

La frecuencia relativa (fri) es la proporción del valor de la frecuencia


absoluta de cada clase en relación al total de las observaciones de la
variable

Si se multiplica la frecuencia relativa por 100, obtenemos el % de cada


categoría en relación al total de casos.
Ing. Marco González-Ingeniería Industrial-
Universidad de Costa Rica
19 25/02/22

Ejemplo distribución de frecuencias de variables


discretas
 Ejemplo 1, Distribución de frecuencias para datos sin
agrupar
 Hoja E1 del archivo:

Ejemplos de distribución de frecuencias.xls

Ing. Marco González-Ingeniería Industrial-


Universidad de Costa Rica
20 25/02/22

Distribución de frecuencias para


datos agrupados
 Etapa 1

¿Cuántas clases utilizar y elegir los límites de cada


clase?

Ing. Marco González-Ingeniería Industrial-


Universidad de Costa Rica
21 25/02/22

Distribución de frecuencias para datos


agrupados
 Consideremos una población estadística de n
individuos, descrita según un carácter o variable
C en el cual se identifican los siguientes valores:
 Mínimo:
 Máximo:
 Rango o amplitud: R= lk - l0
 Número de clases: k
 Intervalo o tamaño de clase será:
l k  lo
a
k
Ing. Marco González-Ingeniería Industrial-
Universidad de Costa Rica
22 25/02/22

Distribución de frecuencias para


datos agrupados
 Para calcular el tamaño de clase es necesario calcular
primeramente el número de clases y después se obtiene el
tamaño de clase dividiendo el rango entre el número de clases.

 n si n, no es grande
N  Intervalos  k  
1  3,33 log n, en otro caso
 Regla de Sturges:
1 + 3,332 log n
 Tamaño de clase = Rango / k
Ing. Marco González-Ingeniería Industrial-
Universidad de Costa Rica
23 25/02/22

Distribución de frecuencias para


datos agrupados
 Límites de clase
 Son los valores que definen una clase separándola de la
anterior y de la posterior. Deben definir clases:
 Pertinentes
 Exhaustivas: que permitan clasificar a todas las observaciones
dentro de ellas.
 Mutuamente excluyentes: no permitan que una observación
quede incluida en más de una clase.

Ing. Marco González-Ingeniería Industrial-


Universidad de Costa Rica
24 25/02/22

Límites reales y límites indicados


 Hay que distinguir entre:
 Límites indicados: aparecen indicados en la distribución.
 Límites reales o verdaderos: nos señalan la verdadera
extensión de la clase.
 Nota: para evitar confusiones entre los datos y
los intervalos, procure que el número que
determina el intervalo sea en un dígito más
exacto que el dato
 Ej: Dato 45,4 intervalo 44, 50 – 45, 50

Ing. Marco González-Ingeniería Industrial-


Universidad de Costa Rica
25 25/02/22

Límites reales e indicados


30 – 34 Peso de los
35- 39 estudiantes, es
40 – 44 etc una variable
continua!!

30 34 35 39 40 44

29,5 34,5 39,5 44,5

30 – 34 29,5 – 34,5
35- 39 34,5 – 39,5
40 – 44 39,5 – 44,5

Ing. Marco González-Ingeniería Industrial-Universidad de


Costa Rica
26 25/02/22

Conceptos
 Intervalo de clase
 Indica la amplitud de la clase, se calcula haciendo la
diferencia entre el límite real superior y el límite real
inferior.
 Punto medio
 Valor central de la clase. Se obtiene calculando el
promedio de los límites reales.

Ing. Marco González-Ingeniería Industrial-


Universidad de Costa Rica
27 25/02/22

Ejemplo distribución de frecuencias con


datos agrupados
 Hoja E2
 Archivo Ejemplos distribuciones de frecuencia.xls

Ing. Marco González-Ingeniería Industrial-


Universidad de Costa Rica
28 25/02/22

Medidas de tendencia central para


datos sin agrupar
 Pretenden resumir en un solo número, posición o
localización el comportamiento de la distribución.
 Moda
 Media
 Mediana
 Percentiles

Ing. Marco González-Ingeniería Industrial-


Universidad de Costa Rica
29 25/02/22

Medidas de tendencia central


La moda
 Medida asociada al valor mas común, más típico o
más frecuente en un conjunto de datos (El de mayor
frecuencia, el que más se repite).
 La moda es la medida más usada para la tendencia
central de variables cualitativas.
 Siempre que exista más de una moda, la población
de la cual la muestra es obtenida es una mezcla de
más de una población.

Ing. Marco González-Ingeniería Industrial-


Universidad de Costa Rica
30 25/02/22

Medidas de tendencia central


¿Cuál es la Moda?
14,15,17,21,21,21,21,33,36,40
152,178,160,148,165,155,164
50,55,55,55,62,73,73,73,80

Para una distribución unimodal


Moda = 3(medianas) - 2(medias)
Esta estimación es aplicable a conjuntos
agrupados y no agrupados de datos.
Ing. Marco González-Ingeniería Industrial-
Universidad de Costa Rica
31 25/02/22

Medidas de tendencia central


La mediana
Es el valor central de una serie de datos.
Aquella observación que divide la cantidad
de observaciones en dos mitades iguales.

Ing. Marco González-Ingeniería Industrial-


Universidad de Costa Rica
32 25/02/22

Medidas de tendencia central


La Mediana
 Datos sin agrupar: ordenar los datos de acuerdo a su
magnitud.
 Número de datos par: existirán dos valores centrales y
entonces la mediana se obtiene sacando el promedio.
 La mitad de la posición (n+1)/2
 6,8,8,10,12,19,23
 3,4,4,5,16,19,25,30

Propiedad:
Sum /xi-x0.5/=un mínimo
Ing. Marco González-Ingeniería Industrial-
Universidad de Costa Rica
33 25/02/22

Medidas de tendencia central


La Media

 Media aritmética. La medida de posición más usada y conocida. Resulta del


promedio del conjunto de datos.
 : media poblacional

 : media muestral

 Edades en años: 20,20,22,20,30,25,25,18,20,18,22,36


 Propiedades de la media

Ing. Marco González-Ingeniería Industrial-


Universidad de Costa Rica
34 25/02/22

Propiedades importantes de la media

Ing. Marco González-Ingeniería Industrial-


Universidad de Costa Rica
35 25/02/22

La desviación media

 Esel promedio de todas las diferencias individuales de las


observaciones respecto a la media aritmética
Amayor desviación, mayor dispersión con respecto a su
media.

A menor dispersión mayor homogeneidad

Ing. Marco González-Ingeniería Industrial-


Universidad de Costa Rica
36 25/02/22

La desviación estándar
(desviación típica)
s: desviación muestral

u : desviación poblacional
 x: desviación distribución
N muestral
con n-1 grados de libertad
El concepto de grados de libertad es
matemático y es el nombre dado al
número de observaciones linealmente
n-1 independientes que ocurren en una suma
de cuadrados
Ing. Marco González-Ingeniería Industrial-
Universidad de Costa Rica
37 25/02/22

Métodos gráficos y descripción de


datos
 Diagrama de tallos y hojas
 Histograma de frecuencias
 Polígonos de frecuencias
 Gráficos pastel
 Gráficos de barras
 Regresión lineal

Ing. Marco González-Ingeniería Industrial-


Universidad de Costa Rica
38 25/02/22

Tipos generales de estudios


estadísticos
 Estudio experimental
 Controla los factores, diseña el experimento
 Estudio observacional
 Toma los valores del comportamiento del fenómeno
sin controlar los factores
 Estudio retrospectivo
 Usa datos históricos del fenómeno.

Ing. Marco González-Ingeniería Industrial-


Universidad de Costa Rica

También podría gustarte