Está en la página 1de 108

Estadística Básica

El uso de herramientas cuantitativas para el


tratamiento de datos, tiene origen en épocas
remotas.

Las antiguas civilizaciones, como la Egipcia,


aplicaron continuamente censos que ayudaban a
la organización del estado y la construcción de las
pirámides.

En la antigua Grecia y el Imperio Romano, era


común la aplicación de censos para la
planificación de impuestos y la prestación del
servicio militar.
Estadística Básica

A comienzos del siglo XIX, la palabra


estadística adopta un significado más
generalizado hacia la recolección y
clasificación de cualquier tipo de
datos cuantitativos.
Estadística Básica
La primera persona que introdujo el término
estadística en Inglaterra fue Sir John Sinclair
(1754-1835) con su trabajo “Statistical Account of
Scotland” (1791-,1799) trabajo compilado en 21
volumenes.

La empleó como generadora de información


interna para encontrar quiebras y proponer
mejoras en el país.
Estadística Básica
Sir Francis Galton (1822-1911) creó los conceptos
estadísticos de regresión y correlación, y fue el
primero en aplicar métodos estadísticos para
estudiar las diferencias humanas basado en el uso
de cuestionarios y entrevistas para recolectar los
datos.
Estadística Básica
Major Greenwood (1880-1949) investigó los
problemas de salud asociados al trabajo en
fábricas.

Desarrolló la Epidemiología y en 1919 creó el


Ministerio de la Salud en Inglaterra, responsable
de datos estadísticos médicos.
Estadística Básica
Definición de Estadística;

Ciencia encargada de recolectar,


analizar, presentar e interpretar datos.

Enciclopedia Británica
Estadística Básica
Definición de Estadística;

Área de la matemática dedicada a la


recolección e interpretación de datos
cuantitativos y al uso de la teoría de la
probabilidad para calcular los parámetros
de una población.

Diccionario Ingles Word Reference


Estadística Básica
Definición de Estadístico;
Cualquier característica medible calculada
sobre una muestra o población.

Definición de Muestra;
Es un subconjunto de una población.
Estadística Básica

Una muestra es representativa cuando los


elementos son seleccionados de tal forma
que pongan de manifiesto las
características de una población.
Clasificación de la Estadística
Estadística descriptiva:
se emplea para resumir de forma numérica o gráfica un
conjunto de datos, describe los datos que se analizan,
no generaliza la información hacia la población.

Estadística inferencial:
permite realizar conclusiones o inferencias, basándose en
los datos simplificados y analizados de una muestra
hacia la población.
Error de aproximación
Gráficos Estadísticos
Son representaciones visuales que emplean
símbolos, barras, polígonos y sectores, de los
datos contenidos en tablas de frecuencias,
algunos son :

• Gráfico de sectores o pastel


• Gráficos de columnas
• Histograma
Ejercicio
Una muestra de 100 estudiantes del programa de ingeniería de una
universidad, mostraron sus preferencias respecto a la creación de un
nuevo laboratorio en una encuesta para el diario estudiantil:

Muestre los datos gráficamente empleando:


a) Un gráfico de columna
b) Un gráfico de sectores
Caso para resolver
Una importante empresa desea contratar el suministro de
tubos de acero.

Para la licitación se presentaron tres empresas (A, B y C),


las cuales venden la unidad al mismo precio y con las
mismas especificaciones del material.

La empresa solicita que el proveedor mantenga un


diámetro promedio por cada 30 tubos entregados de
200 mm; para lo cual solicitó a cada empresa una
muestra de este tamaño, obteniendo los siguientes
diámetros (las unidades están en milímetros):
¿Cuál de los tres
proveedores
escogería usted?

Justifique su
respuesta
Variabilidad

Como disciplina, podemos decir informalmente


que la estadística es el estudio de la
variabilidad.
Las técnicas estadísticas permiten describir la
variabilidad y plantear hipótesis con el objetivo
de comprenderla.
Variabilidad
Ejemplos:

• Masa corporal, estatura, metabolismo


• Reacción ante un medicamento
• Resultados de un experimento
• Producto de un proceso industrial
• Criterio en la elección de un producto o
servicio
Variabilidad
De acuerdo con los ejemplos anteriores,
podemos distinguir dos tipos de variabilidad:

1) Variabilidad debido a diferencias entre


individuos respeto de alguna característica.

2) Variabilidad debida a errores de medición.


Datos
Son los valores de la variable en estudio, pueden
ser cuantitativos (numérico) o categóricos
(cualitativo o de atributo).

Ejemplo. Consideremos el voltaje de salida de


cierto tipo de generadores:
5.10, 5.25, 5.80, 4.92, 6.10, 5.71, 5.94
los datos son una medida, son cuantitativos y
debemos expresarlos en unidades de voltaje
Datos

Supongamos que las normas especifican que el voltaje de


salida debe estar en un rango de 5.1 a 5.9 y
consideramos las categorías:

• cumple con las normas


• no con las normas

tendremos datos categóricos.


Datos
Si además, se asigna 1 cuando el generador
cumple con los requerimientos y 0 si no cumple,
obtendremos los siguientes datos:

1, 1, 1, 0, 0, 1, 0
(5.10, 5.25, 5.80, 4.92, 6.10, 5.71, 5.94)
Calidad
Una definición moderna de Calidad es:
Aquella que es inversamente proporcional a la
variabilidad

Por lo tanto la Mejora de la Calidad consiste en


la reducción de la variabilidad en procesos y
productos
Datos
Para presentar datos cualitativos se utilizan los
diagramas de pastel y las gráficas de barras.

Una de las gráficas de barras que es muy


importante y se utiliza como herramienta de
la calidad es el llamado Diagrama de Pareto
Historia del principio de Pareto
En 1909 el economista y sociólogo Vilfredo
Pareto (1848 – 1923) publicó los resultados de
sus estudios sobre la distribución de la riqueza,
observando que el 80% de la misma se
encontraba concentrada en el 20% de la
población.
En la década de 1930, Joseph M. Juran analizaba
mediante técnicas estadísticas la producción
defectuosa y observó que los defectos se
concentraban en unos cuantos tipos.
La relación 80/20 ha sido encontrada en
distintos campos. Por ejemplo, el 80% de los
problemas de una organización son debidos a
un 20% de las causas posibles. El 80% de los
defectos de un producto se debe al 20% de
causas potenciales, la relación no debe ser
exactamente 80/20, pero sí se puede
aventurar que unas pocas causas son
responsables de la mayor parte de los
problemas.
Diagrama de Pareto
Gráfica de barras dispuestas de la categoría mas
numerosa a la menos numerosa.

Incluye una gráfica hecha a base de rectas que


muestra los porcentajes acumulados y la cantidad
de datos representada en cada barra.

El eje vertical izquierdo es la frecuencia con la que


ocurren los valores individuales y el eje vertical
derecho es el porcentaje acumulado.
Elaboración del Diagrama de Pareto
Los pasos a seguir para la elaboración de un
diagrama de Pareto son:
1. Seleccionar los datos que se van a analizar,
así como el periodo de tiempo al que se
refieren dichos datos.
2. Agrupar los datos por categorías, de acuerdo
con un criterio determinado.
Elaboración del Diagrama de Pareto
3. Tabular los datos.
Comenzando por la categoría que contenga más
elementos y, siguiendo en orden descendente,
calcular:
• Frecuencia absoluta.
• Frecuencia absoluta acumulada.
• Frecuencia relativa unitaria.
• Frecuencia relativa acumulada.
Elaboración del Diagrama de Pareto
4. Dibujar el diagrama de Pareto.

5. Representar el gráfico de
barras correspondiente que, en el eje
horizontal, aparecerá también en orden
descendente.
Elaboración del Diagrama de Pareto
6. Delinear la curva acumulativa.
Se dibuja un punto que represente el total de
cada categoría. Tras la conexión de estos
puntos se formará una línea poligonal.
7. Identificar el diagrama, etiquetándolo con
datos como: título, fecha de realización,
periodo estudiado,…
8. Analizar el diagrama de Pareto.
Ejemplo de la aplicación del diagrama
de Pareto
Diagrama de Pareto
Otro Ejemplo de un
Diagrama de Pareto
Los datos se preparan y
ordenan como en la
siguiente tabla
Ejercicio

Elabore el Diagrama de Pareto


Respuesta
Conclusión
Distribución
Listado, a menudo expresado en forma de
diagrama, que asocia cada valor de una variable
con su frecuencia.

La frecuencia f es el número de veces que aparece


el valor x en la muestra.

Frecuencias no agrupadas
Frecuencias agrupadas
Diagrama de Tallos y Hojas
Permite obtener simultáneamente una distribución
de frecuencias de la variable y su representación
gráfica.

Para construirlo basta separar en cada dato el


último dígito de la derecha (que constituye
la hoja) del bloque de cifras restantes (que
formará el tallo).

Esta representación de los datos presenta más


información que un histograma.
Diagrama de Tallos y Hojas
Como ejemplo expongamos los horarios de los
trenes de una cierta ruta de España…
Diagrama de Tallos y Hojas
Para elaborarlo, se representa la hora a la
izquierda de la barra de separación | y los
minutos de la salida de cada tren a la derecha.

La frecuencia de los trenes se deduce fácilmente


de la longitud de las filas y es muy fácil ver en
que minutos de cada hora pasan típicamente
los mismos.
Diagrama de Tallos y Hojas
Diagrama de Tallos y Hojas
(reducido)
Diagrama de Tallos y Hojas
También puede utilizarse para comparar dos
distribuciones, por ejemplo si tenemos las dos
siguientes distribuciones (edades de 20
personas):
Distrib. 1

Distrib. 2
Diagrama de Tallos y Hojas
El resultado es el siguiente:

Distrib. 2 Distrib. 1
Ejercicio
Respuesta
Gráfica de puntos

Muestra cada elemento de un conjunto de datos


numéricos por encima de una recta numérica,
o eje horizontal.

Las gráficas de puntos facilitan ver los espacios


vacíos y los agrupamientos en un conjunto de
datos, así como la manera en que se
distribuyen los datos a lo largo del eje.
Gráfica de puntos

Ejemplo:

El pulso varía de una persona a otra, pero por lo


general, el pulso de una persona saludable en
reposo se mantiene entre ciertos valores. Una
persona con un pulso muy rápido o muy lento
podría necesitar atención médica.
Gráfica de puntos

El siguiente conjunto de datos refleja las


pulsaciones por minuto de un grupo de 30
estudiantes:

68 60 76 68 64 80 72 76 92 68 56 72 68 60 84
72 56 88 76 80 68 80 84 64 80 72 64 68 76 72

Elaborando la gráfica de puntos nos queda como


sigue.
Gráfica de puntos
Diagrama o gráfica de caja y bigotes

Es una presentación visual que describe varias


características importantes, al mismo tiempo,
tales como la dispersión y simetría.

Para su realización se representan los tres


cuartiles y los valores mínimo y máximo de
los datos, sobre un rectángulo, alineado
horizontal o verticalmente.
Diagrama o gráfica de caja y bigotes

Una gráfica de este tipo consiste en


una caja rectangular, donde los lados más
largos muestran el recorrido intercuartílico.

Este rectángulo está dividido por un segmento


vertical que indica donde se posiciona la
mediana y por lo tanto su relación con los
cuartiles primero y tercero (el segundo cuartil
coincide con la mediana).
Diagrama o gráfica de caja y bigotes

Esta caja se ubica a escala sobre un segmento


que tiene como extremos los valores mínimo y
máximo de la variable. Las lineas que
sobresalen de la caja se llaman bigotes.
Diagrama o gráfica de caja y bigotes
Ejemplo: la distribución de frecuencias que
representan la edad de un colectivo de 20
personas.

Para elaborar el diagrama, se siguen los pasos


descritos a continuación:
Diagrama o gráfica de caja y bigotes
1º. ORDENAR LOS DATOS
20 23 24 24 24 25 29 31 31 33 34 36 36 37 39 39 40 40 41 45

2º. CALCULAR LOS CUARTILES


Q1, el cuartil Primero es el valor mayor que el 25% de los valores
de la distribución.

Como N = 20 resulta que N/4 = 5; el primer cuartil es la media


aritmética de dicho valor y el siguiente:

Q1=(24 + 25) / 2 = 24,5


Diagrama o gráfica de caja y bigotes
Q2, el Segundo Cuartil es, evidentemente, la mediana de la
distribución, es el valor de la variable que ocupa el lugar
central en un conjunto de datos ordenados. Como N/2 =10 ; la
mediana es la media aritmética de dicho valor y el siguiente:

Q2 = (33 + 34)/ 2 = 33,5

Q3 , el Tercer Cuartil, es el valor que sobrepasa al 75% de los


valores de la distribución. En nuestro caso, como 3N / 4 = 15,
resulta:

Q3 = (39 + 39) / 2 = 39
Diagrama o gráfica de caja y bigotes
3º. Dibujar la caja y los bigotes:
Información del Diagrama
• La parte izquierda de la caja es mayor que la de la derecha;
ello quiere decir que las edades comprendidas entre el 25% y
el 50% de la población está más dispersa que entre el 50% y el
75%.

• El bigote de la izquierda (Xmím, Q1) es más corto que el de la


derecha; por ello el 25% de los más jóvenes están más
concentrados que el 25% de los mayores.

• El rango intercuartílico = Q3 - Q1 = 14,5; es decir, el 50% de la


población está comprendido en 14,5 años.
Comparando dos distribuciones

Realice el diagrama de caja y bigotes de la segunda


distribución , compare con la primera, compruebe
que el resultado debe ser como sigue:
Diagrama o gráfica de caja y bigotes
(comparando dos distribuciones)
Ejercicio
Los datos a continuación representan lecturas de viscosidad en tres
diferentes mezclas de material sin procesar en una línea de
manufactura:
Mezcla 1 Mezcla 2 Mezcla 3
22.02 21.49 20.33
23.83 22.67 21.67
26.67 24.62 24.67
25.38 24.18 22.45
25.49 22.78 22.28
23.50 22.56 21.95
25.90 24.46 20.49
24.98 23.79 21.81

Elabore diagramas de cajas para los datos de viscosidad de mezclas y


compare.
Aplicaciones en el Control de Calidad
Parte de un estudio de control de calidad tuvo como objetivo
mejorar una línea de producción. Se midieron los pesos (en
onzas) de 50 barras de jabón. Los resultados son los
siguientes, ordenados de menor a mayor:

11.7 12.2 13.2 13.4 14.4 14.4 14.7 14.7 14.8 14.8 15.1
15.2 15.3 15.4 15.5 15.7 15.7 15.8 15.8 15.9 15.9
15.9 15.9 16.0 16.2 16.4 16.7 16.7 16.8 16.8 16.8
17.0 17.1 17.2 17.2 17.2 17.4 17.5 17.5 17.5 17.6
17.6 17.8 17.8 17.9 18.2 18.2 18.7 19.0 19.1
Aplicaciones en el Control de Calidad
a) Construye un diagrama de tallos y hojas para estos datos.
b) Construye un histograma para estos datos.
c) Construye un diagrama de cajas para estos datos.
d) Construye un gráfico de puntos para estos datos.
e) Realiza un reporte con tus conclusiones.

* Investiga paquetes computacionales, softwares, excel, etc para


realizar cálculos y gráficos de esta Unidad de Aprendizaje,
aprende a usarlos y prepárate para resolver tareas y quizá una
presentación en power point.
Medidas de tendencia central

• Media
• Mediana
• Rango medio
• Moda
Medidas de dispersión
• Rango

• Varianza

• Desviación estándar
Desviación con respecto a la media
Es la diferencia entre el valor de un dato y la
media de los datos.

El valor promedio de estas desviaciones siempre


resultará en cero (por lo cual no es un
estadístico de calidad).

Las desviaciones al cuadrado se usan para


determinar la varianza.
Varianza muestral
Se puede definir como la media de las
desviaciones al cuadrado de los datos con
respecto a la media muestral, calculada
usando como divisor n-1.
Su formula matemática para el caso de datos
referentes a una muestra es:
Dos propiedades importantes de la varianza son:

• La varianza de una constante es cero

• Si se tiene la varianza de un conjunto de datos y


a cada observación se multiplica por una
constante b, entonces la nueva varianza de los
datos se obtiene multiplicando a la varianza de
los datos por b al cuadrado.
Desviación estándar muestral
Se define como la raíz cuadrada de la varianza:
Coeficiente de variación
Es una medida que se emplea fundamentalmente para:

• Comparar la variabilidad entre dos grupos de datos


referidos a distintos sistemas de unidades de medida.
• Comparar la variabilidad entre dos grupos de datos
obtenidos por dos o más personas distintas.
• Comparar dos grupos de datos que tienen distinta
media.
• Determinar si cierta media es consistente con cierta
varianza.
Coeficiente de variación

Se define con la siguiente ecuación:


Ejemplo
Con un micrómetro, se realizan mediciones del
diámetro de un balero, que tienen una media
de 4.03 mm y una desviación estándar de
0.012 mm; con otro micrómetro se toman
mediciones de la longitud de un tornillo que
tiene una media de 1.76 pulgadas y una
desviación estándar de 0.0075 pulgadas. ¿
Cuál de los dos micrómetros presenta una
variabilidad relativamente menor?.
Respuesta

En consecuencia, las mediciones hechas por el primer


micrómetro exhiben una variabilidad relativamente
menor con respecto a su media que las efectuadas por
el otro.
Distribución Normal
Es la distribución de probabilidad mas
importante.

Aunque la desviación estándar proporciona una


medida de la dispersión de un conjunto de
resultados alrededor del valor medio, no
indica la forma de la distribución.
Ejemplo de sistemas que siguen una
distribución normal
Distribución Normal
Para describir la forma de la población (de la
que se extrae una muestra) de los datos de
concentración de ion nitrato, se necesita una
curva continua.

El modelo matemático que habitualmente se


emplea es la distribución normal o Gausiana.
Distribución Normal
Es descrita por la siguiente ecuación:

Curva acampanada
o Gausiana
Propiedades de la Distribución Normal
Distribución Normal estándar
Obtención de el valor estandarizado z
Propiedades de la
Distribución Normal Estándar

• El área bajo la curva normal es igual a 1


• La distribución es simétrica
• La distribución tiene una media de 0 y una
desviación estándar de 1
• La media divide el área a la mitad (0.5 de cada
lado)
• Casi toda el área está entre z = -3 y z = 3
Ejercicios
Determinar el valor del área bajo la curva
normal

a) Entre z = 0 y z = 1.52, P(0<z<1.52)


b) Entre z = 0 y z = 1.37, P(0<z<1.37)
c) A la derecha de 1.52, P(z>1.52)
d) A la izquierda de 1.52, P(z<1.52)
Ejercicios
Determinar el valor del área bajo la curva normal

e) A la derecha de z = 2.03, P(z>2.03)


f) A la izquierda de 1.73, P(z<1.73)
g) Entre -1.39 y la media
h) A la izquierda de z = -1.35
i) A la izquierda de z = -1.53
j) Entre z = -1.83 y z = 1.23
k) Entre z = 0.75 y z = 2.25
Aplicaciones de las
Distribuciones Normales

Por ejemplo: un químico realiza repetidamente


varias mediciones del volumen de un
producto, las mediciones tienen una media de
10.15 mL y una desviación estándar de
0.02mL.

¿Qué porcentaje de medidas caen entre 10.12 y


10.20 mL?
Aplicaciones de las
Distribuciones Normales

Otro ejemplo: los valores del coeficiente


intelectual (CI) de las personas están
distribuidas normalmente con una media de
100 y una desviación estándar de 16. Si se
elige una persona al azar, ¿cuál es la
probabilidad de que su CI esté entre 100 y
115?
Ejercicios
Ejercicios
Ejercicios
Ejercicios
Intervalo de confianza

Rango de resultados en torno a un valor medio


que podría explicarse por un error aleatorio.

Para una serie de datos dada, el tamaño del


intervalo depende, en parte, del nivel de
exactitud deseada.
Intervalos de confianza
El verdadero valor de la media en una determinación es
una constante que nunca se conoce.

Sin embargo, se pueden establecer los límites alrededor


de la media determinada experimentalmente dentro
de los cuales cabe encontrar la media verdadera, con
un cierto grado de probabilidad.

Estos límites de denominan Límites de Confianza; el


intervalo definido por tales límites se conoce
como Intervalo de Confianza.
Parámetro estadístico t Student

El parámetro t tiene un valor matemático que es


función del número de medidas efectuadas y
de la predicción (o grado de probabilidad) que
nosotros deseemos para la exactitud. Los
estadísticos han compuesto tablas con los
valores numéricos de t para varios niveles de
confianza:
Grados de Nivel de confianza
libertad
80% 90% 95% 99% 99,9%

1 3,08 6,31 12,7 63,7 637

2 1,89 2,92 4,30 9,92 31,6

3 1,64 2,35 3,18 5,84 12,9

4 1,53 2,13 2,78 4,60 8,60

5 1,48 2,02 2,57 4,03 6,86

6 1,44 1,94 2,45 3,71 5,96

7 1,42 1,90 2,36 3,50 5,40

8 1,40 1,86 2,31 3,36 5,04

9 1,38 1,83 2,26 3,25 4,78

10 1,37 1,81 2,23 3,17 4,59

11 1,36 1,80 2,20 3,11 4,44

12 1,36 1,78 2,18 3,06 4,32

13 1,35 1,77 2,16 3,01 4,22

14 1,34 1,76 2,14 2,98 4,14

∞ 1,29 1,64 1,96 2,58 3,29


Si, por ejemplo, queremos tener un nivel de
confianza de 95% (lo cual es muy común),
entonces usamos la distribución normal
estándar y encontramos los valores que
incluyen a 95% del área.
Ejercicios
Ejercicios
Contrastes de significación
Son pruebas estadísticas que se utilizan para
probar si hay diferencia significativa entre 2
resultados o si estos se pueden justificar por
variaciones aleatorias.

Por ejemplo, para comparar una media


experimental con un valor conocido, es
necesario probar si x y µ difieren
significativamente…
Cálculo del estadístico t

Hipótesis Nula (Ho): no hay otra diferencia entre


el valor observado y el conocido que la
atribuible a la variación aleatoria
Decisión

Si el valor absoluto calculado de t (t calc.) es


mayor que un cierto valor crítico (t crit.)
entonces se rechaza la hipótesis nula (Ho).

El valor t crítico está reportado en tablas


(Ver diapositiva No. 103).
Ejemplo
Comparación de dos medias
experimentales
Ejemplo

También podría gustarte