Está en la página 1de 102

ESTADÍSTICA BÁSICA

Subdirección de innovación y Servicios tecnológicos - SIST

PRIMER DÍA
Estadísticos: Katherin Holguin Agudelo/Gustavo Adolfo Gómez Escobar
DESARROLLO DEL CURSO
Primer día Tercer Día
• Conceptos Básicos.
Generalidades • Muestras aleatorias
Definiciones – Muestra aleatorias
• Estadística descriptiva. – Distribución del promedio muestral
Representación de los datos
– Teorema Central del Límite (TLC)
Medidas de tendencia central
Medidas de dispersión – Distribución t de Student y Grados de libertad.
Medidas de posición • Estimación de la media por intervalos de confianza
– Nivel de confianza
Segundo Día – Intervalos de confianza para la media: Distribución
• Nociones de probabilidad normal
Funciones y operaciones con funciones. – Intervalos de confianza para la media: Distribución t-
Conceptos básicos Student
• Variables aleatorias
Funciones de distribución.
Funciones de densidad
• Distribuciones de probabilidad.
Rectangular, Triangular, Normal y t-student.
REQUISITOS

El participante debe:
• Tener una conocimientos de matemáticas y cálculo
• Formación en metrología básica.
• Contar con un computador (preferiblemente) o una
calculadora científica con funciones estadísticas.
OBJETIVO

Reforzar en los participantes los conocimientos


básicos en probabilidad y estadística de tal manera
que puedan abordar con mayor facilidad los
conceptos y técnicas para la estimación de la
incertidumbre de medición.
INTRODUCCIÓN

¿Por qué estudiar estadística? ¿Qué aplicaciones


tiene en metrología? ¿En que afecta su aprendizaje
al país, a la empresa, al laboratorio? ¿Qué es
Estadística? Se dará respuesta a algunas de estas y
otras preguntas en las siguientes diapositivas.
¿POR QUÉ ES IMPORTANTE PARA EL LABORATORIO?

Organismo Aseguramiento GUM Métodos de


nacional de metrológico • Cálculo del error análisis
acreditación • Acreditación a de medición, • Cartas de
• Evaluación de la través de la • Estimación de la control
conformidad norma NTC- incertidumbre de
ISO/IEC 17025. medición. • Intervalos de
confianza

Autorizado Aplica a Estimación de Mejoramiento de


por el país laboratorios Incertidumbre la calidad
Conceptos básicos
• Variable y dato,
• Población y muestra
• Parámetro y estimación
• Estadístico y estimador
Conjunto de acciones dirigidas al
diseño, la recolección, el
¿QUÉ ES ESTADÍSTICA? procesamiento y el análisis para la
elaboración y difusión de
estadísticas, empleando métodos y
procedimientos técnicos y
científicos(SEN, Statistical Data and
Metadata Exchange SDMX)
Reunir

D
Ciencia que Analizar
Con el fin
A
se encarga de T
de tomar
O decisiones
Presentar,
interpretar S
VARIABLE Y DATO
VARIABLE
Una variable es una característica de una unidad observada que puede asumir más de
un valor de un conjunto de valores los cuales pueden ser una medida numérica o una
categoría de una clasificación (por ejemplo, ingreso, edad, peso, etc., y "ocupación" ,
"Industria", "enfermedad", etc.)

Cualitativas
Cuantitativas
(atributos)
No se pueden representar Sus valores representan diferentes
numéricamente, pueden describir magnitudes:
cualidades: • Ejemplo: Temperatura [°C],
• Ejemplo: Color, Estado civil, Nivel Masa [kg], % concentración.
de estudios
VARIABLE Y DATO

VARIABLE

Cualitativas
Cuantitativas
(atributos)

Nominales Ordinales Discretas Continuas


EJEMPLO
Variable Dato Tipo de variable

Color Azul Cualitativa Nominal

Temperatura 20 °C Cuantitativa Continua

Masa 1.01 kg Cuantitativa Continua

Concentración Alto Cualitativa Ordinal

Nota: Debido a que en el proceso de estimación de incertidumbre de medición se emplean variables cuantitativas, en este curso
nos centraremos en este tipo de variables.
Se conoce que la
palabra Datos proviene
del latín “Dtum” cuyo
significado es “lo que se
da”.

Puede referirse a
un numero, letra,
símbolo o signo

Dato
Corresponde a la determinación de una variable en un individuo u objeto (unidad
observacional). También se puede clasificar en cualitativo (categórico) y cuantitativo
POBLACIÓN Y MUESTRA

POBLACIÓN MUESTRA
También llamada universo, Subconjunto de la población.
es el conjunto de elementos Al número de elementos de
de referencia sobre el que se este subconjunto se le
realizan las observaciones de denomina tamaño muestral y
una o más variables de se representa por la letra 𝒏.
interés. El número de
elementos en este conjunto
se conoce como tamaño
poblacional y se representa
por la letra 𝑵.
POBLACIÓN Y MUESTRA

POBLACIÓN MUESTRA
SIDERÚRGICAS: producción total 100 varillas seleccionadas de
de varillas de referencia ½ in de dicha producción
una colada.
MATERIALES: proceso de llenado 10 Botellas extraídas de la línea
de una botella de la marca ABC de producción cada 3 horas.
(refresco) de una línea de
producción en el mes de Junio.
INTERPRETACIÓN EN ESTIMACIÓN DE INCERTIDUMBRE
Si se efectúa indefinidamente el proceso de Sin embargo, como en este caso la
medición en una pesa de clase F1 de 1 kg bajo las población es infinita, por lo que es
mismas condiciones de medición (un solo imposible obtenerla toda, en vez de
operario, temperatura estable, entre otras) se esto se obtiene un subconjunto de
puede obtener el siguiente conjunto de valores esa población infinita como el que se
numéricos para la masa (en kg): presenta a continuación:

A esto se le conoce como MUESTRA


POBLACIÓN 0.99 1.00 0.98
1.01 0.99 1.00 0.98 1.02 …
𝑛=3
𝑁 → +∞
PARÁMETRO Y ESTIMACIÓN
PARÁMETRO
Un parámetro poblacional, es un número que resume los datos que pueden derivarse del
estudio de una variable en una población. El cálculo de este número está bien definido,
usualmente mediante una fórmula aritmética obtenida a partir de datos de la población.

ESTIMACIÓN
proceso que tiene por finalidad atribuir, a partir de observaciones en una muestra, valores
numéricos a los parámetros. Al valor numérico resultado de un proceso de estimación se le
conoce también como estimación.
EJEMPLOS
Total concentración de
Peso promedio plomo en el agua
de la población

Incertidumbre de
medición
Proponer 2 ejemplos de parámetros de su empresa u
organización.
NOTACIÓN

• 𝑋 Una variable,
• 𝑓 𝑋 una función de 𝑋,
• 𝑥𝑖 una observación de la variable 𝑋.

Los parámetros poblacionales se notan con letras griegas por ejemplo:

𝜃, µ, σ
ESTADÍSTICO Y ESTIMADOR
ESTADÍSTICO
Función medible de variables aleatorias de una muestra.
𝑛
𝑓 𝑋 = 2𝑋 𝑓 𝑋 = 𝑋2 𝑓 𝑋 = 𝑥𝑖
𝑛 𝑖
1
𝑓 𝑋 = 𝑥𝑖
𝑛
𝑖

ESTIMADOR
Cuando un estadístico se usa para estimar o “inferir” el valor de un parámetro de una
población, se dice que es un estimador de dicho parámetro. .
Nota: como sabemos en el proceso de estimación de incertidumbre en muchos casos es imposible determinar la totalidad de
valores de la población, por lo que se recurre a muestras de dicha población. En este caso se utilizan estadísticos en vez de para
estimar el valor de la incertidumbre.
NOTACIÓN (PARÁMETRO – ESTIMADOR)
Los parámetros poblacionales y sus estimadores se denotan:

𝜃→𝜃
Media: µ→𝑥
Desviación: σ → s
EJEMPLO 𝑋 = 𝑥1 , 𝑥2 𝑥3 ,…, 𝑥10 = 0.02 𝑘𝑔, 0.00 𝑘𝑔, 0.01 𝑘𝑔, … , 0.00 𝑘𝑔

POBLACIÓN PARÁMETRO
Los errores de La media de los
medición de diez errores de medición
pesas de 1 kg son para la población es:
(población):
0.02 + ⋯ + 0.00
0.02 kg, -0.01 kg, 𝜇 = 𝑁
10 1
0.00 kg, 0.00 kg, 𝜇 = 𝑓1 𝑋 = 𝑥𝑖 = 0.00
0.01 kg, -0.02 kg, En este caso la media 𝑁
0.00 kg, 0.01 kg, 𝜇 es un parámetro 𝑖
-0.01 kg, 0.00 kg. porque corresponde a
un resumen de los datos
de una población.
La población es de
tamaño 𝑁 = 10.
EJEMPLO
MUESTRA ESTADÍSTICO

De las diez pesas El promedio de los


de 1 kg se errores de medición
seleccionan 6 para la muestra es:
pesas:
0.02 + ⋯ + 0.00 𝑛
0.02 kg, 0.00 kg,
𝑋=
6
1
𝑋 = 𝑓2 𝑋 = 𝑥𝑖 = 0.0033
0.00 kg, 0.01 kg, 𝑛
-0.00 kg, -0.01 kg, En este caso el promedio 𝑖
𝑋 es un estadístico por
La muestra es de que es una función de la
tamaño 𝑛 = 6. variable observada y
proporciona una
estimación del promedio
poblacional.
EJERCICIOS 1
EJERCICIO 1
Datos 1: En la siguiente tabla se tienen 10 indicaciones de la masa del agua (g) y
del volumen del agua (ml) de una pipeta de agua de 10 ml:
Medición Masa del agua (g) Volumen del agua (ml)
1 9.96037 9.98734
2 9.96454 9.99152
3 9.9632 9.99017
4 9.97152 9.99852
5 9.9683 9.99529
6 9.96806 10.00113 Fuente:
7 9.96165 9.99505 https://sisu.ut.ee/m
8 9.96397 9.98862 easurement/41-
9 9.9544 9.99095
n%C3%A4idis%C3%
BClesandeks
10 9.965014 9.98135
EJERCICIO 1
Datos 2: En la siguiente tabla se presentan los datos de calibración de la función Voltaje AC de un
multímetro digital. En esta calibración, participan tres operadores y cada uno realiza cinco
mediciones
Operador Observación V
A 1 570.7
A 2 570.7 Nota: adaptado de
A 3 570.7
Scientia et Technica Año
A 4 570.8
A 5 570.8 XIII, No 35, Agosto de
B 1 570.8 2007. Universidad
B 2 570.7
B 3 570.8 Tecnológica de Pereira.
B 4 570.8 ISSN 0122-1701)
B 5 570.7
C 1 570.7
C 2 570.8
C 3 570.8
C 4 570.8
C 5 570.8
EJERCICIO 1
Para los conjuntos de datos diligencie la siguiente tabla:

Variable 1 Variable 2
N n* Parámetro*
Nombre Tipo Nombre Tipo

Datos 1

Datos 2

• Haga una propuesta


ESTADÍSTICA DESCRIPTIVA
1. Representación de los datos
2. Medidas de tendencia central
3. Medidas de dispersión
4. Medidas de posición
REPRESENTACIÓN DE DATOS
Diagrama de puntos
distribución de frecuencia e histogramas
REPRESENTACIÓN DE DATOS CUANTITATIVOS

Cuando se recogen datos ya sean de una muestra o población se deben


presentar en forma resumida, por medio de tablas y gráficas apropiadas,
que permitan analizar las características de interés de los datos.

Los investigadores acostumbran a reforzar la descripción de las variables


a través de dibujos, generalmente con formas geométricas, que ayudan a
visualizar el comportamiento de las variables tratadas.

Nos centraremos en las formas de representación de datos cuantitativos.


REPRESENTACIÓN DE DATOS CUANTITATIVOS
Tabla de
distribución de
frecuencias
Si n≥ 30

Recolección de Histograma
datos cuantitativos
continuos
Diagrama de
Si n<30
puntos
Solo una sugerencia…
cada experimento tiene
sus particularidades
DIAGRAMA DE PUNTOS
¿Qué es? ¿Para qué se utiliza?
• El diagrama de puntos es una gráfica muy útil para visualizar un CONJUNTO
PEQUEÑO de datos; por ejemplo, de unas 20 observaciones.
• La gráfica permite ver rápidamente la TENDENCIA y VARIABILIDAD de los datos.

¿Cómo se elabora?
1. Ordene los datos obtenidos de menor a mayor
2. Dibuje una línea horizontal demarcada con los valores encontrados en los datos.
(Ordenados).
3. Coloque un punto o círculo pequeño relleno (o esfera) cada vez que un dato ocurra,
encima uno de otro sobre el número del eje correspondiente al dato.
Ejemplo
• Aplicando las directrices de la norma técnica colombiana NTC 4513 se obtuvieron 8
mediciones sobre el punto de 0 mm con un comparador de caratula.

Datos 0.000 -0.002 -0.002 0.000 -0.001 0.000 -0.001 -0.002

• •
• • •
• • •
Diagrama | | | | | | |
-0.003 -0.002 -0.001 0.000 0.001 0.002 0.003

• La medición tiende a ser negativa,


Interpretación
• La medición esta entre -0.002 mm y 0.000 mm.
EJERCICIO 2
Datos 5: longitud en milímetros de un
conjunto de cables que serán utilizados
en un estudio de resistencia a la tensión.

Realice diagrama de puntos


TABLA DE DISTRIBUCIÓN DE FRECUENCIAS
Distribución de frecuencias
Agrupación de datos en categorías o clases mutuamente excluyentes. La distribución de
frecuencias presenta las observaciones clasificadas de modo que se pueda ver el
número existente en cada clase.

La tabla de distribución de frecuencias es un arreglo tabular de las


frecuencias con que ocurre cada CLASE en que se han dividido los datos.
Se recomienda construir una tabla de distribución de frecuencias cuando
se han recolectado más de 30 datos y la mayoría de los datos son
distintos.
Ejemplo
• Se tienen 50 resultados (en μm) simulados del error de medición en el punto de 1 cm
con un comparador de caratula.

-0.2 -1.3 -0.1 -1.3 -0.9 -0.5 -2.9 -0.9 -1.4 -1.6
-1.4 -1.9 -1.5 -1.4 -2.2 -1.1 -0.4 -1.9 -0.7 -0.3
-2.1 -1.5 -1.0 0.0 -2 0.2 -1 -2.2 -0.7 -3.5
-2.7 -2.4 -1.4 -0.5 0.5 -1.2 -2.2 -0.6 -2 0.5
-1.8 -0.7 -1.2 -0.4 -0.3 -2.1 -0.1 -0.8 -0.8 -1.7

Hagamos una tabla de frecuencias y el histograma


CONSTRUCCIÓN DE UNA TABLA DE DISTRIBUCIÓN DE FRECUENCIAS
1 Determinar el valor mínimo y el valor máximo
1 -3.5 11 -2 21 -1.4 31 -0.9 41 -0.4
2 -2.9 12 -1.9 22 -1.4 32 -0.8 42 -0.3
3 -2.7 13 -1.9 23 -1.3 33 -0.8 43 -0.3
4 -2.4 14 -1.8 24 -1.3 34 -0.7 44 -0.2
5 -2.2 15 -1.7 25 -1.2 35 -0.7 45 -0.1
6 -2.2 16 -1.6 26 -1.2 36 -0.7 46 -0.1
7 -2.2 17 -1.5 27 -1.1 37 -0.6 47 0
8 -2.1 18 -1.5 28 -1 38 -0.5 48 0.2
9 -2.1 19 -1.4 29 -1 39 -0.5 49 0.5
10 -2 20 -1.4 30 -0.9 40 -0.4 50 0.5

2 Determinar rango, número de clases y amplitud de intervalo.

• Rango: 𝑅 = 𝑋max − 𝑋min = 0.5 − −3.5 = 4.0


• Número de clases: K = 𝑅𝐴𝐼𝑍(𝑁) ≈ 50 ≅ 7
• Amplitud del intervalo: A = 𝑅/𝐾 = 4.0/7 = 0.6
CONSTRUCCIÓN DE UNA TABLA DE DISTRIBUCIÓN DE FRECUENCIAS

3 Construcción de la tabla Clase: Orden del intervalo en el que se van a agrupar los resultados.

Intervalo: Se establecen los límites entre los que se agruparan los


Clase 𝐋inf a 𝑳sup 𝒏i fi resultados. En cada clase el límite inferior y el límite superior.
1 [-3.5 a -2.9) 2 0,04
Límite Inferior (𝑳inf) : En cada clase el límite inferior corresponde al
2 [-2.9 a -2.3) 2 0,04 límite superior de la clase anterior. Excepto para la primera clase el
3 [-2.3 a -1.7) 11 0,22 cual corresponde al valor inferior de los datos.
Nota: se le suma una unidad a la última cifra decimal de este valor.
4 [-1.7 a -1.1) 12 0,24
5 [-1.1 A -0.5) 12 0,24 Límite Superior ( 𝐿sup ): En cada clase el límite superior
6 [-0.5 a 0.1) 8 0,16 corresponde al límite superior de la clase anterior mas la amplitud.

7 [0.1 a 0.7) 3 0,06 Frecuencia absoluta ni: Conteo de datos que caen en cada clase.
Equivale a los valores que se encuentran entre los límites de cada
intervalo.

Frecuencia relativa fi: Proporción de datos en cada clase. Se calcula


𝑛 = 50 como el cociente de la frecuencia absoluta n de cada clase y el
número total de datos 𝑛. También se puede expresar en %.
HISTOGRAMA

Definición
El histograma es una sucesión de rectángulos construidos sobre un sistema de coordenadas.

¿Para qué se emplea?


El histograma de frecuencias es una representación visual de los datos en donde se
evidencian fundamentalmente tres características: FORMA, ACUMULACIÓN o TENDENCIA
POSICIONAL y DISPERSIÓN o VARIABILIDAD.
CONSTRUCCIÓN DEL HISTOGRAMA

1 Construya la tabla de frecuencias absolutas del conjunto de datos

2 Trace el primer cuadrante del plano cartesiano (eje X y eje Y).

4 En el eje de las X coloque los valores de los límites de cada intervalo. En


el eje de las Y las frecuencias (absolutas o relativas).

5 Dibuje rectángulos cuya altura sea igual a la frecuencia y la base


corresponda a cada intervalo

6 Interprete
CONSTRUCCIÓN DE UN HISTOGRAMA (FRECUENCIA ABSOLUTA)
FORMA DE LA DISTRIBUCIÓN DE FRECUENCIAS
De acuerdo con la forma del histograma se tiene una distribución:
1 Simétrica 2 Asimétrica positiva
FORMA DE LA DISTRIBUCIÓN DE FRECUENCIAS
3 Asimétrica negativa 4 No definida

Nota: se puede cuantificar la forma de la distribución de frecuencias a través del calculo de estadísticos conocidos como
“coeficiente de asimetría”.
EJERCICIO 3
Realice la tabla de distribución de frecuencias
Datos 3: Se tienen 100 indicaciones de longitud
en el punto 3 mm con un comparador de
caratula.

Datos 4: Estudio para determinar la presencia


de ceras sintéticas adicionadas a las ceras
naturales de abeja. Se tienen los datos de
punto de función de distintas ceras naturales.

(Estadística (Q) Dra. Diana M. Kelmansky


FCEN-UBA)
EJERCICIO 4
a) Determine la forma de la distribución de frecuencias,
b) A través de gráficas determine el valor al que tienden los datos.
VERIFICACIÓN DE LA ASIMETRÍA
El objetivo de la medida de la asimetría es,
sin necesidad de dibujar la distribución de
frecuencias, estudiar la deformación
horizontal de los valores de la variable
respecto al valor central de la media. Las
medidas de forma pretenden estudiar la
concentración de la variable hacia uno de
sus extremos.

Una distribución es Simétrica si 𝑿 = Me = Mo y g1=0

3 Si g1 > 0, la distribución es asimétrica positiva o a la derecha.


𝑛 𝑥𝑖 − 𝑥 Si g1 = 0, la distribución es simétrica.
𝑔1 = Si g1 < 0, la distribución es asimétrica negativa o a la izquierda.
(𝑛 − 1)(𝑛 − 2) 𝑠
Manos a la obra..

Verificar la simetría del ejercicio datos 8


ESTADÍSTICOS DE TENDENCIA
CENTRAL
• Promedio
• Mediana
• Moda
Y ¿para qué los estadísticos de tendencia central?

El análisis estadístico parte de la búsqueda de parámetros sobre


los cuales pueda recaer la representación de toda la información.
Los estadísticos de tendencia central proporcionan estimaciones
de parámetros que describen de forma resumida el
comportamiento las características de la población de estudio.
MEDIDAS DE TENDENCIA CENTRAL
Son medidas usadas para describir un conjunto entero de observaciones con
un solo valor que representa el centro de los datos.

Los estadísticos usados para la estimación de estas medidas se llaman


Estadísticos de Tendencia Central

• Promedio o media Aritmética muestral


• Mediana muestral
• Moda muestral

Por lo general, la medida de tendencia central empleada en el cálculo de


incertidumbre es la media aritmética o promedio.
MEDIA ARITMÉTICA O PROMEDIO
El promedio muestral representa el centro físico del conjunto de datos y se
define como la suma de los valores observados, dividido por el total de
Definición observaciones

Si 𝑥1 , 𝑥2 , … , 𝑥𝑛 corresponden a 𝑛 observaciones numéricas, entonces la media


aritmética de estas 𝑛 observaciones, se define como:
𝑛
1 𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛
Formula 𝑋=
𝑛
𝑥𝑖 =
𝑛
𝑖=1

El término “media” usualmente se utiliza cuando


nos referimos a la población y el término promedio
cuando nos referimos al su estimación a partir de
los datos en la muestra
APLICACIÓN E INTERPRETACIÓN

1 Para determinar el promedio de las mediciones realizadas en el punto de 0


mm se determinaron 𝑛 = 8 mediciones en mm:
0.000 -0.002 -0.002 0.000 -0.001 0.000 -0.001 -0.002
2 Si la 𝑋 representa a la variable: resultado de la medición en el punto de 0 mm,
entonces los datos anteriores se pueden representar de la siguiente forma
0.000 -0.002 -0.002 0.000 -0.001 0.000 -0.001 -0.002
𝑥1 𝑥2 𝑥3 𝑥4 𝑥5 𝑥6 𝑥7 𝑥8
3 Por tanto el promedio de las 𝑛 = 8 mediciones es:
𝑥1 + 𝑥2 + ⋯ + 𝑥8
𝑋=
8
0.000 + −0.002 + ⋯ + −0.002
=
8
𝑋 = −0.001
MEDIANA
DEFINICIÓN
Corresponde al valor de la muestra que deja a la izquierda y derecha
el mismo número de datos, una vez ordenados. Se representa por 𝑥.

No es una función de la magnitud de la variable


como el promedio, sino de la posición central
que ocupa en el orden de su magnitud
PROCEDIMIENTO PARA ENCONTRAR LA MEDIANA
1. Ordenar los datos de la muestra,
2. Si el número de datos es impar la mediana es el valor central,
3. Si el número de datos es par la mediana es el promedio de los dos valores centrales.

Veamos un ejemplo
EJEMPLO
Cálculo de la mediana sobre el conjunto de mediciones sobre el punto de 0 mm
utilizando un comparador de caratula.

1 Empleando las 8 errores de medición [mm] del Ejemplo 1:

0.000 -0.002 -0.002 0.000 -0.001 0.000 -0.001 -0.002


2 Se ordenan los datos de menor a mayor

-0.002 -0.002 -0.002 -0.001 -0.001 0.000 0.000 0.000

3 Como 𝑛 = 8 es un número par se promedian los dos valores centrales:


(−0.001) + (−0.001)
𝑥= = −0.001
2
COMPARACIÓN MEDIA Y MEDIANA

En un caso hipotético se determino la estatura (en cm) de 9 personas, obteniéndose


los siguientes resultados:
2.50

1.70 1.70 1.70 1.70 1.70 1.70 1.70 1.70

En promedio las 9 personas miden 𝑋 = 1.79 cm y la mediana 𝑥 = 1.70 cm


¿Qué estadístico representa mejor los datos de la estatura?
MODA
Definición
Corresponde al valor que se presenta con mayor frecuencia. Se representa por 𝑀𝑜 .

Un conjunto de datos puede tener una moda y se llama unimodal, dos modas y
se llama bimodal, o varias modas y llamarse multimodal. Sin embargo puede
ocurrir que la información no posea moda, por lo cual no es una medida
adecuada para representar los datos.
EJERCICIO 5: Halle la moda del conjunto de datos

0.003 0.002 0.002 0.002 0.001 0.002 0.000 0.001 0,002

0,003 0,002 0,002 0 0,001 0 0,001 0,002 0,001 0,002


0,001

-0,003 0,002 0 0,001 0,003 0,004 -0,001 -0,002 0,005

Al depender sólo de las frecuencias, usualmente se calcula


para variables cualitativas. También suele usarse variables
cuantitativas ordinales
A practicar!
EJERCICIOS 6
1. Para cada uno de los conjuntos de datos de los ejercicios 1 y 3 halle los estadísticos
de tendencia central y diligencie la siguiente tabla:
Datos 1 Datos 1
Estadístico Datos 2 Datos 3 Datos 4
(Masa) (Volumen)
Media 𝒙
Mediana 𝒙
Moda 𝑴𝒐
ESTADÍSTICOS DE POSICIÓN
• cuantiles
• Percentiles
MEDIDAS DE POSICIÓN
Una medida de posición también conocida como cuantil o fractil corresponde a
aquel valor 𝑞𝑝 que marca un corte en el conjunto de datos de modo que una
proporción 𝑝 (con 0 < 𝑝 < 1) de los datos es menor o igual a este valor.

• •••• ••• ••• ••• •• •••••• • •••• ••• ••••• • ••••• ••••••

𝑝%
Datos
𝑞𝑝
Los cuantiles son valores que dividen el conjunto de datos en partes iguales es
decir intervalos que comprenden la misma proporción de valores. Los más
usados son:

• Mediana
• Cuartiles
• Deciles
• Percentiles
Toda medida corresponde a lo ubicación del dato. Se deben ordenar los
resultados de forma ascendente
CUANTILES
C1 C2 C3 C4

0% 25% 50% 75% 100%


DECILES
D1 D2 D3 D4 D5 D6 D7 D8 D9 D10

0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%

PERCENTILES
Son 99 valores que dividen el conjunto de datos en 100 partes iguales
CUANTIL - Datos No Agrupados

𝑘 ∗ (𝑁 + 1)
𝑪𝒌 = , 𝑁 𝑒𝑠 𝑖𝑚𝑝𝑎𝑟
4
𝑘∗𝑁
𝑪𝒌 = , 𝑁 𝑒𝑠 𝑝𝑎𝑟
4

Donde:
𝑁 = Tamaño total de la muestra
𝑘 = 𝐶𝑢𝑎𝑛𝑡𝑖𝑙 𝑎 𝑒𝑣𝑎𝑙𝑢𝑎𝑟 (1,2,3,4)
CUANTIL - Datos Agrupados

𝑘∗𝑁
− 𝑁𝑖−1
𝑪𝒌 = 𝐿𝑖 + 4 ∗ 𝑎𝑖
𝑛𝑖

Donde:
𝐿𝑖 =Limite inferior del intervalo de clase donde se encuentra el cuantil.
𝑁 = Tamaño total de la muestra
𝑁𝑖−1 = Frecuencia absoluta acumulada del intervalo de clase anterior
𝑛𝑖 = frecuencia del intervalo donde se encuentra el cuantil
𝑎𝑖 = amplitud del intervalo de clases.
𝑘 = 𝐶𝑢𝑎𝑛𝑡𝑖𝑙 𝑎 𝑒𝑣𝑎𝑙𝑢𝑎𝑟 (1,2,3,4)
DECIL - Datos No Agrupados

𝑘 ∗ (𝑁 + 1)
𝑫𝒌 = , 𝑁 𝑒𝑠 𝑖𝑚𝑝𝑎𝑟
10

𝑘∗𝑁
𝑫𝒌 = , 𝑁 𝑒𝑠 𝑝𝑎𝑟
10

Donde:
𝑁 = Tamaño total de la muestra
𝑘 = 𝐷𝑒𝑐𝑖𝑙 𝑎 𝑒𝑣𝑎𝑙𝑢𝑎𝑟 (1,2,3, … , 10)
DECIL - Datos Agrupados

𝑘∗𝑁
10 − 𝑁𝑖−1
𝑫 𝒌 = 𝐿𝑖 + ∗ 𝑎𝑖
𝑛𝑖

Donde:
𝐿𝑖 =Limite inferior del intervalo de clase donde se encuentra el decil.
𝑁 = Tamaño total de la muestra
𝑁𝑖−1 = Frecuencia absoluta acumulada del intervalo de clase anterior
𝑛𝑖 = frecuencia del intervalo donde se encuentra el decil
𝑎𝑖 = amplitud del intervalo de clases.
𝑘 = 𝐷𝑒𝑐𝑖𝑙 𝑎 𝑒𝑣𝑎𝑙𝑎𝑟 (1,2,3, … , 9)
PERCENTIL - Datos No Agrupados

𝑘 ∗ (𝑁 + 1)
𝑃𝑘 = , 𝑁 𝑒𝑠 𝑖𝑚𝑝𝑎𝑟
100

𝑘∗𝑁
𝑃𝑘 = , 𝑁 𝑒𝑠 𝑝𝑎𝑟
100

Donde:
𝑁 = Tamaño total de la muestra
𝑘 = 𝑃𝑒𝑟𝑐𝑒𝑛𝑡𝑖𝑙 𝑎 𝑒𝑣𝑎𝑙𝑢𝑎𝑟 (1,2,3, … , 99)
PERCENTIL - Datos Agrupados

𝑘∗𝑁
100 − 𝑁𝑖−1
𝑃𝑘 = 𝐿𝑖 + ∗ 𝑎𝑖
𝑛𝑖

Donde:
𝐿𝑖 =Limite inferior del intervalo de clase donde se encuentra el percentil.
𝑁 = Tamaño total de la muestra
𝑁𝑖−1 = Frecuencia absoluta acumulada del intervalo de clase anterior
𝑛𝑖 = frecuencia del intervalo donde se encuentra el percentil
𝑎𝑖 = amplitud del intervalo de clases.
𝑘 = 𝑃𝑒𝑟𝑐𝑒𝑛𝑡𝑖𝑙 𝑎 𝑒𝑣𝑎𝑙𝑎𝑟 (1,2,3, … , 99)
EJEMPLO – Datos 1
• En la siguiente tabla se tienen 10 indicaciones de la masa de agua (g)

Medición Masa del agua (g)


1 9.96037
2 9.96454 Calcular:
3 9.9632
4 9.97152
1. Cuantil 3
5 9.9683
2. Decil 3
6 9.96806
7 9.96165 3. Percentil 95
8 9.96397
9 9.9544
10 9.965014

Fuente de https://sisu.ut.ee/measurement/41-n%C3%A4idis%C3%BClesandeks:
Ejemplo – Datos 1
• Dado el ordenamiento de los datos y que n = 10 es par

Calcular el cuantil 3 (75%)


Masa del agua
Medición
(g)
𝑘∗𝑁 3 ∗ 10
1 9.954400 𝐶𝑘 = = = 7.5
2 9.960370 4 4
3 9.961650
4 9.963200
Promedio entre (9.965014 y 9.96806) = 9.96537
5 9.963970
6 9.964540
7 9.965014
8 9.968060
Hasta el dato 9.96537 se acumula el 75%
9 9.968300 de la información
10 9.971520
Ejemplo – Datos 1
• Dado el ordenamiento de los datos y que n = 10 es par

Calcular el decil 3 (30 %)


Masa del agua
Medición
(g)
1 9.954400
𝑘∗𝑁 3 ∗ 10
𝐷𝑘 = = =3
2 9.960370 10 10
3 9.961650
4 9.963200
5 9.963970
Hasta el dato 9.96165 se acumula el 30%
6 9.964540
de la información
7 9.965014
8 9.968060
9 9.968300
10 9.971520
Ejemplo – Datos 1
• Dado el ordenamiento de los datos y que n = 10 es par

Calcular el percentil 95 (95 %)


Masa del agua
Medición
(g)
𝑘∗𝑁 95 ∗ 10
1 9.954400 𝑃𝑘 = = = 9.5
2 9.960370 100 100
3 9.961650
4 9.963200
5 9.963970
Promedio entre (9.9683 y 9.97152) = 9.96991
6 9.964540
7 9.965014
8 9.968060
9 9.968300
10 9.971520 Hasta el dato 9.96991 se acumula el 95%
de la información
Cómo podría verse un cuantil en una tabla de
frecuencias?
Frecuencia
frecuencia Frecuenci Frecuencia
absoluta
Clase L inf L sup absoluta a relativa acumulada
acumulada
ni fi Fi
Ni
1 2,9938 2,9949 2 2 2% 2%
2 2,9949 2,9959 2 4 2% 4%
3 2,9959 2,9970 6 10 6% 10%
4 2,9970 2,99803 15 25 15% 25%
5 2,9980 2,9991 16 41 16% 41%
6 2,9991 3,0002 18 59 18% 59%
7 3,0002 3,0012 21 80 21% 80%
8 3,0012 3,0023 11 91 11% 91%
9 3,0023 3,0033 6 97 6% 97%
10 3,0033 3,0044 3 100 3% 100%

Hacer el histograma con las frecuencias relativas y no con las absolutas.


CUANTIL DATOS AGRUPADOS

1 ∗ 100
− 10
𝐶𝑘 = 2.9970 + 4 ∗ 0.00105 = 2.99803
15

Donde:
𝐿𝑖 = 2.9970
𝑁 = 100
𝑁𝑖−1 = 10
𝑛𝑖 = frecuencia del intervalo donde se encuentra el cuantil
𝑎𝑖 = amplitud del intervalo de clases.
𝑘 = 𝐶𝑢𝑎𝑛𝑡𝑖𝑙 𝑎 𝑒𝑣𝑎𝑙𝑢𝑎𝑟 (1,2,3, 4)
Cómo podría verse un cuantil en un histograma?
Hacer el histograma con las frecuencias relativas y no con las absolutas.

Frecuencia relativa
25% fi

20%

15%

10%

5%

0%
2,9949 2,9959 2,9970 2,99803 2,9991 3,0002 3,0012 3,0023 3,0033 3,0044
2,9938 2,9949 2,9959 2,9970 2,9980 2,9991 3,0002 3,0012 3,0023 3,0033
EJERCICIO 7
1. Para los conjuntos de datos 3 llenar la siguiente tabla

Percentil Datos 3

𝑷𝟓
𝑷𝟗𝟓
𝑷𝟕𝟎

2. Responda las siguientes preguntas:


• ¿Entre qué valores se encuentra el 90% de los datos?
• ¿Qué valor supera el 95% de los datos?
• ¿Qué valor está por debajo del 30% de los datos?
Diagrama de cajas y bigotes
¿QUÉ ES UN DIAGRAMA DE CAJAS Y BIGOTES?
• Es un gráfico basado en cuartiles, en el que se puede observar la distribución de
un conjunto de datos asociados a una variable cuantitativa.

• Es una visualización en la que se puede apreciar la dispersión y la asimetría al


mismo tiempo

• A diferencia del Histograma no representa con qué frecuencia se observan los


datos.

• Representa la asimetría de los datos, los valores atípicos y la ubicación de la


mediana.

• Útil para analizar la distribución de la variable y comparar distribuciones


ANÁLISIS GRÁFICO
Boxplot of Extraccion directa

75 75
Dato atípico.
LS=Q3+1.5 RIC
70

65
Extraccion directa

Q3: 75%
60 Q2: Mediana.
55 Q1: 25%.

50
LI=Q1-1.5 RIC
45 45
43
Dato atípico.
40
¿CÓMO SE CONSTRUYE?

1. Ordenar los datos de menor a mayor


2. Calcular:
• 𝑄1 = 𝑝25 , (percentil 25)
• 𝑄2 = 𝑝50 , (percentil 50 = Mediana)
• 𝑄3 = 𝑝75 , (percentil 75)
3. Calcular el Rango Intercuartílico RIC o IQR:

𝐼𝑄𝑅 = 𝑄3 - 𝑄1

4. Calcular los límites admisibles LI y LS:

LI = 𝑄1 − 1.5 ∙ 𝐼𝑄𝑅

LS = 𝑄3 + 1.5 ∙ 𝐼𝑄𝑅

5. Se encuentran los valores extremos como todos aquellos puntos


que sean menores que LI (x < LI) o mayores que LS (x > LS).
6. CONSTRUIR EL GRÁFICO

IQR
50% de los datos
Valores
Extremos
LI LS

𝑸𝟏 𝑸𝟐 𝑸𝟑
ESTADÍSTICOS DE DISPERSIÓN
• Rango
• Varianza
• Desviación estándar
• Coeficiente de variación.
VARIABILIDAD - DISPERSIÓN
MEDIDAS DE DISPERSIÓN
Las medidas de tendencia central no son suficientes para resumir la información
contenida en una muestra o en un conjunto de datos.

𝑿𝟏 = 𝟒𝟎 𝑿𝟐 = 𝟒𝟎
•• • ••••••• •
| | | | | | | | | | |
•••••••••
| | | | | | |
20 25 30 35 40 45 50 55 60 20 25 30 35 40 45 50 55 60

Las dos muestras tienen el mismo promedio pero difieren en la separación de sus datos
MEDIDAS DE DISPERSIÓN

Para medir el grado de dispersión de una variable en una muestra, se


utilizan principalmente los siguientes estadísticos:

• Rango o recorrido
• Varianza
• Desviación típica o estándar
• Coeficiente de variación
RANGO
Se recomienda cuando el tamaño de muestra es muy pequeño (𝑛 < 10)

Definición
Corresponde a la diferencia entre el valor máximo 𝑋max y el valor mínimo 𝑋min . Se
representa por 𝑅 y se calcula como 𝑅 = 𝑋max − 𝑋min .

Es la medida de dispersión mas sencilla ya que


solo considera los dos valores extremos de una
colección de datos.
EJEMPLO
Para nuestro conjunto de datos 0.000 -0.002, -0.002, 0.000, -0.001, 0.000, -
0.001, -0.002 se tiene un rango de 𝑅 = 0.000 − −0.002 = 0.002.

En este caso el rango es una medida suficiente para representar la dispersión presente
en los datos.
VARIANZA

La varianza muestral corresponde al cuasi-promedio de las desviaciones


cuadráticas respecto de la media aritmética 𝑋.
Definición

Si 𝑥1 , 𝑥2 , … , 𝑥𝑛 corresponden a 𝑛 observaciones numéricas, entonces la


varianza muestras de estas 𝑛 observaciones, se define como:
𝑛 2
1 𝑥1 − 𝑋 + 𝑥2 − 𝑋 2 + ⋯ + 𝑥𝑛 − 𝑋 2
Formula 𝑆2 = 𝑥𝑖 − 𝑋 2
=
𝑛−1 𝑛−1
𝑖=1

La varianza es uno de los parámetros más importantes, se puede


decir que, teniendo conocimiento de la varianza de una población,
se ha avanzado mucho en el conocimiento de la población misma.
EJEMPLO
La tensión de rotura para 11 muestras de concreto son
27, 30, 33, 29, 30, 31, 26, 38, 38, 35, 32 en MPa. Para
los datos de esta muestra calcule la varianza muestral
para este conjunto de datos
APLICACIÓN E INTERPRETACIÓN
𝟐
𝒙𝒊 𝒙𝒊 − 𝒙 𝒙𝒊 − 𝒙 La unidad de medición de la varianza
27 -4.73 22.37 𝑺𝟐 = 𝟏𝟔. 𝟎𝟐 viene dado en MPa2 .
30 -1.73 2.99

33 1.27 1.61
Debido a que la varianza viene dada en
29 -2.73 7.45
una unidad de medición MPa2
diferente e la de los datos originales
30 -1.73 2.99
MPa, no se puede obtener ninguna
31 -0.73 0.53
conclusión que aplique a los datos de
26 -5.73 32.83 la muestra.
38 6.27 39.31

38 6.27 39.31 Para solventar este problema se calcula


35 3.27 10.69 un estadístico que quedé en las
32 0.27 0.07
mismas unidades de medición que los
datos originales.
𝒏 = 𝟏𝟏

𝑿 = 𝟑𝟏. 𝟕𝟑

𝑺𝟐 = 𝟏𝟔. 𝟎𝟐
DESVIACIÓN ESTÁNDAR
DEFINICIÓN
Corresponde a la raíz cuadrada positiva de la varianza muestral. Se representa por 𝑆 y
se calcula de la siguiente forma:
𝑆 = 𝑆2

Interpretación mas fácil que la


varianza ya que tiene las mismas
unidades de las observaciones
• La desviación estándar es una medida del grado de dispersión
de los datos con respecto al valor promedio.

• Corresponde a la diferencia promedio que existe entre los datos o


a la distancia promedio con respecto a la media aritmética
muestral
EJERCICIO 8
Para el conjunto de datos 5 calcule usando Excel la Varianza poblacional, la
Varianza muestral, la desviación estándar poblacional y la desviación estándar
muestral.

Varianza poblacional: =var.p(datos)

Varianza muestral: =var.s(datos)

Desviación estándar poblacional: =desvest.p(datos)

Desviación estándar muestral: =desvest.m(datos)


COEFICIENTE DE VARIACIÓN
Algunas veces interesa establecer comparaciones de dispersión, entre diferentes
muestras que poseen diferentes unidades de medida.

Definición
Es una medida de la dispersión relativa de los datos. Se representa por 𝐶𝑉 y se calcula
de la siguiente forma:
𝑆
𝐶𝑉 = × 100%
𝑋

El coeficiente de variación tiene en cuenta el


valor de la media aritmética, para establecer
un número relativo, que hace comparable el
grado de dispersión entre dos o mas variables.
EJEMPLO

Para los datos de tensión de rotura se tiene 𝑋= 31.73, 𝑆 = 4.002,


4.002
𝐶𝑉 = 100 ∗ = 12.6%
31.73

Por lo general se asume que un 𝐶𝑉 ≤ 15% indica


una dispersión baja en los datos. Sin embargo, en
metrología esta límite puede disminuir de acuerdo a
la magnitud analizada.
EJEMPLO

Se calibraron tres pesas con valores


de masa nominal diferentes : 200
mg, 200 g y 1 kg. En cada pesa se
realizaron 10 mediciones. Se
calcularon los errores de masa
convencional (mg) promedio y las
desviaciones estándar para los datos
obtenidos en cada pesa.
DATOS OBTENIDOS MEDICIÓN PESAS
Observe que:
Muestra 1 Muestra 2 Muestra 3 Las unidades de medición de las
Pesa 200 mg Pesa 200 g Pesa 1 kg indicaciones difieren (mg, g y kg).

𝒏 = 𝟏𝟎 𝒏 = 𝟏𝟎 𝒏 = 𝟏𝟎 Los valores centrales de las indicaciones


son distintos (200 mg, 200 g y 1 kg).
𝑿 = 0.09 mg 𝑿 = 0.21 mg 𝑿 = 1.8 mg
Por tanto para comparar las dispersiones de
los tres conjuntos de datos se comparan los
CV:
𝑺 = 0.03 mg 𝑺 = 0.03 mg 𝑺 = 0.11 mg

Muestra 1 Muestra 2 Muestra 3


Pesa 200 mg Pesa 200 g Pesa 1 kg
Los datos con menor variabilidad son los
𝑪𝑽 = 𝟑𝟑. 𝟑% 𝑪𝑽 = 𝟏𝟒. 𝟐𝟗% 𝑪𝑽 = 𝟔. 𝟏𝟏% obtenidos en la muestra 3 (Pesa 1 kg)
Ejercicios 9
a. Diligencie la siguiente tabla para cada uno de los conjuntos de datos dados en los
ejemplos anteriores
Datos 1 Datos 1
Estadístico Datos 2 Datos 3 Datos 4
(Masa) (Volumen)
Varianza 𝒔𝟐
Desviación Estándar 𝒔
Coeficiente de variación 𝑪𝑽

b. Determine entre los conjuntos de datos 1(masa) y datos 1 (volumen) y entre los
conjuntos 3 y 4 ¿Cuál presenta mayor dispersión?:

También podría gustarte