Está en la página 1de 62

Métodos estadísticos

IAEN
• Herramientas para mejorar
nuestro conocimiento de la
¿Qué vamos a realidad, mediante el análisis de
los datos
estudiar?
• Población → Conjunto de
individuos/ítems en el que estamos
interesados (TODOS).
• Parámetro de interés → Característica
de la población que se desea estudiar
(objetivo del estudio)
Conceptos • Variable o atributo → Medida o
iniciales característica en cada individuo que
nos da información sobre el parámetro
de interés
• Muestra → Conjunto de individuos de
la población para los que se observa la
variable de interés
Ejemplo:

• Un centro comercial dispone de un parqueadero para sus clientes y desean conocer el tiempo medio (en horas) de permanencia. Los
siguientes datos hacen referencia al número de horas que permanecen en el parqueadero una serie de autos:
• 4 6 6 2 8 6 3 4 2 5 5 2 4 3 6 5 3 5 3 3 4 5 3 2 4 1 5

• Población:
• Individuo:
• Parámetro de interés:
• Variable:
• Muestra:
• Una variable es una característica
observable que toma diferentes valores
entre diferentes individuos de una
población.
Tipos de • La información que disponemos de
variables cada individuo de la muestra se resume
en las variables observadas.
Consideremos como población los
individuos que estudian en el IAEN,
variables asociadas a cada individuo
podrían ser:
Grupo sanguíneo : A, B, AB, O.
Tipos de Número de hijos : {0,1,2,3,...}.
Sexo : M, H.
variables Nivel de estudios : superior, posgrado.
Profesión: Ingeniero, arquitecto,
abogado…
Etc.
• Cualitativas o categóricas
• Sexo {M, H}
• Grupo sanguíneo {A, AB, B, 0}
• Escala de preferencias {malo, regular, bueno}
• Cuantitativas o numéricas
Variables • Discretas

cualitativas y • Número de hijos


• Número de convocatorias hasta aprobado
cuantitativas • Número de vuelos con retraso
• Continuas
• Peso
• Temperatura
• Edad
• Tiempo de vida
• Cualitativas o categóricas
• Las variables cualitativas son aquellas
que expresan características o
cualidades, y no pueden ser medidas con
números.
Variables • Cuantitativas o numéricas

cualitativas y • Por otro lado, las variables


cuantitativas, son aquellas que
cuantitativas se expresan mediante un número.
• Se dice que una variable cuantitativa
es discreta cuando no puede tomar ningún
valor entre dos consecutivos.
• Y que es continua cuando puede tomar
cualquier valor dentro de un intervalo.
• Hay situaciones en las que todos los
individuos de la población se
comportan igual: Situaciones
deterministas
• Por ejemplo: Leyes del movimiento en
física (d = v t)
Introducción a la •
incertidumbre • En otras situaciones existe variabilidad
en la población.
• No todos los individuos responden
igual.
• Los resultados de un experimento no
son perfectamente predecibles
• Al obtener una muestra no observamos
a toda la población, NO tenemos
información perfecta → Existe
incertidumbre

Introducción • Las muestras que podríamos observar


a la pueden ser muy variables.

incertidumbre • Los resultados observados también

• La estadística proporciona
herramientas para trabajar en
ambiente de incertidumbre
Consideremos una cierta población ficticia
constituida por 100 personas (por ejemplo, 100
estudiantes) de la que queremos conocer la
proporción π de fumadores.

Ejemplo:
• Diseño del experimento
Estudio sobre • ¿Cómo obtengo la muestra? (Muestreo)

fumadores •

¿Qué tamaño debe tener la muestra?
¿Qué información debo obtener de cada
individuo de la muestra? (variables y sus
valores)
• … Todas las decisiones a las preguntas
anteriores tienen que servir para cumplir los
objetivos del estudio
• Supongamos que en nuestro ejemplo a
cada uno de los 100 individuos, le
asignamos un número de
identificación.
• Para elegir una muestra, digamos de
Ejemplo: tamaño 5, elegimos al azar 5 de los
números de identificación.
Estudio sobre • Forma sencilla de hacerlo: Papeles en
fumadores un sombrero.
• Forma científica de hacerlo: Utilización
de números aleatorios.
• En Excel: ALEATORIO.ENTRE (inf;sup)
• Supongamos que en nuestro ejemplo a
cada uno de los 100 individuos, le
asignamos un número de
identificación.
• Para elegir una muestra, digamos de
Ejemplo: tamaño 5, elegimos al azar 5 de los
números de identificación.
Estudio sobre • Forma sencilla de hacerlo: Papeles en
fumadores un sombrero.
• Forma científica de hacerlo: Utilización
de números aleatorios.
• En Excel: ALEATORIO.ENTRE (inf;sup)
• Un investigador determina la muestra
que ha de observar ejecutando esa
orden y obtiene los cinco números:

• Individuos en la Muestra1: 53,31,80,21y38


Ejemplo:
Estudio sobre • Un segundo investigador está
haciendo un estudio en paralelo y,
fumadores como en la elección de la muestra
interviene el azar, obtiene otros cinco
números distintos:

• Individuos en la Muestra2:10,34,61,16y84
Ejemplo: Estudio sobre fumadores

• En azul están presentados los


individuos de la muestra 1
• 21 31 38 53 80
• En verde están presentados los
individuos de la muestra 2
• 10 16 34 61 84
• En la muestra 1 :

Ejemplo:
Estudio sobre
• En la muestra 2
fumadores
• Muestras diferentes suelen
proporcionar distintas estimaciones de
una misma característica poblacional.
• Los dos investigadores obtienen
resultados distintos pero, ¿son
Ejemplo: incompatibles sus conclusiones?

Estudio sobre
• Para extraer conclusiones se necesitan
fumadores técnicas que tengan en cuenta la
variabilidad y el azar

• La estadística proporciona esas


técnicas
• Todas las formulas que se van a
estudiar las puede encontrar en el
siguiente link:
Información
importante • http://es.excelfunctions.eu/
• La organización de los datos constituye la
primera etapa de su tratamiento, puesto que
facilita los cálculos posteriores y evita
posibles confusiones.
• La organización va a depender del número
de observaciones distintas que se tengan y
Distribuciones de las veces que se repitan cada una de ellas.
En base a lo anterior, se pueden estructurar

de frecuencias los datos de maneras diferentes.


• Cuando se tiene un gran número de
observaciones, pero muy pocas distintas, se
pueden organizar en una tabla de
frecuencias, es decir, cada uno de los valores
acompañado de la frecuencia (también
llamada frecuencia absoluta) con la que
aparece.
Ejercicio 1

• Dados los datos del archivo de ejercicios #1 en la pestaña grupo sanguíneo, generar la tabla
y el grafico de frecuencias.

• Frecuencia absoluta: el número de veces que aparece un valor.


• Frecuencia relativa: el resultado de dividir la frecuencia absoluta de un determinado valor
entre el número total de datos
Ejercicio 2

• Dados los datos del archivo de ejercicios #1 en la pestaña incendios, generar la tabla y el
grafico de frecuencias.

• Frecuencia absoluta: el número de veces que aparece un valor.


• Frecuencia relativa: el resultado de dividir la frecuencia absoluta de un determinado valor
entre el número total de datos
• Frecuencia absoluta: es la cantidad de veces que
aparece el valor en el estudio. La sumatoria de las
frecuencias absolutas es igual al número de datos.
• Frecuencia acumulada: es el acumulado o suma de las
frecuencias absolutas, indica cuantos datos se van
contando hasta ese momento o cuántos datos se van
reportando.
• Frecuencia relativa: es la fracción o proporción de
elementos que pertenecen a una clase o categoría. Se
calcula dividiendo la frecuencia absoluta entre el
número de datos del estudio.
Tipos de • Frecuencia relativa acumulada: es la proporción de
datos respecto al total que se han reportado hasta ese
frecuencias. momento. Es la suma de las frecuencias relativas, y se
puede calcular también dividiendo la frecuencia
acumulada entre el número de datos del estudio.
• Frecuencia porcentual: es el porcentaje de elementos
que pertenecen a una clase o categoría. Se puede
calcular rápidamente multiplicando la frecuencia
relativa por 100%.
• Frecuencia porcentual acumulada: es el porcentaje de
datos respecto al total que se han reportado hasta ese
momento. Se puede calcular rápidamente
multiplicando la frecuencia relativa acumulada por
100%.
• La distribución de frecuencias
agrupadas o tabla con
datos agrupados se emplea si las
variables toman un número
Tipos de grande de valores o la variable es
continua.
frecuencias. • Se agrupan los valores en
intervalos que tengan la misma
amplitud denominados clases.
Ejercicio 3

• Resistencia a la tensión de 80 piezas de aleación aluminio-litio


Ejercicio 3

• Cuando el número de categorías es muy grande, las variables discretas


pueden tratarse como si fuesen continuas.
• ¿Qué quiere decir que las variables son continuas? Que dentro de un
intervalo de valores la variable puede tomar cualquier valor.
• ¿Cómo resolvemos estos ejercicios?
Ejercicio 3

1. Encontramos el máximo y el mínimo.


2. Calculamos-decidimos el número de intervalos.
3. Definimos la amplitud de los intervalos
4. Elaboramos la tabla de limites superior e inferior de cada intervalo.
5. Calculamos la frecuencia de cada intervalo
Ejercicio 3

1. Encontramos el máximo y el mínimo.


• =MAX(A1:A80) (en la celda D2)
• =MIN(A1:A80) (en la celda D3)

2. Calculamos-decidimos el número de intervalos.


• Se puede generar de cualquier forma, no hay un estándar definido. Un ejemplo puede ser calculando la raíz
cuadrada del total de la muestra. En este caso tenemos 80 datos y su raíz la hemos aproximado 9. Por lo
tanto será 9 el numero de intervalos.
3. Definimos la amplitud de los intervalos,
• Calculamos la amplitud del intervalo mediante la resta del máximo y el mínimo, y ese valor lo dividimos
entre el numero de intervalos que hemos calculado-determinado.
• =(D2-D3)/D4 (en la celda D5)
Ejercicio 3

4. Elaboramos la tabla de limites 5. Calculamos la frecuencia de cada intervalo.


superior e inferior de cada Tabla de frecuencias agrupadas
intervalo. I1 76-96 2
limite inferior limite superior I2 96-116 5
76 96
I3 116-136 10
96 116
I4 136-156 14
116 136
I5 156-176 23
136 156
156 176 I6176-196 13

176 196 I7 196-216 7


196 216 I8 216-236 4
216 236 I9 236-256 2
• =COUNTIFS($A$1:$A$80;">=76";$A$1:$A$80;"<96" )
236 256
• =COUNTIFS($A$1:$A$80;">=96";$A$1:$A$80;"<116" )
• …
• =COUNTIFS($A$1:$A$80;">=236";$A$1:$A$80;"<256" )
Descripción • Medidas de tendencia central
numérica de • Medidas de dispersión
una muestra
• Medidas de tendencia central

Son medidas estadísticas que


Descripción pretenden resumir en un solo valor
a un conjunto de valores.
numérica de Representan un centro en torno al
cual se encuentra ubicado el
una muestra conjunto de los datos.
Las medidas de tendencia central
más utilizadas
son: media, mediana y moda. 
• Media:
• La medida de tendencia central
más conocida y utilizada es la
Medidas de media aritmética o promedio
tendencia aritmético. Se representa por la
letra griega µ cuando se trata del
central promedio del universo o
población y por Ȳ (léase Y barra)
cuando se trata del promedio de
la muestra. 
• Mediana:
• La mediana es el valor de la
variable que ocupa la posición
central, cuando los datos se
disponen en orden de magnitud.
Medidas de • Es decir, el 50% de las
tendencia observaciones tiene valores
iguales o inferiores a la mediana y
central el otro 50% tiene valores iguales
o superiores a la mediana.
• X1 X2 X3 X4 X5

• X1 X2 X3 X4 : (X2 + X3 )/2
Ejemplo

 Muestra : 175, 164, 188, 176, 167, 158, 162, 182


x1 x2 x3 x4 x5 x6 x7
n=8 x8

 Media: 1 x1 ... xnn = 171.5


x  n x 

(media : centro de gravedad)

 Mediana:
Muestra ordenada: 158, 162, 164, 167, 175, 176,
182, 188
n=8 (par)
Posición de la mediana: (n+1)/2=4.5
Mediana= 167 175 =171
2
• Moda
La moda de una distribución se
define como el valor de la
Medidas de variable que más se repite. En un
tendencia polígono de frecuencia la moda
corresponde al valor de la
central variable que está bajo el punto
más alto del gráfico. Una muestra
puede tener más de una moda.
Medidas de
tendencia
central
• La media se calcula usando la siguiente
fórmula:

Media, mediana
y moda para
datos agrupados
en intervalos
• La mediana se calcula usando la
siguiendo los siguientes pasos:

Media, mediana • Encontrar el intervalo en el que se


encuentra la mediana usando la fórmula:
y moda para
datos agrupados
en intervalos • Usar la fórmula de la mediana:
Donde:

Li: límite inferior del intervalo en el cual


se encuentra la mediana.
Media, mediana n: número de datos del estudio. Es la
y moda para sumatoria de las frecuencias absolutas.
Fi-1: frecuencia acumulada del intervalo
datos agrupados anterior al que se encuentra la mediana.
en intervalos Ai: amplitud del intervalo en el que se
encuentra la mediana.
fi: frecuencia absoluta del intervalo en el
que se encuentra la mediana.
• Este valor, lo buscamos en la columna
de frecuencias acumuladas.
• Si no aparece, buscamos el valor que
Media, mediana sigue. Como vemos, después del 11
sigue el 14, por lo tanto, la mediana se
y moda para ubica en el intervalo 3.

datos agrupados
en intervalos
• Y aplicamos la formula:

Media, mediana
y moda para
datos agrupados
en intervalos
• Para calcular la moda, se siguen los
siguientes pasos:

• Encontrar el intervalo en el cual se


Media, mediana encuentra la moda, que es el intervalo
y moda para con mayor frecuencia absoluta.
• Usar la siguiente fórmula para estimar
datos agrupados el valor de la moda:
en intervalos
• Donde:

• Li: límite inferior del intervalo en el


cual se encuentra la moda.
Media, mediana • fi-1: frecuencia absoluta del intervalo
y moda para anterior en el que se encuentra la moda.
• fi: frecuencia absoluta del intervalo en
datos agrupados el que se encuentra la moda.
en intervalos • fi+1: frecuencia absoluta del intervalo
siguiente en el que se encuentra la
moda.
• Ai: amplitud del intervalo en el que se
encuentra la moda.
Media, mediana
y moda para
datos agrupados • Aplicamos la formula:

en intervalos
• Percentiles:
• El percentil es una medida de posición
usada en estadística que indica, una
vez ordenados los datos de menor a
mayor, el valor de la variable por
Medidas de debajo del cual se encuentra un
porcentaje dado de observaciones en
tendencia un grupo. Por ejemplo, el percentil 20.º
es el valor bajo el cual se encuentran el
central 20 por ciento de las observaciones.
• Se representan con la letra P. Para el
percentil i-ésimo, donde la i toma
valores del 1 al 99. El i% de la muestra
son valores menores que él y el 100-i%
restante son mayores.
• Cuartiles
• Q1 = valor en la posición (n+1)/4 (deja
Medidas de por debajo el 25% de la muestra)
• Q2 = mediana
tendencia • Q3 = valor en la posición 3(n+1)/4 (deja
central por debajo el 75% de la muestra)
• n= número de elementos de la
muestra.
Medidas de
tendencia
central
• En primer lugar buscamos la clase donde
se encuentra dentro de la tabla de las
frecuencias acumuladas.

Medidas de
tendencia
central • Li: es el límite inferior de la clase donde
se encuentra el percentil
• N: es la suma de las frecuencias absolutas
• Fi: es la frecuencia acumulada anterior a
la clase del percentil
• Ai: es la amplitud de la clase
• Calculo del percentil 5:
• Buscamos el intervalo donde se
encuentra este percentil resolviendo:
• (5x80)/100=4
• Buscamos ese valor dentro de la
Medidas de columna de frecuencias acumuladas.
Frecuencia
absoluta
Frecuencia
Acumulada

tendencia I1 76-96
I2 96-116
I3 116-136
2
5
10
2
7
17

central I4 136-156
I5 156-176
I6176-196
14
23
13
31
54
67
I7 196-216 7 74
I8 216-236 4 78
I9 236-256 2 80

• Este valor lo ubicamos dentro del


segundo intervalo.
• Aplicamos la formula:
• Donde:
Frecuencia Frecuencia
• Li: 96 absoluta Acumulada

Medidas de • k: 5
I1 76-96
I2 96-116
I3 116-136
2
5
10
2
7
17

tendencia •

n: 80
Fi-1: 2
I4 136-156
I5 156-176
I6176-196
14
23
13
31
54
67

central • fi: 5
I7 196-216
I8 216-236
I9 236-256
7
4
2
74
78
80

• Ai: 20

• Percentil 5=
• Una vez localizado el centro de la distribución
de un conjunto de datos, lo que procede es
buscar una medida de dispersión de los datos.

• La dispersión o variación es una característica


importante de un conjunto de datos porque
Medidas de intenta dar una idea de cuán esparcidos se
encuentran éstos.
dispersión
• Existen diversas medidas de dispersión,
algunas de ellas son:
• Rango
• Desviación estándar
• Varianza
• Rango = Diferencia entre los valores máximo y
mínimo.

• Desviación estándar: Nos indica qué tan


Medidas de dispersos están los datos con respecto a la
media. Mientras mayor sea la desviación
dispersión estándar, mayor será la dispersión de los datos.

• Varianza: La varianza mide qué tan dispersos


están los datos alrededor de la media. La
varianza es igual a la desviación estándar
elevada al cuadrado.
Medidas de dispersión
• Desviación estándar:
• Tiempos de egreso de un hospital
• Considere el ejemplo siguiente. Los
administradores dan seguimiento al tiempo de
egreso de los pacientes tratados en las áreas de
urgencia de dos hospitales. Aunque los tiempos
de egreso promedio son aproximadamente
iguales (35 minutos), las desviaciones estándar
son significativamente diferentes. La desviación
estándar del hospital 1 es de aproximadamente
6. En promedio, el tiempo para dar de alta a un
paciente se desvía de la media (línea
discontinua) aproximadamente 6 minutos. La
desviación estándar del hospital 2 es de
aproximadamente 20. En promedio, el tiempo
para dar de alta a un paciente se desvía de la
media (línea discontinua) aproximadamente 20
minutos.
Medidas de dispersión
• Una fábrica produce clavos para carpintería que
miden 50 mm de largo y un clavo cumple con las
especificaciones si su longitud no difiere en más
de 2 mm del valor objetivo de 50 mm. La fábrica
utiliza dos tipos de máquina para producir los
clavos. Ambas máquinas producen clavos con
longitudes distribuidas normalmente y una
longitud media de 50 mm. Sin embargo, los
clavos de cada máquina tienen varianzas
diferentes: la máquina A, con la distribución de
línea continua en la siguiente figura, produce
clavos con una varianza de 9 mm2, mientras que
la máquina B, con la distribución de la línea de
puntos en la siguiente figura, produce clavos con
una varianza de 1 mm2. Las distribuciones de la
longitud de los clavos para cada máquina están
superpuestas, junto con los límites de
especificación verticales inferior y superior:
Medidas de dispersión

• Distribuciones de la longitud de
los clavos
• La longitud de los clavos de la
máquina A tiene una variación
mayor que la longitud de los
clavos de la máquina B. Por lo
tanto, cualquier clavo en
particular de la máquina A tiene
una mayor probabilidad de estar
fuera de los límites de
especificación que un clavo de la
máquina B.
• =VAR(A1:A80)
Medidas de • =STDEVA(A1:A80)
dispersión • =DESVESTA((A1:A80)
• Varianza y desviación estándar para población y muestra.
Medidas de
• El factor (n-1) de la formula ocupada en la muestra se debe a la corrección
dispersión de Bessel, y es introducido para disminuir el sesgo en los cálculos.
• Donde:
• k: número de clases.
• fi: frecuencia absoluta de cada clase, es
decir, el número de elementos que
pertenecen a dicha clase.
• xi: marca de clase. Es el punto medio del
Medidas de límite inferior y del límite superior.
dispersión • σ2: varianza de la población.
• σ: desviación estándar de la población.
• μ: media de la población.
• s2: varianza de la muestra.
• s: desviación estándar de la muestra.
• x:̄  media de la muestra.
• El coeficiente de variación, es una
medida estadística que nos informa
acerca de la dispersión relativa de un
Coeficiente conjunto de datos. Su cálculo se obtiene
de dividir la desviación típica entre el
de variación valor absoluto de la media del conjunto
y por lo general se expresa en
de Spearman porcentaje para su mejor comprensión.

s
CV  x
Los siguientes datos son una muestra de la
tasa de producción por día de una fábrica.
Los datos son:
• 17, 18, 21, 27, 21, 17, 22, 22, 20, 23, 18

El jefe de producción siente que una


Ejercicio 4 desviación estándar mayor a 3 unidades
por día indica variaciones de tasas de
producción inaceptables.

•¿Debe preocuparse por la tasa de


producción de la fábrica?
• Con los datos presentados en la pestaña
Resistencia 2 generar:
• Tabla de distribución de frecuencias
• Medidas de tendencia central
• Medidas de dispersión
Ejercicio 5
Ejercicio 6
1.Calcula los estadísticos descriptivos de la
esperanza de vida al nacer para hombre y
para mujeres

Ejercicio 6 2.Representa gráficamente la variable PIB


para los países del grupo 3

También podría gustarte