Documentos de Académico
Documentos de Profesional
Documentos de Cultura
IAEN
• Herramientas para mejorar
nuestro conocimiento de la
¿Qué vamos a realidad, mediante el análisis de
los datos
estudiar?
• Población → Conjunto de
individuos/ítems en el que estamos
interesados (TODOS).
• Parámetro de interés → Característica
de la población que se desea estudiar
(objetivo del estudio)
Conceptos • Variable o atributo → Medida o
iniciales característica en cada individuo que
nos da información sobre el parámetro
de interés
• Muestra → Conjunto de individuos de
la población para los que se observa la
variable de interés
Ejemplo:
• Un centro comercial dispone de un parqueadero para sus clientes y desean conocer el tiempo medio (en horas) de permanencia. Los
siguientes datos hacen referencia al número de horas que permanecen en el parqueadero una serie de autos:
• 4 6 6 2 8 6 3 4 2 5 5 2 4 3 6 5 3 5 3 3 4 5 3 2 4 1 5
• Población:
• Individuo:
• Parámetro de interés:
• Variable:
• Muestra:
• Una variable es una característica
observable que toma diferentes valores
entre diferentes individuos de una
población.
Tipos de • La información que disponemos de
variables cada individuo de la muestra se resume
en las variables observadas.
Consideremos como población los
individuos que estudian en el IAEN,
variables asociadas a cada individuo
podrían ser:
Grupo sanguíneo : A, B, AB, O.
Tipos de Número de hijos : {0,1,2,3,...}.
Sexo : M, H.
variables Nivel de estudios : superior, posgrado.
Profesión: Ingeniero, arquitecto,
abogado…
Etc.
• Cualitativas o categóricas
• Sexo {M, H}
• Grupo sanguíneo {A, AB, B, 0}
• Escala de preferencias {malo, regular, bueno}
• Cuantitativas o numéricas
Variables • Discretas
• La estadística proporciona
herramientas para trabajar en
ambiente de incertidumbre
Consideremos una cierta población ficticia
constituida por 100 personas (por ejemplo, 100
estudiantes) de la que queremos conocer la
proporción π de fumadores.
Ejemplo:
• Diseño del experimento
Estudio sobre • ¿Cómo obtengo la muestra? (Muestreo)
fumadores •
•
¿Qué tamaño debe tener la muestra?
¿Qué información debo obtener de cada
individuo de la muestra? (variables y sus
valores)
• … Todas las decisiones a las preguntas
anteriores tienen que servir para cumplir los
objetivos del estudio
• Supongamos que en nuestro ejemplo a
cada uno de los 100 individuos, le
asignamos un número de
identificación.
• Para elegir una muestra, digamos de
Ejemplo: tamaño 5, elegimos al azar 5 de los
números de identificación.
Estudio sobre • Forma sencilla de hacerlo: Papeles en
fumadores un sombrero.
• Forma científica de hacerlo: Utilización
de números aleatorios.
• En Excel: ALEATORIO.ENTRE (inf;sup)
• Supongamos que en nuestro ejemplo a
cada uno de los 100 individuos, le
asignamos un número de
identificación.
• Para elegir una muestra, digamos de
Ejemplo: tamaño 5, elegimos al azar 5 de los
números de identificación.
Estudio sobre • Forma sencilla de hacerlo: Papeles en
fumadores un sombrero.
• Forma científica de hacerlo: Utilización
de números aleatorios.
• En Excel: ALEATORIO.ENTRE (inf;sup)
• Un investigador determina la muestra
que ha de observar ejecutando esa
orden y obtiene los cinco números:
• Individuos en la Muestra2:10,34,61,16y84
Ejemplo: Estudio sobre fumadores
Ejemplo:
Estudio sobre
• En la muestra 2
fumadores
• Muestras diferentes suelen
proporcionar distintas estimaciones de
una misma característica poblacional.
• Los dos investigadores obtienen
resultados distintos pero, ¿son
Ejemplo: incompatibles sus conclusiones?
Estudio sobre
• Para extraer conclusiones se necesitan
fumadores técnicas que tengan en cuenta la
variabilidad y el azar
• Dados los datos del archivo de ejercicios #1 en la pestaña grupo sanguíneo, generar la tabla
y el grafico de frecuencias.
• Dados los datos del archivo de ejercicios #1 en la pestaña incendios, generar la tabla y el
grafico de frecuencias.
• X1 X2 X3 X4 : (X2 + X3 )/2
Ejemplo
Mediana:
Muestra ordenada: 158, 162, 164, 167, 175, 176,
182, 188
n=8 (par)
Posición de la mediana: (n+1)/2=4.5
Mediana= 167 175 =171
2
• Moda
La moda de una distribución se
define como el valor de la
Medidas de variable que más se repite. En un
tendencia polígono de frecuencia la moda
corresponde al valor de la
central variable que está bajo el punto
más alto del gráfico. Una muestra
puede tener más de una moda.
Medidas de
tendencia
central
• La media se calcula usando la siguiente
fórmula:
Media, mediana
y moda para
datos agrupados
en intervalos
• La mediana se calcula usando la
siguiendo los siguientes pasos:
datos agrupados
en intervalos
• Y aplicamos la formula:
Media, mediana
y moda para
datos agrupados
en intervalos
• Para calcular la moda, se siguen los
siguientes pasos:
en intervalos
• Percentiles:
• El percentil es una medida de posición
usada en estadística que indica, una
vez ordenados los datos de menor a
mayor, el valor de la variable por
Medidas de debajo del cual se encuentra un
porcentaje dado de observaciones en
tendencia un grupo. Por ejemplo, el percentil 20.º
es el valor bajo el cual se encuentran el
central 20 por ciento de las observaciones.
• Se representan con la letra P. Para el
percentil i-ésimo, donde la i toma
valores del 1 al 99. El i% de la muestra
son valores menores que él y el 100-i%
restante son mayores.
• Cuartiles
• Q1 = valor en la posición (n+1)/4 (deja
Medidas de por debajo el 25% de la muestra)
• Q2 = mediana
tendencia • Q3 = valor en la posición 3(n+1)/4 (deja
central por debajo el 75% de la muestra)
• n= número de elementos de la
muestra.
Medidas de
tendencia
central
• En primer lugar buscamos la clase donde
se encuentra dentro de la tabla de las
frecuencias acumuladas.
Medidas de
tendencia
central • Li: es el límite inferior de la clase donde
se encuentra el percentil
• N: es la suma de las frecuencias absolutas
• Fi: es la frecuencia acumulada anterior a
la clase del percentil
• Ai: es la amplitud de la clase
• Calculo del percentil 5:
• Buscamos el intervalo donde se
encuentra este percentil resolviendo:
• (5x80)/100=4
• Buscamos ese valor dentro de la
Medidas de columna de frecuencias acumuladas.
Frecuencia
absoluta
Frecuencia
Acumulada
tendencia I1 76-96
I2 96-116
I3 116-136
2
5
10
2
7
17
central I4 136-156
I5 156-176
I6176-196
14
23
13
31
54
67
I7 196-216 7 74
I8 216-236 4 78
I9 236-256 2 80
Medidas de • k: 5
I1 76-96
I2 96-116
I3 116-136
2
5
10
2
7
17
tendencia •
•
n: 80
Fi-1: 2
I4 136-156
I5 156-176
I6176-196
14
23
13
31
54
67
central • fi: 5
I7 196-216
I8 216-236
I9 236-256
7
4
2
74
78
80
• Ai: 20
• Percentil 5=
• Una vez localizado el centro de la distribución
de un conjunto de datos, lo que procede es
buscar una medida de dispersión de los datos.
• Distribuciones de la longitud de
los clavos
• La longitud de los clavos de la
máquina A tiene una variación
mayor que la longitud de los
clavos de la máquina B. Por lo
tanto, cualquier clavo en
particular de la máquina A tiene
una mayor probabilidad de estar
fuera de los límites de
especificación que un clavo de la
máquina B.
• =VAR(A1:A80)
Medidas de • =STDEVA(A1:A80)
dispersión • =DESVESTA((A1:A80)
• Varianza y desviación estándar para población y muestra.
Medidas de
• El factor (n-1) de la formula ocupada en la muestra se debe a la corrección
dispersión de Bessel, y es introducido para disminuir el sesgo en los cálculos.
• Donde:
• k: número de clases.
• fi: frecuencia absoluta de cada clase, es
decir, el número de elementos que
pertenecen a dicha clase.
• xi: marca de clase. Es el punto medio del
Medidas de límite inferior y del límite superior.
dispersión • σ2: varianza de la población.
• σ: desviación estándar de la población.
• μ: media de la población.
• s2: varianza de la muestra.
• s: desviación estándar de la muestra.
• x:̄ media de la muestra.
• El coeficiente de variación, es una
medida estadística que nos informa
acerca de la dispersión relativa de un
Coeficiente conjunto de datos. Su cálculo se obtiene
de dividir la desviación típica entre el
de variación valor absoluto de la media del conjunto
y por lo general se expresa en
de Spearman porcentaje para su mejor comprensión.
s
CV x
Los siguientes datos son una muestra de la
tasa de producción por día de una fábrica.
Los datos son:
• 17, 18, 21, 27, 21, 17, 22, 22, 20, 23, 18