Documentos de Académico
Documentos de Profesional
Documentos de Cultura
EXPERIMENTACIÓN
Repaso Estadística Básica
Prof. Oscar Tinoco Gómez
1
2
A. VISION PANORÁMICA DE
LA ESTADÍSTICA
3
Qué es Estadística?
Disciplina científica orientada al tratamiento de los datos que
proceden de la observación de fenómenos colectivos
(demográficos, económicos, sanitarios, entre otros), para
convertirlos en información que permita tomar algún nivel de
decisión.
Estadística Descriptiva
¿QUÉ TIPO DE PROBLEMAS ESTUDIA LA ESTADÍSTICA?
Situaciones deterministas y aleatorias
Estadística Descriptiva
¿QUÉ TIPO DE PROBLEMAS ESTUDIA LA ESTADÍSTICA?
Situaciones deterministas y aleatorias
Estadística Descriptiva
¿QUÉ TIPO DE PROBLEMAS ESTUDIA LA ESTADÍSTICA?
Situaciones deterministas y aleatorias
Para los fenómenos determinísticos es posible encontrar leyes que
expliquen la aparición de los resultados dado un conjunto de
condiciones iniciales a la realización del experimento.
Para los fenómenos aleatorios o estocásticos es necesario
especificar en el modelo, de alguna forma, la incertidumbre de la
aparición de los resultados.
EL CÁLCULO DE PROBABILIDADES Y LA
ESTADÍSTICA MATEMÁTICA SON LAS CIENCIAS
QUE ESTUDIAN LOS FENÓMENOS ALEATORIOS.
7
Estadística Descriptiva
¿QUÉ TIPO DE PROBLEMAS ESTUDIA LA ESTADÍSTICA?
Situaciones deterministas y aleatorias
MODELO MATEMÁTICO:
Uso de frecuencias. El concepto de probabilidad.
Estadística Descriptiva
¿QUÉ TIPO DE PROBLEMAS ESTUDIA LA ESTADÍSTICA?
Situaciones deterministas y aleatorias
Estadística Descriptiva
¿QUÉ TIPO DE PROBLEMAS ESTUDIA LA ESTADÍSTICA?
Situaciones deterministas y aleatorias
En la ciudad de Lima se ha realizado un estudio de las
características antropométricas en un conjunto de
alumnos pertenecientes a diversos colegios. De cada
alumno se han recogido las siguientes características:
peso, talla, cantidad de grasa en los pliegues cutáneos
del bíceps, tríceps, subescapular, suprailíaco, abdomen y
muslo, sexo y edad.
Estadística Descriptiva
¿QUÉ TIPO DE PROBLEMAS ESTUDIA LA ESTADÍSTICA?
Situaciones deterministas y aleatorias
• Análisis de muestras.
Para la obtención del perfil antropométrico de un
conjunto de jóvenes limeños se ha seleccionado un
subconjunto de los mismos que se considera una muestra
representativa de la población de referencia.
Estadística Descriptiva
¿CÓMO SE RESUELVE UN PROBLEMA UTILIZANDO
LA ESTADÍSTICA?
Estadística Descriptiva
¿CÓMO SE RESUELVE UN PROBLEMA UTILIZANDO
LA ESTADÍSTICA?
La recogida de datos consiste en la planificación y el diseño del
experimento. Es un paso fundamental para el éxito del mismo.
17
Estadística Descriptiva
¿CÓMO SE RESUELVE UN PROBLEMA UTILIZANDO
LA ESTADÍSTICA?
La descripción consiste en utilización de herramientas que
permitan resumir la información contenida en la medición de
cada uno de los individuos. Este primer paso del análisis
estadístico se denomina también análisis exploratorio de los
datos.
Se puede detectar la existencia de individuos atípicos
en algunas de las características (por ejemplo, son
más delgados o más altos de lo normal). Además, se
deduce que las mujeres tienen más grasa en el muslo,
mientras que los hombres tienen más en el abdomen.
ESTADÍSTICA 18DESCRIPTIVA
Estadística Descriptiva
¿CÓMO SE RESUELVE UN PROBLEMA UTILIZANDO
LA ESTADÍSTICA?
El análisis o construcción del modelo consiste en encontrar una
ley que explique tanto la parte sistemática o previsible del
fenómeno en estudio como la parte aleatoria del mismo.
Del estudio de la relación entre el peso y la altura, se
deduce que se podría explicar mediante una relación
lineal: Peso = + ·Altura + donde
• + ·Altura representa la parte sistemática que
indica un crecimiento lineal del peso al aumentar la
altura y
• recoge el efecto de las variables no consideradas
en el modelo.
19
Estadística Descriptiva
¿CÓMO SE RESUELVE UN PROBLEMA UTILIZANDO
LA ESTADÍSTICA?
La estimación consiste en utilizar la información disponible
(datos y/o posible información a priori) para obtener las
constantes de las que depende el modelo y cuantificar el error que
se comete. El contraste de hipótesis consiste en comparar los
valores estimados con otros fijados a priori.
Estadística Descriptiva
¿CÓMO SE RESUELVE UN PROBLEMA UTILIZANDO
LA ESTADÍSTICA?
La validación consiste en determinar si existe compatibilidad
entre la información empírica y el modelo. Si nuevos datos se
ajustan bien al modelo, si la parte aleatoria lo es realmente, etc.
La predicción y el uso del modelo
¿Cuál es el peso de un estudiante que mide 170 cm?
Peso = + ·170
21
Estadística Descriptiva
¿QUÉ SE OBSERVA?
Estadística Descriptiva
¿QUÉ SE OBSERVA?
Estadística Descriptiva
APLICACIONES DE LA ESTADÍSTICA
• Marketing
• Control de calidad
• Estudios sociológicos y de opinión
• Planificación y producción de empresas
• Investigación en Ingeniería
• Estudios de mercado
•Estudios económicos
• Diseño de Experimentos (DOE).
24
• Deportes.
Estadística Descriptiva
PASOS PREVIOS A LA REALIZACIÓN DE UN
ESTUDIO ESTADÍSTICO
•Planteamiento del problema.
Estudio de las características de los empleados de banca.
•Elección de la población.
Empleados de un banco.
•Elección de las características o variables.
Sexo,raza edad, categoría laboral, nivel educativo, salario
inicial y final,antigüedad y experiencia.
25
Estadística Descriptiva
PASOS PREVIOS A LA REALIZACIÓN DE UN
ESTUDIO ESTADÍSTICO
•Recogida de los datos.
26
Estadística Descriptiva
ESTUDIO UNIDIMENSIONAL:
ORDENACIÓN DE LOS DATOS
a d
c
c
mue
e• Tablas de frecuencias
e
u
,7
99V
O
,6
7
e6G
,7
73A
e n
,1
69P
m
ue u
e n
8
4
4,2
87
V
VA
6
6
0,5
1M
7P
4
0,6
3T
0T
4
0T
g r
e d u
ce en
m
u
c
meue
u
en
eu
7
7
7
,,
3V
2
22V
80
8
8
5
,,
02
1314
3
1
5
,,
62
3519
,
,
5
4
963
5
013
,
,
1
5
594
5
318
,
,
0
3
813
8
412
,
,
8
9
799
7
417
,
,77
4
511
2
8
5
,
,24
8 2
4
1
5 527 6
,
,12
02
6
5
06 0
,40T
4
0T o
Estadística Descriptiva
ESTUDIO UNIDIMENSIONAL:
ORDENACIÓN DE LOS DATOS
Salario actual
• Representaciones gráficas 140
120
100
80
60
40
Fre cu e n cia
Técnico
20
Prácticas de Master
0
10
14
18
22
26
30
34
38
42
46
50
54
60
00
00
00
00
00
00
00
00
00
00
00
00
00
Agente libre
0
Prácticas universita Salario actual
Agente de seguridad
Oficinas
Gestión (prácticas) 28
Estadística Descriptiva
ESTUDIO UNIDIMENSIONAL:
CÁLCULO DE ESTADÍSTICOS
• Resumen de los datos a través de medidas estadísticas. Descriptivos
Estadística Descriptiva
ESTUDIO BIDIMENSIONAL
30
Estadística Descriptiva
ESTUDIO BIDIMENSIONAL
Varón Mujer
Nivel educativo
8 12 11 27 3
12 38 24 101 27
14 5 1
15 65 18 25 8
16 30 5 22 2
17 7 3 1
18 8 1
19 26 1
20 2
21 1
31
Estadística Descriptiva
ANÁLISIS DE LA REGRESIÓN
• Búsqueda de las relaciones funcionales entre las
variables. 6 00 00
5 00 00
4 00 00
3 00 00
2 00 00
S a la rio a ctual
1 00 00
0 R² = 0 ,77 4 6
0 1 00 00 2 00 00 3 00 00 4 00 00
Salario inicial
Estadística Descriptiva
33
B. ESTADÍSTICA DESCRIPTIVA
E INFERENCIAL
RESUMEN
PROCESO ESTADÍSTICO
Inicio
PREDICCIONES CAPTACIÓN
MUESTRA ANALIZAR
INFERENCIAS INTERPRETAR
DATOS
¿Qué es la CAPTACIÓN de datos ?
Es el cálculo de MEDIDAS
REPRESENTATIVAS (o de resumen)
tales como promedios, medidas
de variabilidad y medidas de la
forma de la distribución.
Ejemplo :
Unidad de
Características Datos medida
Edad del paciente 27 años
Peso del recién nacido 3,750 Kg.
Tiempo permanencia 5 días
Temperatura corporal 37,5 °C
Profesión Médico nominal
¿Qué es la INFORMACIÓN?
2. CUANTITATIVOS/ NUMÉRICOS
Son expresados numéricamente.
Toman valores aislados.
Pueden ser cualquier área.
Ejm: Número de hijos por familia; peso, talla.
2.1. Datos no agrupados
Son recolectados en forma natural.
Véase Tabla 1.
2.2 Datos acumulados
Se resumen por intervalos.
Véase tabla 2.
Tabla 1:
Datos cuantitativos no agrupados de 40
estudiantes universitarios
Por ejemplo:
Los siguientes datos sobre la edad de 40 estudiantes
del primer año de estudios universitarios.
20,18,19,20,17,18,25,17,18,19,19,21,22,
18,17,23,24,25,21,19,18,25,23,22,18,17,
19,21,20,23,22,19,17,18,18,25,18,19,17,
21.
Tabla 2:
Datos cuantitativos agrupados de 40
estudiantes universitarios
Por ejemplo:
Con los datos del ejemplo anterior, se presenta la distribución de
frecuencias por intervalos.
Diagrama Circular
Tabla de Distribución
Edad N° Estudiantes
11
17 - 19 22 10
9
10
20 - 22 FRECUENCIAS 8
8 7
23 - 25 6
5
Diagrama de 1
0
17-19 20-22 23-25 0
Barras INTERVALOS
TABLAS CRUZADAS
Datos estadísticos de alumnos matriculados,
repitencia y deserción escolar por grado en
educación primaria (2000-2007)
GRADOS
1RO. 2DO. 3RO. 4TO. 5TO. 6TO.
ASPECTOS
REPITENCIA 750 350 350 200 280 250
2
DEFINICIÓN DE TÉRMINOS
1. Unidad de análisis
2. Población
3. Muestra
4. Parámetro
5. Estadístico
6. Variable
7. Escalas de medición
DEFINICIÓN DE TÉRMINOS
1. Unidad de análisis.
Es aquel elemento indivisible del que se obtiene el dato estadístico.
Ejemplo:
* Un alumno matriculado en la Escuela universitaria de post grado
de la UNFV en el 2008.
* Un niño de 5 a 10 años del distrito La Victoria.
2. Población:
Es el conjunto de elementos con alguna característica de interés y
que debe estar delimitado en el espacio y tiempo.
Tiene tantos datos como elementos tenga el marco poblacional.
Ejemplo:
* Alumnos matriculados en la Escuela universitaria de post grado de
la UNFV en el 2008.
* Niños de 5 a 10 años del distrito de La Victoria del 12/04/08.
Población y Muestra
Población
Muestra
3. Muestra.
Media x
aritmética
Varianza 2 s2
Desviación s
Estándar
Proporción
Tamaño N n
4. Parámetro:
Medida estadística que describe una característica de la
población.
Su valor se calcula en base a todas las observaciones
de la población de estudio. Se representa con letra
griega y es un valor fijo para la población de estudio.
5. Estadístico (Estadígrafo):
Medida estadística que describe una característica de la
muestra y cuyo resultado se obtiene usando los datos de
la muestra.
Se representa con letra latina y es variable de muestra a
muestra.
PARÁMETRO ESTADÍSTICO
POBLACIÓN Técnicas MUESTRA
(75 alumnos de la Escuela
(1200 alumnos de la Escuela de post de muestreo
universitaria de post grado de la
grado de la UNMSM)
UNMSM)
Edad
Característica Peso
Cociente
intelectual
sexo
Edad
Peso Cociente
intelectual sexo MUESTRA MUESTRA MUESTRA MUESTRA
m1 m2 m3 mn
75 datos
Registro
de la POBLACIÓN POBLACIÓN POBLACIÓN POBLACIÓN
carac-
terística.
...
P1 P2 P3 Pn
RAMAS DE LA ESTADÍSTICA
• Estadística Descriptiva.- Se ocupa de la obtención y
elaboración de datos con el propósito de presentarlos
en forma concisa, clara y comprensible. Su poder
inferencial es mínimo y debería evitarse tal proceder.
MUESTRA POBLACIÓN
ESTADÍSTICO PARÁMETRO
Estadística
MUESTRA Estadístico: x
Descriptiva
Estadística
POBLACIÓN
Inferencial
N
x
Me
n Inciertos
Mo x
S
2
S2
n
Probablidades
Ciertos
Probabilístico No Probabilístico
Ejercicio 1
Cada uno de los siguientes procesos implica el muestreo de una
población. Definir la población. Es finita o infinita?
a) Se recibe una remesa de tarjetas de memoria de computadoras.
Para verificar si los repuestos están bien, un ingeniero
selecciona 10 tarjetas, una tras una, para probarlos.
b) Un técnico responsable del control de calidad, en una clínica
privada, tiene que calcular el porcentaje de vacunas
defectuosas en determinado día. Para ello toma una muestra de
100 vacunas de todo el lote de las mismas.
c) Un laboratorista clínico toma una muestra de sangre a un
paciente
d) Un dependiente farmacéutico toma una muestra aleatoria de
cierto medicamento para verificar su fecha de vencimiento
EJERCICIOS 2
Una encuesta realizada a los Jefes de RRHH de
un grupo empresarial en Lima Metropolitana
consideró las siguientes preguntas:
En qué empresa laboran
La empresa es pequeña, mediana o grande?
Cuánto tiempo labora en la empresa?
Cuál es el número de trabajadores de la empresa?
C. VARIABLES
VARIABLES
Puede ser:
- Discreta
- Continua
CLASIFICACIÓN DE LAS VARIABLES
DICOTÓMICAS
VARIABLES
CUALITATIVAS
O CATEGÓRICAS
POLITÓMICAS
DICOTÓMICAS POLITÓMICAS
“Cuando tienen dos categorías
“Cuando tienen más de dos
mutuamente excluyentes”
categorías”
Ejm: Género: Masculino(1), femenino(2);
Ejm: Estado civil, estado
Estado de salud: sano, enfermo.
nutricional, grado de instrucción.
DISCRETAS
O ENTERAS
VARIABLES
CUANTITATIVAS
O NUMÉRICAS: CONTINUAS
O REALES
Característica que se expresa
Cuantitativamente o numéricamente.
Puede ser discreta (enteros) o continua (decimales)
DISCRETAS
1 2 3 4 5 6 7 8 9 10
No admite valores intermedios
Ej: Número de hijos por familia, número de consultas en un día, número de palabras de un libro.
Peso
CONTINUAS
50 50.1 50.2 50.3 50.4 50.5 50.6 50.7 50.8 50.9 51
Admite valores intermedios
Ej: Tiempo de duración de una consulta, peso del recién nacido, horas trabajadas.
Población: Niños de 5 a 10 años de edad.
• Variables:
- Peso - Frecuencia respiratoria
- Talla - Género
- Obesidad - Nº de hermanos
- Coeficiente de inteligencia - Lugar de procedencia
• Variables cualitativas:
- Dicotómica: Género, obesidad;
- Politómica: Lugar de procedencia.
• Variables cuantitativas:
- Discretas: Nº de hermanos, frecuencia respiratoria.
- Continuas: Peso, talla, perímetro abdominal.
DATOS
CONSTANTES VARIABLES
CUALITATIVAS CUANTITATIVAS
DISCRETAS CONTINUAS
Ejercicio 1
Situación: Un estudio de 300 hogares en un pequeño pueblo
sureño reveló que 20% tiene al menos un hijo en edad escolar
D. TABLA DE FRECUENCIAS
EL ARTE DE MEDIR
PRACTICAMENTE TODO
PUEDE SER MEDIDO DE
TODAS LAS MANERAS.
EXCEPTO LAS
SITUACIONES
DICOTOMICAS EN LA
NATURALEZA. INSTRUMENTOS
AFIRMACION
PRESENCIA
VIDA
(RECORDAR QUE LA
CIENCIA NO PUEDE
NEGAR) INSTRUMENTOS???!!!
EL ARTE DE MEDIR
DOLOR “NOMINAL”: PRECORDIAL - ABDOMINAL - RENAL
DOLOR “DICOTOMICO”: SI - NO
0 100
3
Freq.
2
0
0 1 2 3 4 5 6 7 8
TIPOS DE FRECUENCIAS
donde F 1 = f1
F2 = f1 + f2
F3 = f1 + f2 + f3
.
Fk = f1 +f2 + f3 + … + fk = n
d) Frecuencia Relativa Acumulada
Se representa por Hi
Donde: H1 = h1
H2 = h1 + h2
H3 = h1 + h2 + h3
.
Hk = h1 +h2 + h3 + … + hk = 1 ó 100%
EJEMPLO
acumuladas.
Nivel de colesterol en la sangre de una muestra de hombres
estadounidenses que tienen entre 25 y 34 años de edad , que fueron
atendidos en centros médicos de Lima Metropolitana y sufren de
hipertensión arterial , en el año 2012
Nivel de
Colesterol Cantidad de ¿Cuál es la variable
(mg/100 ml) hombres de interés?
80-120 13
120-160 15
¿Qué se mide?
160-200 44
200-240 29
240-280 9
Si la variable se tabula en intervalos, como
en el ejemplo anterior se debe considerar
lo siguiente:
[ LI –LS)
donde :
LI : es el límite inferior del intervalo i.
LS : es el límite superior del intervalo i.
Amplitud de un Intervalo
En general, la amplitud de cada
intervalo se denota por ai y está dado por:
ai = LS – LI
En el ejemplo anterior:
a1 = 120 - 80 = 40
a4 = 240 - 200 = 40
Marca de Clase:
Se denota por Xi ,y se determina por:
LS LI
xi
2
En el ejemplo anterior:
X1 = ( 120 + 80) / 2 = 100
X4= ( 240+ 200 ) / 2 = 220
Tabla de frecuencias (Agrupados)
Suponga que necesitamos construir una tabla de frecuencias similar
para la edad de pacientes con problemas relacionados al corazón en
una clínica.
Porcentaje
Frecuencia Porcentaje acumulado
Válidos 5 - 33 14 28,0 28,0
33 - 61 14 28,0 56,0
61 - 89 13 26,0 82,0
89 - 117 5 10,0 92,0
117 - 145 4 8,0 100,0
Total 50 100,0
Contestar V o F:
a) El 26 % tiene entre 61 y 88 trabajadores
b) El 56% tiene entre 33 y 60 trabajadores
c) 8% de las empresas tienen 117 o más trabajadores
d) 82% de las empresas tienen menos de 89 trabajadores
Dada la siguiente tabla:
Nº hijos F. absoluta F. absoluta acum ulada F. relativa F. relativa acum ulada
0 6 6 0,12 0,12
1 13 19 0,26 0,38
2 16 35 0,32 0,7
3 9 44 0,18 0,88
4 4 48 0,08 0,96
5 2 50 0,04 1
TOTAL 48
Histograma
AFIRMACION
PRESENCIA
VIDA
(RECORDAR QUE LA
CIENCIA NO PUEDE
NEGAR) INSTRUMENTOS???!!!
EL ARTE DE MEDIR
DOLOR “NOMINAL”: PRECORDIAL - ABDOMINAL - RENAL
DOLOR “DICOTOMICO”: SI - NO
0 100
3
Freq.
2
0
0 1 2 3 4 5 6 7 8
TIPOS DE FRECUENCIAS
a) Frecuencia o Frecuencia Absoluta
Es el número de veces que se presenta un valor
o categoría de una variable. Se representa por
fi.
donde F 1 = f1
F2 = f1 + f2
F3 = f1 + f2 + f3
.
Fk = f1 +f2 + f3 + … + fk = n
d) Frecuencia Relativa Acumulada
Se representa por Hi
Donde: H1 = h1
H2 = h1 + h2
H3 = h1 + h2 + h3
.
Hk = h1 +h2 + h3 + … + hk = 1 ó 100%
EJEMPLO
ACUMULADAS.
Nivel de colesterol en la sangre de una muestra de hombres
estadounidenses que tienen entre 25 y 34 años de edad , que fueron
atendidos en centros médicos de Lima Metropolitana y sufren de
hipertensión arterial , en el año 2011
Nivel de
Colesterol Cantidad de ¿Cuál es la variable
(mg/100 ml) hombres de interés?
80-120 13
120-160 15
¿Qué se mide?
160-200 44
200-240 29
240-280 9
Si la variable se tabula en intervalos, como
en el ejemplo anterior se debe considerar
lo siguiente:
[ LI –LS)
donde :
LI : es el límite inferior del intervalo i.
LS : es el límite superior del intervalo i.
Amplitud de un Intervalo
En general, la amplitud de cada
intervalo se denota por ai y está dado por:
ai = LS – LI
En el ejemplo anterior:
a1 = 120 - 80 = 40
a4 = 240 - 200 = 40
Marca de Clase:
Se denota por Xi ,y se determina por:
LS LI
xi
2
En el ejemplo anterior:
Las mediciones fueron: 42, 38, 51, 53, 40, 68, 62,
36, 32, 45, 51, 67, 53, 59, 47, 63, 52, 64, 61, 43, 56,
58, 66, 54, 56, 52, 40, 55, 72, 69.
Grupos de fi hi hi(%)
edad
Porcentaje
Frecuencia Porcentaje acumulado
Válidos 5 - 33 14 28,0 28,0
33 - 61 14 28,0 56,0
61 - 89 13 26,0 82,0
89 - 117 5 10,0 92,0
117 - 145 4 8,0 100,0
Total 50 100,0
Contestar V o F:
a) El 26 % tiene entre 61 y 88 trabajadores
b) El 56% tiene entre 33 y 60 trabajadores
c) 8% de las empresas tienen 117 o más trabajadores
d) 82% de las empresas tienen menos de 89 trabajadores
Dada la siguiente tabla:
Nº hijos F. absoluta F. absoluta acum ulada F. relativa F. relativa acum ulada
0 6 6 0,12 0,12
1 13 19 0,26 0,38
2 16 35 0,32 0,7
3 9 44 0,18 0,88
4 4 48 0,08 0,96
5 2 50 0,04 1
TOTAL 48
Histograma
E. ESTADÍSTICOS DESCRIPTIVOS
ESTADÍSTICA DE
RESUMEN
CENTRALIZACIÓN FORMA
DISPERSIÓN
• Media • Simetría
• Moda • Rango o amplitud • Kurtosis
• Mediana • Desviación típica y varianza
• Desviación media
• Coeficiente de variación
• Rango intercuartilico
Media o promedio
aritmético
Medidas de Mediana
tendencia central Moda
MEDIDAS DE TENDENCIA CENTRAL
1. LA MEDIA ARITMÉTICA ( x )
1.1. Para datos sin agrupar
1.1.1. Media aritmética simple
CALCULO DE LA MEDIA
La fórmula a utilizar de la media = ∑ Xi / n
Para el grupo A:
Media = 14+16+11+20+17+08+09+14+18+14+14+13
12
Media = 168/12 = 14
Para el grupo B:
Media = 12+17+14+14+16+13+16+15+11+09+15+18+16
13
Media = 186/13 = 14.308
INTERPRETACIÓN
Las notas del curso de matemáticas promedio del grupo A es de 14 y del
grupo B es de 14.308.
4. La media es muy sensible a los datos extremos.
X: 2 4 6 8 10
X = 6.00
50% 50%
Dm DM
Me = (14 + 14) / 2 = 14
INTERPRETACIÓN: El 50% de los estudiantes tienen máximo 14 de nota.
Me = 15
INTERPRETACIÓN: El 50% de los estudiantes tienen máximo 14 de nota.
PROPIEDADES:
PARA EL GRUPO A:
La moda es el valor que más veces se repite.
En este caso es el 14.
PARA EL GRUPO B:
Media
La moda es el valor que MedianaEn este caso
más veces se repite. Moda
es el 16.
Grupo A 14 14 14
Tabla 8. Resumen de14.308
Grupo B los estadísticos de15las notas en el 16
curso de
Matemáticas de un grupo de estudiantes
COMPARACIÓN DE LA MEDIA, MEDIANA Y MODA
¿Qué tan ¿Toma en ¿Es afectada
Ventajas/
Medida común Existencia cuenta por valores
Desventajas
es? cada valor? extremos?
Es el de
“Promedio mayor uso.
Siempre
Media más Si Si Sensibles a
existe
conocido” los valores
extremos.
Apropiada
“Promedio
Siempre cuando hay
Mediana más No No
existe valores
conocido”
extremos
Apropiada
para
Valor más Podría no
Moda No No variables en
frecuente existir
escala
nominal.
Adaptado de “Estadística” / Triola – Novena Edición.
PERCENTILES
Los percentiles son medidas de posición relativa, y el
propósito es de comparar el rendimiento de un
individuos o en relación con el grupo del que forma
parte.
P1 P2 P3 P4 P5 P6 P7 P8 P9 P10
……………. 99
Ejemplo:
El percentil 45 (P45) viene a ser el valor por debajo del cual se sitúa el
45% de los datos de una distribución determinada, y por encima de
ese valor se sitúa el 55% restante.
Interpretación.-
GRÁFICO 2
45% 55%
P 45
D5 = P50 = Q2 = Me
P10 = D1; P60 = D6
P20 = D2; P70 = D7
P25 = Q1 = P75 = Q3
P30 = D3; P80 = D8
P40 = D4; P90 = D9
CUARTILES: Q
Son tres (Q1, Q2, Q3) y dividen a un conjunto ordenado
de datos en 4 partes iguales.
1. DATOS NO AGRUPADOS
A 14 16 11 20 17 08 09 14 18 14 14 13 19
PROCEDIMIENTO:
1. Ordenar los datos en forma ascendente:
08 09 11 13 14 14 14 14 16 17 18 19 20
MEDIANA
2. Se ubica el cuartil 2 (Q2 o mediana) como el número de datos es impar se
toma el valor de la posición siete, tal como se indica.
Q2 = 14
3. El cuartil 1 (Q1) se determina estableciendo la mediana de la
primera mitad de los datos ordenados. En este caso la mediana de 08, 09, 11,
13, 14, 14.
Q1 = (11 + 13)/2 = 12
4. El cuartil 3 (Q3) se determina ubicando la mediana de la otra mitad
de datos, que en este ejemplo vienen a ser 14, 16, 17, 18, 19, 20.
Q3 = (17 + 18)/2 = 17.5
2. DATOS AGRUPADOS
Ejemplo:
Observe que la curva de los hombres en el siguiente gráfico tiene una
mayor dispersión que la curva de las mujeres, a pesar que la posición
central es la misma.
MUJERE
S
HOMBR
ES
DATO DATO
RANGO
MAYOR MENOR
EJEMPLO:
Halle el rango para el siguiente conjunto de datos: 10, 05, 12, 01, 16
y 15 o aplicando la fórmula:
R = 16 – 01 = 15
2. DESVIACIÓN CUARTIL (DQ) O RANGO SEMI-
INTERCUARTIL
a2
a1 a3
3. DESVIACIÓN MEDIA (D.M.)
Es el promedio de los valores absolutos de las desviaciones de los
datos con respecto a la media aritmética.
VALOR ABSOLUTO
D.M. =
x x
n
( xi
2
x) MEDIA ARITMÉTICA
62 =
n 1
NÚMERO DE CASOS
S S(
Es la raíz cuadrada de la varianza ), proporciona la
2
S
Según fórmula: n 1
11
S2 = 95.75
Aplicando fórmulas: S 95 . 75 9 . 78
Según fórmula: S
C.V = x 100
x
Ejemplo:
1. Los datos de peso en kgr. de 10 pacientes corresponde la siguiente
información:
X = 50.9
S = 7.6
7 .6
Aplicando fórmula: C .V . x 100 14 . 9 %
50 . 9
Las curvas simétricas, tienen una forma tal que con una línea vertical
que pase por el punto más alto de la curva, dividirá el área de esta en dos
partes iguales.
Cuando medimos la curtósis nos referimos al grado de
apuntaminto o agudeza. Pueden ser:
a) Leptocúrtica (concentración al centro)
b) Mesocúrtica distribuidos simétricamente)
c) Platicúrtica (aplanada).
Las curvas sesgadas son aquellas cuyos valores están
concentrados en el extremo inferior o superior de la escala de
medición del eje horizontal. La “cola” indica el tipo de sesgo.
• Por su modalidad las distribuciones de frecuencias pueden ser:
31 - 36 33.5 7 7
37 - 42 39.5 8 15
43 - 48 45.5 9 24
49 - 54 51.5 11 35
55 - 60 57.5 7 42
61 - 66 63.5 5 47
67 - 73 69.5 1 48
T otal - 48
F. GRÁFICOS
REPRESENTACIÓN GRÁFICA DE
VARIABLES ESTADÍSTICAS
constituye la representación en 2
0
dibujo de los datos. Si Aborto No Aborto
• Fuente, indica el origen de los Si Planificaron No Planificaron
PROCEDIMIENTO:
Paso 1
Trazar los ejes horizontal (intervalos de clase) y vertical (fi), cuidando de
aplicar una escala adecuada.
Paso 2
En el eje horizontal (abscisas) ubicar los límites de cada intervalo de clase
y levantar los rectángulos hasta una altura que coincida con la frecuencia
correspondiente en el eje vertical (ordenadas).
Tabla 1. Número de estudiantes
según aptitud mental
CLASE Xi fi
31-36 33.5 7 Distribución de
37-42 39.5 9 frecuencias
43-48 45.5 9 Figura 2:
49-54 51.5 10 Histograma: Número de estudiantes según
55-60 57.5 07 aptitud mental
61-66 63.5 5
67-72 69.5 1
TOTAL 48
Histograma
Fuente: De la Tabla 1.
POLÍGONO DE FRECUENCIAS Utilizando el histograma trazado se
puede generar el polígono de frecuencias
correspondiente.
CLASE Xi fi
31-36 33.5 7
37-42 39.5 9
Distribución de
43-48 45.5 9 frecuencias
Figura 3:
49-54 51.5 10
Polígono de frecuencia: Número de estudiantes
55-60 57.5 07 según aptitud mental
61-66 63.5 5
67-72 69.5 1
TOTAL 48
Polígono de
frecuencias
Fuente: De la Tabla 2.
PRESENTACIÓN DE VARIABLES CUALITATIVAS
Fuente: De la Tabla 5.
Fuente: De la Tabla 5.
Nº
90
80
70
60
50
40
30
20
10
0
Meses
T a lla y P e s o d e 1 0 a d o le s c e n te s
IP M I.Febrero 2007
F e b re ro 2002
70
P es o(kg)
60
50
Mayor valor
Q3 Tercer Cuartil
Menor valor
CARACTERÍSTICAS
De un conjunto de datos, el valor más pequeño
aparecerá en la parte inferior del diagrama (menor
valor) y el máximo en la parte superior (mayor valor).
La caja aparece con tres líneas horizontales recorriendo
de arriba abajo:
1. La primera línea horizontal coincide con el primer
cuartil (Q1)
2. La segunda línea horizontal (aparece un poco más
gruesa que las otras dos) viene a ser la mediana (Q2)
3. Mientras que la última línea horizontal identifica al
tercer cuartil (Q3).
Útil para comparar dos o más conjuntos de datos. Se
emplea la misma escala para realizar comparaciones.
No muestra información detallada como los histogramas
o las graficas de tallos y hojas.
EJERCICIO:
Con los datos utilizados en el cálculo de cuartiles. Representar el diagrama de cajas.
PROCEDIMIENTO:
1º Ordenar los datos en forma ascendente.
14 16 11 20 17 08 09 14 18 14 14 13 19
2º Obtener los cuartiles:
Q1 = 11
Q2 = 14 (Mediana)
Q3 = 18
3º Identificar los valores extremos:
Menor valor = 8 Mayor valor = 20
20
Q3 = 18
Q2 = 14
Q1 = 12
8
INFORMACIÓN QUE SE DEDUCE DEL DIAGRAMA:
Identifica la mediana = 14
DIAGRAMA DE TALLO Y
3 HOJAS
57 28 9 8 81 52 49 67
4 77 32 78 48 28 9 9 6
5 20001611897839 Hojas
6 8401446
Tallos
Ejercicios (4)
Ejercicios (5)
Ejercicios (6)
196
G. PARTE FINAL
FIG. 1 CLASIFICACIÓN DE LOS ESTADISTICOS
UNIVARIANTES
MASA POSICIÓN
• Tamaño muestral Max Min.
• Sumatorio Cuartiles
• Frecuencia Deciles
ESTADÍSTICO Percentiles
CENTRALIZACIÓN FORMA
DISPERSIÓN
• Media • Simetría
• Moda • Rango o amplitud • Kurtosis
• Mediana • Desviación típica y varianza
• Desviación media
• Coeficiente de variación
• Rango intercuartilico
Porcentaje
Frecuencia Porcentaje acumulado
Válidos 45 - 49 256 51,2 51,2
50 - 54 88 17,6 68,8
55 - 59 79 15,8 84,6
60 - 64 45 9,0 93,6
65 - 69 32 6,4 100,0
Total 500 100,0
Indicar si es V o F:
a) El 17.6% de la muestra tiene entre 50 y 54 años
b) El 9,0% tiene 45 años
c) El 68,8% tiene 54 o menos años de edad
d) El 15,4% tiene entre 60 y 69 años
e) La frecuencia modal es 256
Estadísticos
H. ANÁLISIS BIVARIADO
ANÁLISIS
El Análisis BIVARIADO
Bivariado estudia la relación o
interacción entre dos variables
REGRESIÓN
Analiza la relación de dependencia entre dos variables,
una de ellas será dependiente y la otra independiente
1. ANÁLISIS BIVARIADO
CONCEPTO
• Consiste en analizar la interacción de dos variables.
Ejemplo.
Analizar la relación entre los siguientes resultados de dos tests
(Matemáticas y Ciencias) aplicados a un grupo de alumnos:
Tabla 1: Resultados de dos Tests (Matemática y Ciencia)
Puntuación Matemática Puntuación Ciencias Test
Alumno
Test “X” “Y”
A 83 160
B 46 38
C 92 143
D 81 67
E 70 124
F 70 117
G 75 132
H 88 143
I 74 121
J 79 113
DIAGRAMA DE DISPERSIÓN
NUBE DE PUNTOS
(estrecha
o ancha)
La forma que adopta el diagrama de dispersión, indica la
naturaleza e intensidad de la relación.
r positivo
LINEAL NEGATIVA
r negativo
NINGUNA RELACIÓN
r nulo
Gráfico 2. Diagrama de dispersión de las puntuaciones de
los alumnos de Matemática y Ciencias
180
160
140
120
T E S T "Y "
100
80
60
40
20
0
0 20 40 60 80 100
T E S T "X "
COEFICIENTE DE CORRELACIÓN DE PEARSON
• Mide el grado de asociación de dos variables cuantitativas.
• El objetivo es determinar que tan intensa es la relación
mediante el coeficiente de correlación. Se simboliza con la
letra “r” y su valor puede fluctuar de la siguiente forma:
-1 <= r <= 1
Correlació Ninguna Correlació
n Correlació n positiva
negativa n perfecta
Valor negativo de “r”
perfecta Valor positivo de “r”
N XY X * Y
r
n X ( X ) n Y ( Y )
2 2 2 2
r
N XY X * Y
n X
2
( X ) n Y ( Y )
2 2 2
30696 30696
r
14596 122336 42256 . 5528
r 0 . 726
INTERPRETACIÓN:
• La correlación es positiva (por el signo del resultado),
lo cual significa que ambas variables varían en un
mismo sentido.
Tabla 3. Significación del coeficiente de correlación de
Pearson
VALOR r
INTERPRETACIÓN RELACIÓN
De A
0.00 0.49 “r” MUY DEBIL RELACIÓN CASI NULA
CONCEPTO
Y = B0 + B 1 X
Eje X
Bo:
Ordenada en
el origen
APLICACIÓN:
n XY X Y
B1
n X X
2 2
(1)
B 0 Y B1 X (2)
EJEMPLO:
• Con los datos del Análisis Bivariado de la Tabla 3
obtener la recta de regresión lineal entre la variable
independiente (Test X) y la variable dependiente (Test Y)
Los resultados de este estudio son presentados de la
siguiente manera:
Tabla 3. Resultados de los Datos de los
Test “X” y Test “Y”
TEST X TEST Y
ALUMNOS
(MATEMÁTICA) (CIENCIAS)
A 83 160
B 46 38
C 92 143
D 81 67
E 70 124
F 70 117
G 75 132
H 88 143
I 74 121
J 79 113
• Con los datos obtenidos se elabora una tabla como el que sigue:
ALUMNO X Y X2 XY
A 83 160 6889 13280
B 46 38 2116 1748
C 92 143 8464 13156
D 81 67 6561 5427
E 70 124 4900 8680
F 70 117 4900 8190
G 75 132 5625 9900
H 88 143 7744 12584
I 74 121 5476 8984
J 79 113 6241 8927
TOTAL 758 1158 58916 90846
N 10 PROMEDIOS
X 758 X 75.8
Y 1158 Y 115.8
XY 90846
X 2 58916
X 2
(758)2 = 574564
• Para obtener B1 utilizamos la fórmula
n XY X Y
n X X
2 2
B1 =
(10 )( 90846 ) ( 758 )(1158 ) 30696
2 .1
(10 )( 58916 ) 574564 14596
Reemplazando: B1 =
Y B1 X
• Para obtener B0 usamos la fórmula
B0 =
Y
Y = -43.38 + 210
Y = 166.22
Regla de decisión
En el ejemplo:
50
40
30
Ing re sos (Y )
20
10
0 10 20 30
Gastos de
publicidad (X) Ingresos
Gastos de publicidad (X) Corr elación de Pearson
Sig. (bilateral)
N
Ingresos Corr elación de Pearson .831*
Sig. (bilateral) .021
N 7
*. La c orrelación es significante al nivel 0,05 (bilateral).
Interpretación:
Modelo R R cuadrado
1 .831a .690
a. Variables predictoras: (Constante), X
Coe ficientes a
Coef icient
es
Coef icientes no estandari
Modelo
estandarizados
B Error típ.
zados
Beta t Sig.
Coeficiente Bo:
1 (Constante) 29.399 4.807 6.116 .002
X 1.547 .463 .831 3.339 .021 Coeficiente B1:
a. Variable dependiente: Y
Modelo
Y = 29.399 + 1.547 X
Ejemplo 1
Resu m en de l m odelo
ANOVA b
Suma de Media
Modelo cuadrados gl cuadrática F Sig.
1 Regr esión 161.044 1 161.044 195.858 .000a
Residual 10.689 13 .822
Total 171.733 14
a. Variables predictoras: (Constante), X (Consumo en miles $)
Coe ficiente s a
Coef icient
es
Coef icientes no estandari
estandarizados zados
Modelo B Error típ. Beta t Sig.
1 (Constante) 4.386 .991 4.425 .001
X (Consumo en miles $) 1.081 .077 .968 13.995 .000
a. Variable dependiente: Y (miles de pasajeros)
Ejemplo 2
En un estudio sobre la relación entre pacientes
adictos al tabaco se seleccionaron las variables
X (años fumando tabaco) e Y (daño causado por
el tabaco). Model
Mediante
Sum m ary
el programa SPSS se
obtuvieron las siguientes tablas.
Std. Error
Adjusted of the
Model R R Square R Square Estimate
1 a
.934 .872 .856 3.32
a. Predictors: (Constant), X (años de fumador)
Coefficients a
Standardi
zed
Unstandardized Coefficien
Coefficients ts
Model B Std. Error Beta t Sig.
1 (Constant) 22.951 4.299 5.339 .001
X (años de fumador) .967 .131 .934 7.377 .000
a. Dependent Variable: Y (daño debido al tabaco)
Modelo final: Y = + X