Está en la página 1de 233

INVESTIGACIÓN Y

EXPERIMENTACIÓN
Repaso Estadística Básica
Prof. Oscar Tinoco Gómez

1
2

A. VISION PANORÁMICA DE
LA ESTADÍSTICA
3

Qué es Estadística?
Disciplina científica orientada al tratamiento de los datos que
proceden de la observación de fenómenos colectivos
(demográficos, económicos, sanitarios, entre otros), para
convertirlos en información que permita tomar algún nivel de
decisión.

En estos fenómenos pueden intervienen factores de variación


que hacen necesario formular modelos probabilísticos para
poder llegar a conclusiones o predicciones, bajo un nivel
determinado de probabilidad.

En general, comprende el proceso de recopilación,


organización, presentación y resumen de los datos, para su
análisis y posterior nivel de decisión a partir de la información
obtenida.
¿QUÉ TIPO DE PROBLEMAS ESTUDIA LA ESTADÍSTICA?
Situaciones deterministas y aleatorias
¿Se podría predecir con certeza qué ocurrirá con el agua
cuando alcance los 100º C?

¿Es posible determinar el tiempo que le costará a un


caballito de un tiovivo dar una vuelta completa?

¿Se podría predecir el sexo de un niño en la primera


semana de gestación?

Se está experimentando una nueva planta de tomate ¿es


posible determinar el número de frutos que dará cada
una de las plantas en una campaña
4 de siembra?

Estadística Descriptiva
¿QUÉ TIPO DE PROBLEMAS ESTUDIA LA ESTADÍSTICA?
Situaciones deterministas y aleatorias

La Ciencia se ocupa, en general, de todos aquellos fenómenos


que se pueden observar.

La Ciencia se ha ido desarrollando hasta la actualidad formulando


leyes que explican los fenómenos observables y realizando
experimentos para validarlos o rechazarlos.

Todos los fenómenos naturales se desarrollan siguiendo uno de


dos tipos de esquemas: el determinista y el aleatorio o
estocástico.
5

Estadística Descriptiva
¿QUÉ TIPO DE PROBLEMAS ESTUDIA LA ESTADÍSTICA?
Situaciones deterministas y aleatorias

Los fenómenos determinísticos son aquellos tales que, dado el


estado inicial y las condiciones de realización, se puede predecir
el estado final.

Los fenómenos aleatorios o estocásticos son aquellos tales que,


dado el estado inicial y las condiciones de realización, no se
puede predecir el estado final.

Estadística Descriptiva
¿QUÉ TIPO DE PROBLEMAS ESTUDIA LA ESTADÍSTICA?
Situaciones deterministas y aleatorias
Para los fenómenos determinísticos es posible encontrar leyes que
expliquen la aparición de los resultados dado un conjunto de
condiciones iniciales a la realización del experimento.
Para los fenómenos aleatorios o estocásticos es necesario
especificar en el modelo, de alguna forma, la incertidumbre de la
aparición de los resultados.

EL CÁLCULO DE PROBABILIDADES Y LA
ESTADÍSTICA MATEMÁTICA SON LAS CIENCIAS
QUE ESTUDIAN LOS FENÓMENOS ALEATORIOS.
7

Estadística Descriptiva
¿QUÉ TIPO DE PROBLEMAS ESTUDIA LA ESTADÍSTICA?
Situaciones deterministas y aleatorias

¿Qué información se utilizaría para determinar las


posibilidades existentes de que el niño sea varón?

MODELO MATEMÁTICO:
Uso de frecuencias. El concepto de probabilidad.

El Cálculo de Probabilidades se encarga de construir el modelo


matemático de las regularidades que se observan en las series de
frecuencias correspondientes a los fenómenos aleatorios.
8

Estadística Descriptiva
¿QUÉ TIPO DE PROBLEMAS ESTUDIA LA ESTADÍSTICA?
Situaciones deterministas y aleatorias

¿Qué experimento se utilizaría para poder predecir el


número esperado de tomates que dará cada una de las
plantas?

¿Con qué seguridad se puede realizar la predicción


anterior?
MODELO MATEMÁTICO:
Medidas de estimación. Concepto de inferencia estadística.

La obtención de conclusiones basadas en los datos


9
experimentales es la inferencia estadística.

Estadística Descriptiva
¿QUÉ TIPO DE PROBLEMAS ESTUDIA LA ESTADÍSTICA?
Situaciones deterministas y aleatorias
En la ciudad de Lima se ha realizado un estudio de las
características antropométricas en un conjunto de
alumnos pertenecientes a diversos colegios. De cada
alumno se han recogido las siguientes características:
peso, talla, cantidad de grasa en los pliegues cutáneos
del bíceps, tríceps, subescapular, suprailíaco, abdomen y
muslo, sexo y edad.

• Resumir la información contenida en un conjunto de datos.


Obtención del perfil antropométrico de los jóvenes
seleccionados por sexo y edad.
10

Estadística Descriptiva
¿QUÉ TIPO DE PROBLEMAS ESTUDIA LA ESTADÍSTICA?
Situaciones deterministas y aleatorias
• Análisis de muestras.
Para la obtención del perfil antropométrico de un
conjunto de jóvenes limeños se ha seleccionado un
subconjunto de los mismos que se considera una muestra
representativa de la población de referencia.

Si, además, la realización del experimento es costosa en


tiempo o dinero, o requiere la destrucción del elemento de la
población, el estudio de muestras se hace indispensable.
Para medir la resistencia de un tipo de cable es
necesario someter un conjunto11 de estos cables a una
tensión y medir el tiempo que tardan en romperse.
Estadística Descriptiva
¿QUÉ TIPO DE PROBLEMAS ESTUDIA LA ESTADÍSTICA?
Situaciones deterministas y aleatorias
• Contraste de hipótesis.
Si se conoce el perfil antropométrico de la población
limeña ¿se puede afirmar que el perfil de la población
seleccionada coincide con el de toda ciudad l?
¿Se puede afirmar que nivel de colesterol es el mismo en
individuos sanos que en pacientes que padecen
enfermedades coronarias?
¿Se puede considerar que la cantidad de mercurio
contenida en un alimento es la misma si la muestra se
hierve durante 30 minutos que
12 si se hierve durante una
hora?
Estadística Descriptiva
¿QUÉ TIPO DE PROBLEMAS ESTUDIA LA ESTADÍSTICA?
Situaciones deterministas y aleatorias
• Medición de relaciones.
¿Existe algún tipo de relación entre la cantidad de grasa
contenida en el abdomen y la contenida en el muslo?
Dichas cantidades de grasa ¿dependen del sexo?
• Predicción.
¿Se puede predecir la altura de un individuo conocido su
peso?
La Estadística proporciona una metodología
para evaluar y juzgar las discrepancias entre la
realidad y la teoría. Esto
13 es, métodos de

investigación aplicables al resto de las Ciencias.


Estadística Descriptiva
HISTORIA DE LA ESTADÍSTICA (I)

• Su raíz: STATUS=cosas del Estado


Enumeración de las características más relevantes
de la sociedad: número de familias, de cabezas de
ganado, etc.
SUS ORIGENES:
• Censo del emperador chino Tao 2238 a.C.
• Documentos asirios, egipcios y griegos.
• Censos en el Imperio Romano para recoger tributos.
LA BASE CIENTÍFICA:
• Se desarrolla a lo largo de los siglos XVI, XVII y XVIII.
• Destacan dos escuelas importantes: la alemana y la inglesa.
• En España las contribuciones más 14
relevantes son las de
Uztáriz, Campomanes y Jovellanos.
Estadística Descriptiva
HISTORIA DE LA ESTADÍSTICA (II)
• El origen del cálculo de probabilidades surge con el paso de
describir la realidad a buscar modelos que la expliquen:
Pascal y Fermat (s. XVII)

LA ÉPOCA DORADA : Siglos XVIII y siguientes.


• Bernouilli, Leibniz, Bayes, Legendre, Gauss, Laplace, etc.
• Chebychev, Markov, Kolmogorov, etc.

LA ÉSTADÍSTICA MATEMÁTICA: Principios del s. XX.


• La fusión entre la recogida, descripción y análisis de la
información con el Cálculo de Probabilidades da lugar a la
Estadística Matemática.
15
• Student, Fisher, Neyman, Pearson, etc.

Estadística Descriptiva
¿CÓMO SE RESUELVE UN PROBLEMA UTILIZANDO
LA ESTADÍSTICA?

Uno de lo objetivos de la Estadística es diseñar y realizar


experimentos en forma correcta, y extraer tanta información de
los resultados como sea posible.

LOS PASOS FUNDAMENTALES EN EL PROCESO


ESTADÍSTICO SON:
• Recogida de información
• Descripción
• Análisis o construcción del modelo
• Estimación y contraste de hipótesis
• Validación
• Aplicación del modelo o predicción
16 con el uso del mismo

Estadística Descriptiva
¿CÓMO SE RESUELVE UN PROBLEMA UTILIZANDO
LA ESTADÍSTICA?
La recogida de datos consiste en la planificación y el diseño del
experimento. Es un paso fundamental para el éxito del mismo.

En el estudio de las características antropométricas de


los jóvenes limeños se trata de decidir cómo y dónde
localizar a los jóvenes, determinar el grupo de edad
concreto de interés, las características concretas que
permiten determinar dicho perfil y el instrumento para
medir dichas características.

17

Estadística Descriptiva
¿CÓMO SE RESUELVE UN PROBLEMA UTILIZANDO
LA ESTADÍSTICA?
La descripción consiste en utilización de herramientas que
permitan resumir la información contenida en la medición de
cada uno de los individuos. Este primer paso del análisis
estadístico se denomina también análisis exploratorio de los
datos.
Se puede detectar la existencia de individuos atípicos
en algunas de las características (por ejemplo, son
más delgados o más altos de lo normal). Además, se
deduce que las mujeres tienen más grasa en el muslo,
mientras que los hombres tienen más en el abdomen.

ESTADÍSTICA 18DESCRIPTIVA

Estadística Descriptiva
¿CÓMO SE RESUELVE UN PROBLEMA UTILIZANDO
LA ESTADÍSTICA?
El análisis o construcción del modelo consiste en encontrar una
ley que explique tanto la parte sistemática o previsible del
fenómeno en estudio como la parte aleatoria del mismo.
Del estudio de la relación entre el peso y la altura, se
deduce que se podría explicar mediante una relación
lineal: Peso =  + ·Altura +  donde
•  + ·Altura representa la parte sistemática que
indica un crecimiento lineal del peso al aumentar la
altura y
•  recoge el efecto de las variables no consideradas
en el modelo.
19

Estadística Descriptiva
¿CÓMO SE RESUELVE UN PROBLEMA UTILIZANDO
LA ESTADÍSTICA?
La estimación consiste en utilizar la información disponible
(datos y/o posible información a priori) para obtener las
constantes de las que depende el modelo y cuantificar el error que
se comete. El contraste de hipótesis consiste en comparar los
valores estimados con otros fijados a priori.

Obtener los valores de  y , y el error de estimación.


Determinar si el valor de  puede considerarse igual a
cero con lo que el modelo que se obtendría sería Peso = 
+  indicando que no existe relación lineal entre ambas
variables.
20

Estadística Descriptiva
¿CÓMO SE RESUELVE UN PROBLEMA UTILIZANDO
LA ESTADÍSTICA?
La validación consiste en determinar si existe compatibilidad
entre la información empírica y el modelo. Si nuevos datos se
ajustan bien al modelo, si la parte aleatoria lo es realmente, etc.
La predicción y el uso del modelo
¿Cuál es el peso de un estudiante que mide 170 cm?
Peso =  + ·170

21

Estadística Descriptiva
¿QUÉ SE OBSERVA?

Se entiende por población el conjunto de todos los elementos de


interés en la realización de un estudio estadístico.
En el estudio de las características antropométricas la
población es el conjunto de alumnos entre 13 y 16 que
están matriculados en alguno de los institutos o colegios
de la población limeña.
El conjunto de mujeres peruanas mayores de 18 años en
un estudio sobre la incidencia del cáncer de mama.
El conjunto de todos los árboles de una plantación en el
estudio de la eficiencia de un nuevo fertilizante.
22

Estadística Descriptiva
¿QUÉ SE OBSERVA?

Una muestra es un subconjunto representativo de la población,


es decir, un subconjunto que refleja las características esenciales
de la población de la cual se obtuvo.
En el estudio de las características antropométricas la
muestra se ha obtenido seleccionando aleatoriamente un
subcojunto de colegios e institutos y tomando medidas
sobre cada uno de los alumnos de los colegios e
institutos seleccionados.

Una muestra aleatoria de árboles se obtiene


seleccionando uno al azar entre los cinco primeros y, a
continuación, uno de cada cinco.
23

Estadística Descriptiva
APLICACIONES DE LA ESTADÍSTICA

• Marketing
• Control de calidad
• Estudios sociológicos y de opinión
• Planificación y producción de empresas
• Investigación en Ingeniería
• Estudios de mercado
•Estudios económicos
• Diseño de Experimentos (DOE).
24

• Deportes.
Estadística Descriptiva
PASOS PREVIOS A LA REALIZACIÓN DE UN
ESTUDIO ESTADÍSTICO
•Planteamiento del problema.
Estudio de las características de los empleados de banca.
•Elección de la población.
Empleados de un banco.
•Elección de las características o variables.
Sexo,raza edad, categoría laboral, nivel educativo, salario
inicial y final,antigüedad y experiencia.

25

Estadística Descriptiva
PASOS PREVIOS A LA REALIZACIÓN DE UN
ESTUDIO ESTADÍSTICO
•Recogida de los datos.

26

Estadística Descriptiva
ESTUDIO UNIDIMENSIONAL:
ORDENACIÓN DE LOS DATOS
a d

c
c
mue
e• Tablas de frecuencias
e
u
,7
99V
O
,6
7
e6G
,7
73A
e n
,1
69P
m
ue u
e n
8
4
4,2
87
V
VA
6
6
0,5
1M
7P
4
0,6
3T
0T
4
0T

g r
e d u

ce en
m
u
c
meue
u
en
eu
7
7
7
,,
3V
2
22V
80
8
8
5
,,
02
1314
3
1
5
,,
62
3519
,
,
5
4
963
5
013
,
,
1
5
594
5
318
,
,
0
3
813
8
412
,
,
8
9
799
7
417
,
,77
4
511
2
8
5
,
,24
8 2
4
1
5 527 6
,
,12
02
6
5
06 0
,40T
4
0T o

Estadística Descriptiva
ESTUDIO UNIDIMENSIONAL:
ORDENACIÓN DE LOS DATOS
Salario actual
• Representaciones gráficas 140

120

100

80

60

40

Fre cu e n cia
Técnico
20

Prácticas de Master
0

10

14

18

22

26

30

34

38

42

46

50

54
60

00

00

00

00

00

00

00

00

00

00

00

00
00
Agente libre

0
Prácticas universita Salario actual

Agente de seguridad
Oficinas

Gestión (prácticas) 28

Estadística Descriptiva
ESTUDIO UNIDIMENSIONAL:
CÁLCULO DE ESTADÍSTICOS
• Resumen de los datos a través de medidas estadísticas. Descriptivos

Estadístico Error típ.


Salario inicial Media 6806,43 144,60
Media recortada al 5% 6416,69
Mediana 6000,00
Varianza 9911511,2
Desv. típ. 3148,26
Mínimo 3600
Máximo 31992
Rango 28392
Amplitud intercuartil 2067,00
Asimetría 2,853 ,112
Curtosis 12,390 ,224
Salario actual Media 13767,83 313,72
Media recortada al 5% 12982,08
Mediana 11550,00
Varianza 46652514
Desv. típ. 6830,26
Mínimo 6300
Máximo 54000
Rango 47700
Amplitud intercuartil 29 5265,00
Asimetría 2,125 ,112
Curtosis 5,378 ,224

Estadística Descriptiva
ESTUDIO BIDIMENSIONAL

• Selección de las parejas de variables que merece la pena


estudiar en conjunto.
Salario actual y edad.
Salario actual y categoría laboral.
Antigüedad y edad.
Salario y sexo.
Salario y raza.
Etc.

• Estudio de la independencia e incorrelación.

30

Estadística Descriptiva
ESTUDIO BIDIMENSIONAL

• Presentación de los datos mediante tablas de frecuencias.

Sexo del empleado

Varón Mujer

Clasificación étnica Clasificación étnica

Blanca Minoría Blanca Minoría

Nivel educativo
8 12 11 27 3
12 38 24 101 27
14 5 1
15 65 18 25 8
16 30 5 22 2
17 7 3 1
18 8 1
19 26 1
20 2
21 1
31

Estadística Descriptiva
ANÁLISIS DE LA REGRESIÓN
• Búsqueda de las relaciones funcionales entre las
variables. 6 00 00

5 00 00

4 00 00

3 00 00

2 00 00
S a la rio a ctual

1 00 00

0 R² = 0 ,77 4 6
0 1 00 00 2 00 00 3 00 00 4 00 00

Salario inicial

• Obtención de la ecuación de la función elegida.


Salario final= 1,909  Salario inicial + 771,282
32
• Bondad del ajuste.

Estadística Descriptiva
33

ESTADÍSTICA EN LA VIDA COTIDIANA


42

B. ESTADÍSTICA DESCRIPTIVA
E INFERENCIAL
RESUMEN
PROCESO ESTADÍSTICO
Inicio

PREDICCIONES CAPTACIÓN

TOMA DE DECISIONES ORGANIZAR

MUESTRA ANALIZAR

INFERENCIAS INTERPRETAR

DATOS
¿Qué es la CAPTACIÓN de datos ?

Son los datos obtenidos de las unidades de observación


o análisis (censos de población y vivienda, cuestionario,
observación y entrevista)

Datos Secundarios.- Son los datos obtenidos de las


unidades de observación y que están
publicados/registrados.
Ejm: Historias clínicas, anuarios estadísticos, etc.

Datos Primarios.- Son los datos obtenidos a través de


formularios y puede obtenerse por tres procedimientos:
Cuestionario, observación y entrevista.
¿Qué es la ORGANIZACIÓN de datos ?

Es el ordenamiento para una mejor


comprensión y facilitar sus análisis.
(tablas, gráficos y figuras).

Los datos sin organizar se denominan


datos “en bruto”, y son de poca utilidad.
¿Qué es el ANALISIS de datos ?

Es el cálculo de MEDIDAS
REPRESENTATIVAS (o de resumen)
tales como promedios, medidas
de variabilidad y medidas de la
forma de la distribución.

También se analizan datos cuando se


establecen relaciones entre ellos
(regresión y correlación).
¿Qué es la INTERPRETACIÓN de datos ?

Es darle un sentido práctico o útil a los


resultados obtenidos en el análisis.
¿Qué son DATOS ?
 Es el resultado de la aplicación (registro) de instrumentos de
medición (Observación, test, encuesta, conteo, etc.)
 Es el resultado de primera mano.

Ejemplo :
Unidad de
Características Datos medida
Edad del paciente 27 años
Peso del recién nacido 3,750 Kg.
Tiempo permanencia 5 días
Temperatura corporal 37,5 °C
Profesión Médico nominal
¿Qué es la INFORMACIÓN?

Es el resultado de los datos procesales y


organizados de acuerdo a ciertos objetivos o
criterios de clasificación.

Además, con los mismos datos se puede obtener


distinta información.
TIPOS DE DATOS NUMÉRICOS
1. CUALITATIVOS
 Determinados por categoría
 No hay relación de magnitud entre las categorías.
Por ejemplo: Sexo, nivel socio económico, etc.

2. CUANTITATIVOS/ NUMÉRICOS
Son expresados numéricamente.
Toman valores aislados.
Pueden ser cualquier área.
Ejm: Número de hijos por familia; peso, talla.
2.1. Datos no agrupados
Son recolectados en forma natural.
Véase Tabla 1.
2.2 Datos acumulados
Se resumen por intervalos.
Véase tabla 2.
Tabla 1:
Datos cuantitativos no agrupados de 40
estudiantes universitarios

Por ejemplo:
Los siguientes datos sobre la edad de 40 estudiantes
del primer año de estudios universitarios.

20,18,19,20,17,18,25,17,18,19,19,21,22,
18,17,23,24,25,21,19,18,25,23,22,18,17,
19,21,20,23,22,19,17,18,18,25,18,19,17,
21.
Tabla 2:
Datos cuantitativos agrupados de 40
estudiantes universitarios
Por ejemplo:
Con los datos del ejemplo anterior, se presenta la distribución de
frecuencias por intervalos.
Diagrama Circular

Tabla de Distribución
Edad N° Estudiantes
11

17 - 19 22 10

9
10
20 - 22 FRECUENCIAS 8

8 7

23 - 25 6
5

Diagrama de 1

0
17-19 20-22 23-25 0
Barras INTERVALOS
TABLAS CRUZADAS
Datos estadísticos de alumnos matriculados,
repitencia y deserción escolar por grado en
educación primaria (2000-2007)

GRADOS
1RO. 2DO. 3RO. 4TO. 5TO. 6TO.
ASPECTOS
REPITENCIA 750 350 350 200 280 250

DESERCIÓN 400 200 200 100 250 250

MATRICULA 3000 2600 2400 2200 1900 1700


GRÁFICO 1
Porcentaje de alumnos por 1000 según matrícula, repitencia
y deserción escolar por grado en educación primario.
Tema

2
DEFINICIÓN DE TÉRMINOS
1. Unidad de análisis
2. Población
3. Muestra
4. Parámetro
5. Estadístico
6. Variable
7. Escalas de medición
DEFINICIÓN DE TÉRMINOS
1. Unidad de análisis.
Es aquel elemento indivisible del que se obtiene el dato estadístico.
Ejemplo:
* Un alumno matriculado en la Escuela universitaria de post grado
de la UNFV en el 2008.
* Un niño de 5 a 10 años del distrito La Victoria.
2. Población:
Es el conjunto de elementos con alguna característica de interés y
que debe estar delimitado en el espacio y tiempo.
Tiene tantos datos como elementos tenga el marco poblacional.
Ejemplo:
* Alumnos matriculados en la Escuela universitaria de post grado de
la UNFV en el 2008.
* Niños de 5 a 10 años del distrito de La Victoria del 12/04/08.
Población y Muestra

Población

Muestra
3. Muestra.

 Subconjunto de la población tomada para estudiar las


características de la misma. Debe ser representativa y
tener un tamaño adecuado.
 Se obtienen los datos en menos tiempo y reduciendo los
costos.
 Habrán tantas muestras como características se desean
registrar en un marco muestral.
 30 alumnos matriculados en la Escuela universitaria de
post grado de la UNFV.
 100 niños de 5 a 10 años del Distrito de La Victoria.
Población:
Alumnos matriculados en la Escuela de Post Grado de la
UNMSM año 2012.
Se tiene interés en conocer en esta población:
 Nivel de inteligencia emocional promedio ()
 Proporción de maestristas que tienen hábitos de estudios
adecuados. ()
 En este caso  y  se consideran parámetros y para
conocer sus valores debemos estudiar toda la población de
estudiantes de la Escuela universitaria de post grado de la
UNMSM del 2012.
 Si el estudio se realiza mediante una muestra, se calcula
estadísticos: como: media aritmética (x), desviación
estándar (s) y proporción (p).
 Veamos algunos ejemplos de medidas estadísticas:
MEDIDAS ESTADÍSTICAS

MEDIDAS POBLACIÓN MUESTRA


(parámetro) (estadístico)

Media  x
aritmética
Varianza 2 s2

Desviación  s
Estándar
Proporción  

Tamaño N n
4. Parámetro:
Medida estadística que describe una característica de la
población.
Su valor se calcula en base a todas las observaciones
de la población de estudio. Se representa con letra
griega y es un valor fijo para la población de estudio.

5. Estadístico (Estadígrafo):
Medida estadística que describe una característica de la
muestra y cuyo resultado se obtiene usando los datos de
la muestra.
Se representa con letra latina y es variable de muestra a
muestra.
PARÁMETRO ESTADÍSTICO
POBLACIÓN Técnicas MUESTRA
(75 alumnos de la Escuela
(1200 alumnos de la Escuela de post de muestreo
universitaria de post grado de la
grado de la UNMSM)
UNMSM)
Edad
Característica Peso
Cociente
intelectual
sexo

Edad
Peso Cociente
intelectual sexo MUESTRA MUESTRA MUESTRA MUESTRA

m1 m2 m3 mn

75 datos

Registro
de la POBLACIÓN POBLACIÓN POBLACIÓN POBLACIÓN
carac-
terística.

...
P1 P2 P3 Pn
RAMAS DE LA ESTADÍSTICA
• Estadística Descriptiva.- Se ocupa de la obtención y
elaboración de datos con el propósito de presentarlos
en forma concisa, clara y comprensible. Su poder
inferencial es mínimo y debería evitarse tal proceder.

• Estadística Inferencial.- Permite realizar


afirmaciones, de naturaleza probabilística sobre una
población, en base a la información obtenida en una
muestra de esa población.

MUESTRA POBLACIÓN

ESTADÍSTICO PARÁMETRO
Estadística
MUESTRA Estadístico: x
Descriptiva

Estadística
POBLACIÓN
Inferencial

Parámetro : µ - = Error de muestreo


Descriptiva Inferencial
ESTADÍSTICA
Estadísticos
Parámetros

N
x 

Me 
n Inciertos
Mo x

S 
2

S2
n
Probablidades
Ciertos

Probabilístico No Probabilístico
Ejercicio 1
Cada uno de los siguientes procesos implica el muestreo de una
población. Definir la población. Es finita o infinita?
a) Se recibe una remesa de tarjetas de memoria de computadoras.
Para verificar si los repuestos están bien, un ingeniero
selecciona 10 tarjetas, una tras una, para probarlos.
b) Un técnico responsable del control de calidad, en una clínica
privada, tiene que calcular el porcentaje de vacunas
defectuosas en determinado día. Para ello toma una muestra de
100 vacunas de todo el lote de las mismas.
c) Un laboratorista clínico toma una muestra de sangre a un
paciente
d) Un dependiente farmacéutico toma una muestra aleatoria de
cierto medicamento para verificar su fecha de vencimiento
EJERCICIOS 2
 Una encuesta realizada a los Jefes de RRHH de
un grupo empresarial en Lima Metropolitana
consideró las siguientes preguntas:
 En qué empresa laboran
 La empresa es pequeña, mediana o grande?
 Cuánto tiempo labora en la empresa?
 Cuál es el número de trabajadores de la empresa?

Clasifique estas respuestas desde la tipología de


variables
EJERCICIOS 3
Los siguientes datos representan el tiempo en
minutos que los empleados de una clínica
tardan en llegar a su centro laboral desde el
lugar donde los deja su medio de transporte:
12 13 8 20 17 5 25 8 15 14 18 23 12 15
25
Indicar:
a) La unidad de análisis:
b) La variable
c) Tipo de variable
Los siguientes datos representan las actividades recreativas
EJERCICIOS 4
ofertadas por un Centro Recreacional y las elecciones hechas
por un grupo de personas para distraerse en dicha institución,
un fin de semana:
2 3 1 2 1 4 3 3 2 2 1 4 5 2 2 2 1
Donde: 1: Fútbol 2 Piscina 3: Ping Pong 4 Paseo a caballo
5: Voley
Indicar:
a) La unidad de análisis:
b) La variable
c) Tipo de variable
EJERCICIOS 5
Contestar V (correcta) o F (incorrecta) según corresponda.
Si su respuesta es falso, reemplace las palabras en
negrita para convertir en cierta la afirmación:
a) Una población es la totalidad de personas u objetos a
partir de la cual se desea obtener información.
b) Un parámetro es la medida de alguna característica
obtenida a partir de la muestra
c) El espesor de una lámina metálica utilizada por una
compañía en su proceso de fabricación, es ejemplo de
variable cualitativa
71

C. VARIABLES
VARIABLES

Número de veces Especialidades


que un alumno desaprueba. docentes

Genero: Femenino o masculino

Clasificación de las Tipos de alimentos


personas por sus por calorías
ideas religiosas Calidad laboral
VARIABLE.-
• Son características de personas u objetos que
pueden tomar diferentes valores.
• Cualquier característica de una persona, medio
ambiente o situación experimental, que puede
variar de persona a persona, de un medio
ambiente a otro, o de una situación experimental
a otra.
• Ejem. Temperatura, peso, color de los ojos,
número de carpetas por aula, grado de
instrucción, etc.
VARIABLES CUALITATIVAS
(CATEGÓRICAS)

CLASIFI- Puede ser:


CACIÓN - Dicótomicos
DE LAS - Politómicos

VARIA VARIABLES CUANTITATIVAS


BLES
(NUMÉRICAS)

Puede ser:
- Discreta
- Continua
CLASIFICACIÓN DE LAS VARIABLES

DICOTÓMICAS
VARIABLES
CUALITATIVAS
O CATEGÓRICAS
POLITÓMICAS

Característica que se expresa


cualitativamente.
Puede ser dicotómica o politómica.

DICOTÓMICAS POLITÓMICAS
“Cuando tienen dos categorías
“Cuando tienen más de dos
mutuamente excluyentes”
categorías”
Ejm: Género: Masculino(1), femenino(2);
Ejm: Estado civil, estado
Estado de salud: sano, enfermo.
nutricional, grado de instrucción.
DISCRETAS
O ENTERAS
VARIABLES
CUANTITATIVAS
O NUMÉRICAS: CONTINUAS
O REALES
Característica que se expresa
Cuantitativamente o numéricamente.
Puede ser discreta (enteros) o continua (decimales)

Número de pacientes de la UCI

DISCRETAS
1 2 3 4 5 6 7 8 9 10
No admite valores intermedios
Ej: Número de hijos por familia, número de consultas en un día, número de palabras de un libro.
Peso
CONTINUAS
50 50.1 50.2 50.3 50.4 50.5 50.6 50.7 50.8 50.9 51
Admite valores intermedios
Ej: Tiempo de duración de una consulta, peso del recién nacido, horas trabajadas.
Población: Niños de 5 a 10 años de edad.

• Variables:
- Peso - Frecuencia respiratoria
- Talla - Género
- Obesidad - Nº de hermanos
- Coeficiente de inteligencia - Lugar de procedencia
• Variables cualitativas:
- Dicotómica: Género, obesidad;
- Politómica: Lugar de procedencia.
• Variables cuantitativas:
- Discretas: Nº de hermanos, frecuencia respiratoria.
- Continuas: Peso, talla, perímetro abdominal.
DATOS

CONSTANTES VARIABLES

CUALITATIVAS CUANTITATIVAS

DISCRETAS CONTINUAS
Ejercicio 1
Situación: Un estudio de 300 hogares en un pequeño pueblo
sureño reveló que 20% tiene al menos un hijo en edad escolar

a) ¿Cuál es la muestra del estudio?


b) ¿Cuál es la población?
c) ¿Cuál es la variable de interés?
d) ¿Cuántas mediciones se hicieron para calcular los
resultados informados?
Ejercicio 2
Situación: Un estudio de 250 docentes participantes en un
Congreso sobre Educación, revela que, en promedio, los
docentes viven a 46 km del local.

a) ¿Cuál es la muestra del estudio?


b) ¿Cuál es la población?
c) ¿Cuál es la variable de interés?
d) ¿Cuántas mediciones se hicieron para calcular los
resultados informados?
81

D. TABLA DE FRECUENCIAS
EL ARTE DE MEDIR
 PRACTICAMENTE TODO
PUEDE SER MEDIDO DE
TODAS LAS MANERAS.
 EXCEPTO LAS
SITUACIONES
DICOTOMICAS EN LA
NATURALEZA. INSTRUMENTOS

AFIRMACION
PRESENCIA
VIDA
(RECORDAR QUE LA
CIENCIA NO PUEDE
NEGAR) INSTRUMENTOS???!!!
EL ARTE DE MEDIR
DOLOR “NOMINAL”: PRECORDIAL - ABDOMINAL - RENAL

DOLOR “DICOTOMICO”: SI - NO

DOLOR “ORDINAL”: INTOLERABLE - FUERTE- MODERADO- LEVE

DOLOR “DISCRETO”: ESCALA NUMERICA


0 -1-2-3-4-5-6-7-8-9-10
SI 0 ES SIN DOLOR Y 10 INTOLERABLE

DOLOR “CONTINUA” : ANALOGO VISUAL

0 100

PRECISION Y REPRESENTATIVIDAD (EXACTITUD)


Organizando los datos
1. Tabla de frecuencias
• Simples
• Cruzadas
2. Histograma
3. Polígono de frecuencias
4. Barras
5. Circular
6. Tallos y hojas
7. Caja y línea
8. Dispersión
9. Pirámide poblacional
Tabla de frecuencias
Suponga que estamos interesados en estudiar el
número de niños en las familias viviendo en la
comunidad. Los datos siguientes fueron reunidos
basados en una muestra aleatoria de n=30 familias
de la comunidad.
2, 2, 5, 3, 0, 1, 3, 2, 3, 4, 1, 3, 4, 5, 7, 3, 2, 4, 1, 0,
5, 8, 6, 5, 4 , 2, 4, 4, 7, 6
¡Organice estos datos en una tabla de frecuencias!
X=Nº de Conteo Frecuencia
niños (Frecuencia relativa simple
absoluta (hi)
simple: fi)
0 2 2/30=0.067
1 3 3/30=0.100
2 5 5/30=0.167
3 5 5/30=0.167
4 6 6/30=0.200
5 4 4/30=0.133
6 2 2/30=0.067
7 2 2/30=0.067
8 1 1/30=0.033
6

3
Freq.
2

0
0 1 2 3 4 5 6 7 8
TIPOS DE FRECUENCIAS

a) Frecuencia o Frecuencia Absoluta

Es el número de veces que se presenta un valor


o categoría de una variable. Se representa por
fi.
b) Frecuencia Relativa simple
La frecuencia relativa se puede expresar en
términos de porcentaje o de proporción y se
representa por hi .
En general, es más claro e informativo indicar
que proporción del total de los datos
representa cada frecuencia fi . Así, si hay n
datos en total, una frecuencia fi representa
una proporción hi = fi/n del total.
c) Frecuencia Absoluta Acumulada

Se representa por Fi.

donde F 1 = f1
F2 = f1 + f2
F3 = f1 + f2 + f3
.
Fk = f1 +f2 + f3 + … + fk = n
d) Frecuencia Relativa Acumulada
Se representa por Hi

Donde: H1 = h1
H2 = h1 + h2
H3 = h1 + h2 + h3
.
Hk = h1 +h2 + h3 + … + hk = 1 ó 100%
EJEMPLO

En una clase de 30 alumnos se ha


preguntado el número de hermanos que
tienen, el resultado ha sido el
siguiente:
2 1 1 0 1 2 1 5 3 6
1 2 0 3 0 1 1 2 3 4
4 2 1 1 1 2 0 3 1 1
Si presentamos esta información en una
tabla de frecuencias , queda como
sigue:
N ° de Frecuencia
hermanos
0 4
1 12
2 6
3 4
4 2
5 1
6 1
Total 30
OBSERVACIÓN:

Si una variable es nominal, no tiene

sentido calcular las frecuencias

acumuladas.
Nivel de colesterol en la sangre de una muestra de hombres
estadounidenses que tienen entre 25 y 34 años de edad , que fueron
atendidos en centros médicos de Lima Metropolitana y sufren de
hipertensión arterial , en el año 2012

Nivel de
Colesterol Cantidad de ¿Cuál es la variable
(mg/100 ml) hombres de interés?
80-120 13
120-160 15
¿Qué se mide?
160-200 44
200-240 29
240-280 9
Si la variable se tabula en intervalos, como
en el ejemplo anterior se debe considerar
lo siguiente:

[ LI –LS)

donde :
LI : es el límite inferior del intervalo i.
LS : es el límite superior del intervalo i.
Amplitud de un Intervalo
En general, la amplitud de cada
intervalo se denota por ai y está dado por:

ai = LS – LI
En el ejemplo anterior:
a1 = 120 - 80 = 40
a4 = 240 - 200 = 40
Marca de Clase:
Se denota por Xi ,y se determina por:

LS  LI
xi 
2

En el ejemplo anterior:
X1 = ( 120 + 80) / 2 = 100
X4= ( 240+ 200 ) / 2 = 220
Tabla de frecuencias (Agrupados)
Suponga que necesitamos construir una tabla de frecuencias similar
para la edad de pacientes con problemas relacionados al corazón en
una clínica.

Los siguientes datos han sido reunidos basados en una muestra


aleatoria de n=30 pacientes quienes fueron a emergencias de la
clínica por problemas relacionados al corazón.

Las mediciones fueron:


42, 38, 51, 53, 40, 68, 62, 36, 32, 45, 51, 67, 53, 59,
47, 63, 52, 64, 61, 43, 56, 58, 66, 54, 56, 52, 40, 55,
72, 69.
Grupos de fi hi hi(%)
edad

[32 –37[ 2 2/30=0.067 6.7


[37- 42[ 3 3/30=0.100 10.0
[42- 47[ 4 4/30=0.134 13.4
[47- 52[ 3 3/30=0.100 10.0
[52- 57[ 8 8/30=0.267 26.7
[57- 62[ 3 3/30=0.100 10.0
[62- 67[ 4 4/30=0.134 13.4
[67-72] 3 3/30=0.100 10.0
Total n=30 1.00 100.0
Grupos de fi hi hi(%)
edad

[32 –37[ 2 2/30=0.067 6.7


[37- 42[ 3 3/30=0.100 10.0
[42- 47[ 4 4/30=0.134 13.4
[47- 52[ 3 3/30=0.100 10.0
[52- 57[ 8 8/30=0.267 26.7
[57- 62[ 3 3/30=0.100 10.0
[62- 67[ 4 4/30=0.134 13.4
[67-72] 3 3/30=0.100 10.0 Contestar V o F,
Total n=30 1.00 100.0 según corresponda:

a) El 13.4% de las personas tiene entre 42 y 46 años cumplidos.


b) El 30.1% de la muestra tiene entre 32 y 47 años cumplidos
c) Los mayores de 62 años representan el 23.4%
d) Hay 12 personas menores de 52 años
Variables Nominales y Ordinales
Sarcoma de Número de
Kaposi individuos
Si 246
No 2314
Variables Cuantitativas
discretas o continuas
tabuladas en intervalos
Variables Cuantitativas Nivel de Colesterol Cantidad de
Discretas (mg/100 ml) hombres
Número de Número de 80-120 13
hermanos alumnos
120-160 150
0 4
160-200 442
1 6 200-240 299
2 8 240-280 115
3 10 280-320 34
4 7 320-360 9
5 5 360-400 5
Las edades de veinte escolares son:
12, 13, 14, 10, 11, 12, 11, 13, 14, 12, 10, 12, 11,
13, 12, 11, 13, 12, 10 y15.
Organiza los datos en una tabla de frecuencias.

a) ¿Qué porcentaje de alumnos tienen 12 años?


b) ¿Cuántos alumnos tienen menos de 14 años?
c) ¿Qué porcentaje de estudiantes tiene más de 14 años?
d) ¿Cuál es el valor que se repite más veces?
Tam año em presa

Porcentaje
Frecuencia Porcentaje acumulado
Válidos 5 - 33 14 28,0 28,0
33 - 61 14 28,0 56,0
61 - 89 13 26,0 82,0
89 - 117 5 10,0 92,0
117 - 145 4 8,0 100,0
Total 50 100,0

Contestar V o F:
a) El 26 % tiene entre 61 y 88 trabajadores
b) El 56% tiene entre 33 y 60 trabajadores
c) 8% de las empresas tienen 117 o más trabajadores
d) 82% de las empresas tienen menos de 89 trabajadores
Dada la siguiente tabla:
Nº hijos F. absoluta F. absoluta acum ulada F. relativa F. relativa acum ulada
0 6 6 0,12 0,12
1 13 19 0,26 0,38
2 16 35 0,32 0,7
3 9 44 0,18 0,88
4 4 48 0,08 0,96
5 2 50 0,04 1

Contestar V o F según corresponda:


a) Hay 9 familias que tienen tres hijos
b) 32% de las familias tienen hasta dos hijos
c) 45% de las familias tienen uno o dos hijos
d) 30% de las familias tienen tres o más hijos
CLASE Xi fi
31-36 33.5 7
37-42 39.5 9
43-48 45.5 9 Distribución de
49-54 51.5 10 frecuencias
55-60 57.5 07
61-66 63.5 5 Gráfico 7:
67-72 69.5 1 Número de estudiantes según Aptitud Mental

TOTAL 48

Histograma

Fuente: Tabla de frecuencia (3).


EL ARTE DE MEDIR
 PRACTICAMENTE TODO
PUEDE SER MEDIDO DE
TODAS LAS MANERAS.
 EXCEPTO LAS
SITUACIONES
DICOTOMICAS EN LA
NATURALEZA. INSTRUMENTOS

AFIRMACION
PRESENCIA
VIDA
(RECORDAR QUE LA
CIENCIA NO PUEDE
NEGAR) INSTRUMENTOS???!!!
EL ARTE DE MEDIR
DOLOR “NOMINAL”: PRECORDIAL - ABDOMINAL - RENAL

DOLOR “DICOTOMICO”: SI - NO

DOLOR “ORDINAL”: INTOLERABLE - FUERTE- MODERADO- LEVE

DOLOR “DISCRETO”: ESCALA NUMERICA


0 -1-2-3-4-5-6-7-8-9-10
SI 0 ES SIN DOLOR Y 10 INTOLERABLE

DOLOR “CONTINUA” : ANALOGO VISUAL

0 100

PRECISION Y REPRESENTATIVIDAD (EXACTITUD)


Organizando los datos
1. Tabla de frecuencias
• Simples
• Cruzadas
2. Histograma
3. Polígono de frecuencias
4. Barras
5. Circular
6. Tallos y hojas
7. Caja y línea
8. Dispersión
9. Pirámide poblacional
Tabla de frecuencias
Suponga que estamos interesados en estudiar el
número de niños en las familias viviendo en la
comunidad. Los datos siguientes fueron reunidos
basados en una muestra aleatoria de n=30 familias
de la comunidad.
2, 2, 5, 3, 0, 1, 3, 2, 3, 4, 1, 3, 4, 5, 7, 3, 2, 4, 1, 0,
5, 8, 6, 5, 4 , 2, 4, 4, 7, 6
¡Organice estos datos en una tabla de frecuencias!
X=Nº de Conteo Frecuencia
niños (Frecuencia relativa simple
absoluta (hi)
simple: fi)
0 2 2/30=0.067
1 3 3/30=0.100
2 5 5/30=0.167
3 5 5/30=0.167
4 6 6/30=0.200
5 4 4/30=0.133
6 2 2/30=0.067
7 2 2/30=0.067
8 1 1/30=0.033
6

3
Freq.
2

0
0 1 2 3 4 5 6 7 8
TIPOS DE FRECUENCIAS
a) Frecuencia o Frecuencia Absoluta
Es el número de veces que se presenta un valor
o categoría de una variable. Se representa por
fi.

b) Frecuencia Relativa simple


La frecuencia relativa se puede expresar en
términos de porcentaje o de proporción y se
representa por hi .
En general, es más claro e informativo indicar
que proporción del total de los datos
representa cada frecuencia fi . Así, si hay n
datos en total, una frecuencia fi representa
una proporción hi = fi/n del total.
c) Frecuencia Absoluta Acumulada

Se representa por Fi.

donde F 1 = f1
F2 = f1 + f2
F3 = f1 + f2 + f3
.
Fk = f1 +f2 + f3 + … + fk = n
d) Frecuencia Relativa Acumulada
Se representa por Hi

Donde: H1 = h1
H2 = h1 + h2
H3 = h1 + h2 + h3
.
Hk = h1 +h2 + h3 + … + hk = 1 ó 100%
EJEMPLO

En una clase de 30 alumnos se ha


preguntado el número de hermanos que
tienen, el resultado ha sido el
siguiente:
2 1 1 0 1 2 1 5 3 6
1 2 0 3 0 1 1 2 3 4
4 2 1 1 1 2 0 3 1 1
Si presentamos esta información en una
tabla de frecuencias , queda como
sigue:
N ° de Frecuencia
hermanos
0 4
1 12
2 6
3 4
4 2
5 1
6 1
Total 30
Observación:

SI UNA VARIABLE ES NOMINAL NO TIENE

SENTIDO CALCULAR LAS FRECUENCIAS

ACUMULADAS.
Nivel de colesterol en la sangre de una muestra de hombres
estadounidenses que tienen entre 25 y 34 años de edad , que fueron
atendidos en centros médicos de Lima Metropolitana y sufren de
hipertensión arterial , en el año 2011

Nivel de
Colesterol Cantidad de ¿Cuál es la variable
(mg/100 ml) hombres de interés?
80-120 13
120-160 15
¿Qué se mide?
160-200 44
200-240 29
240-280 9
Si la variable se tabula en intervalos, como
en el ejemplo anterior se debe considerar
lo siguiente:

[ LI –LS)

donde :
LI : es el límite inferior del intervalo i.
LS : es el límite superior del intervalo i.
Amplitud de un Intervalo
En general, la amplitud de cada
intervalo se denota por ai y está dado por:

ai = LS – LI
En el ejemplo anterior:
a1 = 120 - 80 = 40
a4 = 240 - 200 = 40
Marca de Clase:
Se denota por Xi ,y se determina por:

LS  LI
xi 
2

En el ejemplo anterior:

X1 = ( 120 + 80) / 2 = 100


X4= ( 240+ 200 ) / 2 = 220
Tabla de frecuencias
(Agrupados)
Suponga que necesitamos construir una tabla de
frecuencias similar para la edad de pacientes con
problemas relacionados al corazón en una clínica.

Los siguientes datos han sido reunidos basados en


una muestra aleatoria de n=30 pacientes quienes
fueron a emergencias de la clínica por problemas
relacionados al corazón.

Las mediciones fueron: 42, 38, 51, 53, 40, 68, 62,
36, 32, 45, 51, 67, 53, 59, 47, 63, 52, 64, 61, 43, 56,
58, 66, 54, 56, 52, 40, 55, 72, 69.
Grupos de fi hi hi(%)
edad

[32 –37[ 2 2/30=0.067 6.7


[37- 42[ 3 3/30=0.100 10.0
[42- 47[ 4 4/30=0.134 13.4
[47- 52[ 3 3/30=0.100 10.0
[52- 57[ 8 8/30=0.267 26.7
[57- 62[ 3 3/30=0.100 10.0
[62- 67[ 4 4/30=0.134 13.4
[67-72] 3 3/30=0.100 10.0
Total n=30 1.00 100.0
Grupos de fi hi hi(%)
edad

[32 –37[ 2 2/30=0.067 6.7


[37- 42[ 3 3/30=0.100 10.0
[42- 47[ 4 4/30=0.134 13.4
[47- 52[ 3 3/30=0.100 10.0
[52- 57[ 8 8/30=0.267 26.7
[57- 62[ 3 3/30=0.100 10.0
[62- 67[ 4 4/30=0.134 13.4
[67-72] 3 3/30=0.100 10.0 Contestar V o F,
Total n=30 1.00 100.0 según corresponda:

a) El 13.4% de las personas tiene entre 42 y 46 años cumplidos.


b) El 30.1% de la muestra tiene entre 32 y 47 años cumplidos
c) Los mayores de 62 años representan el 23.4%
d) Hay 12 personas menores de 52 años
Variables Nominales y Ordinales
Sarcoma de Número de
Kaposi individuos
Si 246
No 2314
Variables Cuantitativas
discretas o continuas
tabuladas en intervalos
Variables Cuantitativas Nivel de Colesterol Cantidad de
Discretas (mg/100 ml) hombres
Número de Número de 80-120 13
hermanos alumnos
120-160 150
0 4
160-200 442
1 6 200-240 299
2 8 240-280 115
3 10 280-320 34
4 7 320-360 9
5 5 360-400 5
Las edades de veinte escolares son:
12, 13, 14, 10, 11, 12, 11, 13, 14, 12, 10, 12, 11,
13, 12, 11, 13, 12, 10 y15.
Organiza los datos en una tabla de frecuencias.

a) ¿Qué porcentaje de chicos tienen 12 años?


b) ¿Cuántos chicos tienen menos de 14 años?
c) Qué porcentaje de estudiantes tiene más de 14 años?
d) ¿Cuál es el valor que se repite más veces?
Tam año em presa

Porcentaje
Frecuencia Porcentaje acumulado
Válidos 5 - 33 14 28,0 28,0
33 - 61 14 28,0 56,0
61 - 89 13 26,0 82,0
89 - 117 5 10,0 92,0
117 - 145 4 8,0 100,0
Total 50 100,0

Contestar V o F:
a) El 26 % tiene entre 61 y 88 trabajadores
b) El 56% tiene entre 33 y 60 trabajadores
c) 8% de las empresas tienen 117 o más trabajadores
d) 82% de las empresas tienen menos de 89 trabajadores
Dada la siguiente tabla:
Nº hijos F. absoluta F. absoluta acum ulada F. relativa F. relativa acum ulada
0 6 6 0,12 0,12
1 13 19 0,26 0,38
2 16 35 0,32 0,7
3 9 44 0,18 0,88
4 4 48 0,08 0,96
5 2 50 0,04 1

Contestar V o F según corresponda:


a) Hay 9 familias que tienen tres hijos
b) 32% de las familias tienen hasta dos hijos
c) 45% de las familias tienen uno o dos hijos
d) 30% de las familias tienen tres o más hijos
CLASE Xi fi
31-36 33.5 7
37-42 39.5 9
43-48 45.5 9 Distribución de
49-54 51.5 10 frecuencias
55-60 57.5 07
61-66 63.5 5 Gráfico 7:
67-72 69.5 1 Número de estudiantes según Aptitud Mental

TOTAL 48

Histograma

Fuente: Tabla de frecuencia (3).


130

E. ESTADÍSTICOS DESCRIPTIVOS
ESTADÍSTICA DE
RESUMEN

Cuando se ha recopilado un conjunto


de datos, grande o pequeño, es
necesario resumir sus características en
un conjunto de medidas o indicadores
que nos dan una idea general del
comportamiento del conjunto.
LA ESTADÍSTICA DE RESUMEN

 Después de construir tablas y gráficos, a


partir de una recolección de datos, se
requieren medidas más exactas.
 La estadística de resumen, proporciona
medidas para describir un conjunto de
datos.
 Los principales tipos de medidas de
resumen:
- De tendencia central
- De posición
- De dispersión
- De la forma de la distribución
FIG. 1 CLASIFICACIÓN DE LOS ESTADISTICOS
UNIVARIANTES
MASA POSICIÓN
• Tamaño muestral Max Min.
• Sumatorio Cuartiles
• Frecuencia Deciles
ESTADÍSTICO Percentiles

CENTRALIZACIÓN FORMA
DISPERSIÓN
• Media • Simetría
• Moda • Rango o amplitud • Kurtosis
• Mediana • Desviación típica y varianza
• Desviación media
• Coeficiente de variación
• Rango intercuartilico

La distinción de estos estadísticos está asociado al tipo de variables


que se analiza.
LAS MEDIDAS DE TENDENCIA CENTRAL

En general se denominan promedios.

Media o promedio
aritmético
Medidas de Mediana
tendencia central Moda
MEDIDAS DE TENDENCIA CENTRAL
1. LA MEDIA ARITMÉTICA ( x )
1.1. Para datos sin agrupar
1.1.1. Media aritmética simple

Se halla sumando todos los datos de la distribución y


dicha suma entre el total de los datos.
FORMULA

Suma de todos los datos


x   Xi
n
Número de datos
Media aritmética
EJEMPLO:
Las siguientes son las notas en el curso de matemáticas de dos grupos de
estudiantes de la UNE.
Tabla Nº 1
A 14 16 11 20 17 08 09 14 18 14 14 13
B 12 17 14 14 16 13 16 15 11 09 15 18 16

CALCULO DE LA MEDIA
La fórmula a utilizar de la media = ∑ Xi / n
Para el grupo A:
Media = 14+16+11+20+17+08+09+14+18+14+14+13
12
Media = 168/12 = 14

Para el grupo B:
Media = 12+17+14+14+16+13+16+15+11+09+15+18+16
13
Media = 186/13 = 14.308

INTERPRETACIÓN
Las notas del curso de matemáticas promedio del grupo A es de 14 y del
grupo B es de 14.308.
4. La media es muy sensible a los datos extremos.

X: 2 4 6 8 10

X = 6.00

Fig. 2. La media como el punto de equilibrio de la distribución

5. Es posible comparar medias de diferentes muestras.


2. LA MEDIANA (Me)

Es el estadígrafo que representa el punto medio de los datos,


en el cual cae el 50% de las puntuaciones, de tal manera que un
50% de los datos es menor a la mediana y el otro 50% es mayor
a la mediana.

50% 50%

Dm DM

Fig. 3. La Me para el punto medio (50%)


2.1. Para datos no agrupados
Tabla 4. Notas en el curso de matemáticas de un grupo de los
estudiantes.
A 14 16 11 20 17 08 09 14 18 14 14 13
B 12 17 14 14 16 13 16 15 11 09 15 18 16

PARA EL GRUPO A: Serie Par n = 12


En este caso se requiere ordenar los datos en orden ascendente y luego realizar la
semisuma de los dos valores (sexto y séptimos)
A 08 09 11 13 14 14 14 14 16 17 18 20

Me = (14 + 14) / 2 = 14
INTERPRETACIÓN: El 50% de los estudiantes tienen máximo 14 de nota.

PARA EL GRUPO B: Serie Impar. n = 13


En este caso se requiere ordenar los datos en orden ascendente y luego tomar el valor
central, en este caso el séptimo.
B 09 11 12 13 14 14 15 15 16 16 16 17 18

Me = 15
INTERPRETACIÓN: El 50% de los estudiantes tienen máximo 14 de nota.
PROPIEDADES:

 La mediana es menos sensible que la media a los datos


extremos.
 Se puede determinar para datos cualitativos, registrados
bajo una escala ordinal.
 Como valor central, se debe ordenar primero la serie de
datos.
3. LA MODA (Mo)
Es el dato que más se repite
3.1. Para datos no agrupados

Tabla 7. Notas en el curso de matemáticas de un grupo de


estudiantes
A 14 16 11 20 17 08 09 14 18 14 14 13
B 12 17 14 14 16 13 16 15 11 09 15 18 16

PARA EL GRUPO A:
La moda es el valor que más veces se repite.
En este caso es el 14.
PARA EL GRUPO B:
Media
La moda es el valor que MedianaEn este caso
más veces se repite. Moda
es el 16.
Grupo A 14 14 14
Tabla 8. Resumen de14.308
Grupo B los estadísticos de15las notas en el 16
curso de
Matemáticas de un grupo de estudiantes
COMPARACIÓN DE LA MEDIA, MEDIANA Y MODA
¿Qué tan ¿Toma en ¿Es afectada
Ventajas/
Medida común Existencia cuenta por valores
Desventajas
es? cada valor? extremos?
Es el de
“Promedio mayor uso.
Siempre
Media más Si Si Sensibles a
existe
conocido” los valores
extremos.
Apropiada
“Promedio
Siempre cuando hay
Mediana más No No
existe valores
conocido”
extremos
Apropiada
para
Valor más Podría no
Moda No No variables en
frecuente existir
escala
nominal.
Adaptado de “Estadística” / Triola – Novena Edición.
PERCENTILES
Los percentiles son medidas de posición relativa, y el
propósito es de comparar el rendimiento de un
individuos o en relación con el grupo del que forma
parte.

Un conjunto ordenado de datos se divide en 100 partes iguales


(equivale a 99 percentiles) y en donde el percentil viene a ser
el valor sobre la escala de medida de bajo del cual cae un
porcentaje de los datos.
GRÁFICO 1

P1 P2 P3 P4 P5 P6 P7 P8 P9 P10
……………. 99
Ejemplo:
El percentil 45 (P45) viene a ser el valor por debajo del cual se sitúa el
45% de los datos de una distribución determinada, y por encima de
ese valor se sitúa el 55% restante.
Interpretación.-
GRÁFICO 2
45% 55%

P 45

CASOS PARTICULARES DE PERCENTILES


• Cuartiles: Q1 (equivale al percentil 25), Q2 (percentil o
mediana) y Q3 (percentil 75)
• Quintiles: Divide la distribución de datos en “quintos”. Por
ejemplo, el quintil 2 equivale al percentil 20.
• Deciles: Divide la distribución en diez partes porcentuales.
Tenemos así que el percentil 30 sería el decil 3.

D5 = P50 = Q2 = Me
P10 = D1; P60 = D6
P20 = D2; P70 = D7
P25 = Q1 = P75 = Q3
P30 = D3; P80 = D8
P40 = D4; P90 = D9
CUARTILES: Q
Son tres (Q1, Q2, Q3) y dividen a un conjunto ordenado
de datos en 4 partes iguales.

25% 25% 25% 25%


Q1 Q2 Q3
Q2 = Me

Gráfico 2: Forma de distribución de los cuartiles.

1. DATOS NO AGRUPADOS

Las siguientes son las notas en el curso de matemáticas de 13 de


estudiantes de la UNFV.

A 14 16 11 20 17 08 09 14 18 14 14 13 19
PROCEDIMIENTO:
1. Ordenar los datos en forma ascendente:

08 09 11 13 14 14 14 14 16 17 18 19 20

MEDIANA
2. Se ubica el cuartil 2 (Q2 o mediana) como el número de datos es impar se
toma el valor de la posición siete, tal como se indica.
Q2 = 14
3. El cuartil 1 (Q1) se determina estableciendo la mediana de la
primera mitad de los datos ordenados. En este caso la mediana de 08, 09, 11,
13, 14, 14.
Q1 = (11 + 13)/2 = 12
4. El cuartil 3 (Q3) se determina ubicando la mediana de la otra mitad
de datos, que en este ejemplo vienen a ser 14, 16, 17, 18, 19, 20.
Q3 = (17 + 18)/2 = 17.5

2. DATOS AGRUPADOS

(Véase en cálculo de cuartiles para datos agrupados)


MEDIDAS DE VARIABILIDAD, DISPERSIÓN
(ó SCATTER)
Miden la dispersión o desviación de los datos con respecto a las
medidas de tendencia central.

Ejemplo:
Observe que la curva de los hombres en el siguiente gráfico tiene una
mayor dispersión que la curva de las mujeres, a pesar que la posición
central es la misma.
MUJERE
S
HOMBR
ES

LAS MEDIDAS MÁS UTILIZADAS SON:


1. Rango o recorrido 4. Varianza
2. Desviación cuartil 5. Desviación estándar
3. Desviación media 6. Coeficiente de variación
1. RANGO (R)
Es la diferencia entre el dato mayor el dato menor de datos que se
analiza.

1.1. Datos no agrupados


Según fórmula:
R = DM - Dm

DATO DATO
RANGO
MAYOR MENOR
EJEMPLO:
Halle el rango para el siguiente conjunto de datos: 10, 05, 12, 01, 16
y 15 o aplicando la fórmula:
R = 16 – 01 = 15
2. DESVIACIÓN CUARTIL (DQ) O RANGO SEMI-
INTERCUARTIL

Q3 : CUARTIL 3 : Se acumula el 75% de las


puntuaciones.
Q1 : CUARTIL 1:
Se acumula el 25% de las
puntuaciones. Alcanceintercuartilico
intercuartil o rago

Permite ubicar el 50% de


los datos que se
encuentran en el centro
de la distribución, es (Dm) (DM)

decir, el 25% de los


datos son menores al
primer cuartil y también
25% de los datos son
mayores al tercer cuartil.

a2
a1 a3
3. DESVIACIÓN MEDIA (D.M.)
Es el promedio de los valores absolutos de las desviaciones de los
datos con respecto a la media aritmética.

3.1. Datos no agrupados:


Según fórmula:

VALOR ABSOLUTO

D.M. =
 x x
n

OBSERVACIÓN NÚMERO MEDIA


DE DATO DE DATOS ARITMÉTICA
4. LA VARIANZA (S2)
• Es una medida que proporciona información sobre el
grado de dispersión de los valores de una serie con
respecto a su media aritmética.
• Si los números están cerca de la media, la varianza es
pequeño.
4.1. Datos no agrupados:
• Si los números
Según fórmula: están PUNTUACIÓN
alejados de la CUALQUIERA
media, la varianza
será más grande.

 ( xi
2
 x) MEDIA ARITMÉTICA
62 =
n 1

NÚMERO DE CASOS

Ejemplo: Halle la varianza para las siguientes notas en el


curso de matemáticas de un grupo de estudiantes de la
UNFV.
A 14 16 11 20 17 08 09 14 18 14 14 13
5. LA DESVIACIÓN ESTANDAR O DESVIACIÓN TÍPICA (S)

S  S(
Es la raíz cuadrada de la varianza ), proporciona la
2

dispersión promedio en torno a la media de la distribución.


• Es la medida de variabilidad de uso más frecuente.
5.1. Datos no agrupados:
 ( Xi  x )
2
Según fórmula: S=
n 1

Ejemplo: Halle la desviación estándar de la tabla 4.


136
S   12 . 31
2

Resultado de la varianza según tabla 11


4:
S 12 . 31  3 . 52
Aplicando fórmulas:

INTERPRETACIÓN: Las notas en el curso de matemáticas


5.2. Datos agrupados:
 ( Xi  x ) * fi
2

S 
Según fórmula: n 1

Ejemplo: Halle la desviación estándar de la tabla 6.


136
S   12 . 31
2

11

Resultado de la varianza según tabla 6

S2 = 95.75

Aplicando fórmulas: S  95 . 75  9 . 78

INTERPRETACIÓN: Los datos obtenidos en el test de aptitud, se


dispersa en promedio en 9.78 con respecto al valor central.
PROPIEDADES DE LA DESVIACIÓN ESTÁNDAR

 Es el índice que mejor representa la dispersión de las


propiedades con respecto a la media.
 La desviación estándar es sensible a cada rato de la
distribución.
 Al igual que la media, la desviación estándar es estable
con respecto a las variaciones debidas al muestreo.
 La media y la desviación estándar se pueden manipular
de manera algebraica.
 Es la medida de variabilidad de uso más frecuente.
6. COEFICIENTE DE VARIACIÓN: C.V.
• Es una medida de dispersión relativa de la desviación estándar con
respecto a la media, es decir:

Según fórmula: S
C.V = x 100
x

Tiene gran utilidad cuando se requiere comparar grupos diferentes


pues el valor obtenido es un número sin unidades. En general, los
casos en que puede aplicársele son:

• Cuando se desea comparar las dispersiones de dos conjuntos


correspondientes a características diferentes:
• Cuando se comparan las dispersiones de dos conjuntos de
medicines correspondientes a la misma característica pero con
rangos diferentes.
• Diversos autores han establecido una regla práctica en base al C.V.
para establecer el grado de homogeneidad de la variable en
cuestión, la misma que se resume en la siguiente tabla 7.
Tabla 7. Grado de homogeneidad del C.V. y significado.

COEFICIENTE DE VARIACIÓN SIGNIFICADO


Hasta 20% Homogénea
De 20% a 30% Razonablemente homogénea
Mayor de 30% Heterogénea

Ejemplo:
1. Los datos de peso en kgr. de 10 pacientes corresponde la siguiente
información:
X = 50.9
S = 7.6
7 .6
Aplicando fórmula: C .V .  x 100  14 . 9 %
50 . 9

INTERPRETACIÓN: Los pesos de los pacientes se dispersan en


promedio 14.9% con respecto al valor central, siendo homogéneo.
7) LAS MEDIDAS DE LA FORMA DE LA CURVA
Las curvas que representan a un conjunto de datos, pueden ser analizadas
de acuerdo a su:
a) Simetría b) Curtósis

Las curvas simétricas, tienen una forma tal que con una línea vertical
que pase por el punto más alto de la curva, dividirá el área de esta en dos
partes iguales.
Cuando medimos la curtósis nos referimos al grado de
apuntaminto o agudeza. Pueden ser:
a) Leptocúrtica (concentración al centro)
b) Mesocúrtica distribuidos simétricamente)
c) Platicúrtica (aplanada).
Las curvas sesgadas son aquellas cuyos valores están
concentrados en el extremo inferior o superior de la escala de
medición del eje horizontal. La “cola” indica el tipo de sesgo.
• Por su modalidad las distribuciones de frecuencias pueden ser:

a. UNIMODALES. Poseen un punto


elevado o un pico.

b. BIMODALES.- Poseen dos picos


claramente pronunciados.

c. Carece totalmente de moda.


Aptitud yi fi yi x fi
31 - 36 33.5 7 33.5 x 7 =
37 - 42 39.5 8 234.5
39.5 x 8 =
316.0
43 - 48 45.5 9 45.5 x 9 =
409.5
49 - 54 51.5 11 51.5 x 11 =
566.5
55 - 60 57.5 7 57.5 x 7 =
402.5
61 - 66 63.5 5 63.5 x 5 =
317.5
67 - 73 69.5 1 69.5 x 1 =
69.5
Total -  fi: 48  yi.fi:
2316.0
A ptitud yi fi Fi

31 - 36 33.5 7 7
37 - 42 39.5 8 15
43 - 48 45.5 9 24
49 - 54 51.5 11 35
55 - 60 57.5 7 42
61 - 66 63.5 5 47
67 - 73 69.5 1 48
T otal - 48

Li : Intervalo inferior de la “clase mediana “


N : Número total de datos
N/2 - F i-1 Fi-1: Frecuencia absoluta
acumulada de la “clase anterior a la mediana”
M e = Li + (---------------) A fi : Frecuencia relativa de la
“clase mediana”
fi A: Tamaño o amplitud de la
“clase mediana”
2 2
A ptitud yi fi (yi – Y ) (yi – Y ) (yi – Y ) . fi
31 - 36 33.5 7 -14.75 217.56 1522.94
37 - 42 39.5 8 -8.75 76.56 612.50
43 - 48 45.5 9 -2.75 7.56 68.06
49 - 54 51.5 11 3.25 10.56 116.19
55 - 60 57.5 7 9.25 85.56 598.94
61 - 66 63.5 5 15.25 232.56 1162.81
67 - 72 69.5 1 21.25 451.56 451.56
2
T otal -  fi: 48  (yi – Y ) . fi: 4533

Varianza = 4533 / 47 = 96.45


164

F. GRÁFICOS
REPRESENTACIÓN GRÁFICA DE
VARIABLES ESTADÍSTICAS

 Un gráfico estadístico es la presentación de


la información por medio de figuras
geométricas.
 El objetivo primordial de un gráfico es la
ilustración visual de conjunto para una
rápida y fácil comprensión.
 Un gráfico debe ser sencillo y explicativo.
 Los tipos de gráficos pueden ser
establecidos a partir de la naturaleza de las
variables.
TIPO DE GRÁFICOS
 La elección de un gráfico depende del
objetivo que se persigue, es decir, qué es lo
que se quiere mostrar, para qué y para
quiénes. Pueden ser:
Para variable Gráficos
 Gráfico de barras:
Simples  Una variable
Compuestas  Dos variables
CUALITATIVAS
Superpuestas  Dos variables
 Gráfico de sectores circulares  Una
variable
 Histogramas y
 Polígonos de frecuencias
CUANTITATIVAS  Diagrama de cajas y bigotos (Box-Plot)
 Ojivas
TIPO DE GRÁFICOS
Cuantitativas con segmentación cualitativa
• Diagrama de Cajas y Bigotes
• Pirámide poblacional
• Barras con panel (horizontal o vertical)
• Histograma con panel (horizontal o vertical)
Bivariadas
• Diagrama de Dispersión (cuantitativas)
• Barras agrupadas (cualitativas)
• Puntos (ordinales)
PARTES DE UN GRÁFICO

• Título, que expresa el contenido


Figura 1
del gráfico y por lo general, es Embarazo No Planificado e Intención de Abortar
igual o parecido al título de la IPMI, Lima. Febrero 2002
tabla que sirvió de referencia y
qué debe responder:
(Qué, cómo, dónde y cuándo)
18
• Escala, se utiliza generalmente el 16
sistema cartesiano, que tiene dos 14
ejes: uno horizontal llamado 12
abscisa y otro vertical llamado 10
ordenada ambos se cortan en un 8
punto llamado origen. 6

• Cuerpo, es el gráfico en sí, y 4

constituye la representación en 2
0
dibujo de los datos. Si Aborto No Aborto
• Fuente, indica el origen de los Si Planificaron No Planificaron

datos que se están presentando Fuente: Grupo de Investigación del curso de


en la figura. Sexualidad Humana, febrero 2002
REPRESENTACIÓN DE VARIABLES CUANTITATIVAS
HISTOGRAMA  Gráfico que se utiliza para representar distribuciones de frecuencia de
datos intervalares (frecuencias absolutas o relativas simples).

 Consiste en un conjunto de rectángulos contiguos: cada rectángulo


representa un intervalo de clase y la altura del mismo indica la frecuencia
de clase.

 Los intervalos de clase se localizan en el eje horizontal y cada rectángulo


comienza y termina en sus límites reales de intervalo.
 Como los intervalos son continuos los rectángulos aparecen “pegados” y
sin dejar espacios en blanco entre ellos.

 La superficie del histograma son proporcionales a las frecuencias de los


números de clases.

PROCEDIMIENTO:

Paso 1
Trazar los ejes horizontal (intervalos de clase) y vertical (fi), cuidando de
aplicar una escala adecuada.
Paso 2
En el eje horizontal (abscisas) ubicar los límites de cada intervalo de clase
y levantar los rectángulos hasta una altura que coincida con la frecuencia
correspondiente en el eje vertical (ordenadas).
Tabla 1. Número de estudiantes
según aptitud mental
CLASE Xi fi
31-36 33.5 7 Distribución de
37-42 39.5 9 frecuencias
43-48 45.5 9 Figura 2:
49-54 51.5 10 Histograma: Número de estudiantes según
55-60 57.5 07 aptitud mental
61-66 63.5 5
67-72 69.5 1
TOTAL 48

Histograma

Fuente: De la Tabla 1.
POLÍGONO DE FRECUENCIAS  Utilizando el histograma trazado se
puede generar el polígono de frecuencias
correspondiente.

 Para ello se ubican las marcas de clase de


cada intervalo, ubicados en la parte
(SIMPLES)

superior de cada rectángulo. Luego se


unen los puntos localizados mediante
líneas rectas.

 Se hace necesario para fines del grafico


incrementar un intervalo de clase en cada
extremo, con frecuencia cero. Esta
manera de cerrar la figura con el eje
horizontal forma un polígono del cual
recibe el nombre esta gráfica.

 El área total bajo el polígono equivale al


número total de casos.
Tabla 2. Número de estudiantes
según aptitud mental

CLASE Xi fi
31-36 33.5 7
37-42 39.5 9
Distribución de
43-48 45.5 9 frecuencias
Figura 3:
49-54 51.5 10
Polígono de frecuencia: Número de estudiantes
55-60 57.5 07 según aptitud mental
61-66 63.5 5
67-72 69.5 1
TOTAL 48

Polígono de
frecuencias

Fuente: De la Tabla 2.
PRESENTACIÓN DE VARIABLES CUALITATIVAS

Tabla 5: Número de estudiantes de acuerdo a


la carrera que estudian

Carrera de estudio fi hi hi%


Arquitectura 4 0.05 5
Biología 8 0.10 10
Contabilidad 32 0.40 40
Economía 16 0.20 20
Psicología 20 0.25 25
TOTAL 80

Fuente: Base de datos - Abril 2012.


GRAFICA CIRCULAR Figrua 5 :
Distribución de Estudiantes por Especialidad
(Pie Chart)

Fuente: De la Tabla 5.

 Estos gráficos se utiliza preferentemente para


variables cualitativas, que no tengan muchas
categorías.
 Cada sector de la “torta” es proporcional a la
frecuencia de cada categoría representada.
 A cada elemento de la variable le corresponde un
sector de la circunferencia.
 Si el gráfico toma forma tridimensional se le
denomina de “pastel” o “torta”.
Figura 6. Gráfico de Barras: Distribución de
estudiantes Especialidad
GRÁFICO DE BARRAS
(Line Chart)

Fuente: De la Tabla 5.

Representa hechos o fenómenos sin continuidad. Las categorías pueden


representar distintos aspectos, no ordenados de una característica .Permiten
visualizar la magnitud y comparar los elementos en que se clasifican las
variables.
 La altura del rectángulo es proporcional a la frecuencia de la categoría.
 Si la escala de medición es nominal las categorías pueden aparecer en
cualquier orden.
 Si la escala es ordinal deben aparecer en su “orden natural”
 Las barras aparecen separadas.

Se presenta en la parte superior la Figura 6, correspondiendo a las barras simples.


Para representar una variable en el
tiempo. Eje de la abscisa se representa a
las unidades del tiempo (x) y en la
ordenada, los datos de la variable en
estudio (y).
Distribución de Visitas Domiciliarias por meses.
Programa de Salud Mental 2007


90
80
70
60
50
40
30
20
10
0

Meses
T a lla y P e s o d e 1 0 a d o le s c e n te s
IP M I.Febrero 2007
F e b re ro 2002

70

P es o(kg)
60

50

150 155 160 165


T alla(c m )

Para variables cuantitativas.


Variable independiente: eje de las abcisa (x)
variable dependiente (y): eje de la ordenada.
Pirámide Poblacional
Diagrama de Puntos
Barras con panel horizontal
Barras agrupadas
Ejercicios (1)
Ejercicios (2)
Ejercicios (3)
DIAGRAMA DE CAJAS Y BIGOTES
 Este diagrama permite representar gráficamente un
conjunto de datos resaltando la posición de los
cuartiles, el mismo que tiene la siguiente apariencia.

Mayor valor

Q3 Tercer Cuartil

Q2 Segundo Cuartil o Mediana


Q1 Primer Cuartil

Menor valor
CARACTERÍSTICAS
 De un conjunto de datos, el valor más pequeño
aparecerá en la parte inferior del diagrama (menor
valor) y el máximo en la parte superior (mayor valor).
 La caja aparece con tres líneas horizontales recorriendo
de arriba abajo:
1. La primera línea horizontal coincide con el primer
cuartil (Q1)
2. La segunda línea horizontal (aparece un poco más
gruesa que las otras dos) viene a ser la mediana (Q2)
3. Mientras que la última línea horizontal identifica al
tercer cuartil (Q3).
 Útil para comparar dos o más conjuntos de datos. Se
emplea la misma escala para realizar comparaciones.
 No muestra información detallada como los histogramas
o las graficas de tallos y hojas.
EJERCICIO:
 Con los datos utilizados en el cálculo de cuartiles. Representar el diagrama de cajas.

PROCEDIMIENTO:
1º Ordenar los datos en forma ascendente.

14 16 11 20 17 08 09 14 18 14 14 13 19
2º Obtener los cuartiles:
Q1 = 11
Q2 = 14 (Mediana)
Q3 = 18
3º Identificar los valores extremos:
Menor valor = 8 Mayor valor = 20

Figura 1: Representación gráfica el diagrama de cajas y bigotes.

20

Q3 = 18

Q2 = 14
Q1 = 12

8
INFORMACIÓN QUE SE DEDUCE DEL DIAGRAMA:

 Identifica la mediana = 14

 Rango intercuartílico = Q3 – Q1 = 18-0 – 11 = 6.0 indica


dispersión entre el 50% de datos ubicados al centro.

 No hay simetría (por un lado los “bigotes” no tiene la


misma dimensión, y, por otro, la mediana no se halla
equidistante de los otros cuartiles)
ANALISIS EXPLORATORIO DE LOS DATOS
(FILE PLOT)
 Es un procedimiento para resumir y describir datos pertenecientes a una
muestra.
 Es de fácil construcción.

1. Diagrama de tallo y hojas


 Fue desarrollado por John Tukay en la Princetur University.
 Es una alternativa sencilla para es histograma y útil para resumir y describir
cuando estos no rebasan los 100.
 En un diagrama de tallo y hojas no pierde los datos originales.
 Al construir un diagrama de tallo y hojas, cada dato se representa mediante un
tallo y una hoja. El tallo se coloca a la izquierda de la línea vertical y la hoja a la
derecha.
 Girar el diagrama de tallo y hojas en dirección contraria a las manecillas del
reloj.
Tallo Hoja
Por ejemplo:
3 5

ORDEN VERTICAL IZQUIERDA A DERECHA


Tabla 1
Diagrama de talla y hojas: Calificaciones de la prueba
de Aptitud Mental de 42 estudiantes.
CALIFICACIONES
37 47 32
ORIGINALES
38 39 47 52 50 50
35
68 64 43 38 38 42 47 48 50 31
44 48 35 32 34 42 48 49 51 56
49 51 51 39 60 46 61 36 58 59
57 58 53 64 37 64 59 66

DIAGRAMA DE TALLO Y
3 HOJAS
57 28 9 8 81 52 49 67
4 77 32 78 48 28 9 9 6
5 20001611897839 Hojas
6 8401446

Tallos
Ejercicios (4)
Ejercicios (5)
Ejercicios (6)
196

G. PARTE FINAL
FIG. 1 CLASIFICACIÓN DE LOS ESTADISTICOS
UNIVARIANTES
MASA POSICIÓN
• Tamaño muestral Max Min.
• Sumatorio Cuartiles
• Frecuencia Deciles
ESTADÍSTICO Percentiles

CENTRALIZACIÓN FORMA
DISPERSIÓN
• Media • Simetría
• Moda • Rango o amplitud • Kurtosis
• Mediana • Desviación típica y varianza
• Desviación media
• Coeficiente de variación
• Rango intercuartilico

La distinción de estos estadísticos está asociado al tipo de variables


que se analiza.
COMPARACIÓN DE LA MEDIA, MEDIANA Y MODA
¿Qué tan ¿Toma en ¿Es afectada
Ventajas/
Medida común Existencia cuenta por valores
Desventajas
es? cada valor? extremos?
Es el de
“Promedio mayor uso.
Siempre
Media más Si Si Sensibles a
existe
conocido” los valores
extremos.
Apropiada
“Promedio
Siempre cuando hay
Mediana más No No
existe valores
conocido”
extremos
Apropiada
para
Valor más Podría no
Moda No No variables en
frecuente existir
escala
nominal.
Adaptado de “Estadística” / Triola – Novena Edición.
GRUPO DE EDAD

Porcentaje
Frecuencia Porcentaje acumulado
Válidos 45 - 49 256 51,2 51,2
50 - 54 88 17,6 68,8
55 - 59 79 15,8 84,6
60 - 64 45 9,0 93,6
65 - 69 32 6,4 100,0
Total 500 100,0

Indicar si es V o F:
a) El 17.6% de la muestra tiene entre 50 y 54 años
b) El 9,0% tiene 45 años
c) El 68,8% tiene 54 o menos años de edad
d) El 15,4% tiene entre 60 y 69 años
e) La frecuencia modal es 256
Estadísticos

talla Interpretar los indicadores mencionados:


N Válidos 500 a) Media
Perdidos 0 b) Moda
Media 157,269 c) Rango
Mediana 157,000
d) Mediana
Moda 158,0
Desv. típ. 6,1274
e) Percentil 25
Varianza 37,545
f) Percentil 75
Rango 37,0
Mínimo 139,0 ¿Son iguales la media, la
Máximo 176,0
mediana y la moda?
Percentiles 25 153,000
50 157,000
75 161,500
¿Cuál sería el significado
práctico si fueran iguales?
Estadísticos
1) La mediana del peso es -------- y
ÍNDICE DE
MASA significa que-------------------
talla peso CORPORAL 2) El índice de masa corporal
N Válidos 500 500 500 promedio es ------------
Perdidos 0 0 0 3) ¿Cuánto es el rango de la variable
Media 157,269 68,377 27,6947
talla? ------ ¿qué significa?
Mediana 157,000 67,000 27,2280
4) Identificare interpretar el P35 de la
Moda 158,0 60,0 25,63a
variable IMC
Rango 37,0 62,0 30,81
Mínimo 139,0 44,0 17,58
5) Es verdad que el 60% de la
Máximo 176,0 106,0 48,39
muestra tiene peso inferior a 70
Kg?
Percentiles 25 153,000 59,625 24,0418
35 155,000 63,000 25,5399
6) Identificar e interpretar la moda de
50 157,000 67,000 27,2280 la variable IMC
60 158,000 70,000 28,3051 7) Es cierto que el 25% de la muestra
75 161,500 75,000 30,4625 tiene IMC superior a 30,4625?
a. Existen varias modas. Se mostrará el menor de los
valores.
202

H. ANÁLISIS BIVARIADO
ANÁLISIS
El Análisis BIVARIADO
Bivariado estudia la relación o
interacción entre dos variables

 Cuando las variables son cuantitativas:


 Correlación
 Regresión
 Cuando las variables son cualitativas
 Prueba Chi Cuadrado
CORRELACIÓN Y REGRESIÓN
La correlación y la regresión son dos técnicas que
permiten estudiar la relación entre dos variables
cuantitativas (escala de intervalo o de razón). Por
ejemplo:

• Presión sanguínea y edad


• Estatura y peso
CORRELACIÓN:
Mide el grado de asociación entre dos variables

REGRESIÓN
Analiza la relación de dependencia entre dos variables,
una de ellas será dependiente y la otra independiente
1. ANÁLISIS BIVARIADO
CONCEPTO
• Consiste en analizar la interacción de dos variables.
Ejemplo.
Analizar la relación entre los siguientes resultados de dos tests
(Matemáticas y Ciencias) aplicados a un grupo de alumnos:
Tabla 1: Resultados de dos Tests (Matemática y Ciencia)
Puntuación Matemática Puntuación Ciencias Test
Alumno
Test “X” “Y”
A 83 160
B 46 38
C 92 143
D 81 67
E 70 124
F 70 117
G 75 132
H 88 143
I 74 121
J 79 113
DIAGRAMA DE DISPERSIÓN

Es la expresión gráfica de la relación entre dos variables


cuantitativas.
Una primera herramienta para este análisis es el “diagrama de
dispersión o nube de puntos”, el mismo que consiste en graficar
los pares ordenados correspondientes.
Gráfico 1. Diagrama de dispersión o nube de puntos
Y
LÍNEA DE REGRESIÓN

NUBE DE PUNTOS
(estrecha
o ancha)
La forma que adopta el diagrama de dispersión, indica la
naturaleza e intensidad de la relación.

El diagrama de dispersión que se muestra a


continuación representa gráficamente la forma en que se
asocian las dos variables. En estudio, pudiendo ésta ser
lineal, cuadrático, cúbico o exponencial.

De acuerdo al valor numérico del coeficiente de


correlación, la nube de puntos tiene una forma peculiar,
La misma que puede ser:

 Para r positivo, figura 1.


 Para r negativo, figura 2.
 Para r nulo, figura 3.
LINEAL POSITIVA

r positivo
LINEAL NEGATIVA

r negativo
NINGUNA RELACIÓN

r nulo
Gráfico 2. Diagrama de dispersión de las puntuaciones de
los alumnos de Matemática y Ciencias

180
160
140
120
T E S T "Y "

100
80
60
40
20
0
0 20 40 60 80 100

T E S T "X "
COEFICIENTE DE CORRELACIÓN DE PEARSON
• Mide el grado de asociación de dos variables cuantitativas.
• El objetivo es determinar que tan intensa es la relación
mediante el coeficiente de correlación. Se simboliza con la
letra “r” y su valor puede fluctuar de la siguiente forma:

-1 <= r <= 1
Correlació Ninguna Correlació
n Correlació n positiva
negativa n perfecta
Valor negativo de “r”
perfecta Valor positivo de “r”

-1.00 0.00 1.00


Correlación negativa Correlación positiva
El coeficiente de correlación puede calcularse con la
siguiente fórmula:

N  XY   X *  Y
r
n  X  (  X ) n  Y  (  Y ) 
2 2 2 2

En donde: n : Número de sujetos de la muestra


X : Puntuaciones de la Variable “X”
Y : Puntuaciones de la Variable “Y”
Ejemplo:
• Para simplificar los cálculos correspondientes, se tabulan de la
siguiente forma:
Tabla 2. Resultados de los Tests
(Matemática y Ciencias)
ALUMNO X Y X2 Y2 XY
A 83 160 6889 25600 13280
B 46 38 2116 1444 1748
C 92 143 8464 20449 13156
D 81 67 6561 4489 5427
E 70 124 4900 15376 8680
F 70 117 4900 13689 8190
G 75 132 5625 17424 9900
H 88 143 7744 20449 12584
I 74 121 5476 14641 8984
J 79 113 6241 12769 8927
TOTAL  X  758  Y  1158  X  58916  Y
2 2
 146330  XY  90846

* EN ESTE CASO “n” ES IGUAL A 10.


Fuente: Tabla 1
Aplicando la fórmula:

r 
N  XY   X *  Y
n  X
2
 (  X )  n  Y  (  Y ) 
2 2 2

10 ( 90846 )  ( 758 )(1158 )


r
10 ( 58916 )  ( 758 )
2
10 (146330 )  (1158 )
2

30696 30696
r 
14596 122336  42256 . 5528

r  0 . 726

INTERPRETACIÓN:
• La correlación es positiva (por el signo del resultado),
lo cual significa que ambas variables varían en un
mismo sentido.
Tabla 3. Significación del coeficiente de correlación de
Pearson

VALOR r
INTERPRETACIÓN RELACIÓN
De A
0.00 0.49 “r” MUY DEBIL RELACIÓN CASI NULA

0.50 0.719 “r” DEBIL RELACIÓN DEFINIDA PERO DÉBIL

0.72 0.80 “r” MODERADA RELACIÓN MODERADA

0.80 0. 90 “r” ALTA RELACIÓN FUERTE

0.90 1.00 “r” MUY ALTA RELACIÓN MUY FUERTE


2. REGRESIÓN LINEAL SIMPLE

CONCEPTO

• La regresión lineal implica una relación de independencia


entre dos variables, una de las cuales es independiente y
la otra dependiente.
• Permite, también, predecir el valor de una variable (V.
dependiente), dado el valor de otra u otras variables
relacionadas (V. independientes)
• Las variables deben ser de naturaleza cuantitativa y de
preferencia continua.
Tabla 1. Modelo de Regresión Lineal

Variable dependiente Variable independiente

Y = B0 + B 1 X

Intersección en Y Pendiente de la recta de regresión


(Coeficiente independiente) (Coeficiente asociada a “x”)

Como todos los puntos no caen exactamente sobre la recta,


existe una diferencia entre el valor observado y el ajustado.
Características
Eje Y de una recta

Eje X
Bo:
Ordenada en
el origen
APLICACIÓN:

• Cuando el investigador presume que los datos de las


variables en estudio tienen una relación lineal formula
el modelo indicado y realiza las mediciones
correspondientes, tal como se muestra en la siguiente
tabla 2.
• A partir de estos datos reales se “estiman” los valores
de los coeficientes B1 y B0 mediante un procedimiento
denominado “Método de los mínimos cuadrados”.
Tabla 2. Estimadores mínimo cuadráticos para
obtener B1 y B0.

n  XY    X  Y 
B1 
n  X    X 
2 2
(1)

B 0  Y  B1 X (2)

EJEMPLO:
• Con los datos del Análisis Bivariado de la Tabla 3
obtener la recta de regresión lineal entre la variable
independiente (Test X) y la variable dependiente (Test Y)
Los resultados de este estudio son presentados de la
siguiente manera:
Tabla 3. Resultados de los Datos de los
Test “X” y Test “Y”

TEST X TEST Y
ALUMNOS
(MATEMÁTICA) (CIENCIAS)
A 83 160
B 46 38
C 92 143
D 81 67
E 70 124
F 70 117
G 75 132
H 88 143
I 74 121
J 79 113
• Con los datos obtenidos se elabora una tabla como el que sigue:
ALUMNO X Y X2 XY
A 83 160 6889 13280
B 46 38 2116 1748
C 92 143 8464 13156
D 81 67 6561 5427
E 70 124 4900 8680
F 70 117 4900 8190
G 75 132 5625 9900
H 88 143 7744 12584
I 74 121 5476 8984
J 79 113 6241 8927
TOTAL 758 1158 58916 90846

N 10 PROMEDIOS
X 758 X 75.8
Y 1158 Y 115.8
 XY 90846
X 2 58916
 X  2
(758)2 = 574564
• Para obtener B1 utilizamos la fórmula
n  XY    X  Y 
n  X    X 
2 2

B1 =
(10 )( 90846 )  ( 758 )(1158 ) 30696
  2 .1
(10 )( 58916 )  574564 14596
Reemplazando: B1 =

Y  B1 X
• Para obtener B0 usamos la fórmula

B0 =
Y

Reemplazando: B0 = 115.8 – (2.1) (75.8) = -43.


Y  B 0  B1 Y
Para obtener usamos el Modelo de Regresión Lineal
Entonces, la recta Y
deregresión
 43 . 38 es:
2 .1 X
EJEMPLO:

• Con la recta de regresión hallada, determinar cuál sería el


puntaje que obtendrá un estudiante en el Test “Y” si obtuvo
una puntuación 100 en el test “X”.
• Aplicando la ecuación de regresión lineal
Y  B 0  B1 X
(3)
• Reemplazando:
Y = -43.38 + (2.1) (100)

Y = -43.38 + 210

Y = 166.22

Rpta: El alumno obtendrá una puntuación de 166.22 en el


Test “Y” con una puntuación de 100 en el Test “X”.
Hipótesis
Inferencia
Ho: La correlaciónde lavariables
entre las correlación
es nula
H1: Hay correlación entre las variables

Regla de decisión

Si el valor p es menor que el margen de error (5% ó


1%), se rechaza la hipótesis nula (Ho)

En el ejemplo:

El valor p (0.021) es menor que el margen de error


(5%) y se rechaza la hipótesis nula (Ho)
Correlación y regresión
Gastos de Ingresos
 Los datos (en miles de
dólares) sobre gastos publicidad
de propaganda e X Y
ingresos para el
restaurante Las Cuatro 1 19
Estaciones se muestran
en la tabla. 2 32
 Sea x igual a los gastos
de propaganda e y 4 44
igual a los ingresos.
 Efectue: 6 40
 Análisis de correlación.
 Análisis de regresión para 10 52
la relación entre la dos
variables.
14 53
20 54
Diagrama de dispersión
ANÁLISIS DE CORRELACIÓN
60

50

40

30
Ing re sos (Y )

20

10
0 10 20 30

Gastos de publicidad (X)


Matriz de correlaciones
Corr elacion es

Gastos de
publicidad (X) Ingresos
Gastos de publicidad (X) Corr elación de Pearson
Sig. (bilateral)
N
Ingresos Corr elación de Pearson .831*
Sig. (bilateral) .021
N 7
*. La c orrelación es significante al nivel 0,05 (bilateral).

Coeficiente de correlación r = 0.831


Valor p de contraste: p = 0.021
Margen de error: 5% = 0.05
COEFICIENTE DE DETERMINACIÓN

Constituye el indicador básico de la regresión.


Numéricamente es el coeficiente de correlación elevado al
cuadrado: r2
Ejemplo: si r = 0.9, entonces r2 es igual a 0.81 = 81%

Interpretación: Expresa el porcentaje de explicación


ofrecido por el modelo
Resultados típicos con SPSS
Resu m en de l m ode lo

Interpretación:
Modelo R R cuadrado
1 .831a .690
a. Variables predictoras: (Constante), X

Coe ficientes a

Coef icient
es
Coef icientes no estandari

Modelo
estandarizados
B Error típ.
zados
Beta t Sig.
Coeficiente Bo:
1 (Constante) 29.399 4.807 6.116 .002
X 1.547 .463 .831 3.339 .021 Coeficiente B1:
a. Variable dependiente: Y

Modelo

Y = 29.399 + 1.547 X
Ejemplo 1
Resu m en de l m odelo

R cuadrado Error típ. de la


Modelo R R cuadrado corregida estimación
1 .968a .938 .933 .91
a. Variables predictoras: (Constante), X (Consumo en miles $)

ANOVA b

Suma de Media
Modelo cuadrados gl cuadrática F Sig.
1 Regr esión 161.044 1 161.044 195.858 .000a
Residual 10.689 13 .822
Total 171.733 14
a. Variables predictoras: (Constante), X (Consumo en miles $)

b. Variable dependiente: Y (miles de pasajeros)

Coe ficiente s a

Coef icient
es
Coef icientes no estandari
estandarizados zados
Modelo B Error típ. Beta t Sig.
1 (Constante) 4.386 .991 4.425 .001
X (Consumo en miles $) 1.081 .077 .968 13.995 .000
a. Variable dependiente: Y (miles de pasajeros)
Ejemplo 2
En un estudio sobre la relación entre pacientes
adictos al tabaco se seleccionaron las variables
X (años fumando tabaco) e Y (daño causado por
el tabaco). Model
Mediante
Sum m ary
el programa SPSS se
obtuvieron las siguientes tablas.
Std. Error
Adjusted of the
Model R R Square R Square Estimate
1 a
.934 .872 .856 3.32
a. Predictors: (Constant), X (años de fumador)

Coefficients a

Standardi
zed
Unstandardized Coefficien
Coefficients ts
Model B Std. Error Beta t Sig.
1 (Constant) 22.951 4.299 5.339 .001
X (años de fumador) .967 .131 .934 7.377 .000
a. Dependent Variable: Y (daño debido al tabaco)

Modelo final: Y = + X

También podría gustarte