Está en la página 1de 62

Clases 1

Conceptos, Estadística
Descriptiva, Pruebas de Hipótesis

Curso de Metodología de la Investigación


Profesor Manuel Lobos González
Año 2011
Tema 1:
Conceptos
LA BASE Y PUNTO DE PARTIDA DEL CIENTIFICO ES UNA REALIDAD
DETERMINADA, QUE MEDIANTE LA INVESTIGACION LE PERMITE LLEGAR A
LA CIENCIA

CIENCIA

INVESTIGACION

REALIDAD

METODO CIENTIFICO
PRINCIPIO DE LA INVESTIGACIÓN

VER EN LA
REALIDAD
LO QUE OTROS
NO HAN VISTO
EL PROCESO DE INVESTIGACIÓN (Erika Himmel)

CUERPO DE CONOCIMIENTOS

REALIDAD
FASE I FASE III FASE IV FASE V
CUERPO DE CONOCIMIENTOS
TEORÍAS
MODELOS

PROBLEMA EVALUA- COMUNICACIÓN


HIPÓTESIS INFERENCIA CIÓN

ANÁLISIS
DISEÑO
DE DATOS

REALIDAD
HECHOS FENÓMENOS DATOS

EXPERIENCIA
FASE II
Método científico y estadística

Plantear Diseñar
hipótesis experimento

Obtener Recoger datos


conclusiones y analizarlos
Definición de Estadística

Es un conjunto de teorías y métodos


que han sido desarrollados para
tratar la recopilación, organización,
presentación, análisis, interpretación
y descripciones de datos muestrales
con el fin de extraer conclusiones
útiles de ellos.
Tema 2:
Estadígrafos Básicos

Adaptado de Curso de Bioestadística


Universidad de Málaga
Un brevísimo resumen sobre estadísticos
• Centralización o Tendencia central o promedios
– Indican valores con respecto a los que los datos
parecen agruparse.
• Media, mediana y moda
• Posición
– Dividen un conjunto ordenado de datos en grupos
con la misma cantidad de individuos.
• Cuantiles, percentiles, cuartiles, deciles, quintiles...
• Forma
– Asimetría
– Apuntamiento o curtosis
• Dispersión o Variabilidad
– Indican la mayor o menor concentración de los
datos con respecto a las medidas de centralización.
• Desviación típica, coeficiente de variación, rango, varianza
La media como punto de equilibrio
La media aritmética
[=promedio(rango)]
La media aritmética de una variable se define como la suma
ponderada de los valores de la variable por sus frecuencias relativas
y lo denotaremos por

M
y se calcula mediante las expresiones, según el caso:

Para TDNA TF TI
n n n
xi xi ni ci ni
M   
i 1 n i 1 n i 1 n
xi representa el valor de la variable; ci representa la marca de clase.
La mediana
[=mediana(rango)]
La mediana de un conjunto de números ordenados en magnitud es o el valor
central o la media de los dos valores centrales.
La moda
[=moda(rango)]

La moda es el valor de la variable que tenga mayor frecuencia absoluta, la que más
se repite, es la única medida de centralización que tiene sentido estudiar en una
variable cualitativa, pues no precisa la realización de ningún cálculo.

Por su propia definición, la moda no es única, pues puede haber dos o más valores
de la variable que tengan la misma frecuencia siendo esta máxima. En cuyo caso
tendremos una distribución bimodal o polimodal según el caso.
La moda
Estadígrafos de Posición
• Se define el cuantil de orden a como un valor de la variable por debajo del cual
se encuentra una frecuencia acumulada a.

• Casos particulares son los percentiles, cuartiles, deciles, quintiles,...


Cuantil de orden α
[=percentil(rango;k)]

Los cuantiles son generalizaciones de la mediana.


Los cuartiles dividen a los datos en cuatro partes iguales,
los deciles en diez, los quintiles en cinco, los percentiles en
cien.
X
 r 
C r   n    
k
 k 
X
 3
Q3   42      31,5
4  4
• Cuartiles (Q): Dividen a la muestra en 4 grupos con frecuencias similares.
– Primer cuartil = Percentil 25 = Cuantil 0,25
– Segundo cuartil = Percentil 50 = Cuantil 0,50 = mediana
– Tercer cuartil = Percentil 75 = Cuantil 0,75

• Quintiles (K): Dividen a la muestra en 5 grupos con frecuencias similares.


– Primer quintil = Percentil 20 = Cuantil 0,20
– Segundo quintil = Percentil 40 = Cuantil 0,40
– Tercer quintil = Percentil 60 = Cuantil 0,60
– Cuarto quintil = Percentil 80 = Cuantil 0,80

• Deciles (D): Dividen a la muestra en 10 grupos con frecuencias similares.


– Tercer decil = Percentil 30 = Cuantil 0,30
– Quinto decil = Percentil 50 = Cuantil 0,50 = mediana
– Séptimo decil = Percentil 70 = Cuantil 0,70

• Percentiles (P) : Dividen a la muestra en 100 grupos con frecuencias similares.


– La mediana es el percentil 50
– El percentil de orden 15 deja por debajo al 15% de las observaciones. Por encima queda
el 85%
Medidas de variabilidad
Rango, Rango Intercuartílico,
Desviación Media, Varianza,
Desviación Estándar y Coeficiente
de Variación

Algunos datos han sido adaptados de


Pedro Juan Rodríguez Esquerdo
Departamento de Matemáticas
UPR Río Piedras
Estadígrafos de
Variabilidad o dispersión
• Los estudiantes de Metodología de la Investigación obtienen diferentes
calificaciones en la asignatura (variabilidad). ¿A qué puede deberse?

– Diferencias individuales en el conocimiento de la materia.

• ¿Podría haber otras razones (fuentes de variabilidad)?

• Por ejemplo supongamos que todos los alumnos poseen el mismo nivel de
conocimiento. ¿Las notas serían las mismas en todos? Seguramente No.

– Dormir poco el día de la prueba, el café estaba con somnífero...


• Diferencias individuales en la habilidad para hacer un examen.

– El examen no es una medida perfecta del conocimiento.


• Variabilidad por error de medida.

– En alguna pregunta difícil, se duda entre varias opciones, y al azar se elige la


mala
• Variabilidad por azar, aleatoriedad.
Medidas de dispersión

Miden el grado de dispersión (variabilidad) de los


datos, independientemente de su causa.

• Amplitud o Rango
[=max(rango)-min(rango)]
• La diferencia entre las observaciones extremas.
– 2,1,4,3,8,4. El rango es 8-1=7
– Es muy sensible a los valores extremos.

• Rango intercuartílico
• [=CUARTIL(rango;3)-CUARTIL(rango;1)]
– Es la distancia entre el primer y tercer cuartil.
• Rango intercuartílico = Q3 – Q1 = P75 - P25 = C0.75 – C0,25
– Parecida al rango, pero eliminando las observaciones más extremas
inferiores y superiores.

– No es tan sensible a valores extremos.


Muestra de edades de cinco niños
• En una muestra de cinco niños se observa
que éstos tienen las siguientes edades:
• 1, 1, 4, 8 y 9 .
• En promedio tienen 4.6 años.
• ¿Cuánta variabilidad hay en las edades de
los niños?
• ¿A qué distancia quedan las edades
observadas de la media muestral 4.6 años?
Diferencias de valores
observados a la media muestral
Distribucion de cinco observaciones

3
Media
-3.6 muestral
Frecuencia

2
4.4

1 -3.6
3.4
-.6

0
1 2 3 4 5 6 7 8 9 More

Edades observadas
Otra medida: Varianza
3
3.6x3.6
Media
Muestral
2
F re c ue n c ia

4.4x4.4
.6x.6
1

0
3.4x3.4
3.6x3.6
1 2 3 4 5 6 7 8 9 Mo re

Are a o bs e rv a da
Varianza
[=var(rango)]

• -3.6 + -3.6 + -.6 + 3.4 + 4.4 = 0


• 3.6(3.6) + 3.6(3.6) + .6(.6) + 3.4(3.4) +
4.4(4.4) = 57.2
• área promedio = 57.2 / 4 = 14.3
• En general: 2 1 n
s 
n 1
 (x  x)
i 1
i
2

( xi  x )
n 2
s 
2

i 1 n 1
Grados de libertad
• ¿Por qué calculamos la varianza dividiendo por n - 1,
en lugar de dividir por n?
• Como la suma de las desviaciones es 0, la última
desviación es una combinación lineal de las n - 1
desviaciones restantes.
• Por lo tanto, no estamos calculando el promedio de n
números independientes (los desvíos). Solo n -1 de
las desviaciones al cuadrado pueden variar
libremente y por ello, promediamos la suma de los
desvíos al cuadrado dividiendo por n -1.
• Al numero n -1 se lo denomina grados de libertad
de la varianza o de la desviación típica.
Desviación estándar
[=desvest(rango)]

s s 2

Así s = 3.78
Desviación estándar

S2=14.3 años2

S
S=3.78 años
Tema 3:
Introducción a Pruebas de
Hipótesis
Contrastes Paramétricos
• Las pruebas de hipótesis hacen inferencias respecto a
los parámetros de la población, como la media.
• Las pruebas paramétricas utilizan la estadística
paramétrica de muestras que provinieron de la
población que se está probando.
• Para formular estas pruebas, se hacen suposiciones
restrictivas sobre las poblaciones de las que se extraen
las muestras, por ejemplo, que las muestras son grandes
o que provienen de poblaciones normalmente
distribuidas. Pero las poblaciones no siempre son
normales.
Contrastes No Paramétricos
• Pero las poblaciones no siempre son normales.
• Se han desarrollado técnicas útiles que no hacen
suposiciones restrictivas respecto a la forma de las
distribuciones de las poblaciones. Éstas se conocen
como pruebas sin distribución, o pruebas no
paramétricas.
Elementos que conforman un Contraste
Hipótesis
• DESDE LA HIPÓTESIS DE TRABAJO
1. RELACIÓN MATEMÁTICA
2. SE RELACIONA CON HIPÓTESIS ESTADÍSTICA _______________
3. SE ESPERA ENTONCES _____________ LA HIPÓTESIS NULA
4. LA REGIÓN DE RECHAZO ES______________ (VER HIPÓTESIS
ALTERNA)
5. LA PROBABILIDAD ESPERADA ES ENTONCES (VER 3)
6. DECISIÓN SOBRE LA HIPÓTESIS NULA A PARTIR DE EVIDENCIA
(SE ACEPTA O RECHAZA)
7. DECISIÓN SOBRE HIPÓTESIS DE TRABAJO (SI 3=6 SE SUSTENTA…..
O NO SE SUSTENTA)
Se definen:
HIPÓTESIS DE HIPÓTESIS  medida de
TRABAJO ESTADÍSTICAS discrepancia con una
distribución de
datos de la muestra probabilidad conocida

 Regla de
decisión(nivel de
Se calcula una medida
de discrepancia significación a)
Valor calculado
 Valor crítico o
tabulado
Se comparan los valores
calculado con tabulado
¿se rechaza
Ho?
H1 SI
NO
Se extraen conclusiones
DIAGRAMA DE LAS ETAPAS EN LA CONTRASTACION
DE LA HIPOTESIS ESTADISTICA Y SU RELACION CON
LAS HIPOTESIS DE TRABAJO. (Erika Himmel)

1 2
Hipótesis de se Hipótesis se estima El o los
trabajo formulan estadísticas parámetros
se
infiere
8 3 se selecciona

Un modelo
7 matemático
estadístico
se decide

4 se determina

6 5
se Reglas se La magnitud
Prueba de
significación calcula decisionales formulan de los errores
Identificación de hipótesis
• Hipótesis nula Ho • Hipótesis Alternativa H1
– La que contrastamos – Niega a H0

– Los datos pueden refutarla


– Los datos pueden mostrar
evidencia a favor
– No debería ser rechazada sin – No debería ser aceptada sin
una buena razón. una gran evidencia a favor.

, ,  , , 
Región crítica y nivel de significación
Región crítica Nivel de significación: a
• Valores ‘improbables’ si... • Número pequeño: 1% , 5%
• Es conocida antes de realizar el • Fijado de antemano por el
experimento: resultados experimentales investigador
que refutarían H0 • Es la probabilidad de rechazar H0
cuando es cierta

a=5%

Reg. Crit. Reg. Crit.

No rechazo
H0
a/2=2.5% a/2=2.5%
Contrastes: unilateral y bilateral
La posición de la región crítica depende de la hipótesis
alternativa

Bilateral

Unilateral Unilateral
Contrastes: unilateral y bilateral
Un ejemplo para la prueba t para una a:0.05 y gl:20

Bilateral

tc: 2.086 tc: 2.086

Unilateral Unilateral

tc: 1.725 tc: 1.725


La distribución normal
La distribución de probabilidad normal y la curva
normal que la acompaña tienen las siguientes
características:
La curva normal tiene forma de campana y una sola cima en el centro
de la distribución.
La media aritmética, la mediana y la moda de la distribución son
iguales y se ubican en el centro.
 La mitad del área bajo la curva se encuentra a la derecha de este
punto central y la otra mitad está a la izquierda de dicho punto.
Es simétrica en torno a su promedio. Si se corta Ia curva normal de
manera vertical por el valor central, las dos mitades serán como
imágenes en un espejo.
La curva normal desciende suavemente en ambas direcciones a partir
del valor central.
Es asintótica, Ia curva se acerca cada vez más al eje de X pero jamás
llega a tocarlo. Es decir, las “colas” de Ia curva se extienden de manera
indefinida en ambas direcciones.
La distribución normal se usa en:

 Psicología
 Biología
 Educación
 Astronomía
 Economía
 Ciencias sociales y
administrativas
PUNTUACIONES ESTÁNDAR

Un esfuerzo para interpretar y comparar el desempeño


de un individuo en dos o más variables es difícil cuando
las distribuciones de los datos tienen medias y
desviaciones estándar diferentes. Este problema se
puede evitar transformando los datos de modo que
todas las variables tengan medias idénticas y las
mismas desviaciones estándar, es decir,
"estandarizando" los parámetros de las distribuciones
(transformando valores brutos en valores estándar).
PUNTUACIONES ESTÁNDAR

Las distribuciones de puntuaciones estándar


tienen valores para la media y la desviación
estándar que son fijos, conocidos y nunca
varían. Como los parámetros son siempre los
mismos, las interpretaciones y comparaciones
entre puntuaciones estándar se hacen más
fácilmente.
PUNTUACIONES ESTÁNDAR: PUNTAJE Z

La puntuación estándar más elemental y útil es


la z. Cuando las observaciones se expresan en
unidades de desviaciones estándar de la media
son calificaciones z. La distribución de
calificaciones z tiene parámetros fijos:

m=0 y s = 1.

xm
Se define una variable
Zx 
s
PUNTUACIONES ESTÁNDAR: PUNTAJE Z

Si Diego obtiene una nota de 6,2 significa poco, a menos


que conozca la media del grupo y la desviación estándar.
Una calificación z, sin embargo, puede interpretarse
fácilmente en relación con toda la distribución, ya que sus
parámetros siempre se conocen y nunca varían.

Si sabemos que la calificación z de Diego es 1.5,


sabemos que calificó 1.5 desviaciones estándar arriba
de la media, y que, en consecuencia, su calificación es
completamente alta en relación con los otros de la
distribución.
EJEMPLO DE COMPARACIÓN PUNTAJE Z

Paula obtiene las siguientes notas en las distintas


asignaturas:

MATEMATICA : 5.8
LENGUAJE : 6.1
CIENCIAS : 5.6
En términos absolutos, Paula obtiene mejor nota en
Lenguaje, luego en Matemática y finalmente en Ciencias.
Ciencias Matemática Lenguaje
5.6 5.8 6.1
EJEMPLO DE COMPARACIÓN PUNTAJE Z

¿Qué sucede si además de conocer la nota, sabemos


cómo se comportó todo el curso de Paula en esas
asignaturas?

MATEMATICA : 5.8 y el curso tuvo una media de 5.7 y una


desviación estándar de 0.5

LENGUAJE : 6.1 y el curso tuvo una media de 6.2 y una


desviación estándar de 0.7

CIENCIAS : 5.6 y el curso tuvo una media de 5.0 y una


desviación estándar de 1.1
EJEMPLO DE COMPARACIÓN PUNTAJE Z
Ahora podemos comparar las notas en términos de
puntuaciones estándar Z, asumiendo que las medias = 0 y
las desviaciones estándar = 1, utilizando la fórmula:
xm
Z 
x
s
MATEMÁTICA : x= 5.8 ; media= 5.7 y ds= 0.5
Puntaje Z5.8= 0.2
LENGUAJE : x= 6.1 ; media= 6.2 y ds= 0.7
Puntaje Z6.1= -0.14
CIENCIAS : x= 5.6 ; media= 5.0 y ds= 1.1
Puntaje Z5.6= 0.54
EJEMPLO DE COMPARACIÓN PUNTAJE Z

Paula obtiene los siguientes puntajes Z en las distintas


asignaturas:

MATEMATICA : 0.20
LENGUAJE : -0.14
CIENCIAS : 0.54

En términos de comparación de los puntajes Z, Paula


obtiene mejor puntaje en Ciencias, luego en Matemática y
finalmente en Lenguaje.
Lenguaje Matemática Ciencias
-0.14 0.20 0.54
PUNTUACIONES ESTÁNDAR: PUNTAJE T

Las puntuación estándar más comúnmente


utilizada para informar el desempeño en
exámenes es la calificación de valor estándar T,
que tiene una media de 50 y una desviación
estándar de 10.
xm
Se define una variable T x  50  10 s 
Para convertir calificaciones z a calificaciones T, la
ecuación es la siguiente:

T= 50+10z
EJEMPLO DE COMPARACIÓN PUNTAJE T
Tres estudiantes obtienen los siguientes puntajes en una
prueba de habilidad matemática, de un total de 100
puntos:

Mónica : 82
Carmen : 53
Cristina : 65
En términos absolutos, Mónica tiene el puntaje más alto y
las tres se encuentran sobre los 50 puntos.

0 10 20 30 40 50 60 70 80 90 100

Carmen Cristina Mónica


53 65 82
EJEMPLO DE COMPARACIÓN PUNTAJE Z

¿Qué sucede si además de conocer el puntaje de cada


una, sabemos cómo se comportó todo el curso en esa
prueba?

Media del curso = 60 puntos


Desviación estándar del curso = 12 puntos
Ahora podemos comparar los puntajes de estas tres
estudiantes en términos de puntuaciones estándar T,
asumiendo que las medias = 50 y las desviaciones
estándar = 10, utilizando la fórmula:

xm
T x  50  10 s 
EJEMPLO DE COMPARACIÓN PUNTAJE T
Mónica : x= 82 ; media= 60 y ds= 12
 82  60 
T 82  50  10 12   68.33
Carmen : x= 53 ; media= 60 y ds= 12
 53  60 
T 53  50  10 12   44.16
Cristina : x= 65 ; media= 60 y ds= 12

 65  60 
T 65  50  10 12   54.16
EJEMPLO DE COMPARACIÓN PUNTAJE Z

Ahora, las tres puntuaciones quedan expresadas en


puntajes estándar T:

Mónica : 68.33
Carmen : 44.16
Cristina : 54.16
Carmen Cristina Mónica
44.16 54.16 68.33
Curva normal, Percentiles y Valores Estándar
¿Cómo calcular probabilidades asociadas a
una curva normal específica?
Dado que tanto m como s pueden asumir infinitos
valores, lo que hace impracticable tabular las probabilidades
para todas las posibles distribuciones normales, se utiliza la
distribución normal reducida o tipificada

Se define una variable zx =


x -m
s

Es una traslación y un cambio de escala de la


variable original
Una regla empírica indica que en cualquier distribución
normal las probabilidades delimitadas entre :

 1s  68 %
 2s  95 %
 3s  99 %

68%

95%
99% z
-3 -2 -1 0 1 2 3
Ahora podemos calcular eI valor z dada:

Ia media de Ia población, m,

la desviación estándar de ésta, s,

y una x seleccionada.

Y establecer el área bajo la curva con la


tabla apropiada o un software como Excel.