Está en la página 1de 97

ESTADÍSTICA E INVESTIGACIÓN

Como para recordar…


1. Luis corrió mil metros planos a 30 km/h y regresó a 20
km/h. El docente le pregunta a los compañeros de Luis:
¿Cuál es la velocidad promedio de Luis?
2. Pedro hizo un estudio sobre actitudes por el medio
ambiente en una muestra de 400 estudiantes del colegio
A y Luis hizo un estudio similar en un colegio B con 500.
¿Quién presentará resultados más confiables? ¿Por
qué?
3. Las notas de Lógica de estudiantes de una sección de
Ingeniería de la Universidad “N”, obtenidas antes y
después de usar una técnica didáctica “T”, fueron:
Pretest 11 14 15 12 11 13 12 13 12 12
Postest 18 15 15 16 17 15 16 15 17 17

En su calidad de investigador. ¿Cuál es su análisis?


ESTADÍSTICA

La Estadística es la ciencia que proporciona un


conjunto de métodos, técnicas o procedimientos
para recoger (en una muestra), organizar,
presentar y analizar datos con el propósito de
describirlos o realizar generalizaciones (hacia
una población).

Las ramas de la Estadística son: La Estadística


Descriptica y la Estadística Inferencial
DE LA TEORÍA A LA ESTADÍSTICA

La Estadística es el instrumento matemático más


adecuado para analizar datos de fenómenos cuya
característica fundamental es la variabilidad.

La Estadística es una herramienta que nos ayuda a ver


y a conocer la realidad.
TERMINOLOGÍA ESTADÍSTICA

POBLACIÓN:
Es el grupo de elementos o unidades que se desean investigar
para responder a las preguntas que dan pie a la investigación.

MUESTRA:
Es un subconjunto de la población.

VARIABLE:
Es el conjunto de características de los elementos o unidades
que interesan en la investigación científica.
Una variable cuantitativa es aquella cuyos valores son el
resultado de medidas numéricas.
Una variable cualitativa es aquella cuyos valores consisten en
categorías.
VARIABLES Y ESCALAS DE MEDICIÓN
NIVELES DE MEDICIÓN DE VARIABLES

.
NIVELES DE MEDICIÓN
Nivel Descripción

No suministra información acerca de un atributo, salvo de


Nominal equivalencia y no equivalencia. Operaciones: =, ≠

Permite clasificar los objetos de acuerdo con su posición relativa con


Ordinal respecto a otros, en función de cierto atributo. Operaciones: =, ≠, >, <

Ocurre cuando se puede precisar tanto el orden jerárquico de los


objetos en función de un atributo como la diferencia que media entre
Intervalar ellos. El cero es relativo. Operaciones: =, ≠, >, <, +, -, x, ÷
Nota: La multiplicación y división no vale para los valores, sino para la
diferencia de los valores.

Suministra información concerniente al orden jerárquico de los


objetos, según determinado atributo, a los intervalos entre ellos y a la
Proporcional magnitud absoluta del atributo para cada objeto. El cero es absoluto.
Operaciones: =, ≠, >, <, +, -, x, ÷
VARIABLES POR NIVELES DE MEDICIÓN

Medición Variables

Sexo
Nominal Estado civil
Tipo sanguíneo
Orden de mérito
Ordinal Grado de cumplimiento
Estatus socioeconómico

Aptitud académica
Intervalar Temperatura
Actitud hacia el ambiente

Estatura
Proporcional/
Peso
Razón
Vida útil
TRANSFORMACIONES EN LOS NIVELES DE MEDICIÓN

NIVEL DE MEDICIÓN x ES INVARIANTE A:


La transformación:
y = ax + b
Intervalar Donde a y b son constantes.

La transformación:
Proporcional/ y = ax
Razón Donde a es constante.
Actividad 1

Haga un listado de al menos cinco variables por


cada escala.
¿En qué escala se ubican las variables de su
investigación? Explique.
En una investigación, las notas en Filosofía se
midieron en la escala de vigesimal. Por razones
prácticas, se debe expresar en la escala intervalar
el 20 como 100 y el 15 como 80. ¿En cuánto se
transforma el 0?
REQUISITOS DEL INSTRUMENTO
DE MEDICIÓN
VALIDEZ
La aplicación del instrumento
permite recoger la información
buscada y no otra.

CONFIABILIDAD
La aplicación repetida del
instrumento al mismo sujeto,
bajo condiciones semejantes,
produce iguales resultados.
VALIDEZ DEL INSTRUMENTO DE MEDICIÓN

TIPO DE VALIDEZ PROCEDIMIENTO PRUEBA

Validez de El experto en un Chi cuadrado


contenido formulario emite opinión
de la coherencia ítem-
indicador.
(Mínimo 8 expertos)
Validez concurrente Correlacionar los Coeficiente r de
resultados del Pearson
instrumento con los de
otro validado.
CONFIABILIDAD DEL INSTRUMENTO DE MEDICIÓN

TÉCNICA PROCEDIMIENTO PRUEBA

Test – Se aplica el instrumento y al Coeficiente r de


pretest cabo de un tiempo se vuelve a Pearson
aplicar. Luego se correlacionan
los puntajes.

Mitades Se aplica el instrumento y al cabo Coeficiente r de


partidas de un tiempo se vuelve a aplicar. Spearman-Brow
Luego se correlacionan los
puntajes de los ítems pares con los
de los pares.

Formas Se aplica dos versiones del. Coeficiente r de


FACTORES QUE AFECTAN LA CONFIABILIDAD DE UN
INSTRUMENTO DE RECOJO DE DATOS

Factores Descripción
Longitud del A mayor cantidad de ítems, mayor probabilidad que el
instrumento investigador se aproxime a lo que desea medir.
Cuando se desea saber cómo variará la confiabilidad al añadir
cierto número de ítems se usa la fórmula de Spearman Brown

Donde
k = número de veces que aumentará la longitud del test.

Homogeneidad Si la muestra es muy pequeña, el coeficiente de correlación


de la muestra tiende a tener un mayor error.
Si la muestra es sesgada, no es representativa de la
población; es decir, no reúne las características de la misma.
Actividad 2
1) En la siguiente tabla se presenta la doble aplicación de una prueba
para medir el aprendizaje de la Filosofía. Hallar su confiabilidad.
Estudiante 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Primera 9 15 15 16 17 15 16 15 17 11 14 10 8 13 16 10
aplicación
Segunda 8 14 14 16 15 16 17 15 16 13 15 12 9 14 16 11
aplicación

2) En la siguiente tabla se presentan los puntajes de los ítems impares


y pares de la primera aplicación de la prueba de Filosofía. Determinar
su confiabilidad.
Estudiante 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Única 9 15 15 16 17 15 16 15 17 11 14 10 8 13 16 10
aplicación
Ítems 4 7 9 8 9 7 6 8 10 5 7 4 3 7 9 4
impares
Ítems pares 5 8 6 8 8 8 10 7 7 6 7 6 5 6 7 6
Actividad 2

.

¿En qué escala se ubican las variables de su


investigación? Explique.
En una investigación, las notas en Filosofía se
midieron en la escala de vigesimal. Por razones
prácticas, se debe expresar en la escala intervalar
el 20 como 100 y el 15 como 80. ¿En cuánto se
transforma el 0?
VALORES PARA LA CONFIABILIDAD DEL
INSTRUMENTO DE MEDICIÓN

VALOR/ INTERVALO VALOR/ES DECISIÓN


1 Correlación perfecta

0,90 – 0,99 Correlación muy alta

0,70 – 0,89 Correlación alta Aplicar el


instrumento
0,60 – 0,69 Correlación aceptable

0,40 – 0,59 Correlación moderada

0,30 - 0,39 Correlación baja

0,10 – 0,29 Correlación muy baja Reformular el


instrumento
Correlación
0,01 – 0,09
despreciable
Parámetros y estadígrafos

PARÁMETRO ESTADÍGRAFO
Es una característica de la Es una característica de la
población. Presenta un muestra. Se calcula a partir
cierto valor constante de una muestra y varía de
pero no se conoce en muestra a muestra. Se le
realidad, se estima. conoce como estadístico.

En la investigación, de los datos de la muestra se obtienen


los estadígrafos, mientras que los parámetros se estiman a
partir de los estadígrafos.
UNIVERSO, POBLACIÓN Y MUESTRA

Universo es un conjunto de seres que comparten


características esenciales, pero no necesariamente
comparten los criterios de inclusión. Estos criterios son
las características que determinan que una unidad
pertenezca o no a una población.
El universo es mucho más amplio que la población.
La muestra es un subconjunto de la población

Ejm.: Universo puede ser el conjunto de estudiantes de


primaria de una I.E. y la población, el conjunto de
estudiantes del tercer grado, secciones de la A hasta la R.
En este caso, el criterio de inclusión es el grado. La
muestra puede ser un par de secciones.
SELECCIÓN DE LA MUESTRA
(ciclo del muestreo)
ESTADÍGRAFOS Y PARÁMETROS

Población:
(parámetros)

Inferencia
Muestreo
estadística

Muestra:
(estadígrafos)
MUESTRA

Características Descripción
Adecuada El tamaño debe ser estadísticamente
proporcionado al tamaño de la
población.

Representativa Debe reflejar o reproducir con la mayor


exactitud posible, las características
de la población.
La representatividad de la muestra
consiste en que los hallazgos hechos
en la muestra puedan ser
generalizados a todos los integrantes
de la población.
FACTORES QUE DETERMINAN EL TAMAÑO DE LA MUESTRA

Factores Tamaño de muestra


 
• Población homogénea
Muestra pequeña
• Variables estrechamente vinculadas
• Resultados menos exactos y menos
confiables

 
•Población heterogénea
Muestra grande
•Variables débilmente vinculadas
•Resultados más exactos y confiables
TABLA DE FISHER-ARKIN-COLTON
Tamaño de la Error
población 1% 2% 3% 4% 5% 10%
(N) n1 n2 n3 n4 n5 n6
500 --- --- --- --- 222 83
1 000 --- --- --- 385 286 91
1 500 --- --- 638 441 316 94
2 000 --- --- 714 476 333 95
2 500 --- 1 250 769 500 345 96
3 000 --- 1 364 811 520 353 97
3 500 --- 1 458 843 530 359 98
4 000 --- 1 538 870 541 364 98
4 500 --- 1 607 891 546 367 98
5 000 --- 1 667 909 556 370 98
6 000 --- 1 765 938 566 375 99
7 000 --- 1 842 959 574 378 99
8 000 --- 1 905 976 580 381 99
9 000 --- 1 957 989 584 383 99
10 000 5 000 2 000 1 000 588 385 99
15 000 6 000 2 143 1 034 600 390 100
20 000 6 667 2 222 1 053 606 392 100
25 000 7 143 2 273 1 064 610 394 100
50 000 8 333 2 381 1 087 617 397 100
100 000 9 091 2 439 1 099 621 398 100
∞ 10 000 2 500 1 111 625 400 100
TABLA DE ADDISON-WESLEY Y LOGMAN
Tamaño de la Tamaño de la muestra
población con error de 5%
10 10
20 19
50 44
100 79
200 113
500 216
1 000 275
2 000 319
5 000 353
10 000 366
100 000 370
1 000 000 380
50 000 000 380
∞ 380
FÓRMULAS BÁSICAS PARA EL
TAMAÑO DE MUESTRA

Tipo de Dimensión de la
Fórmula
variable población (N)
z 2 
N infinito n=
Cuantitativas E2
(continuas) z 2  N
N finito n=
NE 2  z 2 
z 2 pq
N infinito n=
Categóricas E2
(cualitativas) z 2 pqN
N finito n=
NE 2  z 2 pq
ACTIVIDAD 3

Se desea realizar un estudio en una población de 10 000


estudiantes de ingeniería para hacer un estudio sobre
actitudes por la ciencia, teniendo en cuenta:
Un error de 5% y un nivel de significación de 0,05.

Supóngase que no se conocen datos de estudios previos.


Un error de 2% y un nivel de significación de 0,05.

Supóngase que no se conocen datos de estudios previos.


Un error de 5% y un nivel de significación de 0,05.

Supóngase que por un estudio anterior se conoce que el


85% presentaban actitudes desfavorables.
Un error de 2% y un nivel de significación de 0,05.

Supóngase que por un estudio anterior se conoce que el


85% presentaban actitudes desfavorables.
ESTADÍSTICA

ESTADÍSTICA DESCRIPTIVA ESTADÍSTICA INFERENCIAL

proporciona proporciona

TÉCNICAS/ PROCEDIMIENTOS TÉCNICAS/ PROCEDIMIENTOS


para para

RECOPILAR ORGANIZAR PRESENTAR ANALIZAR TOMAR DECISIONES PREDECIR FENÓMENOS

sobre la base de

DATOS

GENERALIZACIONES VÁLIDAS
DESCRIBIRLOS
ESTADÍSTICA

ESTADÍSTICA DESCRIPTIVA ESTADÍSTICA INFERENCIAL

proporciona

TÉCNICAS/ PROCEDIMIENTOS
para

RECOPILAR DATOS ORGANIZAR PRESENTAR ANALIZAR

INSTRUMENTOS

CUESTIONARIOS TESTS DIARIOS DE CAMPO GUÍAS DE ENTREVISTA


ESTADÍSTICA

ESTADÍSTICA DESCRIPTIVA ESTADÍSTICA INFERENCIAL

proporciona

TÉCNICAS/ PROCEDIMIENTOS
para

RECOPILAR ORGANIZAR PRESENTAR ANALIZAR

DATOS

MÉTODO TABULAR MÉTODO GRÁFICO


ANÁLISIS DE DATOS Y DISCUSIÓN DE RESULTADOS
ESTADÍSTICA

ESTADÍSTICA DESCRIPTIVA ESTADÍSTICA INFERENCIAL

MÉTODO TABULAR MÉTODO GRÁFICO

HISTOGRAMAS
TABLAS DE UNA ENTREDA

DIAGRAMA CIRCULAR
TABLAS DE DOBLE ENTREDA

TABLAS COMPLEJAS GRÁFICOS DE TENDENCIAS

PICTOGRAMAS
Tabla 4.1 Pesos de estudiantes de la muestra (kg) en tres
niveles de medición

Nivel
Sujeto
Proporcional Ordinal Nominal

Ana 55 2 1

Luis 60 4 2

Carlos 63 6 2

Rosa 57 3 1

Paula 51 1 1

Luz 61 5 2
ESTADÍSTICA

ESTADÍSTICA DESCRIPTIVA ESTADÍSTICA INFERENCIAL

ESTIMACIÓN DE PARÁMETROS PRUEBAS DE HIPÓTESIS

Estimación puntual Pruebas de relaciones

Estimación por intervalos Pruebas de diferencias


TABLA 4.1 ESTUDIANTES DE POSGRADO DE LA UNT POR
REGIÓN DE PROCEDENCIA, 2016

REGIÓN DE CANTIDAD p
PROCEDENCIA f (%)
Ancash 40 4
La Libertad 750 75
Lambayeque 50 5
Lima 110 11
Otras 50 5

TOTAL 1000 100

FUENTE: Secretaría de la Escuela de Posgrado de la UNT


TABLA 4.2 CANTIDAD DE ESTUDIANTES DE POSGRADO DE LA
UNT POR REGIÓN DE PROCEDENCIA, SEGÚN GÉNERO, 2016

GÉNERO
REGIÓN DE
Masculino Femenino TOTAL
PROCEDENCIA

Ancash 20 20 40
La Libertad 350 400 750
Lambayeque 30 20 50
Lima 50 60 110
Otras 30 20 50

TOTAL 480 520 1000

FUENTE: Secretaría de la Escuela de Posgrado de la UNT


TABLA 4.4 CANTIDAD DE ESTUDIANTES DE POSGRADO DE LA UNT POR
REGIÓN DE PROCEDENCIA, SEGÚN ÁREA DE FORMACIÓN Y GÉNERO,
2016

ÁREA DE FORMACIÓN

REGIÓN DE Ciencias Letras


TOTAL
PROCEDENCIA
Masc Fem Masc Fem

Ancash 20 0 10 10 40
La Libertad 250 100 200 200 750
Lambayeque 10 20 0 20 50
Lima 30 10 50 20 110
Otras 10 20 10 10 50
TOTAL 320 150 270 260 1000
FUENTE: Secretaría de la Escuela de Posgrado de la UNT
TABLA 4.4 CANTIDAD DE ESTUDIANTES DE LA UNT, SEGÚN GÉNERO Y
ACTITUD CIENTÍFICA - 2016

GÉNERO
ACTITUD
TOTAL
CIENTÍFICA Masculino Femenino

Favorable 254 298 552


Desfavorable 149 199 348

TOTAL 403 497 900


FUENTE: Cuestionarios aplicados a la muestra
TABLA 4.4 FRECUENCIAS DE ESTUDIANTES DE LA UNT, SEGÚN
GÉNERO Y ACTITUD CIENTÍFICA - 2016
(Base: Marginales de actitud científica)

GÉNERO
ACTITUD
TOTAL
CIENTÍFICA Masculino Femenino

Favorable 46,0 54,0 100 (552)


Desfavorable 42,8 57,2 100 (348)

TOTAL 44,8 55,2 100 (900)


FUENTE: Cuestionarios aplicado a la muestra
TABLA 4.4 GÉNERO Y ACTITUD CIENTÍFICA EN ESTUDIANTES DE LA
UNT, 2016
(Base: Marginales de género)

GÉNERO
ACTITUD
TOTAL
CIENTÍFICA Masculino Femenino

Favorable 63,0 60,0 61,3


Desfavorable 37,0 40,0 38,7
100 100 100
TOTAL
(403) (497) (900)
FUENTE: Cuestionarios aplicados a la muestra
TABLA 4.4 GÉNERO Y ACTITUD CIENTÍFICA EN ESTUDIANTES DE LA
UNT, 2016
(Base: Porcentaje total de casos)

GÉNERO
ACTITUD
MASCULINO FEMENINO TOTAL
CIENTÍFICA

Favorable 28,2 33,1 61,3


Desfavorable 16,6 22,1 38,7

TOTAL 44,8 55,2 100

FUENTE: Cuestionarios aplicado a la muestra


Tabla 4.2 Notas de razonamiento matemático

Nota f P
3 1 10.00%
4 1 20.00%
5 4 60.00%
6 1 70.00%
7 2 90.00%
8 1 100.00%
ESTADÍSTICA

ESTADÍSTICA DESCRIPTIVA ESTADÍSTICA INFERENCIAL

proporciona

TÉCNICAS/ PROCEDIMIENTOS
para

RECOPILAR ORGANIZAR PRESENTAR ANALIZAR DATOS

MEDIDAS DE CENTRALIDAD MEDIDAS DE DISPERSIÓN

MEDIA MODA MEDIANA RANGO DESV. EST. VARIANZA COEF. VAR.


ESTADÍSTICA

ESTADÍSTICA DESCRIPTIVA ESTADÍSTICA INFERENCIAL

proporciona

TÉCNICAS/ PROCEDIMIENTOS

para

REALIZAR ESTIMACIONES PROBAR HIPÓTESIS

PUNTUALES NO PARAMÉTRICAS

INTERVALARES PARAMÉTRICAS
Uso correcto de las medidas de centralidad

Medida Uso
• Para variables medidas en escala de intervalo o de razón,
pero con distribuciones simétricas o tendientes a la simetría.
• Por ser la más representativa.
Media
• Para efectuar inferencia estadística.
• Debe tenerse en cuenta los valores extremos, por su
sensibilidad.
• Para variables categóricas.
Moda • Debe tenerse en cuenta su ambigüedad.
• Por su sencillez y rapidez, se usa en datos cuantitativos.
• Para variables ordinales.
• Para variables medidas en escala de intervalo o de razón,
pero con distribuciones asimétricas o con intervalos abiertos.
Mediana
• Está al centro de la muestra.
• No es afectada por los valores extremos.
• Varía de muestra a muestra.
¿Qué medida de centralidad se debe usar?

 Cuando en un conjunto de datos, hay valores extremos,


raros, la mejor medida de centralidad es la mediana.

 Cuando la distribución es simétrica, la mediana y la media


coinciden.

 La moda se usa con datos medidos en cualquier tipo de


escala.

 En caso existan uno o más valores extremos, la media


recortada al 5% es la que mejor representa al conjunto.
¿Qué medida de centralidad se debe usar?
 La media se ve muy influenciada por el cambio de una
puntuación de la muestra.
Ej.: 4, 4, 6, 7, 7, 7 9, 9, 10 (ingresos en $ diarios)
Media=7, moda= 7, mediana= 7
Si un 4 se vuelve 6, sólo cambia la media.

 En grupos pequeños la moda es inestable. No se


recomienda su uso.

 Hay casos que los valores no mantienen una tendencia


central clara.
Ej.: 1, 7, 59, 358, 575 (ingresos en $ diarios)
Media=200, mediana=59, moda no tiene
Media recortada al 5%

Es la media de los datos que ha sido calculada con el


90% de datos intermedios; es decir se ha calculado
luego de haber separado el 5% de los datos con
mayor valor y el 5% de los datos con menor valor.

Se trabaja con la media recortada porque esta medida


tiene el inconveniente que la existencia de valores
extremos (muy pequeños o muy grandes) pueden
distorsionar el resultado.

La media recortada al 5%, en muchas ocasiones


representa mejor el «valor central» de los datos.
Ejemplo de media aritmética distorsionada
Tabla 4.1 Salarios de los trabajadores de la
empresa «N», 2016
Salario ($) f
200 5
600 30
800 30
1000 30
10000 5
Total 100

Resultado: Media: $ 1230.00

Valor por encima del salario del 95% de trabajadores


Ejemplo de media recortada al 5%

Tabla 4.1 Salarios de los trabajadores de la


empresa «N», 2016

Salario ($) f
600 30
800 30
1000 30
Total 90

Resultado:
Media recortada al 5%: $ 800.00

Valor que representa mejor la medida de centralidad


¿Por qué es necesario estudiar medidas de dispersión?
Tabla 4.1 Notas de Matemática al aplicar tres métodos, 2021

Método A Método B Método C


15 14 09
13 14 13
14 11 14
14 14 14
15 15 19
13 13 15
14 17 14
12 12 13
16 16 15
14
Media=14 Media=14 Media=14
¿Por qué es necesario estudiar medidas de dispersión?

Fig. 4.1 Dispersión de notas en Matemática obtenidas luego


de aplicar los métodos A, B y C, 2016

C C C CCC C C C
B B B BBBB B B B
A AA AAA AA A
9 11 12 13 14 15 16 17 19
¿Por qué es necesario estudiar medidas de dispersión?
Fig. 4.2 Notas de Matemática luego de aplicar tres métodos, 2016
Tabla 4.4 Promedio de la creatividad – periodo 2011 -2017

AÑO PROMEDIO
2011 12
2012 13
2013 15
2014 16
2015 16
2016 17
2017 18
Tabla 4.8 Frecuencias de las notas de comprensión auditiva
del test inicial, de progreso y final

NOTAS TI TP TF
11 1 0 0
12 2 0 0
13 3 1 0
14 2 2 1
15 1 4 2
16 0 1 3
17 0 1 2
18 0 0 1
Medidas de dispersión o variabilidad

Medida Descripción
Diferencia del valor máximo con el mínimo
Rango (R) o amplitud (A) R = Xmax - Xmin
Medida
Rango Diferencia del tercer y primer cuartil (o percentil
Rango intercuartil (RI) 75 y 25)
Desviación típica RI = Q3 – Q1
Varianza
Desviación cuartil Mitad de la diferencia del tercer y primer cuartil
(Q) Coeficiente de variación
Q = RI/2 90
Varianza
Media de las distancias al cuadrado

Desviación típica Raíz cuadrada de la varianza

Coeficiente de variación Cociente de la desviación típica y la media


Ejemplo:
Los siguientes son tiempos que demoraron diez alumnos
en resolver un problema: 5, 7, 6, 4, 5, 7, 8, 5, 3, 5.
Amplitud (A):
A= Xmax - Xmin=8-3=5 minutos

Rango intercuartil (RI):


Q1=4,75; Q3=7
RI = 7- 4,75 = 2,25 minutos

Desviación cuartil (Q):


Q= (7-4,75)/2=1,13 minutos
Con Me=5 minutos y Q= 1,13 minutos, se obtiene el
segmento de extremos 5±1,13 minutos. Esto indica que
aproximadamente el 50% de alumnos desarrollaron el
problema de 3,87 hasta 6,13 minutos.
MEDIDAS DE FORMA: ASIMETRÍA Y CURTOSIS

Asimetría:
Las medidas de asimetría permiten analizar hasta qué
punto los datos se reparten de forma equilibrada por
encima y por debajo de la media aritmética.

Curtosis :
Los coeficientes de curtosis permiten medir el grado de
apuntamiento o achatamiento de la distribución de
frecuencias respecto de la curva normal cuyo coeficiente es
cero.
MEDIDAS DE FORMA: ASIMETRÍA
Medidas de forma: asimetría
MEDIDAS DE FORMA: ASIMETRÍA
MEDIDAS DE FORMA: CURTOSIS

K=coeficiente de curtosis
MEDIDAS DE FORMA: CURTOSIS
FÓRMULA DEL COEFICIENTE DE CURTOSIS PERCENTÍLICO

k=0 (k=0,263) k>0 (k>0,263) k<0


(k<0,263)
Fórmula del coeficiente de curtosis
ANÁLISIS DE DATOS Y TÉCNICAS ESTADÍSTICAS

Objetivos del análisis de datos Técnicas estadísticas

. Conocer las medidas de resumen. Media, moda, mediana


Varianza, rango, desviación
Conocer las variaciones de los datos
estándar, desviación media.
Determinar la distribución de datos Distribución de frecuencias
Determinar la existencia de Correlación y medidas
correlación entre las variables de asociación
Efectuar estimaciones de parámetros Estimación de parámetros,
a partir de los datos regresión y serie de tiempo
Describir las diferencias entre Prueba t y prueba z
variables y grupos Análisis de varianza
Determinar las variables que causan Prueba t y prueba z
variación en otras. Análisis de varianza
DE LA DESCRIPCIÓN A LA TOMA DE DECISIONES

LA CURVA NORMAL

Características de la curva:

1. Es uniforme y simétrica con forma de “campana”. Si


doblamos la curva en su punto más alto al centro, se
crean dos mitades iguales, donde una es imagen fiel
de la otra.
2. La curva es unimodal, ya que posee un solo pico o
punto de máxima frecuencia, en el cual coinciden
media, moda y mediana.
PORCENTAJE DE LAS ÁREAS BAJO LA CURVA NORMAL
ERROR DE MUESTREO
La media de la muestra x casi nunca será exactamente igual
a la media de la población µ.

la desviación stándar de una muestra (s), rara vez será igual a la


desviación estándar de la población (σ).

Operación del error de muestreo


Población y muestras de notas de un examen de Filosofía de la Ciencia .
Población Muestra 1 Muestra 2 Muestra 3 Muestra 4

14 18 16 12 14 12 14 15
12 13 15 18 13 14 12 15
13 15 17 17 16 13 15 15
14 16 15 15 18 17 13 15
µ =15 x1 = 15, 25 x 2 =14 x 3=13,5 x 4 = 15
Error E1= 0,25 E2=1 E3 = 1,5 E4= 0
TOMA DE DECISIONES
Errores tipo I y tipo II
El objetivo fundamental en la tarea del investigador es la
Como la Estadística seDE
CONTRASTACIÓN basa en probabilidades, la conclusión a
HIPÓTESIS.
la que llega el investigador tiene margen de error o una cierta
probabilidad de estar equivocada. Pueden ocurrir varias
situaciones:
a)Que el investigador acepte la diferencia entre los grupos y esto
sea falso, es decir, realmente no hay diferencia (error tipo 1)
b)Que el investigador acepte la diferencia entre los grupos y esto
sea verdadero (decisión acertada)
c)Que el investigador rechace la diferencia entre los grupos y
esto sea falso, es decir, realmente hay diferencia (error tipo 2)
d)Que el investigador rechace la diferencia entre los grupos y
esto sea verdadero (decisión acertada)
NIVEL DE SIGNIFICACIÓN
Toda conclusiónNIVEL DE SIGNIFICACIÓN
obtenida a partir de un cálculo tiene la
probabilidad de contener cierto grado de error.
El nivel de significación (α) constituye la magnitud del error
que el investigador está dispuesto a tolerar en su conclusión,
en términos de proporciones. El nivel de significación es
menor que 1. Nivel de significación
Un nivel de significación de 0,05 indica que la conclusión
obtenida por el investigador tiene una probabilidad de 5% de
estar equivocada y un 95% de probabilidad de ser acertada.
Un nivel de significación de 0,01 indica que el investigador
tiene un 1% de probabilidad de equivocarse por ejemplo al
decir que hay diferencia entre los grupos (medias o
proporciones) y un 99% de probabilidad de acierto.
Nota: En Ciencias Sociales se trabaja con α=0,05 o menos.
COEFICIENTES DE CONFIANZA Y NIVELES DE SIGNIFICACIÓN

Coeficientes de Niveles de Valores de


confianza significación z
2
1-α α
0,90 0,10 1,65
0,95 0,05* 1,96
0,99 0,01 2,58

(*) En investigaciones sociales, 0,05 es el nivel de significación


más usado con más frecuencia.
ESTIMACIÓN DE PARÁMETROS

La estimación de parámetros es un proceso de análisis


de una muestra con el fin de predecir el valor
correspondiente a un parámetro de la población.

La estimación por intervalo es la estimación de un


parámetro θ dentro de un intervalo de extremos cerrados
[a, b], donde los números a y b se obtienen a partir de las
distribución de la estadística que estima puntualmente el
parámetro y a partir de los valores de la muestra.
HIPÓTESIS NULA Y NIVEL DE SIGNIFICANCIA

Se rechaza la hipótesis nula (Ho) si la probabilidad es


muy pequeña (menor que 5%, es decir menos de 5
oportunidades de 100) de que la diferencia muestral sea
un producto del error de muestreo.

El rechazo Ho está asociado al nivel de significancia, que


es un valor de certeza que fija el investigador “a priori”.

Por ejemplo, un nivel de significancia de 0,05 o 5%,


indica que el investigador tiene el 95% de confianza para
generalizar sin equivocarse y sólo un 5% en contra.
HIPÓTESIS ESTADÍSTICAS Y TIPO DE PRUEBA
Hipótesis Tipo de
Significado Símbolo
estadística prueba
Indican la estimación de Prueba z
De estimación Hi: μ > μo
un solo dato. Prueba t
Indican la posible
Coeficiente r
De correlación correlación de dos o más Hi: rxy>0 de Pearson
variables.
Indican la posible
diferencia entre medias de Prueba z
De diferencia de Hi: μ1 - μ2 ≠ 0
una medición anterior y Prueba t
medias
otra posterior de una
variable.
Indican la posible
diferencia entre medias de Prueba z
De diferencia de Hi: P1 - P2 ≠ 0
una medición anterior y Prueba t
proporciones
otra posterior de una
variable.
TIPOS DE PRUEBAS DE HIPÓTESIS

Pruebas paramétricas Pruebas no paramétricas

• Prueba t de Student • Prueba chi cuadrada


• Prueba z • Coeficiente de contingencia
• Coeficiente r de Pearson • Prueba de la mediana
• Análisis de varianza • Coeficiente Q de Yule
• Coeficiente de rangos de
• Prueba F
Spearman
Análisis paramétrico
Para efectuar el análisis paramétrico se debe partir de las
siguientes presuposiciones o presupuestos:

1) La distribución poblacional de la variable dependiente


es normal, es decir la población presenta una
distribución normal.

2) El nivel de medición de la variable dependiente es por


intervalo o razón.

3) Las dos o más poblaciones estudiadas tienen una


dispersión similar en sus distribuciones.
Prueba t de Student

Definición: Es una prueba estadística paramétrica que se


utiliza para evaluar si dos grupos difieren entre sí de
manera significativa respecto de sus medias.

Nota: Student fue el seudónimo de William Sealy Gosset,


trabajador de la destilería Guinness.

Hipótesis a probar: La prueba t sirve para probar hipótesis


de diferencia de medias entre dos grupos.

Variable involucrada: La comparación de las medias se


efectúa sobre una variable que se mide en escala de
intervalos o de razón.
Fórmula (muestras pequeñas):

x1  x2 n1 n 2 (n1  n 2  2)
t
n1  1s  n2  1s
2
1
2
2
n1  n 2

donde:
Prueba z

Definición: Es una prueba estadística paramétrica que se


utiliza para evaluar si dos grupos difieren entre sí de
manera significativa respecto de dos proporciones o dos
medias.

Hipótesis a probar: La prueba z sirve para probar


hipótesis de diferencias de proporciones o medias en dos
grupos.

Variable involucrada: La comparación se efectúa sobre


una variable que se mide en escala de intervalo o de
razón.
 
Fórmula (muestras grandes) p1  p 2
z
   
pq pq

donde: n1 n2
Fórmula (muestras grandes): z  x1  x 2
s12 s 22

donde: n1 n 2
Coeficiente de correlación de Pearson

Definición: Es una prueba estadística paramétrica que se


utiliza para analizar la relación entre dos variables
medidas en un nivel por intervalos o de razón.

Hipótesis a probar: El coeficiente r sirve para probar


hipótesis correlacionales del tipo: “A mayor x mayor y”,
“altos valores en x están asociados con altos valores en y”
(correlaciones positivas), “a menor x, menor y”, “altos
valores en x están asociados con bajos valores en y”
(correlaciones negativas).
Variables involucradas: El coeficiente se calcula a partir
de las puntuaciones obtenidas en una muestra en dos
variables medidas en un nivel por intervalos o de razón.

Fórmula:
n x i y i   x i  y i

r n x i
2 2

  x i  . n y i
2
  y i 
2

=
Donde:
Análisis de varianza unidireccional (ANOVA)
Definición: Es una prueba estadística paramétrica que se
utiliza para analizar si más de dos grupos difieren
significativamente en cuanto a sus medias y varianzas.

Hipótesis a probar: De diferencia entre más de dos


grupos. La hipótesis de investigación propone que dos
grupos difieren significativamente entre sí y la hipótesis
nula propone que los grupos no difieren significativamente.

Variables involucradas: Una variable independiente y


una dependiente. La VI es categórica y la VD es por
intervalos o de razón. El ANOVA produce un valor
conocido como «F» o razón «F», conocida como
distribución F.
 Fórmula:
F : Cociente de media cuadrática entre los grupos (MCE) y
media cuadrática dentro de los grupos (MCI).
 Grados de libertad (gl):
gl entre grupos = k-1 (k es número de grupos)
gl dentro de los grupos= n-k (n es la suma de
individuos de todos los grupos y k, número de grupos)
 Elementos para interpretar el ANOVA :

Fuente de Suma de Grados de Medias Razón Significancia


variación cuadrados libertad cuadráticas «F» de «F»
Entre grupos SS entre SS entre/ gl MCE/ α
k-1
entre MCI
Intra grupos SS intra SS intra/ gl
n-k
intra
Total n-1
Ejemplo

Hipótesis de investigación: Las clases alta, media y baja


difieren significativamente respecto de su estado
nutricional.

Hipótesis nula: Las clases alta, media y baja no difieren


respecto de su estado nutricional.
Prueba de hipótesis relativa a las varianzas de
dos poblaciones

• Las pruebas de hipótesis relativas a las varianzas de


una población son iguales a las relaciones con las
medias de la población.

• Hipótesis a probar: De diferencia entre las varianzas


de dos grupos. La hipótesis de investigación propone
que dos grupos difieren significativamente entre sí y la
hipótesis nula propone que los grupos no difieren
significativamente.
Análisis no paramétrico
Tienen exigencias menos estrictas y constituyen pruebas
de significancia menos poderosas que sus contrapartes
paramétricas.
Para efectuar el análisis no paramétrico se debe partir de
las siguientes consideraciones:

1) La mayoría de análisis no requieren de presupuestos


acerca de la forma de la distribución poblacional. Es
decir se acepta que la población presenta una
distribución no normal.
2) El nivel de medición de las variables no necesariamente
deben estar medidas en un nivel por intervalo o razón,
pueden analizarse datos nominales u ordinales.
Prueba de significancia chi cuadrada χ2

Uso: Esta prueba no paramétrica se usa para hacer


comparaciones entre dos o más muestras.

Hipótesis a probar: La chi cuadrada se emplea para


probar hipótesis de asociación. Permite hacer
comparaciones entre frecuencias más que entre puntajes
medios.

Variable involucrada: La comparación se efectúa


sobre dos variables medidas en un nivel nominal o
adaptado.
Prueba chi cuadrada

Fórmula:

Donde:

χ2 = chi cuadrado
∑ = sumatoria
fo = frecuencia observada u obtenida
fe = frecuencia esperada
Prueba de hipótesis con chi cuadrada
Tiene que ver entre la distinción entre frecuencias
obtenidas y frecuencias esperadas. Las frecuencias
esperadas se refieren a los términos de la hipótesis
nula, de acuerdo con la cual se espera que la frecuencia
relativa sea la misma de un grupo a otro.

Se confirma la hipótesis nula si el valor calculado es


mayor que el valor tabular; en caso contrario se rechaza.
El valor tabular se determina teniendo en cuenta el nivel
de significancia y los grados de libertad.

También podría gustarte