Está en la página 1de 60

Organización,

presentación y
análisis estadístico
de datos.
TODA INVESTIGACION EXIGE UNA FASE DE RECOGIDA DE DATOS

Cualidades o Personas / cosas


cantidades

VARIABLES
VARIABLES
Variables Cuantitativas
Tienen carácter cuantitativo y numérico.
Variables Cualitativas
No miden una cantidad sino una cualidad.

CUALITATIVA CUANTITATIVA

DICOTOMICA DISCRETA

POLITOMICA CONTINUA
Qué tipos de datos son los que se
recogen? Variables…….

Diccionario o conjunto de etiqueta


Significado de cada número
La codificación de los datos:

◼ Es un procedimiento en el que se asignan códigos a


las categorías o a las respuestas de un cuestionario,
para facilitar la organización de los datos, su
presentación y posterior análisis estadístico.
Pasos de la codificación:
◼ Establecer los códigos.
◼ Elaborar un “libro de códigos”.
◼ Efectuar físicamente la codificación (tabulación)
◼ Almacenar los datos codificados y las instrucciones para
interpretar los códigos empleados.
• PASOS
• Ordenar los instrumentos de relevamiento de datos
• Observar la consistencia de los datos
• Identificar los tipos de variables
• Realizar la matriz
• Cargar los datos
• Procesamiento de datos
Ejemplos de códigos:

◼ 1. Pregunta no precodificada:
◼ ¿Practicas algún deporte por lo menos una vez a la
semana?
◼ Sí
◼ No
Se codifica:
1= Sí
2= No
◼ 2. Frase no precodificada:
“El producto “X” tiene muy buen sabor”
( ) totalmente de acuerdo
( ) de acuerdo
( ) ni de acuerdo, ni en desacuerdo
( ) en desacuerdo
( ) totalmente en desacuerdo
Se codifica: 5 = totalmente de acuerdo
4 = de acuerdo
3 = ni de acuerdo, ni en desacuerdo
2 = en desacuerdo
1 = totalmente en desacuerdo
ANÁLISIS DE DATOS
• Los análisis de los datos dependen de tres factores:
• a) El nivel de medición de las variables.
• b) La manera como se hayan formulado las hipótesis.
• c) El interés del investigador.

Los datos pueden organizarse en las siguientes formas:

• Datos simples: corresponde a un conjunto pequeño de datos.

• Datos agrupados: por el número de datos conviene presentarlos en tablas de


frecuencias. Dependiendo del tipo de variables se pueden construir dos
tipos de tablas:
Estadística descriptiva para cada variable

• - Una distribución de frecuencias es un conjunto de datos ordenadas en sus


categorías y se presenta como una tabla.

Frecuencias: variables cualitativas y cuantitativas


discretas.

Intervalos de clase: variables cuantitativas


contínuas (discretas, si el rango es alto).
Presentación ordenada de datos
7
6
Género Frec. 5
4
Hombre 4 3
2

1
Mujer 6
0
Hombre Mujer

• Las tablas de frecuencias y las representaciones gráficas son


dos maneras equivalentes de presentar la información.
• Las dos exponen ordenadamente la información recogida en
una muestra.
Datos desordenados y ordenados en tablas

• Variable: Género Género Frec. Frec. relat.


• Modalidades: porcentaje

• H = Hombre Hombre 4 4/10=0,4=40%


• M = Mujer
Mujer 6 6/10=0,6=60%

10=tamaño
muestral
• Muestra:

MHHMMHMMMH

• equivale a
HHHH MMMMMM

Tema 1: Introducción 13
Agrupación de datos discretos.
◼ Datos medidos en escalas nominales y ordinales: se
agrupan contando el número de casos (frecuencia)
de cada una de las categorías que constituyen la
escala.
Representación de datos discretos.
◼ Gráfico de barras
◼ Diagrama de tarta
Gráficos para v. cualitativas
• Diagramas de barras
• Alturas proporcionales a las frecuencias (abs. o rel.)
• Se pueden aplicar también a variables discretas y V.
ordinal.

• Diagramas de sectores (tartas, polares)


• No usarlo con variables ordinales.
• El área de cada sector es proporcional a su
frecuencia (abs. o rel.)
• Pictogramas
• Fáciles de entender.
• El área de cada modalidad debe ser proporcional a
la frecuencia. ¿De los dos, cuál es incorrecto?.

Tema 1: Introducción 16
Gráfico 1: Alumnos de CTA y QI inscriptos en Metodología
de la Investigación Científica en el año lectivo 2021 (gráfico de
columnas)

25 Sexo f

20 hombres 17

mujeres 21
15
Mujeres
Hombres
10

0
Mujeres Hombres
Agrupación y Presentación de datos
continuos:
◼ Entre los datos continuos están los medidos en
escalas intervalares y absolutas (o de razón y
proporción).
◼ Se pueden representar mediante histogramas o por
medio de polígonos de frecuencia.
Gráficos diferenciales para
variables numéricas 419
400 375

300

Son diferentes en función de que las 255

Recuento
215

variables sean discretas o continuas. Se 200

usan con frec. absolutas o relativas.


127

100

54

Diagramas barras para v. discretas 24 23 17

Se deja un espacio entre barras para indicar los 0 1 2 3 4 5 6 7 Ocho o más

Número de hijos
valores que no son posibles
250

Histogramas para v. continuas 200

El área que hay bajo el histograma entre dos

Recuento
150

puntos cualesquiera indica la cantidad 100

(porcentaje o frecuencia) de individuos en el


50

intervalo.
20 40 60 80

Edad del encuestado


Muestra Nº Índice de solución del hierro
1
2
0,78
1,36
Las siguientes medidas representan
el índice de solución de hierro en
3 0,65
4 0,65
5 0,78
6
7
0,88
0,65 muestras de hojalata destinadas a
8 0,83
9
10
0,96
0,96
medir la resistencia a la corrosión.
11 1,01
12 0,57
13 0,65
14 0,67
15 0,72 1,6
16 0,83
17 0,59 1,4
18 0,65
19 0,96 1,2
20 0,82 1
21 0,66
22 0,54 0,8 Serie1
23 0,71
24 0,78 0,6
25 0,72 0,4
26 0,73
27 0,65 0,2
28 0,72
29 0,78 0
30 0,55 1 4 7 10 13 16 19 22 25 28 31 34 37 40
31 0,96
32 1,12
33 0,61
34 0,36
35 0,96
36 0,79
37 0,78
38 0,49
39 0,65
40 1,21
Pasos para la construcción de un histograma:
0,36
0,49
0,54

Paso 1 0,55
0,57
0,59
0,61
0,65
0,65
0,65
0,65
0,65
0,65
0,65
0,66
0,67
0,71
0,72
0,72
0,72
0,73
0,78
0,78
0,78
0,78
0,78
0,79
0,82
0,83
0,83
0,88
0,96
0,96
0,96
0,99
1,01
1,03
1,12
1,21
1,36
Paso 2:
Rango= valor mayor – valor menor
Rango = 1,36 – 0,36
Rango = 1,00
Paso 3:
◼ Determinar el número de clases que tendrá el
histograma:
◼ Por ejemplo: 5 clases
◼ El rango (recorrido) se divide entre el número de clases:
◼ 1,00 / 5 = 0,2 (valor de la amplitud de cada clase)
Paso 4:
◼ Construir las clases:
◼ Primera clase: 0,36 + 0,20 = 0,56
• Primera clase: 0,36 – 0,56
◼ Segunda clase: 0,57 + 0,20 = 0,77
• Segunda clase: 0,57 – 0,77
◼ Tercera clase: 0,78 + 0,20 = 0,98
• Tercera clase: 0,78 – 0,98
◼ Cuarta clase: 0,99 + 0,20 = 1,19
• Cuarta clase: 0,99 – 1,19
◼ Quinta clase: 1,20 + 0,20 = 1,40
• Quinta clase: 1,20 – 1,40
Límites frecuencia
0,36 - 0,56
0,57 - 0,77
0,78 - 0,98
0,99 - 1,19
1,20 - 1,40
Paso 5:

Límites frecuencia
0,36 - 0,56 4
0,57 - 0,77 17
0,78 - 0,98 13
0,99 - 1,19 4
1,20 - 1,40 2
Paso 6:
frecuencia

índice de
solución de
hierro
Paso 7:
Polígono de frecuencias
Polígonos de frecuencia:
◼ Pueden presentar diversas formas:
◼ Distribución acampanada o normal
◼ Desviación negativa
◼ Desviación positiva
Estadísticos de asimetría

Asimetría positiva: Si las frecuencias mas altas


se encuentran en el lado izquierdo de la media,
mientras que en derecho hay frecuencias mas
pequeñas (cola).Fig. B
Media ˃ Mediana Cola a la derecha

Asimetría negativa: Cuando la cola esta en el


lado izquierdo. Fig. C
Media < Mediana
Parámetros estadísticos descriptivos
simples.
◼ Razón : A/B
◼ Proporciones: A/(A+B)
◼ Porcentajes: [A/(A+B)].100
◼ Índices:
◼ De incidencia
◼ De prevalencia
Razón: es un cociente de dos números culesquiera, en el que ninguno de los
elementos del numerador está incluido en el denominador

◼ Alumnos de CTA y QI, inscriptos Sexo f


en Metodología de la
Investigación Científica en el año hombres 17
lectivo 2018
mujeres 21

17
Relación
(hombres
.a )= =
.mujeres0,81
21
o
21
R(mujeres
.a
.hom )= =
bres 1
,24
17
Proporción
Es un cociente en el que el numerador está incluido en el
denominador.
Por ejemplo, si en una población de 25.000 habitantes
se diagnostican 1.500 pacientes con diabetes, la
proporción de diabetes en esa población es:
proporción de diabetes = 1.500 = 0.06 6%
25.000.
Proporción:
◼ Proporción de hombres:
17 17
= =0
,45
(
17+21
) 38

◼ Proporción de mujeres:
21 21
= =0
,55
(
17+21
) 38
Porcentajes:
◼ % de varones
17
 =
100
45
%
(
17+21
)

◼ % de mujeres
21
 =
100
55
%
(
17+21
)
Índices:
◼ De incidencia:

casos
_
nuev
= 
Incidenciaba
poblaci
_
total
_de
_ries

◼ De prevalencia:
n
º
casos
_exist
Pr=
evalencia 
ba
poblac
_total
_de
_ries
Medidas de tendencia central
Moda: es la categoría o puntuación que ocurre con
mayor frecuencia
Ejemplo: Se tiene una muestra con valores 20, 23, 24, 25,
25, 26 y 30. Mo = 25

Media: es el promedio aritmético de una distribución.


Ejemplo: A continuación se presenta una muestra de las
puntuaciones en un examen de un curso de estadística: 70
90 95 74 58 70 98 72 75 85 95 74 80 85 90 65 90 75 90 69.
Mediana: Por ejemplo, se tiene una muestra de tamaño 5 con los
siguientes valores: 46, 54, 42, 48 y 32.
Primer paso, ordenar los datos: 32 42 46 48 54 Como la cantidad
de datos es impar (5 datos), la mediana es: Me = 46.
Medidas de la variabilidad

Medidas de la variabilidad indican la dispersión de


los datos en la escala de medición y más utilizadas
son rango, desviación estándar y varianza
Medidas de variabilidad
Desviación estándar o típica es el promedio de
desviación de las puntuaciones con respecto a la
media.

La desviación estándar sólo se utiliza en


variables medidas por intervalos o de razón

Varianza es la desviación estándar elevada al


cuadrado y se simboliza s²

Rango o amplitud: Diferencia entre el valor mayor


y el menor valor
Medidas de forma: Asimetría -Curtosis
Asimetría pueden ser simétricas o asimétricas.
Simétricas cuando las 2 colas tienen la misma longitud

La cola de la izquierda es
mas larga

La cola de la derecha es mas


prolongada

Curtosis: Mide el grado en el que un histograma resulta picudo o aplanado


Estadística inferencial: de la muestra a la población

Objetivo: Probar hipótesis y generalizar los resultados obtenidos en la muestra


a la población o universo.

DATOS MUESTRA

RESULTADOS
ESTADISTICOS
MEDIA
ESTADÍGRAFOS
DE

A las estadísticas de la población se les conoce como parámetros.


NIVEL DE SIGNIFICANCIA

Nivel alfa (α ) el cual es un nivel de la probabilidad de equivocarse y se fija antes de probar


hipótesisinferenciales

GENERALIZACION DE LOS RESULTADOS

El nivel de significancia de 0.05, el investigador tiene 95% de seguridad para


generalizar sin equivocarse y sólo 5% en contra, ambos suman la unidad.

El nivel de significancia de 0.01, el cual implica que el investigador tiene 99% en su


favor y 1% en contra (0.99 y 0.01 = 1.00) para generalizar sin temor
Errores posibles al probar hipótesis

➢ Aceptar una hipótesis verdadera (decisión correcta).


➢ Rechazar una hipótesis falsa (decisión correcta).
➢ Aceptar una hipótesis falsa (conocido como error del Tipo II o error
beta).
➢ Rechazar una hipótesis verdadera (conocido como error del Tipo I o
error alfa).
Prueba de hipótesis –análisis
estadísticas
ANÁLISIS PARAMÉTRICOS
ANÁLISIS NO PARAMÉTRICOS

Análisis paramétricos

➢ La distribución poblacional de la variable


dependiente es normal

➢ El nivel de medición de las variables es por


intervalos o razón.

➢ Dos o más poblaciones son estudiadas, tienen una


varianza homogénea.
Análisis Paramétricos
¿Cuáles son los supuestos o las presuposiciones de
la estadística paramétrica?

➢ La distribución poblacional de la variable dependiente es


normal: el universo tiene una distribución normal.

➢ El nivel de medición de las variables es por intervalos o


razón.

➢ Cuando dos o más poblaciones son estudiadas, tienen una


varianza homogénea: las poblaciones en
cuestión poseen una dispersión similar en sus distribuciones
Pruebas Paramétricas

➢ Coeficiente de correlación de Pearson y


regresión lineal.
➢ Prueba t.
➢ Prueba de contraste de la diferencia de
proporciones.
➢ Análisis de varianza unidireccional (ANOVA en
un sentido o oneway).
➢ Análisis de varianza factorial (ANOVA)
Coeficiente de correlación de Pearson

Prueba estadística para analizar la relación entre dos variables


medidas en un nivel por intervalos o de razón.
Símbolo: r.

Hipótesis a probar: correlacional.

Variables: no considera a una como independiente y a otra como


dependiente, no evalúa la causalidad. La noción de causa-efecto
(independiente-dependiente) es posible establecerla teóricamente,
pero la prueba no asume dicha causalidad.

El coeficiente de correlación de Pearson se calcula a partir de


las puntuaciones de dos variables.
Nivel de medición de las variables: intervalos o razón.

Interpretación: el coeficiente r de Pearson puede variar de –1.00 a


+1.00, donde:

–1.00 = correlación negativa perfecta. (“A mayor X, menor Y ”, de


manera proporcional.
Esto también se aplica “a menor X, mayor Y ”.

–0.90 = Correlación negativa muy fuerte.

0.00 = No existe correlación alguna entre las variables.

+1.00 = Correlación positiva perfecta. (“A mayor X, mayor Y ” o “a


menor X, menor Y .

+0.90 = Correlación positiva muy fuerte.

+0.50 = Correlación positiva media.


Regresión lineal
Definición: Para estimar el efecto de una variable sobre otra.

Cuando mayor sea la correlación entre las variables (covariación), mayor


capacidad de predicción.

Hipótesis: correlacionales y causales.

Variables: dos. independiente - dependiente.

Nivel de medición de las variables: intervalos o razón.

Procedimiento e interpretación: la regresión lineal se determina con base


en el diagrama de dispersión.
Prueba t
Definición: Para evaluar si dos grupos difieren entre sí de manera
significativa respecto a sus medias en una variable.

Se simboliza: t.

Hipótesis: diferencia entre dos grupos.

Hipótesis de investigación propone que los grupos difieren de manera


significativa entre sí

Hipótesis nula plantea que los grupos no difieren significativamente.


Variables: la comparación se realiza sobre una variable
Se efectuarán varias pruebas t (una por cada par de variables),
Experimento con dos grupos, donde a uno se le aplica el estímulo
experimental y al otro no, es de control.

Nivel de medición de la variable de comparación: intervalos o


razón.

Aplicación: cuando se compara variable


CUANTITATIVA y solo hay dos grupos
Análisis de varianza unidireccional o de un factor
(ANOVA one-way)
El análisis de varianza unidireccional se usa para tres, cuatro o
más grupos.

Hipótesis: diferencia entre más de dos grupos.

Hipótesis de investigación propone que los grupos difieren


significativamente entre sí

Hipótesis nula propone que los grupos no difieren


significativamente.

Variables: una variable independiente y una variable dependiente.

Nivel de medición de las variables: la variable independiente es


categórica y la dependiente es por intervalos o razón.
Pruebas estadísticas no paramétricas
Distribuciones no normales.
Las variables no necesariamente tienen que estar medidas en un
nivel por intervalos o de razón; pueden analizar datos nominales
u ordinales.
Las variables deben ser categóricas.

➢ La chi cuadrada o χ2.

➢ Los coeficientes de correlación e independencia para


tabulaciones cruzadas.

➢ Los coeficientes de correlación por rangos ordenados de


Spearman y Kendall.
Chi cuadrada
Chi cuadrada Prueba estadística para evaluar hipótesis acerca de la relación
entre dos variables categóricas

Se simboliza: χ2.
Hipótesis a probar: correlacionales.

Variables involucradas: dos. La prueba chi cuadrada no considera


relaciones causales.

Nivel de medición de las variables: nominal u ordinal.


Procedimiento: se calcula por medio de una tabla de contingencia
, que es un cuadro de dos dimensiones y cada dimensión contiene
una variable. A su vez, cada variable se subdivide en dos o más
categorías
Los coeficientes rho de Spearman, simbolizado como rs, y tau
de Kendall, simbolizado como t, son medidas de correlación para
variables en un nivel de medición ordinal (ambas). Son coeficientes
utilizados para relacionar estadísticamente escalas tipo Likert.

También podría gustarte