Organizacion y Analisis de Datos

Organización,
presentación y
análisis estadístico
de datos.
TODA INVESTIGACION EXIGE UNA FASE DE RECOGIDA DE DATOS
Cualidades o Personas / cosas

cantidades
VARIABLES
VARIABLES
Variables Cuantitativas
Tienen carácter cuantitativo y numérico.
Variables Cualitativas
No miden una cantidad sino una cualidad.
CUALITATIVA CUANTITATIVA
DICOTOMICA DISCRETA
POLITOMICA CONTINUA
Qué tipos de datos son los que se
recogen? Variables…….
Diccionario o conjunto de etiqueta

Significado de cada número
La codificación de los datos:
◼ Es un procedimiento en el que se asignan códigos a

las categorías o a las respuestas de un cuestionario,
para facilitar la organización de los datos, su
presentación y posterior análisis estadístico.
Pasos de la codificación:
◼ Establecer los códigos.
◼ Elaborar un “libro de códigos”.
◼ Efectuar físicamente la codificación (tabulación)
◼ Almacenar los datos codificados y las instrucciones para
interpretar los códigos empleados.
• PASOS
• Ordenar los instrumentos de relevamiento de datos
• Observar la consistencia de los datos
• Identificar los tipos de variables
• Realizar la matriz
• Cargar los datos
• Procesamiento de datos
Ejemplos de códigos:
◼ 1. Pregunta no precodificada:
◼ ¿Practicas algún deporte por lo menos una vez a la
semana?
◼ Sí
◼ No
Se codifica:
1= Sí
2= No
◼ 2. Frase no precodificada:
“El producto “X” tiene muy buen sabor”
( ) totalmente de acuerdo
( ) de acuerdo
( ) ni de acuerdo, ni en desacuerdo
( ) en desacuerdo
( ) totalmente en desacuerdo
Se codifica: 5 = totalmente de acuerdo
4 = de acuerdo
3 = ni de acuerdo, ni en desacuerdo
2 = en desacuerdo
1 = totalmente en desacuerdo
ANÁLISIS DE DATOS
• Los análisis de los datos dependen de tres factores:
• a) El nivel de medición de las variables.
• b) La manera como se hayan formulado las hipótesis.
• c) El interés del investigador.
Los datos pueden organizarse en las siguientes formas:
• Datos simples: corresponde a un conjunto pequeño de datos.
• Datos agrupados: por el número de datos conviene presentarlos en tablas de

frecuencias. Dependiendo del tipo de variables se pueden construir dos
tipos de tablas:
Estadística descriptiva para cada variable
• - Una distribución de frecuencias es un conjunto de datos ordenadas en sus

categorías y se presenta como una tabla.
Frecuencias: variables cualitativas y cuantitativas

discretas.
Intervalos de clase: variables cuantitativas

contínuas (discretas, si el rango es alto).
Presentación ordenada de datos
7
6
Género Frec. 5
4
Hombre 4 3
2
1
Mujer 6
0
Hombre Mujer
• Las tablas de frecuencias y las representaciones gráficas son

dos maneras equivalentes de presentar la información.
• Las dos exponen ordenadamente la información recogida en
una muestra.
Datos desordenados y ordenados en tablas
• Variable: Género Género Frec. Frec. relat.

• Modalidades: porcentaje
• H = Hombre Hombre 4 4/10=0,4=40%

• M = Mujer
Mujer 6 6/10=0,6=60%
10=tamaño
muestral
• Muestra:
MHHMMHMMMH
• equivale a
HHHH MMMMMM
Tema 1: Introducción 13
Agrupación de datos discretos.
◼ Datos medidos en escalas nominales y ordinales: se
agrupan contando el número de casos (frecuencia)
de cada una de las categorías que constituyen la
escala.
Representación de datos discretos.
◼ Gráfico de barras
◼ Diagrama de tarta
Gráficos para v. cualitativas
• Diagramas de barras
• Alturas proporcionales a las frecuencias (abs. o rel.)
• Se pueden aplicar también a variables discretas y V.
ordinal.
• Diagramas de sectores (tartas, polares)

• No usarlo con variables ordinales.
• El área de cada sector es proporcional a su
frecuencia (abs. o rel.)
• Pictogramas
• Fáciles de entender.
• El área de cada modalidad debe ser proporcional a
la frecuencia. ¿De los dos, cuál es incorrecto?.
Tema 1: Introducción 16
Gráfico 1: Alumnos de CTA y QI inscriptos en Metodología
de la Investigación Científica en el año lectivo 2021 (gráfico de
columnas)
25 Sexo f
20 hombres 17
mujeres 21
15
Mujeres
Hombres
10
0
Mujeres Hombres
Agrupación y Presentación de datos
continuos:
◼ Entre los datos continuos están los medidos en
escalas intervalares y absolutas (o de razón y
proporción).
◼ Se pueden representar mediante histogramas o por
medio de polígonos de frecuencia.
Gráficos diferenciales para
variables numéricas 419
400 375
300
Son diferentes en función de que las 255
Recuento
215
variables sean discretas o continuas. Se 200
usan con frec. absolutas o relativas.

127
100
54
Diagramas barras para v. discretas 24 23 17
Se deja un espacio entre barras para indicar los 0 1 2 3 4 5 6 7 Ocho o más
Número de hijos
valores que no son posibles
250
Histogramas para v. continuas 200
El área que hay bajo el histograma entre dos
Recuento
150
puntos cualesquiera indica la cantidad 100
(porcentaje o frecuencia) de individuos en el

50
intervalo.
20 40 60 80
Edad del encuestado

Muestra Nº Índice de solución del hierro
1
2
0,78
1,36
Las siguientes medidas representan
el índice de solución de hierro en
3 0,65
4 0,65
5 0,78
6
7
0,88
0,65 muestras de hojalata destinadas a
8 0,83
9
10
0,96
0,96
medir la resistencia a la corrosión.
11 1,01
12 0,57
13 0,65
14 0,67
15 0,72 1,6
16 0,83
17 0,59 1,4
18 0,65
19 0,96 1,2
20 0,82 1
21 0,66
22 0,54 0,8 Serie1
23 0,71
24 0,78 0,6
25 0,72 0,4
26 0,73
27 0,65 0,2
28 0,72
29 0,78 0
30 0,55 1 4 7 10 13 16 19 22 25 28 31 34 37 40
31 0,96
32 1,12
33 0,61
34 0,36
35 0,96
36 0,79
37 0,78
38 0,49
39 0,65
40 1,21
Pasos para la construcción de un histograma:
0,36
0,49
0,54
Paso 1 0,55
0,57
0,59
0,61
0,65
0,65
0,65
0,65
0,65
0,65
0,65
0,66
0,67
0,71
0,72
0,72
0,72
0,73
0,78
0,78
0,78
0,78
0,78
0,79
0,82
0,83
0,83
0,88
0,96
0,96
0,96
0,99
1,01
1,03
1,12
1,21
1,36
Paso 2:
Rango= valor mayor – valor menor
Rango = 1,36 – 0,36
Rango = 1,00
Paso 3:
◼ Determinar el número de clases que tendrá el
histograma:
◼ Por ejemplo: 5 clases
◼ El rango (recorrido) se divide entre el número de clases:
◼ 1,00 / 5 = 0,2 (valor de la amplitud de cada clase)
Paso 4:
◼ Construir las clases:
◼ Primera clase: 0,36 + 0,20 = 0,56
• Primera clase: 0,36 – 0,56
◼ Segunda clase: 0,57 + 0,20 = 0,77
• Segunda clase: 0,57 – 0,77
◼ Tercera clase: 0,78 + 0,20 = 0,98
• Tercera clase: 0,78 – 0,98
◼ Cuarta clase: 0,99 + 0,20 = 1,19
• Cuarta clase: 0,99 – 1,19
◼ Quinta clase: 1,20 + 0,20 = 1,40
• Quinta clase: 1,20 – 1,40
Límites frecuencia
0,36 - 0,56
0,57 - 0,77
0,78 - 0,98
0,99 - 1,19
1,20 - 1,40
Paso 5:
Límites frecuencia
0,36 - 0,56 4
0,57 - 0,77 17
0,78 - 0,98 13
0,99 - 1,19 4
1,20 - 1,40 2
Paso 6:
frecuencia
índice de
solución de
hierro
Paso 7:
Polígono de frecuencias
Polígonos de frecuencia:
◼ Pueden presentar diversas formas:
◼ Distribución acampanada o normal
◼ Desviación negativa
◼ Desviación positiva
Estadísticos de asimetría
Asimetría positiva: Si las frecuencias mas altas

se encuentran en el lado izquierdo de la media,
mientras que en derecho hay frecuencias mas
pequeñas (cola).Fig. B
Media ˃ Mediana Cola a la derecha
Asimetría negativa: Cuando la cola esta en el

lado izquierdo. Fig. C
Media < Mediana
Parámetros estadísticos descriptivos
simples.
◼ Razón : A/B
◼ Proporciones: A/(A+B)
◼ Porcentajes: [A/(A+B)].100
◼ Índices:
◼ De incidencia
◼ De prevalencia
Razón: es un cociente de dos números culesquiera, en el que ninguno de los
elementos del numerador está incluido en el denominador
◼ Alumnos de CTA y QI, inscriptos Sexo f

en Metodología de la
Investigación Científica en el año hombres 17
lectivo 2018
mujeres 21
17
Relación
(hombres
.a )= =
.mujeres0,81
21
o
21
R(mujeres
.a
.hom )= =
bres 1
,24
17
Proporción
Es un cociente en el que el numerador está incluido en el
denominador.
Por ejemplo, si en una población de 25.000 habitantes
se diagnostican 1.500 pacientes con diabetes, la
proporción de diabetes en esa población es:
proporción de diabetes = 1.500 = 0.06 6%
25.000.
Proporción:
◼ Proporción de hombres:
17 17
= =0
,45
(
17+21
) 38
◼ Proporción de mujeres:
21 21
= =0
,55
(
17+21
) 38
Porcentajes:
◼ % de varones
17
 =
100
45
%
(
17+21
)
◼ % de mujeres
21
 =
100
55
%
(
17+21
)
Índices:
◼ De incidencia:
nº
casos
_
nuev
= 
Incidenciaba
poblaci
_
total
_de
_ries
◼ De prevalencia:
n
º
casos
_exist
Pr=
evalencia 
ba
poblac
_total
_de
_ries
Medidas de tendencia central
Moda: es la categoría o puntuación que ocurre con
mayor frecuencia
Ejemplo: Se tiene una muestra con valores 20, 23, 24, 25,
25, 26 y 30. Mo = 25
Media: es el promedio aritmético de una distribución.

Ejemplo: A continuación se presenta una muestra de las
puntuaciones en un examen de un curso de estadística: 70
90 95 74 58 70 98 72 75 85 95 74 80 85 90 65 90 75 90 69.
Mediana: Por ejemplo, se tiene una muestra de tamaño 5 con los
siguientes valores: 46, 54, 42, 48 y 32.
Primer paso, ordenar los datos: 32 42 46 48 54 Como la cantidad
de datos es impar (5 datos), la mediana es: Me = 46.
Medidas de la variabilidad
Medidas de la variabilidad indican la dispersión de

los datos en la escala de medición y más utilizadas
son rango, desviación estándar y varianza
Medidas de variabilidad
Desviación estándar o típica es el promedio de
desviación de las puntuaciones con respecto a la
media.
La desviación estándar sólo se utiliza en

variables medidas por intervalos o de razón
Varianza es la desviación estándar elevada al

cuadrado y se simboliza s²
Rango o amplitud: Diferencia entre el valor mayor

y el menor valor
Medidas de forma: Asimetría -Curtosis
Asimetría pueden ser simétricas o asimétricas.
Simétricas cuando las 2 colas tienen la misma longitud
La cola de la izquierda es
mas larga
La cola de la derecha es mas

prolongada
Curtosis: Mide el grado en el que un histograma resulta picudo o aplanado

Estadística inferencial: de la muestra a la población
Objetivo: Probar hipótesis y generalizar los resultados obtenidos en la muestra

a la población o universo.
DATOS MUESTRA
RESULTADOS
ESTADISTICOS
MEDIA
ESTADÍGRAFOS
DE
A las estadísticas de la población se les conoce como parámetros.

NIVEL DE SIGNIFICANCIA
Nivel alfa (α ) el cual es un nivel de la probabilidad de equivocarse y se fija antes de probar

hipótesisinferenciales
GENERALIZACION DE LOS RESULTADOS
El nivel de significancia de 0.05, el investigador tiene 95% de seguridad para

generalizar sin equivocarse y sólo 5% en contra, ambos suman la unidad.
El nivel de significancia de 0.01, el cual implica que el investigador tiene 99% en su

favor y 1% en contra (0.99 y 0.01 = 1.00) para generalizar sin temor
Errores posibles al probar hipótesis
➢ Aceptar una hipótesis verdadera (decisión correcta).

➢ Rechazar una hipótesis falsa (decisión correcta).
➢ Aceptar una hipótesis falsa (conocido como error del Tipo II o error
beta).
➢ Rechazar una hipótesis verdadera (conocido como error del Tipo I o
error alfa).
Prueba de hipótesis –análisis
estadísticas
ANÁLISIS PARAMÉTRICOS
ANÁLISIS NO PARAMÉTRICOS
Análisis paramétricos
➢ La distribución poblacional de la variable

dependiente es normal
➢ El nivel de medición de las variables es por

intervalos o razón.
➢ Dos o más poblaciones son estudiadas, tienen una

varianza homogénea.
Análisis Paramétricos
¿Cuáles son los supuestos o las presuposiciones de
la estadística paramétrica?
➢ La distribución poblacional de la variable dependiente es

normal: el universo tiene una distribución normal.
➢ El nivel de medición de las variables es por intervalos o

razón.
➢ Cuando dos o más poblaciones son estudiadas, tienen una

varianza homogénea: las poblaciones en
cuestión poseen una dispersión similar en sus distribuciones
Pruebas Paramétricas
➢ Coeficiente de correlación de Pearson y

regresión lineal.
➢ Prueba t.
➢ Prueba de contraste de la diferencia de
proporciones.
➢ Análisis de varianza unidireccional (ANOVA en
un sentido o oneway).
➢ Análisis de varianza factorial (ANOVA)
Coeficiente de correlación de Pearson
Prueba estadística para analizar la relación entre dos variables

medidas en un nivel por intervalos o de razón.
Símbolo: r.
Hipótesis a probar: correlacional.
Variables: no considera a una como independiente y a otra como

dependiente, no evalúa la causalidad. La noción de causa-efecto
(independiente-dependiente) es posible establecerla teóricamente,
pero la prueba no asume dicha causalidad.
El coeficiente de correlación de Pearson se calcula a partir de

las puntuaciones de dos variables.
Nivel de medición de las variables: intervalos o razón.
Interpretación: el coeficiente r de Pearson puede variar de –1.00 a

+1.00, donde:
–1.00 = correlación negativa perfecta. (“A mayor X, menor Y ”, de

manera proporcional.
Esto también se aplica “a menor X, mayor Y ”.
–0.90 = Correlación negativa muy fuerte.
0.00 = No existe correlación alguna entre las variables.
+1.00 = Correlación positiva perfecta. (“A mayor X, mayor Y ” o “a

menor X, menor Y .
+0.90 = Correlación positiva muy fuerte.
+0.50 = Correlación positiva media.

Regresión lineal
Definición: Para estimar el efecto de una variable sobre otra.
Cuando mayor sea la correlación entre las variables (covariación), mayor

capacidad de predicción.
Hipótesis: correlacionales y causales.
Variables: dos. independiente - dependiente.
Nivel de medición de las variables: intervalos o razón.
Procedimiento e interpretación: la regresión lineal se determina con base

en el diagrama de dispersión.
Prueba t
Definición: Para evaluar si dos grupos difieren entre sí de manera
significativa respecto a sus medias en una variable.
Se simboliza: t.
Hipótesis: diferencia entre dos grupos.
Hipótesis de investigación propone que los grupos difieren de manera

significativa entre sí
Hipótesis nula plantea que los grupos no difieren significativamente.

Variables: la comparación se realiza sobre una variable
Se efectuarán varias pruebas t (una por cada par de variables),
Experimento con dos grupos, donde a uno se le aplica el estímulo
experimental y al otro no, es de control.
Nivel de medición de la variable de comparación: intervalos o

razón.
Aplicación: cuando se compara variable

CUANTITATIVA y solo hay dos grupos
Análisis de varianza unidireccional o de un factor
(ANOVA one-way)
El análisis de varianza unidireccional se usa para tres, cuatro o
más grupos.
Hipótesis: diferencia entre más de dos grupos.
Hipótesis de investigación propone que los grupos difieren

significativamente entre sí
Hipótesis nula propone que los grupos no difieren

significativamente.
Variables: una variable independiente y una variable dependiente.
Nivel de medición de las variables: la variable independiente es

categórica y la dependiente es por intervalos o razón.
Pruebas estadísticas no paramétricas
Distribuciones no normales.
Las variables no necesariamente tienen que estar medidas en un
nivel por intervalos o de razón; pueden analizar datos nominales
u ordinales.
Las variables deben ser categóricas.
➢ La chi cuadrada o χ2.
➢ Los coeficientes de correlación e independencia para

tabulaciones cruzadas.
➢ Los coeficientes de correlación por rangos ordenados de

Spearman y Kendall.
Chi cuadrada
Chi cuadrada Prueba estadística para evaluar hipótesis acerca de la relación
entre dos variables categóricas
Se simboliza: χ2.
Hipótesis a probar: correlacionales.
Variables involucradas: dos. La prueba chi cuadrada no considera

relaciones causales.
Nivel de medición de las variables: nominal u ordinal.

Procedimiento: se calcula por medio de una tabla de contingencia
, que es un cuadro de dos dimensiones y cada dimensión contiene
una variable. A su vez, cada variable se subdivide en dos o más
categorías
Los coeficientes rho de Spearman, simbolizado como rs, y tau
de Kendall, simbolizado como t, son medidas de correlación para
variables en un nivel de medición ordinal (ambas). Son coeficientes
utilizados para relacionar estadísticamente escalas tipo Likert.

Organizacion y Analisis de Datos

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Organizacion y Analisis de Datos

Cargado por

Copyright:

Formatos disponibles

Organización,

Cualidades o Personas / cosas

Diccionario o conjunto de etiqueta

◼ Es un procedimiento en el que se asignan códigos a

Los datos pueden organizarse en las siguientes formas:

• Datos simples: corresponde a un conjunto pequeño de datos.

• Datos agrupados: por el número de datos conviene presentarlos en tablas de

• - Una distribución de frecuencias es un conjunto de datos ordenadas en sus

Frecuencias: variables cualitativas y cuantitativas

Intervalos de clase: variables cuantitativas

• Las tablas de frecuencias y las representaciones gráficas son

• Variable: Género Género Frec. Frec. relat.

• H = Hombre Hombre 4 4/10=0,4=40%

• Diagramas de sectores (tartas, polares)

Son diferentes en función de que las 255

variables sean discretas o continuas. Se 200

usan con frec. absolutas o relativas.

Diagramas barras para v. discretas 24 23 17

Se deja un espacio entre barras para indicar los 0 1 2 3 4 5 6 7 Ocho o más

Histogramas para v. continuas 200

El área que hay bajo el histograma entre dos

puntos cualesquiera indica la cantidad 100

(porcentaje o frecuencia) de individuos en el

Edad del encuestado

Asimetría positiva: Si las frecuencias mas altas

Asimetría negativa: Cuando la cola esta en el

◼ Alumnos de CTA y QI, inscriptos Sexo f

Media: es el promedio aritmético de una distribución.

Medidas de la variabilidad indican la dispersión de

La desviación estándar sólo se utiliza en

Varianza es la desviación estándar elevada al

Rango o amplitud: Diferencia entre el valor mayor

La cola de la derecha es mas

Curtosis: Mide el grado en el que un histograma resulta picudo o aplanado

Objetivo: Probar hipótesis y generalizar los resultados obtenidos en la muestra

A las estadísticas de la población se les conoce como parámetros.

Nivel alfa (α ) el cual es un nivel de la probabilidad de equivocarse y se fija antes de probar

GENERALIZACION DE LOS RESULTADOS

El nivel de significancia de 0.05, el investigador tiene 95% de seguridad para

El nivel de significancia de 0.01, el cual implica que el investigador tiene 99% en su

➢ Aceptar una hipótesis verdadera (decisión correcta).

➢ La distribución poblacional de la variable

➢ El nivel de medición de las variables es por

➢ Dos o más poblaciones son estudiadas, tienen una

➢ La distribución poblacional de la variable dependiente es

➢ El nivel de medición de las variables es por intervalos o

➢ Cuando dos o más poblaciones son estudiadas, tienen una

➢ Coeficiente de correlación de Pearson y

Prueba estadística para analizar la relación entre dos variables

Hipótesis a probar: correlacional.

Variables: no considera a una como independiente y a otra como

El coeficiente de correlación de Pearson se calcula a partir de

Interpretación: el coeficiente r de Pearson puede variar de –1.00 a

–1.00 = correlación negativa perfecta. (“A mayor X, menor Y ”, de

–0.90 = Correlación negativa muy fuerte.

0.00 = No existe correlación alguna entre las variables.

+1.00 = Correlación positiva perfecta. (“A mayor X, mayor Y ” o “a

+0.90 = Correlación positiva muy fuerte.

+0.50 = Correlación positiva media.

Cuando mayor sea la correlación entre las variables (covariación), mayor

Hipótesis: correlacionales y causales.

Variables: dos. independiente - dependiente.