Análisis de Datos en La Ruta Cuantitativa

Capítulo
10
Análisis de los datos

cuantitativos
1
Objetivos de aprendizaje
Al terminar este capitulo, el alumno será capaz de:
1. Revisar el proceso para analizar los datos cuantitativos.
2. Reforzar los conocimientos estadísticos fundamentales.
3. Comprender las principales pruebas o métodos estadísticos desarrollados, así como sus
aplicaciones y la forma de interpretar sus resultados.
4. Diferenciar la estadística descriptiva y la inferencial, la paramétrica y la no paramétrica.
5. Analizar la interrelación entre distintas pruebas estadísticas.
2
Aspectos a considerar
Al analizar los datos cuantitativos debemos recordar dos cuestiones: primero, que los modelos estadísticos son representaciones de la
realidad, no la realidad misma; y segundo, los resultados numéricos siempre se interpretan en contexto, por ejemplo, un mismo valor de
presión arterial no es igual en un bebe que en una persona de la tercera edad.
• Datos: Son el conjunto de información recolectada (como mediciones, géneros, respuestas de encuestas).
Tipos de datos:
– Datos cuantitativos (o numéricos): Consisten en números que representan conteos o mediciones.
– Datos categóricos (o cualitativos o de atributo): Consisten en nombres o etiquetas que no son números y que, por lo tanto, no representan conteos ni mediciones.
• Estadística: Es la ciencia que se encarga de planear estudios y experimentos, obtener datos y luego organizar, resumir,
presentar, analizar e interpretar la información para extraer conclusiones basadas en los datos.
Tipos de estadística:
– Estadística descriptiva
– Estadística inferencial
3
Análisis de datos cuantitativos
Se realizan mediante programas computacionales y tomando en cuenta los niveles de medición de las
variables y mediante la estadística.
Nivel de medición nominal
• Se caracteriza por datos que consisten exclusivamente en nombres, etiquetas o categorías. Los datos no se pueden
acomodar en un esquema de orden (como del más bajo al más alto). Ej: sexo, lugar de procedencia.
Nivel de medición ordinal

• Los datos pueden acomodarse en algún orden, aunque las diferencias entre los valores de los datos (obtenidas por
medio de una resta) no pueden calcularse o carecen de significado. Ej: Grados escolares
Nivel de medición de intervalo

• Se parece al nivel ordinal, pero con la propiedad adicional de que la diferencia entre dos valores de datos cualesquiera
tiene un significado. Sin embargo, los datos en este nivel no tienen punto de partida cero natural inherente (donde la
cantidad que está presente corresponde a nada). Ej: Temperaturas y años.
Nivel de medición de razón

• Es similar al nivel de intervalo, pero con la propiedad adicional de que sí tiene un punto de partida cero natural (donde
el cero indica que nada de la cantidad está presente). Para valores en este nivel, tanto las diferencias como las razones
tienen significado. Ej: Distancias y precios.
4
¿Qué procedimiento se siguen para analizar
cuantitativamente los datos?
• Una vez que los datos se han
codificado, transferido a una
matriz, guardado en un archivo y
“limpiado” de errores, el
investigador procede a
analizarlos.
• El análisis cuantitativo de los
datos se lleva a cabo sobre la
matriz que los contiene y por
computadora u ordenador.
Fase o paso 1:
seleccionar el programa de análisis o software
Existen actualmente varios programas que son apropiados para el análisis, entre ellos:
Paquete Estadístico para las Ciencias Sociales (IBM SPSS®).
Minitab®.
STATISTICA®.
Statistical Analysis System (SAS) ®
Stats®.
6
En la mayoría de los programas se trabaja con la matriz de datos para efectuar
los análisis, mediante diversos comandos.
▪ Ejemplos de matrices de datos en varios programas.
7
• Fase 2: ejecutar el programa: La mayoría de los programas son fáciles de usar, pues lo único que
tienes que hacer es solicitar los análisis requeridos seleccionando las opciones apropiadas.
• Fase 3: revisión de la matriz: Se revisa una vez más la base de datos para evaluar que no existan
errores de codificación (ítem por ítem, indicador por indicador, cada recuadro implica un valor de un
caso en un ítem, indicador o equivalente). Acciones para revisar la base o matriz de los datos:
– Solicitar y evaluar las distribuciones de frecuencias.
– Explorar la matriz.
– Generar tablas de contingencia.
– Generar razones.
Lo anterior de acuerdo con las definiciones operacionales y la forma como se desarrolló

el instrumento o instrumentos de medición
Los análisis estadísticos de los datos dependen de tres factores:

a) El nivel de medición de las variables.
b) La manera como hayas formulado las hipótesis.
c) Tu interés analítico (que depende del planteamiento del problema).
Fase 4: evaluar la confiabilidad (fiabilidad) y validez lograda por el instrumento de medición: La confiabilidad la
determinas y evalúas para todo el instrumento de medición utilizado, o bien, si administraste varios instrumentos, la
estableces para cada uno de ellos.
Los procedimientos mas utilizados para determinar la confiabilidad mediante un coeficiente son:
1. Medida de estabilidad (confiabilidad por test-retest): En este procedimiento un mismo instrumento de medición se
aplica dos o más veces a un mismo grupo de personas o casos, después de cierto periodo.
2. Método de formas alternativas o paralelas: En este esquema no administras el mismo instrumento de medición,
sino dos o más versiones equivalentes de este. Las versiones (casi siempre dos) son similares en contenido,
instrucciones, duración y otras características, y se aplican a un mismo grupo de personas simultáneamente o dentro
de un periodo corto.
3. Método de mitades partidas (split-halves): el conjunto total de ítems o reactivos lo divides en dos mitades
equivalentes y comparas las puntuaciones o resultados de ambas.
4. Medidas de coherencia o consistencia interna: Son coeficientes que estiman la confiabilidad: a) el alfa de Cronbach
(desarrollado por J. L. Cronbach) y b) los coeficientes KR-20 y KR-21 de Kuder y Richardson (1937). El método de
cálculo de estos requiere una sola administración del instrumento de medición. Su ventaja reside en que no es
necesario dividir en dos mitades a los ítems del instrumento, simplemente aplicas la medición y el programa calcula el
coeficiente.
Fase 5: explorar los datos: Este paso implica familiarizarte con tus datos y obtener los primeros resultados descriptivos.
Estadística descriptiva para cada variable: implica el conteo de casos que se presentaron en las categorías de las variables con el
propósito de conocer tendencias.
Distribución de frecuencias o puntuaciones.
Conjunto de puntuaciones de una variable ordenada en sus respectivas categorías.
Cuando trabajamos con grandes conjuntos de datos, a menudo es útil organizarlos y

resumirlos elaborando una tabla llamada distribución de frecuencias.
En particular, una distribución de frecuencias nos ayuda a entender la naturaleza de

la distribución de un conjunto de datos.
Una distribución de frecuencias (o tabla de frecuencias) indica cómo un conjunto de

datos se divide en varias categorías (o clases) al listar todas las categorías junto con
el número de valores de los datos que hay en cada una.
Ejemplos de distribución de frecuencias
Regularmente la distribución de frecuencias incluye:
Categorías (valores de la variable).
Códigos (valores).
Frecuencias absolutas.
Frecuencias relativas (porcentajes).
Frecuencias relativas válidas (porcentajes válidos, excluyendo los valores perdidos).
Frecuencias acumuladas (porcentajes acumulados).

Otras maneras de presentar las distribuciones de
frecuencias
Polígonos de frecuencias
Otra alternativa para graficar distribuciones:
Relacionan las puntuaciones con sus respectivas

frecuencias por medio de gráficas útiles para describir
los datos.
Los polígonos de frecuencias representan curvas útiles

para describir tus datos. Te indican hacia dónde se
concentran los casos (personas, organizaciones,
segmentos de contenido, mediciones de polución, datos
de presión arterial, etc.) en la escala de la variable.
Medidas de tendencia central
Valores medios o centrales de una distribución que sirven para ubicar a la muestra dentro de la escala de
medición de la variable.
La media de un conjunto de datos es la medida de tendencia central que se
calcula al sumar los datos y dividir el total entre el número de datos. La media es
la medida de tendencia central más utilizada y puede definirse como el promedio
aritmético de una distribución. Es una medida que únicamente se aplica a
▪ Media.
mediciones por intervalos o de razón.
La mediana de un conjunto de datos es la medida de tendencia central que implica

el valor intermedio, cuando los datos originales se presentan en orden de magnitud
creciente (o decreciente). La mediana refleja la posición intermedia de la
▪ Mediana.
distribución de frecuencias. Constituye una medida de tendencia central propia de
los niveles de medición ordinal, por intervalos y de razón.
▪ Moda.
La moda de un conjunto de datos es el valor que se presenta con mayor
frecuencia. Se utiliza con todos los niveles de medición.
17
Medidas de variabilidad
Intervalos que indican la dispersión de los datos en la escala de medición de la variable.
• Rango: también denominado recorrido, es la diferencia entre la puntuación superior y la puntuación

inferior, e indica el numero de unidades en la escala de medición que se necesitan para incluir los valores
máximo y mínimo.
• Desviación estándar o típica: es el promedio de desviación de las puntuaciones de la

muestra respecto a la media. Esta medida se expresa en las unidades originales de medición de la distribución.
La desviación estándar de un conjunto de valores muestrales, denotada con s, es la medida de variación de los
valores con respecto a la media. Es un tipo de desviación promedio de los valores con respecto a la media. La
desviación típica solo se utiliza en variables medidas por intervalos o de razón.
• Varianza: La varianza de un conjunto de valores es una medida de variación igual al cuadrado de la

desviación estándar. Se simboliza s2.
18
Medidas de forma
Otra estadística descriptiva
Asimetría. El coeficiente de asimetría sirve para evaluar si la distribución Curtosis. Es una medida de la concentración de los valores de la
de los datos se aproxima a una distribución normal. Para calcular la distribución en torno a la media. Es un indicador de lo plana o
simetría es necesario conservar la información tanto del signo como de “picuda” que es una curva
la distancia de cada dato con respecto de la media-centro de simetría.
Si la variable sigue una distribución normal, su valor será igual a

Si la distribución de la variable es simetrica, su valor será igual a cero;
valores mayores a cero indicarán que las desviaciones de la media son cero (mesocúrtica); valores mayores a cero indicarán que la
mayores más para los valores superiores a la media que para los valores distribución tiende a concentrarse en torno a la media más que en
inferiores (mayor sesgo a la derecha); los valores menores que cero una distribución normal (leptoúrtica); los valores menores a cero
indicarán que las desviaciones de la media son más altos para los valores indicarán que tiende a dispersarse más (platicúrtica).
inferiores a la media que para los valores superiores (mayor sesgo a la
izquierda).
Razones y tasas
• Una razón es la relación entre dos categorías.
• Una tasa es la relación entre el número de casos, frecuencias o eventos

de una categoría y el número total de observaciones, multiplicada por
un múltiplo de 10, generalmente 100 o 1 000.
20
Fase 6: analizar mediante pruebas estadísticas las hipótesis planteadas
(análisis estadístico inferencial: estudios correlacionales y explicativos)
Estadística inferencial: de la muestra a la población. Estadística
para probar hipótesis y estimar parámetros.
Los datos casi siempre se recolectan de una muestra y sus

resultados estadísticos se denominan estadígrafos; la media o
la desviación estándar de la distribución de una muestra son
estadígrafos. A las estadísticas de la población se les conoce
como parámetros. Estos regularmente no los calculas, porque
no recolectas datos de toda la población, pero pueden ser
inferidos de los estadígrafos, de ahí el nombre de estadística
Inferencial.
La estadística inferencial se utiliza fundamentalmente para dos

procedimientos vinculados:
a) Probar hipótesis poblacionales.

b) Estimar parámetros.
¿En qué consiste la prueba de hipótesis?
• En el contexto del análisis estadístico inferencial lo que pretendes es generalizar a la
población la hipótesis que probaste en tu muestra. Es decir, que la hipótesis
poblacional sea congruente con los resultados obtenidos en la muestra.
En estadística, una hipótesis es una afirmación o aseveración acerca de una propiedad de una
población.
Una prueba de hipótesis (o prueba de significancia) es un procedimiento para someter a prueba una
afirmación acerca de una propiedad de una población.
Para comprender que es la prueba de hipótesis en la estadística inferencial es necesario revisar los conceptos
de distribución muestral y nivel de significancia.
22
¿Qué es una distribución muestral?
Conjunto de valores sobre una estadística calculada de todas las
muestras posibles de determinado tamaño de una población.
Distribución en forma de campana que se logra con muestras de 100 o

mas unidades muestrales y que es útil y necesaria cuando se hacen
inferencias estadísticas.
Debido a ello, se creo un modelo de probabilidad llamado curva normal o El concepto de distribución normal es importante
distribución normal. Como todo modelo es una distribución conceptual otra vez y se ofrece una breve explicación en la
que difícilmente se presenta en la realidad tal cual, pero si se manifiestan figura 10.18.
aproximaciones a este. La curva normal tiene la siguiente configuración.
El 68.26% del área de la curva normal es cubierta entre −1s y +1s, 95.44%
del área de esta curva es cubierta entre −2s y +2s y 99.74% se cubre con
−3s y +3s.
Las principales características de la distribución normal son:
1. Es unimodal, una sola moda.

2. La asimetría es cero. La mitad de la curva es exactamente igual a la otra
mitad. La distancia entre la media y −3s es la misma que la distancia entre
la media y +3s.
3. Es una función particular entre desviaciones respecto a la media de una
distribución y la probabilidad de que estas ocurran.
4. La base esta dada en unidades de desviación estándar (puntuaciones z),
destacando las puntuaciones –1s, –2s, –3s, +1s, +2s y +3s (que equivalem
respectivamente a –1.00z, –2.00z, –3.00z, +1.00z, +2.00z, +3.00z). Las
distancias entre puntuaciones z representan áreas bajo la curva. De
hecho, la distribución de puntuaciones z es la curva normal.
5. Es mesocúrtica (curtosis de cero).
6. La media, la mediana y la moda coinciden en el mismo punto (el
centro).
¿Qué es el nivel de significancia?
Nivel de la probabilidad de acertar o equivocarse al generalizar un resultado estadístico, de la muestra a la población y
que fija de antemano el investigador.
• La probabilidad de que un evento ocurra oscila entre cero (0) y uno (1), donde cero implica la imposibilidad de
ocurrencia y uno la certeza de que el fenómeno ocurra.
• Es un nivel de la probabilidad de equivocarte y lo fijas antes de probar hipótesis inferenciales (generalizar los
resultados de tu muestra a la población) o al interpretar los resultados.
Con que porcentaje de confianza el investigador generaliza, para suponer que tal cercanía es real y no por un error de
muestreo? Existen dos niveles convenidos en las ciencias:
a) El nivel de significancia de 0.05, el cual implica que el investigador (tu) tiene 95% de seguridad para generalizar
sin equivocarse y solo 5% en contra. En términos de probabilidad, 0.95 y 0.05, respectivamente; ambos suman la
unidad.
b) El nivel de significancia de 0.01, el cual implica que el investigador tiene 99% en su favor y 1% en contra (0.99 y
0.01 = 1.00) para generalizar sin temor. Muy utilizado cuando las generalizaciones implican riesgos vitales para las
personas (pruebas de vacunas, medicamentos, arneses de aviones, resistencia de materiales de construcción al
fuego o al peso, etcétera).
25
• El procedimiento convencional
de prueba de hipótesis requiere
que probemos directamente la
hipótesis nula, de manera que
nuestra conclusión inicial
siempre será una de las
siguientes:
1. Se rechaza la hipótesis nula.

2. No se rechaza la hipótesis nula.
¿Qué errores se pueden cometer
al probar hipótesis?
1. Aceptar una hipótesis verdadera Ambos tipos de error son indeseables; sin
(decisión correcta). embargo, puede reducirse
sustancialmente la posibilidad
2. Rechazar una hipótesis falsa de que se presenten mediante:
(decisión correcta).
a) Muestras probabilísticas
3. Aceptar una hipótesis falsa representativas.
(conocido como error del tipo II b) Inspección cuidadosa de los datos.
o error beta). c) Selección de las pruebas
4. Rechazar una hipótesis estadísticas apropiadas.
verdadera (conocido como d) Mayor conocimiento de la
error del tipo I o error alfa). población.
Prueba de hipótesis
Existen dos tipos generales de análisis estadísticos que puedes realizar:
Los análisis a realizar dependen del planteamiento, tipo de hipótesis y el nivel de medición de las
variables que las conforman.
28
Análisis paramétricos
Para realizar análisis paramétricos debe partirse de los siguientes supuestos:
1. La distribución poblacional de la variable dependiente es normal: el

universo tiene una distribución normal.
2. El nivel de medición de las variables es por intervalos o razón.
3. Cuando dos o más poblaciones son estudiadas, tienen una varianza

homogénea: las poblaciones en cuestión poseen una dispersión similar en
sus distribuciones.
29
Principales métodos o pruebas paramétricas
Coeficiente de correlación de Pearson y regresión lineal (planteamientos e hipótesis correlacionales

y causales).
Prueba t (planteamientos e hipótesis de comparación de dos grupos en sus medias y
distribuciones).
Prueba de contraste de la diferencia de proporciones (planteamientos e hipótesis de comparación
de dos grupos en porcentajes o proporciones).
Análisis de varianza unidireccional (ANOVA en un sentido) (planteamientos e hipótesis de
comparación de dos o más grupos en sus distribuciones).
Análisis de varianza factorial (ANOVA) (planteamientos e hipótesis correlacionales, causales y de
comparación de varios grupos).
Análisis de covarianza (ANCOVA) (planteamientos e hipótesis correlacionales, causales y de
comparación de varios grupos).
Coeficiente de correlación de Pearson
X Y
Intervalos o
Hipótesis a probar: correlacional. razón
El signo indica la dirección de la correlación (positiva o negativa); y el Dos variables

valor numérico, la magnitud de la correlación.
31
Coeficiente de determinación
Cuando el coeficiente r de Pearson se eleva al cuadrado (r2), se

obtiene el coeficiente de determinación y el resultado indica la
varianza de factores comunes.
Creswell (2005) señala que un coeficiente de

determinación (r2) entre 0.66 y 0.85 ofrece una
buena predicción de una variable respecto de la
otra variable; y por encima de 0.85 implica que
ambas variables miden casi el mismo concepto
subyacente, son “cercanamente” un constructo
semejante.
32
Regresión lineal
• Es un modelo estadístico para estimar el efecto de una variable sobre otra. Se asocia con el coeficiente r de Pearson.
– Hipótesis a probar: correlacionales y causales.

– Variables: dos. Una la consideras como independiente y la otra como dependiente. Pero, para que puedas hacerlo,
debes tener un solido sustento teórico.
– Nivel de medición de las dos variables: intervalos o razón.
• Ecuación:
“A tal valor en X, ¿qué valor se pronostica en Y?
33
Prueba t
Es una prueba estadística para que evalúes si dos grupos difieren entre si de manera significativa
respecto a sus medias y distribuciones en una variable.
1. Hipótesis a probar: de diferencia entre dos grupos. La hipótesis de investigación propone que los grupos difieren
entre si de manera significativa y la hipótesis nula plantea que los grupos no difieren significativamente.
2. Variables: la comparación la realizas sobre una variable (regularmente y de manera teórica: dependiente), y la
razón que motiva la creación de los grupos puedes concebirla como una variable independiente (pero debes tener
un sustento solido razonable).
3. Nivel de medición de la variable supuestamente independiente: cualquiera, pero reducida a dos categorías
(individuos productivos-individuos no productivos, genero, dos productos que compiten entre si, preprueba y
posprueba de un grupo experimental).
4. Nivel de medición de la variable de comparación o “dependiente”: intervalos o razón.
5. Cálculo e interpretación: el valor t es calculado por los programas de análisis estadístico, que arrojan varios
resultados, de los cuales los mas necesarios para interpretar son el valor t y su significancia.
34
Ejemplos donde la prueba t es apropiada
Comparar la rapidez con que dos anestésicos generales logran la insensibilidad al dolor.
Contrastar la productividad de dos plantas que fabrican ciertos electrodomésticos.
Cotejar la resistencia de dos materiales bases para la construcción de puentes.
Comparar el tiempo que dedican a ver televisión los niños y las niñas.
Comparar la efectividad de dos métodos de enseñanza sobre el aprendizaje de estadística descriptiva.
Cotejar el monto promedio de compras mensual en determinado periodo entre los clientes de una tienda
departamental que utilizaron crédito y los que no lo hicieron.
Contrastar la inteligencia emocional de hombres versus mujeres adultos jóvenes.
Prueba de diferencia de proporciones (DP)
Es una prueba estadística para que analices si dos proporciones o porcentajes difieren significativamente
entre si.
Hipótesis a probar: de diferencia de proporciones o

porcentajes en dos grupos. Diferencia entre dos proporciones o
Variable: la comparación la realizas sobre una variable. Si
porcentajes
hay varias, efectuaras una prueba de diferencia de
proporciones por variable.
Nivel de medición de la variable de comparación:

cualquier nivel, incluso por intervalos o razón, pero
siempre expresados en proporciones o porcentajes
36
Ejemplos donde DP resulta apropiada
Comparar la efectividad de dos vacunas diseñadas para reducir el
número de casos positivos del ébola (% de casos positivos después
de la aplicación de ambas vacunas).
Cotejar el porcentaje de jóvenes que están en contra del aborto en
dos municipios.
Contrastar el porcentaje de hombres con el porcentaje de mujeres

que manifiestan que votarán por un candidato en una determinada
elección.
Análisis de varianza unidireccional o de un factor (ANOVA
oneway) I
• Método o prueba estadística para analizar si más de dos grupos difieren significativamente entre sí en
cuanto a sus medias y varianzas.
• La prueba t se utiliza para dos grupos y el análisis de varianza unidireccional se usa para tres, cuatro o más
grupos.
Hipótesis: de diferencia entre grupos. La hipótesis de
investigación propone que los grupos difieren
significativamente entre sí y la hipótesis nula propone que los
grupos no difieren significativamente.
Variables: una variable definida como independiente,

denominada factor (que origina la segmentación) y la otra
Una variable independiente
como dependiente. Una vez más, esta causalidad es asumida y una variable dependiente
por el investigador.
Nivel de medición de las variables: la variable independiente

puede estar en cualquier nivel de medición, pero reducida o
agrupada en categorías (categórica) y la dependiente es por
intervalos o razón. 38
Ejemplos donde el ANOVA unidireccional es conveniente I
Contrastar la productividad de cinco plantas que fabrican arneses automotrices
de las mismas características.
Comparar el impacto de tres comerciales de televisión sobre la predisposición

de compra del producto publicitado en una determinada población.
Cotejar la motivación intrínseca de los trabajadores de tres turnos de

producción.
Contrastar el impacto sobre el aprendizaje de la aritmética de cuatro métodos

de enseñanza a niños.
Análisis no paramétricos
Para realizar análisis no paramétricos debe partirse de los siguientes
supuestos:
1. La mayoría de estos análisis no requieren de presupuestos acerca de la

forma de la distribución poblacional. Aceptan distribuciones no
normales (distribuciones “libres”).
2. Las variables no necesariamente tienen que estar medidas en un nivel

por intervalos o de razón; pueden analizar datos nominales u ordinales.
De hecho, si se quieren aplicar análisis no paramétricos a datos por
intervalos o razón, estos necesitan resumirse a categorías discretas (a
unas cuantas). Las variables deben ser categóricas.
40
Principales métodos o pruebas no paramétricas
La Chi-cuadrada o χ2.
Las pruebas
no
paramétricas Los coeficientes de correlación e independencia para
más tabulaciones cruzadas.
utilizadas
Los coeficientes de correlación por rangos ordenados
son:
de Spearman y Kendall.
Los coeficientes de correlación entre variables con
distintos niveles de medición.
Chi cuadrada o (Chi-cuadrado)
Es una prueba estadística para evaluar hipótesis acerca de la relación entre dos variables
categóricas.
Hipótesis por probar: correlacionales.
Variables involucradas: dos. La prueba Chi-cuadrada no considera

relaciones causales.
Nivel de medición de las variables: nominal u ordinal; o bien, intervalos o

razón reducidos a ordinales (categorías discretas). Por ejemplo, edad: (1) Se calcula por medio de una
menos de 18 años, (2) 19-22 años, (3) 23-26 años, (4) 27 o mas años. tabla de contingencia o
Procedimiento: se calcula por medio de una tabla de contingencia o
tabulación cruzada
tabulación cruzada, que es un cuadro de dos dimensiones y cada
dimensión contiene una variable. A su vez, cada variable se subdivide en
dos o mas categorias.
Se simboliza: χ2
42
Ejemplos tabla de contingencia
Un cuadro o tabla de dos Un cuadro o tabla de tres por dos

dimensiones: cada dimensión dimensiones: cada dimensión
representa una variable y posee representa una variable y posee
dos o más categorías. dos o más categorías.
En esencia, la Chi-cuadrada es una comparación entre la tabla de frecuencias observadas y la denominada

tabla de frecuencias esperadas, la cual constituye la tabla que esperaríamos encontrar si las variables fueran
estadísticamente independientes o no estuvieran relacionadas
43
Ejemplos donde la χ2 es conveniente
Relacionar género (masculino-femenino) con intención de voto por
dos candidatos (candidato 1-candidato 2): 2X2.
Asociar género con deporte preferido para practicar (fútbol-béisbol-

basquetbol-gimnasia-natación-tenis-otros): 2X7.
Vincular vacuna (vacuna 1, vacuna 2, vacuna 3) con número de casos

positivos de un virus (menos de 10, 11-50, 51-100, 101-200, más de
200): 3X5.
Coeficientes de correlación para variables ordinales: rangos ordenados de
Spearman y Kendall
Son medidas de correlación para variables en un

nivel de medición ordinal (ambas), de tal modo
que los individuos, casos o unidades de análisis
de la muestra pueden ordenarse por rangos
(jerarquías). Son coeficientes utilizados para
relacionar estadísticamente escalas tipo Likert
-1 y +1 por aquellos investigadores que las consideran
ordinales.
Rangos (jerarquías)
45
Ejemplos donde los coeficientes de
Spearman y Kendall son apropiados I
Relacionar jerarquía en la organización y personalidad autoritaria (rangos en una prueba).
Vincular rangos de precios medios de la vivienda (muy alto, alto, medio, bajo, muy bajo) y cercanía a un nuevo
centro comercial (considerando número de cuadras o manzanas, las cuales no son todas exactamente del mismo
tamaño).
Determinar la vinculación entre el ejercicio físico (rangos) y la capacidad de trabajo (rangos) en determinados
obreros.
Asociar la valoración que hacen dos médicos respecto a la gravedad de sus pacientes (contrastar percepciones de
los galenos a través de correlacionar sus respectivas jerarquizaciones).
Relacionar sentido de vida (alto, medio y bajo) con nivel socioeconómico (segmentos: A, A/B, B, C, D y E).
46
El coeficiente de correlación de Pearson es una
estadística apropiada para variables medidas por
intervalos o razón y para relaciones lineales. La Chi-
cuadrada y demás coeficientes mencionados son
estadísticas adecuadas para tablas de contingencia
con variables nominales, ordinales y de intervalos,
pero reducidas a categorías; para variables
típicamente ordinales tenemos a Spearman y
Kendall.
Estadística multivariada
• Pruebas o métodos para analizar
relaciones y efectos entre diversas
variables independientes y al menos una
dependiente.
48
Métodos estadísticos multivariados
49
Fase 7: realizar análisis adicionales: Este paso implica simplemente que,
una vez realizados tus análisis, es posible que decidas ejecutar otros
Fase 8: preparar los resultados para presentarlos:
análisis o pruebas extras para confirmar tendencias y evaluar los datos
desde diferentes ángulos.
• 1. Revisar cada resultado [análisis general → análisis especifico →
valores resultantes (incluida la significación o significancia) → tablas,
diagramas, cuadros y graficas].
• 2. Organizar los resultados (primero los relativos a la confiabilidad,
validez y estandarización de tus instrumentos de recolección de los
datos; luego los descriptivos, por variable del estudio; posteriormente
• los inferenciales, que puedes ordenar por hipótesis o de acuerdo con su
desarrollo).
• 3. Cotejar diferentes resultados: su congruencia y en caso de
inconsistencia lógica volverlos a revisar.
• 4. Priorizar la información mas valiosa (que es en gran parte resultado
de la actividad anterior), sobre todo si vas a generar reportes ejecutivos
y otros mas extensos.
• 5. Copiar o “formatear” las tablas en el programa con el cual elaboraras
el reporte de la investigación (procesador de textos, como WordR, o uno
para presentaciones, como Power PointR, FlashR, PreziR, PiktochartR,
GeneXusR, PHPR, TableauR, etc., hay decenas).
• 6. Comentar o describir brevemente la esencia de tus analisis, valores,
tablas, diagramas, graficas.
• 7. Volver a revisar los resultados.
• 8. Y, finalmente, elaborar el reporte de investigación.

Análisis de Datos en La Ruta Cuantitativa

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Análisis de Datos en La Ruta Cuantitativa

Cargado por

Copyright:

Formatos disponibles

Capítulo

Análisis de los datos

1. Revisar el proceso para analizar los datos cuantitativos.

2. Reforzar los conocimientos estadísticos fundamentales.

5. Analizar la interrelación entre distintas pruebas estadísticas.

Nivel de medición ordinal

Nivel de medición de intervalo

Nivel de medición de razón

Paquete Estadístico para las Ciencias Sociales (IBM SPSS®).

Statistical Analysis System (SAS) ®

Lo anterior de acuerdo con las definiciones operacionales y la forma como se desarrolló

Los análisis estadísticos de los datos dependen de tres factores:

Conjunto de puntuaciones de una variable ordenada en sus respectivas categorías.

Cuando trabajamos con grandes conjuntos de datos, a menudo es útil organizarlos y

En particular, una distribución de frecuencias nos ayuda a entender la naturaleza de

Una distribución de frecuencias (o tabla de frecuencias) indica cómo un conjunto de

Categorías (valores de la variable).

Frecuencias relativas (porcentajes).

Frecuencias relativas válidas (porcentajes válidos, excluyendo los valores perdidos).

Frecuencias acumuladas (porcentajes acumulados).

Relacionan las puntuaciones con sus respectivas

Los polígonos de frecuencias representan curvas útiles

La mediana de un conjunto de datos es la medida de tendencia central que implica

• Rango: también denominado recorrido, es la diferencia entre la puntuación superior y la puntuación

• Desviación estándar o típica: es el promedio de desviación de las puntuaciones de la

• Varianza: La varianza de un conjunto de valores es una medida de variación igual al cuadrado de la

Si la variable sigue una distribución normal, su valor será igual a

• Una tasa es la relación entre el número de casos, frecuencias o eventos

Los datos casi siempre se recolectan de una muestra y sus

La estadística inferencial se utiliza fundamentalmente para dos

a) Probar hipótesis poblacionales.

Distribución en forma de campana que se logra con muestras de 100 o

Las principales características de la distribución normal son:

1. Es unimodal, una sola moda.

1. Se rechaza la hipótesis nula.

1. La distribución poblacional de la variable dependiente es normal: el

2. El nivel de medición de las variables es por intervalos o razón.

3. Cuando dos o más poblaciones son estudiadas, tienen una varianza

Coeficiente de correlación de Pearson y regresión lineal (planteamientos e hipótesis correlacionales

El signo indica la dirección de la correlación (positiva o negativa); y el Dos variables

Cuando el coeficiente r de Pearson se eleva al cuadrado (r2), se

Creswell (2005) señala que un coeficiente de

– Hipótesis a probar: correlacionales y causales.

“A tal valor en X, ¿qué valor se pronostica en Y?

Contrastar la productividad de dos plantas que fabrican ciertos electrodomésticos.

Cotejar la resistencia de dos materiales bases para la construcción de puentes.

Comparar la efectividad de dos métodos de enseñanza sobre el aprendizaje de estadística descriptiva.

Hipótesis a probar: de diferencia de proporciones o

Nivel de medición de la variable de comparación:

Contrastar el porcentaje de hombres con el porcentaje de mujeres

Variables: una variable definida como independiente,

Nivel de medición de las variables: la variable independiente

Comparar el impacto de tres comerciales de televisión sobre la predisposición

Cotejar la motivación intrínseca de los trabajadores de tres turnos de

Contrastar el impacto sobre el aprendizaje de la aritmética de cuatro métodos

1. La mayoría de estos análisis no requieren de presupuestos acerca de la

2. Las variables no necesariamente tienen que estar medidas en un nivel

Hipótesis por probar: correlacionales.

Variables involucradas: dos. La prueba Chi-cuadrada no considera

Nivel de medición de las variables: nominal u ordinal; o bien, intervalos o

Un cuadro o tabla de dos Un cuadro o tabla de tres por dos

En esencia, la Chi-cuadrada es una comparación entre la tabla de frecuencias observadas y la denominada

Asociar género con deporte preferido para practicar (fútbol-béisbol-