Documentos de Académico
Documentos de Profesional
Documentos de Cultura
características y ejemplos
Cuando los investigadores estudian un concepto, necesitan recopilar datos sobre él. Estos
datos pueden adoptar muchas formas, como la altura, el peso, el color del pelo y las opiniones.
Cuando se recogen datos para una investigación, es importante conocer la forma de los datos
para poder interpretarlos y analizarlos bien. Hablemos de los datos categóricos y aprende
todo lo que necesitas para tu proyecto de investigación…
Datos categóricos
Datos numéricos.
En este artículo, hablaremos sobre qué son estos datos, sus diferentes tipos y algunas de sus
características más importantes.
Los datos categóricos se refieren a una forma de información que puede almacenarse e
identificarse basándose en sus nombres o etiquetas. Es un tipo de datos cualitativos que
pueden agruparse en categorías en lugar de medirse numéricamente.
Este tipo de datos se compone de variables categóricas que muestran cosas como el sexo de
una persona, su ciudad de origen, etc. Las medidas categóricas no se dan en números, sino en
descripciones en lenguaje natural.
A veces pueden representarse con números, pero esos números no significan nada
matemáticamente. Los siguientes son algunos ejemplos de este tipo de datos:
Fecha de nacimiento
Deporte favorito
Color de pelo
Altura
Código postal
En el ejemplo anterior, tanto la fecha de nacimiento como el código postal están formados por
números. Se consideran datos categóricos aunque incluyan números. Calcular la media es una
forma sencilla de determinar si los datos proporcionados son categóricos o numéricos.
Los datos categóricos suelen incluir valores y observaciones que pueden clasificarse o
agruparse. Los gráficos de barras y circulares son las mejores formas de mostrar estos datos.
Más concretamente, existen dos tipos de datos categóricos:
Datos nominales
Datos ordinales
Datos nominales
Los datos nominales son un tipo de datos formados por categorías que no pueden ordenarse
ni clasificarse. También se denomina escala nominal. Los datos nominales no se pueden
clasificar ni medir de ninguna manera. Aun así, los datos nominales pueden ser a veces tanto
cualitativos como cuantitativos.
Algunos ejemplos de datos nominales son los símbolos, las palabras, las letras y el sexo de una
persona.
Datos ordinales
Los datos ordinales son una categoría de datos que tienen un orden natural. Se utiliza a
menudo en encuestas, cuestionarios y en los campos de las finanzas y la economía. Los datos
ordinales destacan por la imposibilidad de diferenciar los valores de los datos.
Las tallas de ropa son un ejemplo de este tipo de datos (pequeña, mediana y grande no son
diferencias medibles, pero están claramente ordenados para mostrar comparaciones de
tallas).
Pueden tener sólo unos pocos valores, cada uno de los cuales representa una categoría o
grupo diferente. Algunas características principales son:
Categorías
Existen dos tipos de datos categóricos: los datos nominales y los datos ordinales. Los datos
nominales son los que se utilizan para nombrar variables, mientras que los datos ordinales
tienen una escala o un orden.
Cualitativos
Es cualitativo. En otras palabras, utiliza una serie de palabras en lugar de números para
describir un acontecimiento.
Naturaleza
Según su naturaleza, los datos categóricos también pueden dividirse en categorías binarias y
no binarias. Una pregunta binaria tiene dos respuestas posibles, como sí o no, mientras que
una pregunta no binaria tendría más de dos respuestas, como tal vez.
Valores numéricos
Es cualitativa, pero a menudo incluye valores numéricos. Pero estos valores no tienen
características cuantitativas. No pueden utilizarse en funciones aritméticas.
Análisis gráfico
Tanto el gráfico circular como el de barras pueden utilizarse para analizar visualmente. Un
gráfico de barras se utiliza para determinar la frecuencia con la que ocurre algo, mientras que
un gráfico circular se utiliza para determinar porcentajes. Se realiza después de haberlo
agrupado en una tabla.
Análisis
Supongamos que celebra una fiesta y quieres asegurarte de que todo el mundo tiene café para
beber. Así que envías una encuesta preguntando a la gente cuál es su café favorito, y pones las
respuestas en una tabla como la siguiente:
Sí, son datos categóricos porque están divididos en grupos, como el café favorito.
Conclusión
Esta herramienta, que también se conoce como tabla cruzada o como tabla de dos vías, tiene
el objetivo de representar en un resumen, la relación entre diferentes variables categóricas.
La tabla permite medir la interacción entre dos variables para conocer una serie de
información “oculta” de gran utilidad para comprender con mayor claridad los resultados de
una investigación.
La tabla sólo mostrará los encuestados que respondieron ambas preguntas, lo que significa
que las frecuencias mostradas pueden diferir de una tabla de frecuencias estándar.
El informe que ofrece también mostrará las Estadísticas Chi-cuadrado de Pearson, el cual
representa el grado de correlación entre las variables que usan el chi-cuadrado, el valor p y el
grado de libertad.
El otro objetivo de la tabla de contingencia es analizar si hay una relación entre las
variables cualitativas, ya sean dependientes o independientes.
Entre los principales beneficios de realizar una tabla de contingencia se encuentran los
siguientes:
1. Facilita la lectura de los datos recolectados, ya que permite agruparlos cuando aún se
encuentran sin procesar, lo que disminuye el margen de error al realizar un informe de
investigación.
4. Las tablas ofrecen resultados claros y precisos que permiten tomar mejores decisiones
y crear estrategias basadas en datos.
Es importante recordar que los datos categóricos no pueden pertenecer a más de una
categoría.
Uno de los principales usos de una tabla de contingencia es analizar la relación que existe
entre los datos, las cuales no son fáciles de identificar. Esto permite realizar un estudio de
mercado efectivo, examinando la información recolectada en una encuesta.
La información sin procesar puede ser difícil de interpretar. Incluso para pequeños conjuntos
de datos, es demasiado fácil obtener resultados incorrectos con solo mirar los datos. La tabla
ofrece un método simple de agrupar variables, que minimiza el potencial de confusión o error
al proporcionar resultados claros.
Además, una tabla puede ayudarnos a obtener grandes conocimientos de los datos sin
procesar. Estas ideas no son fáciles de ver cuando los datos sin formato se organizan como una
tabla.
Dado que la tabla de contingencia traza claramente las relaciones entre las preguntas
categóricas, los investigadores pueden obtener información más profunda, que de otro modo
se habría pasado por alto o habría tomado mucho tiempo descifrar de formas más
complicadas de análisis estadístico.
La tabla facilita la interpretación de los datos, lo cual es beneficioso para los investigadores
que tienen un conocimiento limitado del análisis estadístico. Las personas no necesitan
programación estadística para correlacionar variables categóricas.
La claridad que ofrece una tabla ayuda a los profesionales a evaluar su trabajo actual y trazar
estrategias futuras.
Por ejemplo, investigaciones pasadas nos dicen que el promedio de vida de un colibrí es de
unos cuatro años. Has estado estudiando a los colibríes en el sureste de Estados Unidos y
encuentras una vida media muestral de 4.8 años. ¿Debería rechazar la información conocida o
aceptada a favor de sus resultados? ¿Qué tan seguro tienes en tu estimación? ¿En qué
momento dirías que hay pruebas suficientes para rechazar la información conocida y apoyar tu
reclamo alternativo? ¿Qué tan lejos de la media conocida de cuatro años puede estar la
muestra antes de rechazar la idea de que la vida útil promedio de un colibrí es de cuatro años?
Una hipótesis es una afirmación o afirmación sobre una característica de una población de
interés para nosotros. Una prueba de hipótesis es una forma de usar nuestras estadísticas de
muestra para probar una afirmación específica.
Ejemplo 1:
Ejemplo 2:
Hace dos años, la proporción de plantas infectadas era de 37%. Creemos que un tratamiento
ha ayudado, y queremos probar la afirmación de que ha habido una reducción en la
proporción de plantas infectadas.
La hipótesis nula es una afirmación sobre el valor de un parámetro poblacional, como la media
poblacional (µ) o la proporción poblacional (p). Contiene la condición de igualdad y se denota
como H0 (H-nada).
El valor crítico es el valor que define la zona de rechazo (los valores estadísticos de prueba que
conducirían al rechazo de la hipótesis nula). Se define por el nivel de significación.
1) Rechazar o no rechazar la hipótesis nula, y 2) hay o no hay pruebas suficientes para apoyar
la afirmación alternativa.
Opción 1) Rechazar la hipótesis nula (H0). Esto significa que tienes suficiente evidencia
estadística para apoyar el reclamo alternativo (H1).
Opción 2) No rechazar la hipótesis nula (H0). Esto significa que NO tienes pruebas suficientes
para apoyar la reclamación alternativa (H1).
Otra forma de pensar sobre las pruebas de hipótesis es compararlo con el sistema de justicia
estadounidense. Un acusado es inocente hasta que se demuestre su culpabilidad (hipótesis
nula, inocente). El procurador trata de probar que el acusado es culpable (Hipótesis
alternativa—culpable). Hay dos posibles conclusiones a las que puede llegar el jurado. En
primer lugar, el acusado es culpable (Rechazar la hipótesis nula). Segundo, el demandado no es
culpable (No rechazar la hipótesis nula). ¡Esto NO es lo mismo que decir que el acusado es
inocente! En el primer caso, el fiscal contaba con pruebas suficientes para rechazar la hipótesis
nula (inocente) y apoyar la demanda alternativa (culpable). En el segundo caso, el fiscal NO
contaba con pruebas suficientes para rechazar la hipótesis nula (inocente) y apoyar la
afirmación alternativa de culpabilidad.
donde:
O = valores observados
E = valores esperados
Una prueba de independencia determina si dos factores son independientes o no. La primera
vez que se topó con el término independencia fue en Temas de probabilidad. A modo de
repaso, considere el siguiente ejemplo.
NOTA
El valor esperado de cada celda debe ser, al menos, cinco para poder utilizar esta prueba.
EJEMPLO 1
Supongamos que A = una infracción por exceso de velocidad en el último año y B = un usuario
de teléfono móvil mientras conduce. Si A y B son independientes, entonces P(A Y B)
= P(A)P(B). A Y B es el evento en que un conductor recibió una infracción por exceso de
velocidad el año pasado y también utilizaba el teléfono móvil mientras conducía. Supongamos
que se encuestaron 755 personas en un estudio sobre conductores que recibieron infracciones
por exceso de velocidad durante el año pasado que usaron el teléfono móvil mientras
conducían. De los 755, 70 tenían una infracción por exceso de velocidad y 685 no; 305 usaba el
teléfono móvil mientras conducían y 450 no.
Supongamos que y = número esperado de conductores que usaron un teléfono móvil mientras
conducían y recibieron infracciones por exceso de velocidad.
Resuelva para
Se espera que unas 28 personas de la muestra usen teléfonos móviles mientras conducen y
reciban infracciones por exceso de velocidad.
En una prueba de independencia planteamos las hipótesis nulas y alternativa con palabras.
Dado que la tabla de contingencia consta de dos factores, la hipótesis nula afirma que los
factores son independientes y la hipótesis alternativa afirma que no son independientes
(dependientes). Si hacemos una prueba de independencia usando el ejemplo, entonces la
hipótesis nula es:
H0: Hablar por el teléfono móvil mientras se conduce y recibir una infracción por exceso de
velocidad son eventos independientes.
Si la hipótesis nula fuera cierta, esperaríamos que unas 28 personas usaran el móvil mientras
conducen y recibieran una infracción por exceso de velocidad.
NOTA
El valor esperado de cada celda debe ser, al menos, cinco para poder utilizar esta prueba.
Hipótesis
H0: Las distribuciones de las dos poblaciones son iguales.
Estadístico de prueba
df = número de columnas – 1
Requisitos
Usos comunes
Comparación de dos poblaciones. Por ejemplo: hombres versus mujeres, antes versus
después, este versus oeste. La variable es categórica con más de dos valores de respuesta
posibles.
EJEMPLO 1