Está en la página 1de 11

Datos Categóricos: Qué son, tipos,

características y ejemplos
Cuando los investigadores estudian un concepto, necesitan recopilar datos sobre él. Estos
datos pueden adoptar muchas formas, como la altura, el peso, el color del pelo y las opiniones.
Cuando se recogen datos para una investigación, es importante conocer la forma de los datos
para poder interpretarlos y analizarlos bien. Hablemos de los datos categóricos y aprende
todo lo que necesitas para tu proyecto de investigación…

La investigación tiene dos tipos principales de datos:

 Datos categóricos

 Datos numéricos.

En este artículo, hablaremos sobre qué son estos datos, sus diferentes tipos y algunas de sus
características más importantes.

¿Qué son los datos categóricos?

Los datos categóricos se refieren a una forma de información que puede almacenarse e
identificarse basándose en sus nombres o etiquetas. Es un tipo de datos cualitativos que
pueden agruparse en categorías en lugar de medirse numéricamente.

Este tipo de datos se compone de variables categóricas que muestran cosas como el sexo de
una persona, su ciudad de origen, etc. Las medidas categóricas no se dan en números, sino en
descripciones en lenguaje natural.

A veces pueden representarse con números, pero esos números no significan nada
matemáticamente. Los siguientes son algunos ejemplos de este tipo de datos:

 Fecha de nacimiento

 Deporte favorito

 Color de pelo

 Altura

 Código postal

En el ejemplo anterior, tanto la fecha de nacimiento como el código postal están formados por
números. Se consideran datos categóricos aunque incluyan números. Calcular la media es una
forma sencilla de determinar si los datos proporcionados son categóricos o numéricos.

Si puedes calcular la media, se consideran datos numéricos. Si no puedes averiguar la media,


entonces se consideran datos categóricos.

Conoce qué es la media, la mediana y la moda.


Tipos de datos categóricos

Los datos categóricos suelen incluir valores y observaciones que pueden clasificarse o
agruparse. Los gráficos de barras y circulares son las mejores formas de mostrar estos datos.
Más concretamente, existen dos tipos de datos categóricos:

 Datos nominales

 Datos ordinales

Datos nominales

Los datos nominales son un tipo de datos formados por categorías que no pueden ordenarse
ni clasificarse. También se denomina escala nominal. Los datos nominales no se pueden
clasificar ni medir de ninguna manera. Aun así, los datos nominales pueden ser a veces tanto
cualitativos como cuantitativos.

Algunos ejemplos de datos nominales son los símbolos, las palabras, las letras y el sexo de una
persona.

Datos ordinales

Los datos ordinales son una categoría de datos que tienen un orden natural. Se utiliza a
menudo en encuestas, cuestionarios y en los campos de las finanzas y la economía. Los datos
ordinales destacan por la imposibilidad de diferenciar los valores de los datos.

Las tallas de ropa son un ejemplo de este tipo de datos (pequeña, mediana y grande no son
diferencias medibles, pero están claramente ordenados para mostrar comparaciones de
tallas).

Características de los datos categóricos

Pueden tener sólo unos pocos valores, cada uno de los cuales representa una categoría o
grupo diferente. Algunas características principales son:

Categorías

Existen dos tipos de datos categóricos: los datos nominales y los datos ordinales. Los datos
nominales son los que se utilizan para nombrar variables, mientras que los datos ordinales
tienen una escala o un orden.

Cualitativos

Es cualitativo. En otras palabras, utiliza una serie de palabras en lugar de números para
describir un acontecimiento.

Naturaleza
Según su naturaleza, los datos categóricos también pueden dividirse en categorías binarias y
no binarias. Una pregunta binaria tiene dos respuestas posibles, como sí o no, mientras que
una pregunta no binaria tendría más de dos respuestas, como tal vez.

Conoce las características de las preguntas categóricas.

Valores numéricos

Es cualitativa, pero a menudo incluye valores numéricos. Pero estos valores no tienen
características cuantitativas. No pueden utilizarse en funciones aritméticas.

Análisis gráfico

Tanto el gráfico circular como el de barras pueden utilizarse para analizar visualmente. Un
gráfico de barras se utiliza para determinar la frecuencia con la que ocurre algo, mientras que
un gráfico circular se utiliza para determinar porcentajes. Se realiza después de haberlo
agrupado en una tabla.

Análisis

Las herramientas de moda y mediana se utilizan para analizar datos categóricos. La


herramienta de moda se utiliza para analizar datos nominales, y ambas se utilizan para analizar
datos ordinales. Los datos ordinales también pueden analizarse utilizando estadísticas
univariantes. La estadística bivariante, las aplicaciones de regresión, las tendencias lineales y
los métodos de clasificación también se utilizan para analizar datos ordinales.

Ejemplos de datos categóricos

Supongamos que celebra una fiesta y quieres asegurarte de que todo el mundo tiene café para
beber. Así que envías una encuesta preguntando a la gente cuál es su café favorito, y pones las
respuestas en una tabla como la siguiente:

¿Los datos de la tabla son categóricos?

Sí, son datos categóricos porque están divididos en grupos, como el café favorito.

Conclusión

Los datos categóricos se utilizan a menudo en pruebas no paramétricas. Cualquiera que


trabaje con datos o investigue debe ser capaz de entenderlos y utilizarlos.
¿Qué es una tabla de contingencia?
Una tabla de contingencia es una herramienta utilizada en la rama de la estadística, la cual
consiste en crear al menos dos filas y dos columnas para representar datos categóricos en
términos de conteos de frecuencia.

Esta herramienta, que también se conoce como tabla cruzada o como tabla de dos vías, tiene
el objetivo de representar en un resumen, la relación entre diferentes variables categóricas.

La tabla de contingencia es una de las herramientas analíticas más útiles y un pilar de la


industria de la investigación de mercados.

Objetivos de una tabla de contingencia

La tabla permite medir la interacción entre dos variables para conocer una serie de
información “oculta” de gran utilidad para comprender con mayor claridad los resultados de
una investigación.

La tabla sólo mostrará los encuestados que respondieron ambas preguntas, lo que significa
que las frecuencias mostradas pueden diferir de una tabla de frecuencias estándar.

El informe que ofrece también mostrará las Estadísticas Chi-cuadrado de Pearson, el cual
representa el grado de correlación entre las variables que usan el chi-cuadrado, el valor p y el
grado de libertad.

Los objetivos de la tabla de contingencia son los siguientes:

 Ordenar la información recolectada para un estudio cuando los datos se encuentran


divididos de forma bidimensional, esto significa a que se relaciona con dos factores
cualitativos.

 El otro objetivo de la tabla de contingencia es analizar si hay una relación entre las
variables cualitativas, ya sean dependientes o independientes.

Ventajas de realizar una tabla de contingencia

Entre los principales beneficios de realizar una tabla de contingencia se encuentran los
siguientes:

1. Facilita la lectura de los datos recolectados, ya que permite agruparlos cuando aún se
encuentran sin procesar, lo que disminuye el margen de error al realizar un informe de
investigación.

2. Gracias a la tabla de contingencia es posible realizar gráficas que permitan visualizar la


información fácilmente para su comprensión.
3. A diferencia de otros métodos estadísticos de análisis de datos, la tabla de
contingencia permite ahorrar tiempo durante la correlación de variables.

4. Las tablas ofrecen resultados claros y precisos que permiten tomar mejores decisiones
y crear estrategias basadas en datos.

Cuando usar una tabla de contingencia

La tabla de contingencia generalmente se realiza en datos categóricos, es decir que se pueden


dividir en grupos mutuamente excluyentes.

Un ejemplo de datos categóricos es la región de ventas de un producto. Típicamente, la región


se puede dividir en categorías como área geográfica (norte, sur, noreste, oeste, etc.) o estado.

Es importante recordar que los datos categóricos no pueden pertenecer a más de una
categoría.

Uno de los principales usos de una tabla de contingencia es analizar la relación que existe
entre los datos, las cuales no son fáciles de identificar. Esto permite realizar un estudio de
mercado efectivo, examinando la información recolectada en una encuesta.

Importancia de hacer uso de una tabla de contingencia

La información sin procesar puede ser difícil de interpretar. Incluso para pequeños conjuntos
de datos, es demasiado fácil obtener resultados incorrectos con solo mirar los datos. La tabla
ofrece un método simple de agrupar variables, que minimiza el potencial de confusión o error
al proporcionar resultados claros.

Además, una tabla puede ayudarnos a obtener grandes conocimientos de los datos sin
procesar. Estas ideas no son fáciles de ver cuando los datos sin formato se organizan como una
tabla.

Dado que la tabla de contingencia traza claramente las relaciones entre las preguntas
categóricas, los investigadores pueden obtener información más profunda, que de otro modo
se habría pasado por alto o habría tomado mucho tiempo descifrar de formas más
complicadas de análisis estadístico.

La tabla facilita la interpretación de los datos, lo cual es beneficioso para los investigadores
que tienen un conocimiento limitado del análisis estadístico. Las personas no necesitan
programación estadística para correlacionar variables categóricas.

La claridad que ofrece una tabla ayuda a los profesionales a evaluar su trabajo actual y trazar
estrategias futuras.

Los fundamentos de las pruebas de hipótesis


Al realizar investigaciones científicas, normalmente hay alguna información conocida, quizás
de algún trabajo pasado o de una idea largamente aceptada. Queremos probar si esta
afirmación es creíble. Esta es la idea básica detrás de una prueba de hipótesis:

 Declamos lo que creemos que es cierto.

 Cuantificar la confianza que tenemos sobre nuestro reclamo.

 Utilice estadísticas de muestra para hacer inferencias sobre parámetros poblacionales.

Por ejemplo, investigaciones pasadas nos dicen que el promedio de vida de un colibrí es de
unos cuatro años. Has estado estudiando a los colibríes en el sureste de Estados Unidos y
encuentras una vida media muestral de 4.8 años. ¿Debería rechazar la información conocida o
aceptada a favor de sus resultados? ¿Qué tan seguro tienes en tu estimación? ¿En qué
momento dirías que hay pruebas suficientes para rechazar la información conocida y apoyar tu
reclamo alternativo? ¿Qué tan lejos de la media conocida de cuatro años puede estar la
muestra antes de rechazar la idea de que la vida útil promedio de un colibrí es de cuatro años?

Definición: prueba de hipótesis

La prueba de hipótesis es un procedimiento, basado en evidencia y probabilidad de muestra,


utilizado para probar afirmaciones sobre una característica de una población.

Una hipótesis es una afirmación o afirmación sobre una característica de una población de
interés para nosotros. Una prueba de hipótesis es una forma de usar nuestras estadísticas de
muestra para probar una afirmación específica.

Ejemplo 1:

Se sabe que el peso promedio de la población es de 85 kg. Queremos probar la afirmación de


que el peso medio ha aumentado.

Ejemplo 2:

Hace dos años, la proporción de plantas infectadas era de 37%. Creemos que un tratamiento
ha ayudado, y queremos probar la afirmación de que ha habido una reducción en la
proporción de plantas infectadas.

Componentes de una Prueba de Hipótesis Formal

La hipótesis nula es una afirmación sobre el valor de un parámetro poblacional, como la media
poblacional (µ) o la proporción poblacional (p). Contiene la condición de igualdad y se denota
como H0 (H-nada).

H0: µ = 157 o H0: p = 0.37

La hipótesis alternativa es la afirmación a probar, lo contrario de la hipótesis nula. Contiene el


valor del parámetro que consideramos plausible y se denota como H1.

H1: µ > 157 o H1: p ≠ 0.37


El estadístico de prueba es un valor calculado a partir de los datos de muestra que se utiliza
para tomar una decisión sobre el rechazo de la hipótesis nula. El estadístico de prueba
convierte la media muestral (x) o la proporción muestral (p) a una puntuación Z o t bajo el
supuesto de que la hipótesis nula es verdadera. Se utiliza para decidir si la diferencia entre el
estadístico muestral y la afirmación hipotética es significativa.

El valor p es el área bajo la curva a la izquierda o derecha del estadístico de prueba. Se


compara con el nivel de significancia (α).

El valor crítico es el valor que define la zona de rechazo (los valores estadísticos de prueba que
conducirían al rechazo de la hipótesis nula). Se define por el nivel de significación.

El nivel de significancia (α) es la probabilidad de que el estadístico de prueba caiga en la región


crítica cuando la hipótesis nula sea verdadera. Este nivel lo establece el investigador.

La conclusión es la decisión final de la prueba de hipótesis. La conclusión siempre debe ser


claramente enunciada, comunicando la decisión con base en los componentes de la prueba. Es
importante darse cuenta de que nunca probamos ni aceptamos la hipótesis nula. Nos
limitamos a decir que la evidencia muestral no es lo suficientemente fuerte como para
garantizar el rechazo de la hipótesis nula. La conclusión se compone de dos partes:

1) Rechazar o no rechazar la hipótesis nula, y 2) hay o no hay pruebas suficientes para apoyar
la afirmación alternativa.

Opción 1) Rechazar la hipótesis nula (H0). Esto significa que tienes suficiente evidencia
estadística para apoyar el reclamo alternativo (H1).

Opción 2) No rechazar la hipótesis nula (H0). Esto significa que NO tienes pruebas suficientes
para apoyar la reclamación alternativa (H1).

Otra forma de pensar sobre las pruebas de hipótesis es compararlo con el sistema de justicia
estadounidense. Un acusado es inocente hasta que se demuestre su culpabilidad (hipótesis
nula, inocente). El procurador trata de probar que el acusado es culpable (Hipótesis
alternativa—culpable). Hay dos posibles conclusiones a las que puede llegar el jurado. En
primer lugar, el acusado es culpable (Rechazar la hipótesis nula). Segundo, el demandado no es
culpable (No rechazar la hipótesis nula). ¡Esto NO es lo mismo que decir que el acusado es
inocente! En el primer caso, el fiscal contaba con pruebas suficientes para rechazar la hipótesis
nula (inocente) y apoyar la demanda alternativa (culpable). En el segundo caso, el fiscal NO
contaba con pruebas suficientes para rechazar la hipótesis nula (inocente) y apoyar la
afirmación alternativa de culpabilidad.

Las hipótesis nulas y alternativas


Prueba de Hipótesis de Independencia
Las pruebas de independencia implican el uso de una tabla de contingencia de valores
observados (datos).

El estadístico de prueba de independencia es similar al de la prueba de bondad de ajuste:

donde:

 O = valores observados

 E = valores esperados

 i = el número de filas de la tabla

 j = el número de columnas de la tabla

Una prueba de independencia determina si dos factores son independientes o no. La primera
vez que se topó con el término independencia fue en Temas de probabilidad. A modo de
repaso, considere el siguiente ejemplo.

NOTA

El valor esperado de cada celda debe ser, al menos, cinco para poder utilizar esta prueba.

EJEMPLO 1
Supongamos que A = una infracción por exceso de velocidad en el último año y B = un usuario
de teléfono móvil mientras conduce. Si A y B son independientes, entonces P(A Y B)
= P(A)P(B). A Y B es el evento en que un conductor recibió una infracción por exceso de
velocidad el año pasado y también utilizaba el teléfono móvil mientras conducía. Supongamos
que se encuestaron 755 personas en un estudio sobre conductores que recibieron infracciones
por exceso de velocidad durante el año pasado que usaron el teléfono móvil mientras
conducían. De los 755, 70 tenían una infracción por exceso de velocidad y 685 no; 305 usaba el
teléfono móvil mientras conducían y 450 no.

Supongamos que y = número esperado de conductores que usaron un teléfono móvil mientras
conducían y recibieron infracciones por exceso de velocidad.

Si A y B son independientes, entonces P(A Y B) = P(A)P(B). Por sustitución,

Resuelva para

Se espera que unas 28 personas de la muestra usen teléfonos móviles mientras conducen y
reciban infracciones por exceso de velocidad.

En una prueba de independencia planteamos las hipótesis nulas y alternativa con palabras.
Dado que la tabla de contingencia consta de dos factores, la hipótesis nula afirma que los
factores son independientes y la hipótesis alternativa afirma que no son independientes
(dependientes). Si hacemos una prueba de independencia usando el ejemplo, entonces la
hipótesis nula es:

H0: Hablar por el teléfono móvil mientras se conduce y recibir una infracción por exceso de
velocidad son eventos independientes.

Si la hipótesis nula fuera cierta, esperaríamos que unas 28 personas usaran el móvil mientras
conducen y recibieran una infracción por exceso de velocidad.

La prueba de independencia es siempre de cola derecha debido al cálculo del estadístico de


prueba. Si los valores esperados y observados no están cerca, entonces el estadístico de
prueba es muy grande y se encuentra en la cola derecha de la curva de chi-cuadrado, al igual
que en una bondad de ajuste.

El número de grados de libertad para la prueba de independencia es:


Prueba de homogeneidad
La prueba de bondad de ajuste se puede usar para decidir si una población se ajusta a una
distribución determinada, pero no bastará para decidir si dos poblaciones siguen la misma
distribución desconocida. Una prueba diferente, llamada prueba de homogeneidad, se puede
usar para sacar una conclusión sobre si dos poblaciones tienen la misma distribución. Para
calcular el estadístico de prueba de homogeneidad siga el mismo procedimiento que con la
prueba de independencia.

NOTA

El valor esperado de cada celda debe ser, al menos, cinco para poder utilizar esta prueba.

Hipótesis
H0: Las distribuciones de las dos poblaciones son iguales.

Ha: Las distribuciones de las dos poblaciones no son iguales.

Estadístico de prueba

Utilice un x2 estadísticos de prueba. Se calcula de la misma manera que la prueba de


independencia.

Grados de libertad (df)

df = número de columnas – 1

Requisitos

Todos los valores de la tabla deben ser mayores o iguales a cinco.

Usos comunes

Comparación de dos poblaciones. Por ejemplo: hombres versus mujeres, antes versus
después, este versus oeste. La variable es categórica con más de dos valores de respuesta
posibles.

EJEMPLO 1

¿Los estudiantes de institutos universitarios hombres y mujeres tienen la misma distribución


en cuanto a viviendas? Utilice un nivel de significación de 0,05. Supongamos que se les
pregunta a 250 estudiantes universitarios y a 300 estudiantes universitarias seleccionados al
azar por su tipo de vivienda: residencia universitaria, apartamento, con los padres, otra. Los
resultados se muestran en la Tabla 11.19. ¿Los estudiantes de institutos universitarios
hombres y mujeres tienen la misma distribución en cuanto a viviendas?

También podría gustarte