Está en la página 1de 12

Curso virtual: Estadística básica aplicada con SPSS

Estadística basica con SPSS


Unidad 2:
Datos, transformación y análisis de variables y frecuencias

Contenido

1. Los datos cuantitativos y cualitativos ............................................................................................. 2


1.1. Datos cuantitativos: pueden ser datos continuos y datos discretos ....................................... 2
1.2. Datos cualitativos: datos binomiales, datos nominales y datos ordinales .............................. 2
2. Agrupación de datos cuantitativos ................................................................................................. 4
3. Tablas de frecuencias ..................................................................................................................... 5
3.1. Tabla de frecuencias de variables cuantitativas ..................................................................... 5
3.1.1 Frecuencias de variables cualitativas nominales ............................................................ 5
3.1.2 Frecuencias de variables cualitativas ordinales .............................................................. 6
3.2. Tabla de frecuencias de variables cuantitativas ..................................................................... 6
3.2.1 Frecuencias de variables cuantitativas discretas ............................................................ 6
3.2.2 Frecuencias de variables cuantitativas continuas ........................................................... 7
4. Transformación de datos .............................................................................................................. 10
5. Representaciones gráficas ............................................................................................................ 11
5.1. Gráfica circular ..................................................................................................................... 11
5.2. Gráfica de barras .................................................................................................................. 11
5.3. Histograma de frecuencias ................................................................................................... 12

1
Curso virtual: Estadística básica aplicada con SPSS

1. Los datos cuantitativos y cualitativos


Continuando de la lección 1 de este curso, repasaremos sobre los tipos de datos, a pesar de que este
tema tiene un amplio debate entre los estadísticos, existen coincidencias en que es apropiado
clasificarlos para transformar datos, procesarlos, ordenarlos y crear gráficos, por ejemplo.

1.1. Datos cuantitativos: pueden ser datos continuos y datos discretos


Hay dos tipos de datos cuantitativos, que también se conocen como datos numéricos: continuo y
discreto. Como regla general, los recuentos son discretos y las mediciones son continuas.

Los datos discretos son un conteo que no se puede hacer más preciso. Por lo general, implica números
enteros. Por ejemplo, el número de alumnos en la clase estadística sería información discreta, porque
está contando entidades enteras e indivisibles: no puede haber 35.5 participantes.

Los datos continuos, por otro lado, podrían dividirse y reducirse a niveles cada vez más pequeños. Por
ejemplo, puede medir la altura de las plantas con diferente precisión (metros, centímetros, milímetros
etc.), por lo que la altura es un dato continuo.

Si contamos el número de manzanas en una caja, ejemplo 25, es dado es discreto.

Si utilizo una balanza para medir el peso de cada manzana, o el peso de toda la caja (ejemplo
4,37 kilogramos), esa es información continua.

Los datos continuos se pueden usar en muchos tipos diferentes de pruebas de hipótesis. Por ejemplo,
para evaluar la precisión del peso impreso en la caja de manzanas, podríamos medir 30 cajas y realizar
una prueba t de 1 muestra.

Algunos análisis usan datos cuantitativos continuos y discretos al mismo tiempo.

Por ejemplo, podríamos realizar un análisis de regresión para ver si el peso de las manzanas (datos
continuos) está correlacionado con el número de manzanas en la caja (datos discretos).

1.2. Datos cualitativos: datos binomiales, datos nominales y datos


ordinales
Cuando se clasifica o categoriza algo, se crea datos cualitativos o de atributos. Hay tres tipos principales
de datos cualitativos.

Los datos binarios colocan las cosas en una de dos categorías mutuamente excluyentes:

Ejemplo: verdadero/falso; si/no; correcto/incorrecto; aceptar/rechazar.

Ocasionalmente, obtendremos una caja de manzanas que contiene un par de piezas individuales que
son perfectas para el mercado (buenas) o con alguna imperfección (malas).

Ejemplo: Si revisé la casilla y clasifiqué cada manzana como "Bueno" o "Malo", serían datos
binarios.

Podría usar este tipo de datos para desarrollar un modelo estadístico para predecir con qué frecuencia
puedo esperar obtener una manzana mala.

2
Curso virtual: Estadística básica aplicada con SPSS

Al recopilar datos nominales o no ordenados, asignamos elementos individuales a categorías con


nombre que no tienen un valor o rango implícito o natural.

Ejemplo: Si revisé la caja de manzanas y registré el color (rojas y verdes) serían datos
nominales.

Este tipo de datos se puede usar de muchas maneras diferentes; por ejemplo, podría usar el análisis
de chi-cuadrado para ver si hay diferencias estadísticamente significativas en las cantidades de cada
color en una caja o un contenedor.

También podemos tener datos ordinales u ordenados, en los que los elementos se asignan a categorías
que tienen algún tipo de orden implícito o natural.

Ejemplo: Manzanas “grandes, medianas, pequeñas”

Otro ejemplo es categorizar una respuesta: ¿Cómo le pareció el sabor de las manzanas rojas?
Indique una categoría del 1 al 10, siendo el 10 excelente y 1 muy malo.

Algunas características generales sobre datos cualitativos y cuantitativos:

Datos cualitativos Datos cuantitativos


Uso principal Se utiliza principalmente para Para cuantificar numéricamente la
determinar opiniones, motivaciones, información. Son datos numéricos
descripciones, percepciones. que se pueden transformar en
estadística muy fácilmente.
Métodos de Grupos focales, preguntas abiertas, Encuestas estructuradas, mediciones
recopilación descripciones con varios adjetivos, de campo o laboratorio,
observaciones. Interpretación de experimentación en base a diseños
imágenes o situaciones. experimentales.
Procesamiento Observar e interpretar. Su análisis y Medir y probar. Se puede trabajar
procesamiento puede consumir más fácilmente con un volumen de
mucho tiempo y requiere de métodos datos y muestras grandes.
y herramientas especiales.
Resultados Principalmente subjetivos Principalmente objetivos
Ejemplos de ¿Qué le pareció el partido de fútbol de ¿Cuántos goles marcó su equipo el
preguntas y hoy? partido de fútbol y cuantos recibió?
respuestas R: Empezó bien, pero se tornó muy R: 3 y recibimos 1.
malo y aburrido, pero lo interesante Este invierno estuvo más frio de lo
es que ¡ganamos! normal ¿Cuántas personas se
¿Cómo percibe el cambio climático? resfriaron en su familia?
R: ha cambiado mucho el clima, R: 2 de 4 (50%)
hace más frío y a veces llueve
menos.
Transformación y Los datos cualitativos se pueden Los datos cuantitativos pueden
complementación transformar en datos cuantitativos. complementarse con información
Requiere de un proceso de cualitativa.
estandarización y asignación de
valores y categorías, suele aumentar
el error en el análisis y resultado final.

3
Curso virtual: Estadística básica aplicada con SPSS

2. Agrupación de datos cuantitativos


La agrupación de datos se la emplea si se tienen datos de variables cuantitativas, sean estas discretas
o continuas, que llegan a tener muchos valores distintos, se organizarán sus datos en forma de
intervalos. Para ello se fija un valor mínimo y otro máximo, de forma que todos los datos estén
comprendidos entre ellos (a veces esto no se garantiza y quedan intervalos abiertos). La diferencia
entre ambos se denomina rango de los datos y posteriormente se divide en un número de intervalos
mediante valores intermedios.

Como el caso de la agrupación de edades en grupos etáreos quinquenales que realizan los Institutos
de Estadística, de diferentes países, por ejemplo:

Tabla 1

Edad Quinquenal - Bolivia: Censo de Población y Vivienda 2012

Edad Quinquenal Casos % Acumulado %


0 a 4 años de Edad 1.089.948 10,83 10,83
5 a 9 años de Edad 992.654 9,87 20,7
10 a 14 años de Edad 1.078.164 10,72 31,42
15 a 19 años de Edad 1.106.284 11 42,42
20 a 24 años de Edad 978.606 9,73 52,14
25 a 29 años de Edad 817.395 8,13 60,27
30 a 34 años de Edad 753.831 7,49 67,76
35 a 39 años de Edad 631.032 6,27 74,04
40 a 44 años de Edad 544.701 5,41 79,45
45 a 49 años de Edad 461.984 4,59 84,04
50 a 54 años de Edad 403.220 4,01 88,05
55 a 59 años de Edad 324.025 3,22 91,27
60 a 64 años de Edad 279.867 2,78 94,05
65 a 69 años de Edad 204.529 2,03 96,09
70 a 74 años de Edad 152.423 1,52 97,6
75 a 79 años de Edad 99.276 0,99 98,59
80 a 84 años de Edad 81.095 0,81 99,4
85 a 89 años de Edad 37.923 0,38 99,77
90 a 94 años de Edad 14.665 0,15 99,92
95 y más años de Edad 8.234 0,08 100
Total 10.059.856 100 100
Nota: Tomado de INE 2012

4
Curso virtual: Estadística básica aplicada con SPSS

3. Tablas de frecuencias
La distribución de frecuencias o tabla de frecuencias es la presentación tabular de las frecuencias con
que ocurre una característica de acuerdo a las categorías, grupos o clases en las que se ha dividido una
variable, por lo que la tabla de frecuencias se la puede realizar tanto para variables cualitativas como
cuantitativas.

Se denomina frecuencia absoluta (𝑓𝑖 ) o solamente frecuencia, al número de veces que se reitera una
variable, sea cualitativa o cuantitativa, se la denota por:

𝑓𝑖 = 𝑛𝑖

Sumando todas las Frecuencias absolutas (𝑓𝑖 ) debe obtenerse n, es decir el número total de datos,
cumpliéndose:
𝑛

𝑛 = ∑ 𝑓𝑖
𝑖=1

En la práctica solo se escribe:

𝑛 = ∑ 𝑓𝑖

Se llama Frecuencia relativa (ℎ𝑖 ) al de la división entre la Frecuencia absoluta (𝑓𝑖 ) y el número total de
datos (n) o Frecuencia Total.
𝑓𝑖
ℎ𝑖 =
𝑛
Si una frecuencia relativa se multiplica por 100 se obtiene la frecuencia porcentual (𝑝𝑖 ).

𝑝𝑖 = ℎ𝑖 × 100
𝑓𝑖
𝑝𝑖 = × 100
𝑛

3.1. Tabla de frecuencias de variables cuantitativas

3.1.1 Frecuencias de variables cualitativas nominales

Es la tabla de frecuencias más simple que se tiene, porque no requiere ningún análisis particular u
ordenamiento especifico.

Tomando como ejemplo la pregunta ¿Cuál es tu comida principal?, nuestra tabla de frecuencia
quedara de la forma:

Cuál es tu Frecuencia Porcentaje Porcentaje


comida acumulado
Desayuno 77 30,8 30,8
Almuerzo 77 30,8 61,6
Cena 96 38,4 100,0
Total 250 100,0

5
Curso virtual: Estadística básica aplicada con SPSS

- El 38,4% señala que la cena llega a ser su comida principal, en tanto que el 30,8% afirma que
su comida principal es el desayuno, similar porcentaje señala que el almuerzo es su comida
principal.

- Se debe tomar en cuenta que la última columna “Porcentaje acumulado”, no se llega a


interpretar, por carecer de significado.

3.1.2 Frecuencias de variables cualitativas ordinales

Es similar al anterior con la diferencia que las categorías tienen que tener un orden lógico, que
generalmente es de menor a mayor.

Considerando la pregunta ¿Cuánto de tu comida habitual forma la verdura y/o vegetales?, nuestra
tabla de frecuencias quedara de la siguiente forma:

¿Cuánto de tu Porcentaje
Frecuencia Porcentaje
comida es? acumulado
Menos de 25% 58 23,2 23,2
25% 35 14,0 37,2
50% 59 23,6 60,8
75% 49 19,6 80,4
90% o mas 49 19,6 100,0
Total 250 100,0

- El 23,6% señala que la verdura y/o vegetales forma un 50% de su comida, el 14% afirma que
las verduras forman un 25% de su comida. Considerando el porcentaje acumulado, se puede
señalar que el 60,8% de las personas afirma que los vegetales y/o verduras conforman un
valor igual o menor al 50%.

3.2. Tabla de frecuencias de variables cuantitativas

3.2.1 Frecuencias de variables cuantitativas discretas

En el caso de variables cuantitativas discretas, la tabla de distribución de frecuencias no contiene


intervalos ni marcas de clase. En la primera columna se coloca las categorías de la variable, en la
siguiente se coloca las frecuencias

Supongamos que se tienen los datos del número de hijos por familia de una determinada zona (450
familias) en un municipio X.

6
Curso virtual: Estadística básica aplicada con SPSS

Siendo los datos (hijos por familia): 1, 2, 5, 3, 3, 3, 6, 2, 3, 1, …; nuestra tabla de frecuencias quedaría
de la siguiente forma:

Porcentaje
Número de hijos Frecuencia Porcentaje
acumulado
1 89 19,8 19,8
2 84 18,7 38,4
3 58 12,9 51,3
4 65 14,4 65,8
5 88 19,6 85,3
6 66 14,7 100,0
Total 450 100,0

3.2.2 Frecuencias de variables cuantitativas continuas

En el caso de la creación de una distribución de frecuencias de variables cuantitativas continuas, la


Clasificación de datos no es más que un resumen de todos los datos, distribuidos en Clases o
Categorías, determinando claramente el número de elementos o datos que pertenecen a cada clase o
categoría.

Debemos considerar algunas definiciones:

 Intervalo de clase

El intervalo de clase está conformado por un extremo inferior que se denomina Límite inferior de clase
(𝐿𝐼𝑛𝑓 ) y un extremo superior que se denomina Límite superior de clase (𝐿𝑆𝑢𝑝 ).

 Amplitud de Intervalo de clase o Tamaño de Intervalo de Clase

Se la define como la diferencia entre el límite superior de clase y el límite inferior de clase. Si la amplitud
es igual en todos los intervalos se la designa por “C”. En la práctica para el cálculo de una amplitud de
clase se emplea la fórmula:

𝐶 = 𝐿𝑆𝑢𝑝 − 𝐿𝐼𝑛𝑓

 Marca de clase

La marca de clase (X), se define como el punto medio del intervalo de clase. Se la obtiene empleando
la siguiente formula:
𝐿𝐼𝑛𝑓 + 𝐿𝑆𝑢𝑝
𝑋=
2

7
Curso virtual: Estadística básica aplicada con SPSS

 Tamaño de Intervalo de Clase

El tamaño de intervalo de clase, es decir el ancho del cual estará conformado cada una de las clases o
grupos, está dado por:
𝑅
𝑇𝐼𝐶 =
𝐾
Dónde:

𝑇𝐼𝐶 = Tamaño de intervalo de clase

𝑅 = Rango

𝐾 = Número de clases:

 Calculo del Rango (R)

El rango es la diferencia entre el valor máximo y el valor mínimo del conjunto de datos.

𝑅 = 𝑉𝑎𝑙𝑜𝑟 𝑚á𝑥𝑖𝑚𝑜 − 𝑉𝑎𝑙𝑜𝑟 𝑚í𝑛𝑖𝑚𝑜

 Calculo del número de clase (K)

El número de clases se puede obtener por:

𝐾 = 1 + 3.33𝐿𝑜𝑔 𝑛

Dónde:

𝑛 = Número de total de observaciones o datos

Si el cociente de R/K no es un número entero se debe elevar tal cociente a un valor entero inmediato
superior.

Considerando los datos de peso (de la hoja de cálculo de Excel), tenemos:

- Calculo del rango:

𝑅 = 𝑉𝑎𝑙𝑜𝑟 𝑚á𝑥𝑖𝑚𝑜 − 𝑉𝑎𝑙𝑜𝑟 𝑚í𝑛𝑖𝑚𝑜

𝑅 = 80 − 55 = 25
- Calculo del número de clases:

𝐾 = 1 + 3.3𝐿𝑜𝑔 𝑛

𝐾 = 1 + 3.3 log 250 = 8.91 ≈ 9 𝑐𝑙𝑎𝑠𝑒𝑠 𝑜 𝑔𝑟𝑢𝑝𝑜𝑠

- Calculo del tamaño de intervalo de clases:


𝑅
𝑇𝐼𝐶 =
𝐾
25
𝑇𝐼𝐶 = = 2,80 ≈ 3
8.91

8
Curso virtual: Estadística básica aplicada con SPSS

- Conformación de los limites inferior y superior de cada una de las clases, para ello al valor
determinado de TIC, se le resta una unidad al último digito, quedando el TIC = 2, con ese valor
comenzamos a definir los limites inferior y superior, tomando el valor más bajo tenemos y
sumando el TIC, para la primera clase tenemos:

Clase LInf LSup


1 55 55 + 2 = 57
- Para la segunda clase al límite superior de la clase anterior le sumamos una unidad para que
forme el límite inferior de la segunda clase, y procedemos de la misma forma para el límite
que la anterior clase:

Clase LInf LSup


2 57 + 1 = 58 58 + 2 = 60

- De esa forma determinamos para cada una de las clases, hasta que la última logre cubrir al
valor más alto de nuestros datos, quedando nuestras clases:

Clase LInf LSup


1 55 57
2 58 60
3 61 63
4 64 66
5 67 69
6 70 72
7 73 75
8 76 78
9 79 81
- Con base a las anteriores definiciones la tabla de frecuencia quedara estructurada de la
siguiente forma:

Porcentaje
Peso (kg) Frecuencia Porcentaje
acumulado
55 - 57 28 11,2 11,2
58 - 60 26 10,4 21,6
61 - 63 32 12,8 34,4
64 - 66 31 12,4 46,8
67 - 69 26 10,4 57,2
70 - 72 28 11,2 68,4
73 - 75 26 10,4 78,8
76 - 78 31 12,4 91,2
79 - 81 22 8,8 100,0
Total 250 100,0

- Si utilizamos los porcentajes, podemos observar que sólo 8,8% de las personas tienen un peso
entre 79 y 81 kg, el 12,8% de las personas tienen un peso entre 61 y 63 kg. Considerando el
porcentaje acumulado, podemos apreciar que el 57,2% de las personas tienen un peso igual
o menor a 69 kg.

9
Curso virtual: Estadística básica aplicada con SPSS

- Calculando la marca de clase y amplitud de clase tenemos:

Clase Linf Lusp X C


1 55 57 56 2
2 58 60 59 2
3 61 63 62 2
4 64 66 65 2
5 67 69 68 2
6 70 72 71 2
7 73 75 74 2
8 76 78 77 2
9 79 81 80 2

4. Transformación de datos
En la exploración y análisis de datos, en muchos casos se hace necesario el realizar una transformación
de los datos. La transformación de datos puede referirse a:

- La generación de nuevos datos en base a datos ya existentes, como por ejemplo los datos
que nos proporcionaron fueron en kilogramos y estos deben ser expresados en libras, etc.

- Habiendo realizado un análisis exploratorio de los datos, estos presentan distribuciones de


frecuencias con asimetría positiva (es conveniente realizar la transformación 𝑌 = 𝑋2 ), o en
su caso si presentara asimetrías positivas (será conveniente realizar trasformación
empleando √𝑋, log 𝑋 y 1/𝑋; lo que permitirá el poder ajustar los datos para poder ser
analizados más apropiadamente.

En datos económicos o de consumo se emplean la transformación del logaritmo (log 𝑋), que al ser
empleado convierten en simétricas al conjunto de datos.

La transformación de datos nos permitirá mejorar las suposiciones de algunas técnicas estadísticas:
normalidad, linealidad, homocedasticidad, etc.

Hacer que datos medidos en escalas diferentes sean más comparables entre sí.

10
Curso virtual: Estadística básica aplicada con SPSS

5. Representaciones gráficas
Las representaciones gráficas más empleadas son:

5.1. Gráfica circular


Es la gráfica más empleada para variables cualitativas nominales, representa el todo y sus partes.

5.2. Gráfica de barras


La gráfica de barras se la emplea para poder representar tantas variables cualitativas nominales,
variables cualitativas ordinales en este caso se debe ordenar las categorías, variables cuantitativas
discretas y continuas.

11
Curso virtual: Estadística básica aplicada con SPSS

5.3. Histograma de frecuencias


El histograma de frecuencias no es más que un gráfico de barra que tiene las barras una al lado de otra,
se la emplea exclusivamente para variables cuantitativas discretas o continuas.

-fin-

Curso Virtual: Estadística básica aplicada con SPSS


2da versión, 2019
Ofertado por la EIP y el IAB (www.gap-network.com)
Docentes y desarrollo de contenidos: M.Sc. Ramiro Ochoa Torrez y Ph.D. Juan Carlos Torrico
Facilitadores y desarrollo plataforma EIP: M.Sc. Isabel Mallea
Adaptación y desarrollo material educativo audiovisual: Carlos Andrés Torrico

12

También podría gustarte