Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Contenido
1
Curso virtual: Estadística básica aplicada con SPSS
Los datos discretos son un conteo que no se puede hacer más preciso. Por lo general, implica números
enteros. Por ejemplo, el número de alumnos en la clase estadística sería información discreta, porque
está contando entidades enteras e indivisibles: no puede haber 35.5 participantes.
Los datos continuos, por otro lado, podrían dividirse y reducirse a niveles cada vez más pequeños. Por
ejemplo, puede medir la altura de las plantas con diferente precisión (metros, centímetros, milímetros
etc.), por lo que la altura es un dato continuo.
Si utilizo una balanza para medir el peso de cada manzana, o el peso de toda la caja (ejemplo
4,37 kilogramos), esa es información continua.
Los datos continuos se pueden usar en muchos tipos diferentes de pruebas de hipótesis. Por ejemplo,
para evaluar la precisión del peso impreso en la caja de manzanas, podríamos medir 30 cajas y realizar
una prueba t de 1 muestra.
Por ejemplo, podríamos realizar un análisis de regresión para ver si el peso de las manzanas (datos
continuos) está correlacionado con el número de manzanas en la caja (datos discretos).
Los datos binarios colocan las cosas en una de dos categorías mutuamente excluyentes:
Ocasionalmente, obtendremos una caja de manzanas que contiene un par de piezas individuales que
son perfectas para el mercado (buenas) o con alguna imperfección (malas).
Ejemplo: Si revisé la casilla y clasifiqué cada manzana como "Bueno" o "Malo", serían datos
binarios.
Podría usar este tipo de datos para desarrollar un modelo estadístico para predecir con qué frecuencia
puedo esperar obtener una manzana mala.
2
Curso virtual: Estadística básica aplicada con SPSS
Ejemplo: Si revisé la caja de manzanas y registré el color (rojas y verdes) serían datos
nominales.
Este tipo de datos se puede usar de muchas maneras diferentes; por ejemplo, podría usar el análisis
de chi-cuadrado para ver si hay diferencias estadísticamente significativas en las cantidades de cada
color en una caja o un contenedor.
También podemos tener datos ordinales u ordenados, en los que los elementos se asignan a categorías
que tienen algún tipo de orden implícito o natural.
Otro ejemplo es categorizar una respuesta: ¿Cómo le pareció el sabor de las manzanas rojas?
Indique una categoría del 1 al 10, siendo el 10 excelente y 1 muy malo.
3
Curso virtual: Estadística básica aplicada con SPSS
Como el caso de la agrupación de edades en grupos etáreos quinquenales que realizan los Institutos
de Estadística, de diferentes países, por ejemplo:
Tabla 1
4
Curso virtual: Estadística básica aplicada con SPSS
3. Tablas de frecuencias
La distribución de frecuencias o tabla de frecuencias es la presentación tabular de las frecuencias con
que ocurre una característica de acuerdo a las categorías, grupos o clases en las que se ha dividido una
variable, por lo que la tabla de frecuencias se la puede realizar tanto para variables cualitativas como
cuantitativas.
Se denomina frecuencia absoluta (𝑓𝑖 ) o solamente frecuencia, al número de veces que se reitera una
variable, sea cualitativa o cuantitativa, se la denota por:
𝑓𝑖 = 𝑛𝑖
Sumando todas las Frecuencias absolutas (𝑓𝑖 ) debe obtenerse n, es decir el número total de datos,
cumpliéndose:
𝑛
𝑛 = ∑ 𝑓𝑖
𝑖=1
𝑛 = ∑ 𝑓𝑖
Se llama Frecuencia relativa (ℎ𝑖 ) al de la división entre la Frecuencia absoluta (𝑓𝑖 ) y el número total de
datos (n) o Frecuencia Total.
𝑓𝑖
ℎ𝑖 =
𝑛
Si una frecuencia relativa se multiplica por 100 se obtiene la frecuencia porcentual (𝑝𝑖 ).
𝑝𝑖 = ℎ𝑖 × 100
𝑓𝑖
𝑝𝑖 = × 100
𝑛
Es la tabla de frecuencias más simple que se tiene, porque no requiere ningún análisis particular u
ordenamiento especifico.
Tomando como ejemplo la pregunta ¿Cuál es tu comida principal?, nuestra tabla de frecuencia
quedara de la forma:
5
Curso virtual: Estadística básica aplicada con SPSS
- El 38,4% señala que la cena llega a ser su comida principal, en tanto que el 30,8% afirma que
su comida principal es el desayuno, similar porcentaje señala que el almuerzo es su comida
principal.
Es similar al anterior con la diferencia que las categorías tienen que tener un orden lógico, que
generalmente es de menor a mayor.
Considerando la pregunta ¿Cuánto de tu comida habitual forma la verdura y/o vegetales?, nuestra
tabla de frecuencias quedara de la siguiente forma:
¿Cuánto de tu Porcentaje
Frecuencia Porcentaje
comida es? acumulado
Menos de 25% 58 23,2 23,2
25% 35 14,0 37,2
50% 59 23,6 60,8
75% 49 19,6 80,4
90% o mas 49 19,6 100,0
Total 250 100,0
- El 23,6% señala que la verdura y/o vegetales forma un 50% de su comida, el 14% afirma que
las verduras forman un 25% de su comida. Considerando el porcentaje acumulado, se puede
señalar que el 60,8% de las personas afirma que los vegetales y/o verduras conforman un
valor igual o menor al 50%.
Supongamos que se tienen los datos del número de hijos por familia de una determinada zona (450
familias) en un municipio X.
6
Curso virtual: Estadística básica aplicada con SPSS
Siendo los datos (hijos por familia): 1, 2, 5, 3, 3, 3, 6, 2, 3, 1, …; nuestra tabla de frecuencias quedaría
de la siguiente forma:
Porcentaje
Número de hijos Frecuencia Porcentaje
acumulado
1 89 19,8 19,8
2 84 18,7 38,4
3 58 12,9 51,3
4 65 14,4 65,8
5 88 19,6 85,3
6 66 14,7 100,0
Total 450 100,0
Intervalo de clase
El intervalo de clase está conformado por un extremo inferior que se denomina Límite inferior de clase
(𝐿𝐼𝑛𝑓 ) y un extremo superior que se denomina Límite superior de clase (𝐿𝑆𝑢𝑝 ).
Se la define como la diferencia entre el límite superior de clase y el límite inferior de clase. Si la amplitud
es igual en todos los intervalos se la designa por “C”. En la práctica para el cálculo de una amplitud de
clase se emplea la fórmula:
𝐶 = 𝐿𝑆𝑢𝑝 − 𝐿𝐼𝑛𝑓
Marca de clase
La marca de clase (X), se define como el punto medio del intervalo de clase. Se la obtiene empleando
la siguiente formula:
𝐿𝐼𝑛𝑓 + 𝐿𝑆𝑢𝑝
𝑋=
2
7
Curso virtual: Estadística básica aplicada con SPSS
El tamaño de intervalo de clase, es decir el ancho del cual estará conformado cada una de las clases o
grupos, está dado por:
𝑅
𝑇𝐼𝐶 =
𝐾
Dónde:
𝑅 = Rango
𝐾 = Número de clases:
El rango es la diferencia entre el valor máximo y el valor mínimo del conjunto de datos.
𝐾 = 1 + 3.33𝐿𝑜𝑔 𝑛
Dónde:
Si el cociente de R/K no es un número entero se debe elevar tal cociente a un valor entero inmediato
superior.
𝑅 = 80 − 55 = 25
- Calculo del número de clases:
𝐾 = 1 + 3.3𝐿𝑜𝑔 𝑛
8
Curso virtual: Estadística básica aplicada con SPSS
- Conformación de los limites inferior y superior de cada una de las clases, para ello al valor
determinado de TIC, se le resta una unidad al último digito, quedando el TIC = 2, con ese valor
comenzamos a definir los limites inferior y superior, tomando el valor más bajo tenemos y
sumando el TIC, para la primera clase tenemos:
- De esa forma determinamos para cada una de las clases, hasta que la última logre cubrir al
valor más alto de nuestros datos, quedando nuestras clases:
Porcentaje
Peso (kg) Frecuencia Porcentaje
acumulado
55 - 57 28 11,2 11,2
58 - 60 26 10,4 21,6
61 - 63 32 12,8 34,4
64 - 66 31 12,4 46,8
67 - 69 26 10,4 57,2
70 - 72 28 11,2 68,4
73 - 75 26 10,4 78,8
76 - 78 31 12,4 91,2
79 - 81 22 8,8 100,0
Total 250 100,0
- Si utilizamos los porcentajes, podemos observar que sólo 8,8% de las personas tienen un peso
entre 79 y 81 kg, el 12,8% de las personas tienen un peso entre 61 y 63 kg. Considerando el
porcentaje acumulado, podemos apreciar que el 57,2% de las personas tienen un peso igual
o menor a 69 kg.
9
Curso virtual: Estadística básica aplicada con SPSS
4. Transformación de datos
En la exploración y análisis de datos, en muchos casos se hace necesario el realizar una transformación
de los datos. La transformación de datos puede referirse a:
- La generación de nuevos datos en base a datos ya existentes, como por ejemplo los datos
que nos proporcionaron fueron en kilogramos y estos deben ser expresados en libras, etc.
En datos económicos o de consumo se emplean la transformación del logaritmo (log 𝑋), que al ser
empleado convierten en simétricas al conjunto de datos.
La transformación de datos nos permitirá mejorar las suposiciones de algunas técnicas estadísticas:
normalidad, linealidad, homocedasticidad, etc.
Hacer que datos medidos en escalas diferentes sean más comparables entre sí.
10
Curso virtual: Estadística básica aplicada con SPSS
5. Representaciones gráficas
Las representaciones gráficas más empleadas son:
11
Curso virtual: Estadística básica aplicada con SPSS
-fin-
12