Está en la página 1de 15

REPÚBLICA BOLIVARIANA DE VENEZUELA

UNIVERSIDAD Dr. RAFAEL BELLOSO CHACÍN


VICERECTORADO ACADEDÉMICO
DECANATO DE INVESTIGACIÓN Y POSTGRADO
MAESTRÍA EN TELEMATICA

ESTADISTICA Y ANALISIS DE DATOS

Autor: Ing. Maria J. Acosta

Maracaibo, septiembre del 2021


1. Frecuencia y distribución de frecuencias

 Frecuencia
La frecuencia es la cantidad de veces que se repite un suceso en un rango de
un espacio muestral dado.
Tabla 1: Ejemplo Frecuencia Estadística

De la tabla 1 se observa que: 3 alumnos obtuvieron nota bajo 4.0, y el resto


tienen nota igual o superior a 4.0, resaltándose que la mayoría de los escolares
están en el rango 5.0 a 5.9, y sólo uno sobresaliente con la nota 7.0.

 Distribución de frecuencias
Las distribuciones de frecuencias son tablas en que se dispone las
modalidades de la variable por filas. En las columnas se dispone el número de
ocurrencias por cada valor, porcentajes, etc. La finalidad de las agrupaciones
en frecuencias es facilitar la obtención de la información que contienen los
datos.

De igual forma permiten resumir los datos en una tabla que recoge:

• valores de la variable o modalidades del atributo,

• frecuencia absoluta o número de veces que aparece cada valor o modalidad


en la muestra,

• porcentaje de veces que aparece cada valor de la variable o modalidad del


atributo sobre el total de observaciones,

• porcentaje válido calculado sobre el total de observaciones excluidos los


valores missing,

• porcentaje acumulado hasta cada uno de los valores de la variable ordenados


de menor a mayor. Este porcentaje tiene interpretación sólo en los casos en
que la variable sea susceptible de medida por lo menos en una escala ordinal.
2. Frecuencia absoluta y frecuencia relativa

 Frecuencia absoluta

Es la frecuencia ya aplicada en la primera tabla, que corresponde al número de


veces que se repite un dato dentro un rango dado, según sea definido
previamente. En el caso ejemplificado, son 35 alumnos, donde cada clase o
rango corresponde a una posición dentro de la tabla. De este modo se define
los ni para i de 1 a 7.

 Frecuencia absoluta acumulada (ni)

Es el número de veces ni en la muestra de n, con un valor igual o menor al de


la variable. La última frecuencia absoluta acumulada deberá ser igual a n.

 Frecuencia relativa (fi)

Es el cociente entre la frecuencia absoluta y el tamaño de la muestra (n), para


cada valor de i en la tabla, según la fórmula: fi = ni / n

 Frecuencia relativa acumulada (fi)

Es el cociente entre la frecuencia absoluta acumulada y el número total de


datos, N. Es decir, Fi = Ni / N.

Tabla 2: Ejemplo Según Tipos de Frecuencia (muestra de N = 35 escolares)

De la tabla, se puede observar que se han agregado tres columnas, estas son:
Frecuencia absoluta acumulada Ni, que permite ver los totales parciales
acumulados al final de cada fila, lo que determina las cantidades de alumnos
que hay hasta ese rango. Luego, las columnas de Frecuencia relativa» fi«,
muestra los datos en tanto por ciento de ocurrencia para cada rango. Y
finalmente la Frecuencia relativa acumulada Fi, muestra la acumulación en
tanto por ciento de ocurrencia para cada rango.
3. Tipos de variables

 Definición técnica
Una variable estadística es una característica de una muestra o población de
datos que puede adoptar diferentes valores.

 Cuantitativas: continuas y discretas


Es la que se expresa utilizando cantidades matemáticas, es la más frecuentes
y la que se emplea en economía, índices oficiales y demás estadísticas, para
obtener y expresar un resultado de un estudio determinado.
 Continuas
Es la que permite expresar cualquier valor en un intervalo específico de
valores. A diferencia de la variable cuantitativa discreta, no sufre interrupciones,
sino que todos los índices son alcanzables en el eje cartesiano imaginario. La
única limitación que puede llegar a sufrir es la eficacia del aparato medidor. Es
también un sub-tipo de la variable estadística cuantitativa.
 Discretas
Es un sub-tipo de la variable cuantitativa que se encarga de expresar los datos
de manera interrumpida, salteándose casilleros de la escala numérica. Se
emplea para estudios relacionados con variables de números redondos
(cantidad de hijos, cantidad de autos, cantidad de casas).

 Categóricas: nominales, ordinales

 Nominales
es un sub-tipo referido de las variables cualitativas. En este caso los valores no
son sometidos a un criterio de orden, sino que deben ser establecidos otros
índices, como por ejemplo en el caso de los colores.
 Ordinales
Es, en realidad, un sub-tipo de la variable cualitativa mencionada más arriba,
aunque se impone independientemente. También llamada variable
cuasicuantitativa es aquella que toma distintos valores ordenados siguiendo
una determinada escala.
4. Distribuciones de frecuencias de variables cuantitativas
La distribución de frecuencias de una variable cuantitativa se comunica con
mínimo resumen en una tabla con la lista completa y ordenada de los valores
de la variable acompañados por sus correspondientes frecuencias

 Gráficos de frecuencias
Las diferentes formas de graficar frecuencias Proporcionan al lector o usuario
mayor rapidez en la comprensión de los datos, una gráfica es una expresión
artística usada para representar un conjunto de dato
 Histogramas
Un histograma es una representación gráfica de una variable en forma de
barras, donde la superficie de cada barra es proporcional a la frecuencia de los
valores representados. En su el eje vertical se representan las frecuencias, y
en el eje horizontal los valores de las variables, normalmente señalando las
marcas de clase, es decir, la mitad del intervalo en el que están agrupados los
datos.
Se utilizan para variables continuas o para variables discretas, con un gran
número de datos, y que se han agrupado en clases. Los histogramas son más
frecuentes en ciencias sociales ya que permiten la comparación de los
resultados de un proceso.
 Polígonos
Es aquel que se forma a partir de la unión de los distintos puntos medios de las
cimas de las columnas que configuran lo que es un histograma de frecuencia.
Este se caracteriza porque utiliza siempre lo que son columnas de tipo vertical
y porque nunca debe haber espacios entre lo que son unas y otras.

Procedimiento para la construcción de un polígono de frecuencias


1. Marcar los puntos de intersección de cada punto medio de clase con su
frecuencia respectiva
2. Unir con segmentos, en forma consecutiva, desde el primero hasta el final
3. Se obtiene al unir en forma consecutiva con segmentos los puntos de
intersección entre los puntos medios de cada clase y su frecuencia, incluyendo
el punto medio anterior a la primera clase y el punto medio posterior a la última
clase
El polígono de frecuencias permite observar cómo avanza el grupo o sector
observado, y a simple vista en qué periodo aumento o disminuyo la frecuencia
de los datos obtenidos

 Gráficos de líneas verticales


Los gráficos de líneas muestran tendencias o cambios a lo largo del tiempo
mostrando una serie de puntos de datos conectados por líneas rectas. Puede
mostrar un solo campo de datos como varias líneas basadas en diferentes
categorías a través del campo Color por punto.
 Gráficos de caja y bigotes
Un diagrama de cajas y bigotes es una manera conveniente de mostrar
visualmente grupos de datos numéricos a través de sus cuartiles.
Las líneas que se extienden paralelas a las cajas se conocen como «bigotes»,
y se usan para indicar variabilidad fuera de los cuartiles superior e inferior. Los
valores atípicos se representan a veces como puntos individuales que están en
línea con los bigotes. Los diagramas de cajas y bigotes se pueden dibujar
vertical u horizontalmente.
Normalmente utilizado en estadísticas descriptivas, los gráficos de cajas y
bigotes son una excelente forma de examinar rápidamente uno o más
conjuntos de datos gráficamente. Aunque parezcan primitivos en comparación
con un Histograma o un Gráfico de Densidad, tienen la ventaja de ocupar
menos espacio, lo cual es útil cuando se comparan distribuciones entre muchos
grupos o conjuntos de datos.

5. Medidas de posición para variables cuantitativas

 Definición técnica
Las medidas de posición son indicadores estadísticos que permiten resumir los
datos en uno solo, o dividir su distribución en intervalos del mismo tamaño
 Moda
La moda estadística de un conjunto de datos, se define como el número que
está representado más veces dentro de esos datos, es decir, aquel número que
presenta una mayor frecuencia absoluta dentro de la muestra.
¿Cómo se calcula la moda?
La moda puede ser calculada tanto para variables cuantitativas como para
variables cualitativas.
Tipos de Moda Estadística
Podemos distinguir distintos tipos de moda estadística, en función del número
de números que se repitan una misma cantidad de veces, siendo ese número
de repeticiones, el máximo del conjunto. Dicho así parece algo complicado,
pero es un término mucho más simple de lo que pueda parecer.
Vamos a entenderlo mucho mejor con los siguientes ejemplos:
Moda unimodal: cuando el máximo número de repeticiones se da para
un solo número.
Ejemplo conjunto de datos: [ 3, 5, 5, 6, 8 ]
La moda del conjunto es 5 porque se repite en dos ocasiones, mientras
que el resto de números se repiten únicamente una vez.
Moda bimodal: cuando el máximo número de repeticiones se da para
dos números.
Ejemplo conjunto de datos: [ 3, 5, 5, 6, 8, 8 ]
La moda del conjunto sería 5 y 8 porque ambos números se repiten en
dos ocasiones, mientras que el resto de números se repiten únicamente una
vez.
Moda multimodal: cuando el máximo número de repeticiones se da para
tres o más números.
Ejemplo conjunto de datos: [ 3, 3, 5, 5, 6, 8, 8 ]
La moda del conjunto en este caso serían tres números, porque los tres
se repiten el mismo número de veces: 3, 5, 8.
 Cuantiles
Un cuantil es aquel punto que divide la función de distribución de una variable
aleatoria en intervalos regulares.
Por tanto, no es más que una técnica estadística para separar los datos de una
distribución. Eso sí, debe cumplirse que los grupos sean iguales. Por eso,
existen diversos tipos de cuantil, como veremos más adelante, en función del
número de particiones que hacen.
 Percentiles
un percentil se define como una medida de posición no central, al igual que los
cuartiles, los deciles o los quintiles. Este es una medida estadística utilizada
para comparar datos. Consiste en un número de 0 a 100 que indica el
porcentaje de datos que son igual o menor que un determinado valor.
Los percentiles son muy conocidos por su uso en los percentiles de
crecimiento. Por ejemplo, si el peso de un bebé está en el percentil 65, quiere
decir que el 65% de los bebés de la misma edad pesan igual o menos.
¿Cómo se calculan los percentiles?
Para calcular los percentiles, primero hay que ordenar los datos de forma
ascendente.
Una vez ordenados, se resta 0.5 a la posición que ocupa el dato del que
queremos calcular el percentil. Después dividimos entre el número total de
datos y multiplicamos por 100

.
Siendo P el percentil, Xn la posición del valor en la secuencia de datos y N el
número total de datos.
 Cuartiles
Los cuartiles son valores que dividen una muestra de datos en cuatro partes
iguales. Utilizando cuartiles puede evaluar rápidamente la dispersión y la
tendencia central de un conjunto de datos, que son los pasos iniciales
importantes para comprender sus datos. Cuartil Descripción
1er cuartil (Q1) 25% de los datos es menor que o igual a este valor.
2do cuartil (Q2) La mediana. 50% de los datos es menor que o igual a este
valor.
3er cuartil (Q3) 75% de los datos es menor que o igual a este valor.
Rango intercuartil La distancia entre el primer 1er cuartil y el 3er cuartil (Q3-
Q1); de esta manera, abarca el 50% central de los datos.
Por ejemplo, para los siguientes datos: 7, 9, 16, 36, 39, 45, 45, 46, 48, 51
Q1 = 14.25
Q2 (mediana) = 42
Q3 = 46.50
Rango Intercuartil = 14.25 a 46.50 ó 32.25

 Mediana

 Definición técnica.
La mediana es un estadístico de posición central que parte la distribución en
dos, es decir, deja la misma cantidad de valores a un lado que a otro.
La mediana, junto con la media y la varianza es un estadístico muy ilustrativo
de una distribución. Al contrario que la media que puede estar desplazada
hacia un lado o a otro, según la distribución, la mediana siempre se sitúa en el
centro de esta. Dicho sea, paso, a la forma de la distribución se le conoce
como curtosis. Con la curtosis podemos ver hacia dónde está desplaza la
distribución.
 Media aritmética
La media aritmética es un tipo de media que otorga la misma ponderación a
todos los valores.
Existen muchos tipos de media y la más conocida es la media aritmética. Sin
embargo, la idea general se mantiene en todos los tipos de media: queremos
saber un valor promedio. Al ser una medida de tendencia central, lo que busca
es aportarnos información sobre el centro.
La media aritmética es lo que se conoce como media al uso. Sumamos todos
los valores y lo dividimos entre la cantidad de observaciones.
Símbolo de la media aritmética
El símbolo de la media aritmética es una X con una barra encima. Por lo que
quedaría así ↓
Símbolo de la media aritmética → x̄
Cómo calcular la media aritmética
Para calcular la media aritmética es necesario realizar la suma del número de
valores de los que queremos conocer su media. Por ejemplo, si queremos
repartir caramelos entre los alumnos de una clase de forma equitativa, en
primer lugar, calcularemos cuantos caramelos tenemos en total.
Posteriormente, debemos de saber entre cuantos alumnos se van a repartir,
para poder calcular la media aritmética. El número de caramelos lo dividiremos
entre el número de alumnos y obtendremos cuántos caramelos tendremos que
darle a cada uno de ellos para que se repartan de forma igualitaria.
Fórmula de la media aritmética
La fórmula de la media aritmética es la siguiente:

Si la leemos de izquierda a derecha, veremos que hay tres partes. La primera


es el nombre, la segunda una fórmula pequeña y la tercera el desarrollo. La
segunda parte de la fórmula se lee tal que así: Sumatorio desde 1 hasta N de la
variable x dividido entre N. Adicionalmente, podríamos añadir un comentario
que indicase: con i entre 1 y N. Vamos a ver ahora, qué significa todo esto.
Sumatorio: El sumatorio nos indica que debemos sumar un conjunto de valores
desde el primero, hasta el N. Así si existen 30 valores, deberemos sumar el
primero, el segundo, el tercero, … , y el treintavo.
N: Representa el número total de observaciones. Por ejemplo, si tenemos el
peso de 10 manzanas individuales, N vale 10. Ya que tenemos 10 manzanas.
x: La variable X es sobre la que calculamos la media aritmética. En este caso
sería el peso de las manzanas.
i: Representa la posición de cada observación. En este ejemplo, podríamos
ponerle una etiqueta a cada manzana, la manzana 1, la manzana 2, etc.
6. Medidas de dispersión de variables cuantitativas

 Amplitud total
La amplitud total (AT) es la diferencia entre la puntuación de mayor valor y la
de menor valor:

La diferencia entre el valor máximo y mínimo de los valores de una variable se


encuentran comprendidos el 100% de los valores muéstrales.
 Amplitud entre cuartiles
La amplitud intercuartílica es la distancia entre el tercer cuartil Q3 y el primer
cuartil Q1. El primer cuartil es el valor correspondiente al punto debajo del cual
se encuentra el 25% de las observaciones en un conjunto ordenado de datos.
 Varianza
La varianza es una medida de dispersión que representa la variabilidad de una
serie de datos respecto a su media. Formalmente se calcula como la suma de
los residuos al cuadrado divididos entre el total de observaciones.
Fórmula para calcular la varianza
La unidad de medida de la varianza será siempre la unidad de medida
correspondiente a los datos, pero elevada al cuadrado. La varianza siempre es
mayor o igual que cero. Al elevarse los residuos al cuadrado es
matemáticamente imposible que la varianza salga negativa. Y de esa forma no
puede ser menor que cero.

Donde
X: variable sobre la que se pretenden calcular la varianza
xi: observación número i de la variable X. i puede tomará valores entre 1 y n.
n: número de observaciones.
x̄: Es la media de la variable X.
 Desvío estándar
La desviación estándar o desviación típica es una medida que ofrece
información sobre la dispersión media de una variable. La desviación estándar
es siempre mayor o igual que cero.
El símbolo σ (sigma) se utiliza frecuentemente para representar la desviación
estándar de una población, mientras que s se utiliza para representar la
desviación estándar de una muestra. La variación que es aleatoria o natural de
un proceso se conoce comúnmente como ruido.
La desviación estándar se puede utilizar para establecer un valor de referencia
para estimar la variación general de un proceso.

La fórmula de la desviación estándar (DE) es:

donde ∑ significa "suma de", x es un valor de un conjunto de datos, μ es la


media del conjunto de datos y N es el número de datos.
Puede parecer que la fórmula de la desviación estándar es confusa, pero
tendrá sentido después de que la desglosemos. En las secciones
subsecuentes explicaremos un ejemplo interactivo, paso a paso. Aquí hay una
rápida vista previa de los pasos que estamos a punto de seguir:
Paso 1: calcular la media.
Paso 2: calcular el cuadrado de la distancia a la media para cada dato.
Paso 3: sumar los valores que resultaron del paso 2.
Paso 4: dividir entre el número de datos.
Paso 5: sacar la raíz cuadrada.
 Coeficiente de variación
El coeficiente de variación, también denominado como coeficiente de variación
de Pearson, es una medida estadística que nos informa acerca de la dispersión
relativa de un conjunto de datos.
El coeficiente de variación se denomina por las siglas CV, se expresa en un
porcentaje, pues se trata de un coeficiente, y se calcula de la siguiente manera:
CV = desviación estándar / media aritmética x 100

Este coeficiente es utilizado para comparar conjuntos de datos de poblaciones


distintas, teniéndose en cuenta el valor de la media aritmética, lo que nos
permite eliminar las eventuales distorsiones de las medias de dos o más
poblaciones.

7. Distribuciones de frecuencias de variables categóricas

La distribución de frecuencias de una variable categórica se caracteriza por la


identidad de las clases, por las frecuencias con la que cae en cada una y por la
diversidad de las clases en las que cae. Para describir estas distribuciones se
utilizan tablas, gráficos, la clase modal y los índices de diversidad.

 Tabla de frecuencias
Las tablas de frecuencias para variables categóricas especifican las
frecuencias absolutas o las frecuencias relativas de cada clase o categoría de
la variable.

 Gráfico de barras
Los gráficos de barras son muy usados para comunicar diversos resultados
estadísticos. Cuando los construimos para representar distribuciones de
frecuencias de variables categóricas, disponemos las diferentes clases o
categorías sobre el eje horizontal y sobre cada una dibujamos una barra o
rectángulo cuya altura indica la frecuencia de la clase medida sobre el eje
vertical
Las principales características del diagrama de barras son:
En el eje de abscisas se colocan las cualidades de la variable, si la
variable es cualitativa, o los valores de dicha variable, si es discreta.
En el eje de ordenadas se colocan las barras proporcionales a la
frecuencia relativa o absoluta del dato.
Las barras pueden ser horizontales o verticales, según si los valores de
la variable se reflejan en el eje horizontal o vertical.
Todas las barras deben tener el mismo ancho y no deben superponerse
las unas con las otras.
 Clase modal
El indicador de la posición de la distribución de frecuencias de una variable
categórica es la clase modal. Se trata de la clase que tiene la máxima
frecuencia. la clase modal se define también para distribuciones de variables
cuantitativas cuya escala fue dividida en clases.

Los gráficos de barras de la figura anterior muestran que la clase modal de los
sentidos de inclinación de las plantas de girasol fue Ninguno en la parcela con
densidad baja y Oeste en la parcela con densidad alta. En este caso, las
diferentes clases modales indican que las dos distribuciones tienen diferente
posición
 Índices de diversidad
Los índices de diversidad miden la heterogeneidad entre los registros de la
variable.

 Número de clases
El índice más sencillo de la diversidad de una variable categórica es el número
de clases con frecuencia > 0.

También podría gustarte