Está en la página 1de 12

TALLER 1

Probabilidad y estadística

Sara Tovar Florez, Yonhatan Chacua

Yehidy Brand Uribe

1. Escoger una variable Cualitativa y realizar (a mano) las estadísticas descriptivas


(construir la tabla de frecuencias, realizar el diagrama circular, el diagrama de
barras y concluir).

o Variable cualitativa nominal.

Se realizó una encuesta a 300 egresados de la carrera de Ingeniería química para determinar en
qué sector buscan desempeñarse laboralmente; las opciones más nombradas fueron Alimentos,
agroquímicos, biotecnología, farmacéutica, cosméticos, petroquímicos, pinturas, polímeros,
energía y textil. Los resultados fueron los siguientes.

Tabla 1. Tabla de frecuencias.

Fig 1. Grafico de barras de los datos obtenidos.


Fig. 2. Grafico circular de datos obtenidos.

CONCLUSIONES

Ante la pregunta: ¿En qué sector le gustaría desempeñarse laboralmente?, el 10% de los
profesionales entrevistados respondieron que, en el sector de alimentos, 7% en el sector
agroquímico ,5% en biotecnología, 9% en el sector farmacéutico, 16% cosméticos, 15% en el sector
petroquímico, 13% pinturas, solo 8% en polímeros, 12% energía y solo 5% en el sector textil.

Se observa una mayor afinidad de los egresados hacia principalmente el sector petroquímico y
cosméticos que suman el 31% y menor presencia en sectores como textil, biotecnología o
agroquímicos.

La posibilidad de desempeñarse laboralmente para los egresados se ubica en una amplia gama de
sectores económicos, resaltando su versatilidad como profesionales.

2. Consultar sobre las medidas de tendencia central para datos agrupados y dar un
ejemplo.
MEDIDAS DE TENDENCIA CENTRAL

Las medidas de tendencia central para datos agrupados se utilizan para describir ciertos
comportamientos de un grupo de datos suministrados; Cuando se toma una cantidad grande de
datos, es útil agruparlos para poder manejar mejor los datos, y así podemos calcular las principales
medidas de tendencia central, que serían la media, la mediana y la moda. Estos números nos
brindan ciertas características de los datos recogidos de determinada situación.
Para utilizar las medidas de tendencia central se necesita saber cómo agrupar un conjunto de
daros.

Para agrupar los datos lo primero que se hace es calcular el rango de los datos, lo obtenemos
restando el mayor valor menos el menor valor de los datos:

( R=xmax −x min)

También hay que tener en cuenta los intervalos que viene dados por:

K=1+ 3,22 ln ( n ) o K =√ n
La amplitud también es importante al momento de trabajar con datos agrupados, se define como:

R
L=
K
MEDIA ARITMÉTICA:

La media aritmética viene dada por:


n

x=
x 1. f 1+ x 2. f 2+ … xn . fn
o ∑ xi × fⅈ
n i=1
n
Donde

n= es el total de los valores

xn =es la marca de clase de cada intervalo

fn =es la frecuencia absoluta.

MEDIANA:

La mediana es el valor que ocupa el lugar central de todos los datos cuando están ordenados de
menor a mayor, la mediana se puede hallar solo para variables cuantitativas.

Cuando se trata de datos agrupados, el cálculo de la mediana se hace de la siguiente manera:

n
−Fi−1
Me=Li +
2 * Ai
fⅈ

n+1 n
También necesitamos la fórmula de la posición para datos impares, para datos pares seria
2 2
Ahora el valor obtenido lo buscamos en la columna de frecuencia acumulada y dado que no esté
buscamos el valor que le sigue, ahí podremos saber en qué fila e intervalo se ubica la mediana
ahora ya podemos aplicar la formula donde:

Li = es el límite inferior del intervalo donde se encuentra la mediana

Fi -1 = frecuencia acumulada de la clase o categoría anterior, es decir, se toma la frecuencia


acumulada del intervalo anterior.

Ai = Ls – li

Ls = el limite superior del intervalo donde se encuentra la media

MODA:

La moda es el valor que tiene mayor frecuencia entre todos los datos agrupados, es decir, el valor
que mas se repite en el conjunto de datos.

para determinar en qué intervalo se encuentra nuestra moda debemos mirar donde hay el mayor
valor de frecuencia absoluta.

La fórmula seria la siguiente:

f i−f i−1
Li + ∗Ai
f i −f i−1 + f i−f i+1

Li = es el límite inferior del intervalo donde se encuentra la mayor frecuencia absoluta.

fi -1 = frecuencia absoluta de la clase o categoría anterior, es decir, se toma la frecuencia absoluta


del intervalo anterior.

Ai = Ls – li

Ls =Es el valor del límite superior donde se encuentra la mayor frecuencia absoluta

fi +1 = frecuencia absoluta de la clase o categoría siguiente, es decir, se toma la frecuencia


absoluta del intervalo siguiente.

Ejemplo de aplicación:

Los datos a continuación, corresponden al número de llamadas telefónicas que un grupo de amigo
de personas realizó durante un día.

DATOS:

4 9 13 10 13
9 11 13 6 19
8 11 15 17 12
1 3 5 6 5
12 12 14 14 19
10 8 16 18 7

Ordenamos los valores

1 6 10 12 15
3 7 10 13 16
4 8 11 13 17
5 8 11 13 18
5 9 12 14 19
6 9 12 14 19
3. Consultar sobre las medidas de forma.
Las medidas de forma proporcionan información sobre el aspecto de la distribución de frecuencias
(sin representarla gráficamente). Son necesarias para determinar el comportamiento de los datos
y así, poder adaptar herramientas para el análisis probabilístico.

TIPOS

o ASIMETRÍA: indicadores que permiten establecer el grado de simetría (o asimetría) que


presenta una distribución de probabilidad de una variable aleatoria sin tener que hacer su
representación gráfica. Como eje de simetría consideramos una recta paralela al eje de
ordenadas que pasa por la media de la distribución.

Fig. 3. Tipos de curva de distribución según su simetría.

 Asimetría negativa: la cola de la distribución se alarga para valores inferiores a la


media.
 Simétrica: hay el mismo número de elementos a izquierda y derecha de la media. En
este caso, coinciden la media, la mediana y la moda. La distribución se adapta a la
forma de la campana de Gauss, o distribución normal.
 Asimetría positiva: la cola de la distribución se alarga (a la derecha) para valores
superiores a la media.
Fig. 4. tres coeficientes de asimetría.

Fuente: Mauricio Chumaña, Medidas de forma, UNIVERSIDAD CENTRAL DEL ECUADOR, Facultad,
de Ciencias Económicas, Carrera de Estadística.

o CURTOSIS: o apuntamiento es una medida de forma que mide cuán escarpada o achatada
está una curva o distribución. Este coeficiente indica la cantidad de datos que hay
cercanos a la media, de manera que a mayor grado de curtosis, más escarpada (o
apuntada) será la forma de la curva. Una mayor curtosis no implica una mayor varianza, ni
viceversa.

Fig. 5 Curtosis.

 Leptocúrtica. Existe una gran concentración.


 Mesocúrtica. Existe una concentración normal.
 Platicúrtica. Existe una baja concentración.
Fig. 6. Curtosis.

Fuente: Mauricio Chumaña, Medidas de forma, UNIVERSIDAD CENTRAL DEL ECUADOR, Facultad,
de Ciencias Económicas, Carrera de Estadística.

4. Tomar un banco de tamaño n=60, definir la variable y realizar todos los análisis
en R: Obtener la Tabla de frecuencias, histograma, polígono de frecuencias,
ojiva, boxplot, medidas de tendencia central, posición, dispersión, forma y
establecer las respectivas. Conclusiones.
A partir de una base de datos sobre casos más comunes de covid- 19, se tomó una muestra de 60
personas para determinar que edades y genero son más probables de adquirir el virus.

Variable 1 = Edad -> variable cuantitativa continua.

Fig. 7. Tabla de frecuencias

Fig. 8. Histograma
Fig. 9. Polígono de frecuencias
Fig. 10 Ojiva

Fig. 11. Caja

MEDIDAS DE TENDENCIA CENTRAL

 Moda: 35
 Media: 35.7049
 Mediana: 33

MEDIDAS DE DISPERSION

 Rango: 87
 Varianza: 271,9781
 Desviación estándar: 16,491
 Coeficiente de variación: 46,189

MEDIDAS DE POSICION

 Q1= 15,5
 Q2= 31
 Q3= 46.5
MEDIDAS DE FORMA

 Asimetría: 1.249254
 Curtosis: 2.377674

Variable 2 = Genero -> Variable cualitativa nominal.

Fig. 12. Tabla de frecuencias para la variable “Genero”

Fig. 13. Diagrama de Barras


Fig. 14. Grafico circular

CONCLUSIONES

Se encuentra que la mayoría de personas infectadas por covd-19 tienen una edad de entre 20 y 40
años, de los cuales gran parte tienen entre 35 años. Tiene una dispersión de 87, es una hecha
bastante amplia, por lo que abarca un mayor número de posibilidades de contraer el virus, con un
promedio de desviación de 271,9781.

Continuando con la variable de “edad” encontramos que tiene una asimetría positiva de 1.249254
es decir, una cola de distribución que se alarga para valores superiores a la media, así también, la
curtosis de 2.377674 nos muestra que existe una gran cantidad de datos cercanos a la media, en
este caso las edades de los pacientes.

Ahora bien, respecto con la variable de género, encontramos un mayor número de pacientes de
género femenino correspondiente al 57% de la población maestral.

Finalmente se concluye que del banco de datos tomado, la mayoría de pacientes tienen entre los
30 años y el 57% es de género femenino.

REFERENCIAS

1. https://www.tdx.cat/bitstream/handle/
10803/2729/3.pdf;jsessionid=DF9CA90931DC3975C91E0E5E81B3FD6E?sequence=3
2. https://issuu.com/skcp.588/docs/estadistica-convertido/s/10217359
3. https://www.studocu.com/ec/document/universidad-de-guayaquil/estadistica/medidas-
de-forma-ejercicios/18040126
4. https://ocw.unican.es/pluginfile.php/858/course/section/934/cap_3.pdf

También podría gustarte