Está en la página 1de 35

Estudiante: Juan Sebastian Mendez Rondon

Institución: Universidad Nacional-Sede Manizales

Asignatura: Probabilidad y Estadística

Trabajo: Estadística descriptiva

Punto 1

Cuestionario:

• Bajar el banco de datos Aids2, para 2 variables discretas en general, describir


específicamente las variables. Construir la tabla de frecuencia. Realizar tanto el
diagrama circular como el diagrama de barras e interpretar
• Analizar 2 variables discretas al mismo tiempo o sea conjuntamente
• Escoger una variable continua, describirla, construir la tabla de frecuencias para
datos agrupados. Construir el histograma con la frecuencia y el histograma en que
el área da 1, el polígono de frecuencias y generar Conclusiones.

Solución:

• Para el análisis de nuestra primera variable vamos a escoger del banco de datos
Aids2 la variable Sex, la cual hace referencia al sexo de la persona que hizo parte
del estudio correspondiente a pacientes diagnosticados con AIDS en el año 1991
(Australia) con lo cual si realizamos la tabla de frecuencias para las categorías de
Masculino y femenino tendríamos:

Tabla 1.1

Una vez realizada nuestra tabla de frecuencias, para poder un análisis mas intuitivo
de manera gráfica, procedemos a realizar nuestro diagrama de barras y diagrama
circular.
Diagrama de barras 1.1

Diagrama circular 1.1


Como podemos ver a pesar de que ambos diagramas nos ofrecen una información
realmente parecida, siempre se ha dicho que los diagramas de barras son mejores para
realizar interpretaciones, sin embargo, mientras la cantidad de categorías no sea tan alta
tanto el diagrama circular como el de barras sirven de la misma forma para concluir
información del banco de datos seleccionado, y por los cuales podemos interpretar:

• La enfermedad de AIDS presenta una clara tendencia a ser más común en el genero
masculino que en el femenino.
• Tan solo el 3% de la población de estudio contagiada por AIDS resulto ser del género
femenino, lo cual demuestra que dicho sector de la población es más resistente al
virus, mas no inmune puesto que si hubo un subgrupo que tuvo diagnóstico positivo.

* Para la segunda variable puesta en análisis del banco de datos AIDS vamos a analizar
state que hace referencia a la zona de origen de los pacientes que hicieron parte del estudio
para la enfermedad de AIDS entre las cuales se encuentran 4 categorías que son las
siguientes:

• VIC= victoria
• QLD= Queensland
• NWS=New South Wales
• Others= incluye WA, SA, NT y TAS

Con lo cual haciendo el conteo por cada categoría tendríamos generado la siguiente tabla
de frecuencias:

Tabla 1.2

Una vez realizada la tabla de frecuencias podremos obtener fácilmente el diagrama de


barras y diagrama circular, con lo cuales desarrollaremos el análisis grafico pertinente:
Diagrama de barras1.2

Diagrama circular1.2
De los gráficos anterior y la tabla de frecuencias se pueden concluir las siguientes ideas:

• El lugar donde se presenta mayor concentración de contagios por el virus AIDS se


encuentra en New South Wales, ya que como se puede observar presenta un 62%
de la población total estudiada
• A pesar de que la categoría Others no es la mas pequeña dentro del análisis, si
entendemos que dicha categoría agrupa 4 estados de Australia, podemos
comprender que en cada uno de dichos estados hay una tasa de contagio
demasiado baja.
• El estado de Queensland es el que presenta una menor tasa de contagio, solo
contando con un 8% del total de la población analizada, que a pesar de que ese 8%
hace referencia a 226 individuos, si es muy insignificante en cuanto a estudio
epidemiológico se refiere.

• El estado de Victoria a pesar de que no llega al nivel de New South Wales en cuanto
a contagios se refiere, si presenta una población mucho mas relevante que las otras
2 categorías restantes, puesto que ni sumando Queensland y Others, alcanza el 20%
de la población estudiada que presenta Victoria, por lo cual se debe interpretar como
el segundo foco de contagios.

Variables conjuntas:

• Para realizar el estudio correspondiente a dos variables discretas de manera


conjunta vamos a seleccionar las variables Sex y Status, donde la variable Status
hace referencia al estado del paciente a la hora de finalizar los estudios
correspondientes en estos diagnósticos, con lo cual tenemos 2 categorías (“D” que
es fallecido y “A” que es vivo); realizando la tabla de frecuencias correspondientes
entre estas 2 variables tenemos:

Tabla 1.3
Generando con dicha tabla el diagrama con respecto a las variables sexo y estatus
tenemos:

Mujeres

Hombres

Diagrama de barras 1.3

A partir de la tabla de frecuencias y el diagrama de barras 1.3 podemos realizar las


siguientes interpretaciones sobre el banco de datos:

• A pesar de que la población femenina fue la menos afecta por el AIDS, como se
puede ver en los datos la tasa de supervivencia para aquellas que llegan a
contagiarse es inferior a la tasa de muerte, puesto que de las 89 mujeres que
resultaron contagiadas en este estudio, 36 sobrevivieron es decir el 59% del total de
mujeres fallecieron.
• El genero masculino es el mas afectado por el AIDS como se había concluido en el
análisis individual de la variable Sexo, pero en conjunto con la variable estatus
también se puede concluir que es el mas afectado debido a que la tasa de mortalidad
en el genero masculino es del 62% mayor al genero femenino que es un 59% y esto
se puede comprobar gracias a que de los 2754 hombres que hicieron parte del
estudio solo sobrevivieron 1046 que corresponde a un 38 de la población total
masculina.
Variable continua:

• Para este estudio vamos a elegir la variable Edad puesto que como variable continua
no es posible clasificarlas en categorías, es debido a esto que es necesario agruparla
en rangos, para ello no vamos a utilizar la formula general para encontrar el numero
de intervalos K definida de la siguiente forma:

𝐾 = √𝑛
• Donde n es el total de muestras, que en este caso serian 2843 dando un total de 53
intervalos, un numero de intervalos que para una variable como la edad se puede
ver como algo bastante excesivo, por lo cual vamos a tomar el numero de intervalos
que nos propone el programa R y que tiene más sentido para el estudio que nos
proponemos realizar, por lo cual vamos a definir K como:

𝐾 = 17

• Y por ende la longitud de cada intervalo estará definida de la siguiente forma:

𝑉𝑎𝑙𝑜𝑟 𝑀𝑎𝑥𝑖𝑚𝑜 − 𝑉𝑎𝑙𝑜𝑟 𝑚𝑖𝑛𝑖𝑚𝑜 (85 − 0)


𝐿= = =5
𝐾 17

• Como podemos ver el valor mínimo de edad que encontramos en el banco de


datos es cero, esto posiblemente es debido a que dichos sujetos de prueba son
recién nacidos.

Una vez establecido el valor de L, podemos generar nuestros intervalos y establecer


el numero (ni) de cada uno, donde el programa R nos facilita dicho trabajo quedando
de la siguiente forma:

Donde Counts nos indica la cantidad para cada intervalo, organizando dicha
información en una tabla tenemos:
Tabla de frecuencias1.4

Donde en la parte derecha tenemos es representado el número del intervalo, que vienen
definidos de la siguiente forma:

numero Intervalos
1 [0-5)
2 [5-10)
3 [10-15)
4 [15-20)
5 [20-25)
6 [25-30)
7 [30-35)
8 [35-40)
9 [40-45)
10 [45-50)
11 [50-55)
12 [55-60)
13 [60-65)
14 [65-70)
15 [70-75)
16 [75-80)
17 [80-85]

Generando el histograma de frecuencia tenemos:


Histograma de frecuencia

Ahora realizando el histograma con respecto a la densidad, que R también nos la


proporciona como se ve a continuación:

Histograma de densidad
Finalmente, antes de empezar la interpretación de los resultados, podemos también generar
lo que sería el polígono de frecuencias, y la ojiva, en este caso el primero se genera de unir
la grafica con los valores intermedios de cada intervalo, quedando de la siguiente forma:

La ojiva vendría siendo la gráfica de los Hi con respecto a cada intervalo quedando de la
siguiente forma:
Conclusiones: con respecto al histograma y el polígono de frecuencias se puede observar
que se nos representa básicamente la misma información por lo tanto a partir de
cualquiera de estos podemos concluir:

• Se puede observar que la mayor parte de la población que se concentro en el


estudio de personas contagiadas por AIDS estuvo entre los rangos de 25 a 45 años,
esto indica que el AIDS es más tendiente entre adultos, de edades intermedias.
• Es posible interpretar que el AIDS es una enfermedad que no tiende ha afectar gente
muy joven o longeva puesto que es en estos rangos donde se concentran la menor
cantidad de contagiados.
• El intervalo con mayor índice de contagios estuvo entre los 30 y 35 años.
• A partir de la Ojiva se puede observar como se vio el crecimiento de los contagiados
en ciertos rangos de edad debido a la pendiente que se observa en la gráfica, lo cual
afirma la primera conclusión, debido a que la mayor pendiente se encuentra definida
entre los intervalos 5 y 10.

Parte 2 punto 1

Enunciado:

Describa en qué consiste el banco de datos survey y responda cada una de las preguntas:

1- Número de hombres y número de mujeres que fueron entrevistados.

2- Porcentaje de estudiantes que no hace ningún tipo de ejercicio.

3- Se puede afirmar que la mayoría de estudiantes nunca ha fumado?

4- Qué se puede decir de la variable edad en relación al hábito de fumar

5- ¿Quiénes fuman más, los hombres o las mujeres?

6- Hay estudiantes que escriben con la mano izquierda?

7- Escoja una variable DISCRETA de la cual no se haya preguntado nada y


analícela.

Solución:

• Para iniciar vamos a empezar describiendo el bando de datos Survey, el cual


corresponde a la información resultante de una encuesta realizada a 236
estudiantes de estadística de la universidad de adelaide con respecto a algunos
hábitos y características personales.
Para responder a la primera pregunta del cuestionario vamos a realizar un análisis
de la variable Sex que es el género de la población estudiada, quedando nuestra
tabla de frecuencias específicamente en ni:

Por lo cual podemos ver que la cantidad de hombres y mujeres es igual 118 para
cada uno.

• Para la pregunta numero 2 vamos enfocarnos en la variable Exer que representa la


frecuencia con la cual los estudiantes realizan actividad física a la semana (“freq”-
frecuentemente,” None” nada de tiempo,” some” algo de tiempo); en este caso
vamos a representar la información con el diagrama circular:

Con lo cual podemos concluir que las personas que no hacen nada de ejercicio en
la semana son alrededor del 10% de la población de estudio.
• Para la tercera pregunta tenemos que analizar la variable Smoke y para ello vamos
a representar mediante un diagrama de barras quedando de la siguiente forma:

En la cual se puede observar claramente que la mayor parte de la población


estudiada nunca ha fumado.

• Para la cuarta pregunta, es decir la interpretación de la variable edad con respecto


al habito de fumar, vamos a utilizar la herramienta de boxplot que nos ofrece el
entorno de R, que nos permite realizar una interpretación general, de variables
discretas con continuas. Para lo cual tenemos la siguiente gráfica:
Donde podemos realizar varios conclusiones, empezando porque podemos
observar que la mayor parte de las personas que fuman sin importar su frecuencia
son personas relativamente jóvenes entre edades de 17 a 30 años, además que
aquellos de edades avanzadas tienen a no fumar, como se puede observar en la
gran dispersión de datos que se presentan para la opción de nunca en el habito de
fumar, sin embargo a rasgos generales se puede concluir que aquellos que fuman
de forma regular u ocasional son personas menores a los 20 años.

• Para el quinto enunciado, debemos analizar las variables genero (Sex) y fumar
(Smoke) de forma simultánea, por lo cual representando los datos tanto en tabla de
frecuencia como en diagrama de barras tenemos:

Realizando el diagrama de barras con la información anterior tendríamos:

Mujer

Hombre

Como podemos observar los hombres son mas tendientes a fumar que las mujeres,
empezando por que los hombres son superiores en las categorías regular, ocasional
y frecuente, sumado también a que las mujeres son superiores en la categoría Never
que corresponde a no fumar.
• Para la pregunta 6 vamos enfocarnos en la variable W.Hnd que indica cual es la
mano usada por el estudiante para escribir, y con la cual podemos comprobar si en
la población estudio hay estudiantes que utilicen la izquierda, para ello vamos a
representarlos resultados por medio de un diagrama de barras:

Donde podemos observar que si se presenta una pequeña tasa de la poblacion estudiada
que es zurda, siendo en total unas 18 personas.

• Pregunta 7

Para este caso vamos a seleccionar como variable de estudio Clap. Que es un indice que
busca interpretar cual es el habito para aplaudir de las personas, es decir habia que lado
tienden a aplaudir, de forma involuntaria, ya sea a la derecha, izquierda o de forma
centrada, para ellos tenemos las siguientes categorias:

Left---------------- “ aplaudir hacia el lado izquierdo”


Right-------------“aplaudir hacia el lado derecho”
Neither----------“aplaudir de forma centrada”

La informacion la encontramos organizada en la siguiente tabla de frecuecia:


Para interpretar los datos de manera mas grafica vamos a utilizar diagrama de barras:

Como se puede observar existe una mayor tendencia de la población a aplaudir


hacia el lado derecho, correspondiendo a mas del 50% de la población estudiada,
específicamente el 62% mientras que el lado izquierdo es el menos habitual siendo
únicamente un 16% de la muestra estudiada.
Punto 4 (Enunciado):

Leer el banco de datos Cafe_Nicaragua en el programa R.


El banco de datos contiene 1.212 tipos de café con medidas para 19 variables.
Una variable de interés es la puntuación que se le da a cada tipo de café, a saber
a la variable PUNTAJE.FINAL.
1. Para PUNTAJE.FINAL, aplique todo lo visto para variables continuas. (Tabla de
Frecuencias, polígono, ojiva, boxplot, todas las medidas de tendencia central,
Dispersión, de Forma y los Cuartiles). Interprete.
2. Es correcto afirmar que el 90% de los tipos de café obtuvieron un puntaje inferior
a 86.4?. Justifique.
3. Cuál fue el año en que los tipos de café obtuvieron los mayores puntajes? y en
qué año los menores puntajes?. Sustentar siempre con un gráfico.
4. Cuál fue el Departamento que obtuvo los mejores puntajes?
5. Escoja una variable continua, si no sabe el significado, puede averiguar. Presente
dos conclusiones de esa variable que considere relevantes. Si es necesario la
puede asociar con variables discretas.

Solución punto 4:

• Punto 4.1:

- Para empezar con la interpretación de la variable Puntaje final vamos a realizar


como bien explica el enunciado los siguientes esquemas y tablas básicas como
son la tabla de frecuencia, polígono, ojiva, histograma y a su vez las medidas de
tendencia central que podemos observar a continuación:

Para esta variable tenemos asociada la siguiente tabla de frecuencias:

Donde los intervalos asociados serian:


Número del intervalo Intervalo
1 [70-72)
2 [72-74)
3 [74-76)
4 [76-78)
5 [78-80)
6 [80-82)
7 [82-84)
8 [84-86)
9 [86-88)
10 [88-90)
11 [90-92)
12 [92-94)

A partir de aquí podemos general tanto el histograma de frecuencia como de


densidad que sigue:

Con respecto a la densidad tenemos:


Ahora realizando el polígono relacionando los puntos medios de cada intervalo
nos quedaría:
La representación de la Ojiva seria la siguiente:

Con respecto a la tabla de frecuencia y a los gráficos anteriores podemos realizar las
siguientes conclusiones:

• Podemos observar que la mayor parte de los puntajes se encuentran concentrados


en valores que se encuentran en el intervalo de 80-82
• Podemos observar gracias a la ojiva que los intervalos 1, 2, 10, 11 y 12 son los que
menos concentración de ejemplares tienen, esto siendo claramente observable ya
que presentan una pendiendo relativamente baja con respecto a los demás
intervalos que se muestran en la gráfica.
• Podemos observar que el intervalo 12 es decir el que cubre el rango entre 92-94
es el que menos ejemplares o frecuencia absoluta posee solo siendo 1.

Ahora pasando a las medidas de tendencia centra lo que seria la moda, media y mediana,
para una variable continua tendríamos lo siguiente:

• Moda: Para el caso de la moda podemos identificarla claramente analizando cual es


el dato que mas se repite dentro del análisis, para ello vamos a realizar una
frecuencia absoluta de todos los datos, para lo cual el programa R nos muestra:
Aquí podemos observar que el puntaje mas repetido fue 81 con un total de 77
registros, además también coincide con el intervalo con mayor frecuencia del
análisis que es el intervalo 6 que comprende de 80-82, con una frecuencia absoluta
de 317.
• Mediana: Para esa medida de tendencia como son una gran cantidad de datos los
que están siendo estudiados, vamos a utilizar en R la herramienta boxplot y quantile,
que nos permiten conocer claramente el valor de la mediana, con lo cual tendríamos:

(Herramienta quantile)

• Aquí tendríamos que el valor de la mediana es 81.4 esto debido a que quantile nos
permite conocer cual es el dato ubicado de forma organizada en un sector dado en
este caso la mediana sería el dato que se encuentra en la posición intermedia de mi
conjunto de datos, por eso el 50%, y si queremos comprobarlo podemos hacerlo
mediante la herramienta boxplot que nos mostraría el siguiente gráfico:
Donde la raya negra estaría señalando justo el valor de la mediana de mi conjunto
de datos, y como podemos observar si concuerda con 81,4.

• Esto en rasgos generales nos permite concluir que, organizando los datos, hasta
el valor 81,4 tenemos el 50% de los datos evaluados.

Media: El calculo de la mediana en este caso como todos los datos tienen el mismo peso,
tendremos que la media seria:

𝑠𝑢𝑚𝑎 𝑑𝑒 𝑙𝑜𝑠 𝑑𝑎𝑡𝑜𝑠


𝑚𝑒𝑑𝑖𝑎 =
𝑇𝑜𝑡𝑎𝑙 𝑑𝑒 𝑑𝑎𝑡𝑜𝑠

R nos permite saberlo de forma muy fácil mediante la herramienta mean con la cual
tendríamos que el valor serio:
Observando de manera general estas medidas de tendencia podemos concluir:

• Que el banco de datos analizado Corresponde a un banco Asimétrico hacia la


derecha, esto debido claramente a que hay valores extremos relativamente altos que
dispersaron los valores de la media, siendo esta algo superior tanto a la moda como
a la mediana, que no se ven afectadas en gran mayoría por estos valores extremos.

Medidas de dispersión: Para este caso con ayuda del R tendríamos los siguientes valores
de Varianza, desviación estándar y coeficiente de variación:

Como podemos observar el coeficiente de variación nos genero un valor bastante bajo,
tendiendo en cuenta que a rasgos generales se considera bajo un coeficiente de variación
inferior al 30% y en este caso nos genero un valor de apenas el 4.2 %, sumado también a la
desviación estándar, de 3.44 que también resulta en una cantidad bastante pequeña, se
puede concluir fácilmente que la gran mayoría de los datos, se encuentran cercanos al
promedio general, es decir no hay una elevada desviación, sin embargo como se pudo
observar con las medidas de tendencia y el boxplot generado anteriormente, existen valores
en los extremos que si se encuentran bastante distantes de los valores mas comunes, sin
embargo no representan una gran cantidad, debido a que no tuvimos una desviación muy
elevada.

Para este punto podemos realizar de manera general como estarían organizado en su
mayoría los datos, esto gracias al valor de la media y la desviación Estándar, quedando
nuestro intervalo de datos aproximado como:

78.3 81.75 85.166


Punto 4.2

• sí es correcto afirmar que el 90% de los tipos de café tuvieron un puntaje inferior a
86.4 esto debido a que como se puede observar en la tabla de frecuencia realizada
y también la ojiva, prácticamente el 90% siendo precisos el 89% de las muestras se
encuentran concentradas hasta el intervalo 8 que corresponde el intervalo entre
84-86, por lo cual efectivamente son valores inferiores a 86.4

Punto 4.3

• Para comparar la variable año y puntaje final, vamos a utilizar la herramienta


boxplot que nos proporciona el R, con la cual tenemos el siguiente gráfico:
Para interpretar la respuesta que nos están pidiendo en el enunciado, hay que aclarar
que la idea de la pregunta es en cual año se obtuvieron los mayores resultados, de
manera general no cual año hubo la mayor cantidad de puntajes grandes,
independientemente de la cantidad de la desviación y los valores puntajes bajos que
pudiera tener, por lo cual acá no tenemos en cuenta cuantos datos se manejaron
cada año, sino como fue el comportamiento general de las muestras estudiadas en
cada año, por lo cual nos basta con el grafico proporcionado con el boxplot, de aquí
podemos concluir lo siguiente:

o El año con mayores y mejores resultados en general, fue el 2008 debido a


que su mediana es la mas alta, presenta una desviación bastante pequeña
en cuanto a los datos inferiores a la mediana, y por encima de su mediana
presenta un rango de valores que pudieron llegar hasta 95
aproximadamente, siendo los mayores datos entre todos los años
estudiados.

Punto 4.4

• Para realizar el análisis entre la variable departamento y la variable puntaje final


vamos a utilizar la herramienta Boxplot, con la cual podemos observar el siguiente
gráfico:

Para general una respuesta concisa debemos tener en cuenta que no nos
están pregunta cual departamento tiene la mayor cantidad de datos
elevados sino cual departamento en general tuvo los mejores resultados,
es decir se puede dar el caso que un departamento tenga varios datos
elevados pero a su vez presente varios negativos o por debajo de la
media de su departamento, por lo tanto ese no será el mejor puesto que
tiene muchos tanto por encima como por debajo, debido a su desviación
es decir que en un contexto global no fue el mejor de todos. Sabiendo
esto podemos descartar tanto la opción de Nueva Segovia, Jinotega y
Matagalpa, puesto que presentan desviaciones altas y a pesar de que
puedan tener mayor cantidad de datos positivos también tienden a tener
bastantes datos de menor nivel con respecto a su mediana, en el caso de
Madriz y Esteli, no tienen una cantidad de muestras alta si mantienen un
nivel alto tanto de mediana y un nivel bajo de desviación.
Para seleccionar uno vamos a aclarar que la diferencia de mediana no es
bastante grande por lo cual no seria un factor muy decisivo sin embargo,
la desviación si es la clave para elegir, puesto que como podemos
observar en Esteli sus valores tienen un limite superior muy pequeño, es
decir no hay valores muy por encima de la mediana, llegando solo hasta
86, mientras que madriz tienen valores que por debajo de la media no
decaen mucho, pero por encima de su media pueden llegar hasta mas
de 90, por lo tanto Madriz en rasgos generales es el departamento con
mejores puntajes.

Punto 4.5

• Para este punto vamos a elegir la variable continúa llamada Taza, que a rasgos
generales describe a manera de puntaje, como es el embacé del Café, hablando
básicamente de su estética a simple vista, con lo cual realizando un histograma
tendríamos:
A partir del anterior grafico podemos realizar las siguientes conclusiones:

o La gran mayoría de los datos se centraron en el cuarto intervalo siendo una


calificación entre 5.5 y 6 que seria un valor demasiado promedio y estándar.
o Calificaciones superiores a 7 solo se concentraron en 2 intervalos de datos,
que serian [7.5-8) y [9.5-10) donde la menor de concentración en cuanto a
notas elevadas se refiere se encontró en el segundo intervalo mencionado.
o No se presentaron calificaciones inferiores a 4 dentro de este estudio, es
decir que prácticamente todas las muestras tuvieron un diseño de embacé
como mínimo estándar, entendiendo que la nota máxima era un 10.

Punto 5 (Enunciado)

Descargar el banco de datos (Datos reales Enfermedad Cardiovascular), y a partir de ahí


realizar los siguientes puntos:

1) Realizar un breve informe de la variable IMC, en relación al género y al intervalo de


edad. Incluya el significado de IMC desde el punto de vista biológico.
2) escoja otra variable del banco de datos y analícela en relación al género y al intervalo
de edad.

Punto 5 (Solución):

• Punto 5.1:

Para poder realizar el análisis de la variable IMC, con respecto al género y al


intervalo de edad, primero debemos entender a que se refiere este estudio con
IMC:

- Índice de Masa corporal (IMC): El índice de masa corporal es un dato que se


obtiene teniendo en cuenta dos características de las personas que son tanto el
peso como la estatura, este número obtenido permite tener una idea muy
cercana al % de grasa corporal que posee el individuo, para poder analizar
problemáticas relacionadas con su estado físico y salud principalmente,
dependiendo del valor del IMC se clasifican en distintas categorías como se
puede observar a continuación:

Una vez comprendido lo anterior ya podemos pasar a realizar el análisis


correspondiente de dicha variable, vamos a estudiar su comportamiento con
respecto a la variable edad, para ello vamos estudiar el siguiente grafico realizado
en el programa R:

También podría gustarte