Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Punto 1
Cuestionario:
Solución:
• Para el análisis de nuestra primera variable vamos a escoger del banco de datos
Aids2 la variable Sex, la cual hace referencia al sexo de la persona que hizo parte
del estudio correspondiente a pacientes diagnosticados con AIDS en el año 1991
(Australia) con lo cual si realizamos la tabla de frecuencias para las categorías de
Masculino y femenino tendríamos:
Tabla 1.1
Una vez realizada nuestra tabla de frecuencias, para poder un análisis mas intuitivo
de manera gráfica, procedemos a realizar nuestro diagrama de barras y diagrama
circular.
Diagrama de barras 1.1
• La enfermedad de AIDS presenta una clara tendencia a ser más común en el genero
masculino que en el femenino.
• Tan solo el 3% de la población de estudio contagiada por AIDS resulto ser del género
femenino, lo cual demuestra que dicho sector de la población es más resistente al
virus, mas no inmune puesto que si hubo un subgrupo que tuvo diagnóstico positivo.
* Para la segunda variable puesta en análisis del banco de datos AIDS vamos a analizar
state que hace referencia a la zona de origen de los pacientes que hicieron parte del estudio
para la enfermedad de AIDS entre las cuales se encuentran 4 categorías que son las
siguientes:
• VIC= victoria
• QLD= Queensland
• NWS=New South Wales
• Others= incluye WA, SA, NT y TAS
Con lo cual haciendo el conteo por cada categoría tendríamos generado la siguiente tabla
de frecuencias:
Tabla 1.2
Diagrama circular1.2
De los gráficos anterior y la tabla de frecuencias se pueden concluir las siguientes ideas:
• El estado de Victoria a pesar de que no llega al nivel de New South Wales en cuanto
a contagios se refiere, si presenta una población mucho mas relevante que las otras
2 categorías restantes, puesto que ni sumando Queensland y Others, alcanza el 20%
de la población estudiada que presenta Victoria, por lo cual se debe interpretar como
el segundo foco de contagios.
Variables conjuntas:
Tabla 1.3
Generando con dicha tabla el diagrama con respecto a las variables sexo y estatus
tenemos:
Mujeres
Hombres
• A pesar de que la población femenina fue la menos afecta por el AIDS, como se
puede ver en los datos la tasa de supervivencia para aquellas que llegan a
contagiarse es inferior a la tasa de muerte, puesto que de las 89 mujeres que
resultaron contagiadas en este estudio, 36 sobrevivieron es decir el 59% del total de
mujeres fallecieron.
• El genero masculino es el mas afectado por el AIDS como se había concluido en el
análisis individual de la variable Sexo, pero en conjunto con la variable estatus
también se puede concluir que es el mas afectado debido a que la tasa de mortalidad
en el genero masculino es del 62% mayor al genero femenino que es un 59% y esto
se puede comprobar gracias a que de los 2754 hombres que hicieron parte del
estudio solo sobrevivieron 1046 que corresponde a un 38 de la población total
masculina.
Variable continua:
• Para este estudio vamos a elegir la variable Edad puesto que como variable continua
no es posible clasificarlas en categorías, es debido a esto que es necesario agruparla
en rangos, para ello no vamos a utilizar la formula general para encontrar el numero
de intervalos K definida de la siguiente forma:
𝐾 = √𝑛
• Donde n es el total de muestras, que en este caso serian 2843 dando un total de 53
intervalos, un numero de intervalos que para una variable como la edad se puede
ver como algo bastante excesivo, por lo cual vamos a tomar el numero de intervalos
que nos propone el programa R y que tiene más sentido para el estudio que nos
proponemos realizar, por lo cual vamos a definir K como:
𝐾 = 17
Donde Counts nos indica la cantidad para cada intervalo, organizando dicha
información en una tabla tenemos:
Tabla de frecuencias1.4
Donde en la parte derecha tenemos es representado el número del intervalo, que vienen
definidos de la siguiente forma:
numero Intervalos
1 [0-5)
2 [5-10)
3 [10-15)
4 [15-20)
5 [20-25)
6 [25-30)
7 [30-35)
8 [35-40)
9 [40-45)
10 [45-50)
11 [50-55)
12 [55-60)
13 [60-65)
14 [65-70)
15 [70-75)
16 [75-80)
17 [80-85]
Histograma de densidad
Finalmente, antes de empezar la interpretación de los resultados, podemos también generar
lo que sería el polígono de frecuencias, y la ojiva, en este caso el primero se genera de unir
la grafica con los valores intermedios de cada intervalo, quedando de la siguiente forma:
La ojiva vendría siendo la gráfica de los Hi con respecto a cada intervalo quedando de la
siguiente forma:
Conclusiones: con respecto al histograma y el polígono de frecuencias se puede observar
que se nos representa básicamente la misma información por lo tanto a partir de
cualquiera de estos podemos concluir:
Parte 2 punto 1
Enunciado:
Describa en qué consiste el banco de datos survey y responda cada una de las preguntas:
Solución:
Por lo cual podemos ver que la cantidad de hombres y mujeres es igual 118 para
cada uno.
Con lo cual podemos concluir que las personas que no hacen nada de ejercicio en
la semana son alrededor del 10% de la población de estudio.
• Para la tercera pregunta tenemos que analizar la variable Smoke y para ello vamos
a representar mediante un diagrama de barras quedando de la siguiente forma:
• Para el quinto enunciado, debemos analizar las variables genero (Sex) y fumar
(Smoke) de forma simultánea, por lo cual representando los datos tanto en tabla de
frecuencia como en diagrama de barras tenemos:
Mujer
Hombre
Como podemos observar los hombres son mas tendientes a fumar que las mujeres,
empezando por que los hombres son superiores en las categorías regular, ocasional
y frecuente, sumado también a que las mujeres son superiores en la categoría Never
que corresponde a no fumar.
• Para la pregunta 6 vamos enfocarnos en la variable W.Hnd que indica cual es la
mano usada por el estudiante para escribir, y con la cual podemos comprobar si en
la población estudio hay estudiantes que utilicen la izquierda, para ello vamos a
representarlos resultados por medio de un diagrama de barras:
Donde podemos observar que si se presenta una pequeña tasa de la poblacion estudiada
que es zurda, siendo en total unas 18 personas.
• Pregunta 7
Para este caso vamos a seleccionar como variable de estudio Clap. Que es un indice que
busca interpretar cual es el habito para aplaudir de las personas, es decir habia que lado
tienden a aplaudir, de forma involuntaria, ya sea a la derecha, izquierda o de forma
centrada, para ellos tenemos las siguientes categorias:
Solución punto 4:
• Punto 4.1:
Con respecto a la tabla de frecuencia y a los gráficos anteriores podemos realizar las
siguientes conclusiones:
Ahora pasando a las medidas de tendencia centra lo que seria la moda, media y mediana,
para una variable continua tendríamos lo siguiente:
(Herramienta quantile)
• Aquí tendríamos que el valor de la mediana es 81.4 esto debido a que quantile nos
permite conocer cual es el dato ubicado de forma organizada en un sector dado en
este caso la mediana sería el dato que se encuentra en la posición intermedia de mi
conjunto de datos, por eso el 50%, y si queremos comprobarlo podemos hacerlo
mediante la herramienta boxplot que nos mostraría el siguiente gráfico:
Donde la raya negra estaría señalando justo el valor de la mediana de mi conjunto
de datos, y como podemos observar si concuerda con 81,4.
• Esto en rasgos generales nos permite concluir que, organizando los datos, hasta
el valor 81,4 tenemos el 50% de los datos evaluados.
Media: El calculo de la mediana en este caso como todos los datos tienen el mismo peso,
tendremos que la media seria:
R nos permite saberlo de forma muy fácil mediante la herramienta mean con la cual
tendríamos que el valor serio:
Observando de manera general estas medidas de tendencia podemos concluir:
Medidas de dispersión: Para este caso con ayuda del R tendríamos los siguientes valores
de Varianza, desviación estándar y coeficiente de variación:
Como podemos observar el coeficiente de variación nos genero un valor bastante bajo,
tendiendo en cuenta que a rasgos generales se considera bajo un coeficiente de variación
inferior al 30% y en este caso nos genero un valor de apenas el 4.2 %, sumado también a la
desviación estándar, de 3.44 que también resulta en una cantidad bastante pequeña, se
puede concluir fácilmente que la gran mayoría de los datos, se encuentran cercanos al
promedio general, es decir no hay una elevada desviación, sin embargo como se pudo
observar con las medidas de tendencia y el boxplot generado anteriormente, existen valores
en los extremos que si se encuentran bastante distantes de los valores mas comunes, sin
embargo no representan una gran cantidad, debido a que no tuvimos una desviación muy
elevada.
Para este punto podemos realizar de manera general como estarían organizado en su
mayoría los datos, esto gracias al valor de la media y la desviación Estándar, quedando
nuestro intervalo de datos aproximado como:
• sí es correcto afirmar que el 90% de los tipos de café tuvieron un puntaje inferior a
86.4 esto debido a que como se puede observar en la tabla de frecuencia realizada
y también la ojiva, prácticamente el 90% siendo precisos el 89% de las muestras se
encuentran concentradas hasta el intervalo 8 que corresponde el intervalo entre
84-86, por lo cual efectivamente son valores inferiores a 86.4
Punto 4.3
Punto 4.4
Para general una respuesta concisa debemos tener en cuenta que no nos
están pregunta cual departamento tiene la mayor cantidad de datos
elevados sino cual departamento en general tuvo los mejores resultados,
es decir se puede dar el caso que un departamento tenga varios datos
elevados pero a su vez presente varios negativos o por debajo de la
media de su departamento, por lo tanto ese no será el mejor puesto que
tiene muchos tanto por encima como por debajo, debido a su desviación
es decir que en un contexto global no fue el mejor de todos. Sabiendo
esto podemos descartar tanto la opción de Nueva Segovia, Jinotega y
Matagalpa, puesto que presentan desviaciones altas y a pesar de que
puedan tener mayor cantidad de datos positivos también tienden a tener
bastantes datos de menor nivel con respecto a su mediana, en el caso de
Madriz y Esteli, no tienen una cantidad de muestras alta si mantienen un
nivel alto tanto de mediana y un nivel bajo de desviación.
Para seleccionar uno vamos a aclarar que la diferencia de mediana no es
bastante grande por lo cual no seria un factor muy decisivo sin embargo,
la desviación si es la clave para elegir, puesto que como podemos
observar en Esteli sus valores tienen un limite superior muy pequeño, es
decir no hay valores muy por encima de la mediana, llegando solo hasta
86, mientras que madriz tienen valores que por debajo de la media no
decaen mucho, pero por encima de su media pueden llegar hasta mas
de 90, por lo tanto Madriz en rasgos generales es el departamento con
mejores puntajes.
Punto 4.5
• Para este punto vamos a elegir la variable continúa llamada Taza, que a rasgos
generales describe a manera de puntaje, como es el embacé del Café, hablando
básicamente de su estética a simple vista, con lo cual realizando un histograma
tendríamos:
A partir del anterior grafico podemos realizar las siguientes conclusiones:
Punto 5 (Enunciado)
Punto 5 (Solución):
• Punto 5.1: