Está en la página 1de 10

1

LABORATORIO I

JULIANA GOMEZ HORTA


MARÍA CAMILA BURGOS CUBILLOS
MARIA JOSE CASTRO TRIANA
JUAN FELIPE ROA CUBILLOS

DOCENTE
EMILIANO VAGNONI MONDRAGON

POLITECNICO GRANCOLOMBIANO
ESTRUCTURA DE DATOS
BOGOTA D.C
2023
2

Usted hace parte de una entidad del gobierno preocupada por el consumo de cigarrillos y le han
entregado la base de datos “BD Cáncer” para que tome decisiones sobre su aproximación desde
el punto de impuestos y salud respecto a posibles casos de cáncer.

1) Encuentre las medidas de tendencia Central de sus variables y comente.


Variable Media Mediana Moda
Alcohol Diario (cl) 77,18 76,50 62
Tabaco Diario (Cigarrillos) 19,67 16 3
Casos De Cáncer 2,27 1 0
Cantidad Controles 11,08 6 1

En la mediana de los casos de cáncer, al ver que su dato medio es 1 podría parecer alentador, pero
hay que recordar que solo la mitad de las personas podrían no tener cáncer o solo un caso, el resto
ha tenido al menos uno, de nuevo la moda podría confundir, aunque 0 sea el caso más repetido,
no significa que sea el de la mayoría.
La mediana de datos de alcohol y tabaco puede considerarse alta, debe analizarse si el alto
consumo de estos productos afecta en si una persona tiene o no cáncer y que tantos casos ha
tenido.
2) Enuncie sus medidas de dispersión de sus variables y comente.
Desviación Coeficiente
Variable Rango Variancia
Estándar Variación
Alcohol Diario (cl) 158 1939,69 44,04 0,57
Tabaco Diario (Cigarrillos) 50 183,33 13,54 0,69
Casos De Cáncer 17 7,58 2,75 1,21
Cantidad Controles 59 161,87 12,72 1,15
En el caso de casos de cáncer, teniendo conocimiento de que su valor mínimo es 0, podemos
notar que, acorde con el rango su valor máximo es 17, un dato que parece ser bastante alto
especialmente si se le compara con los otros valores de la tabla, lo cual podría indicarnos que este
dato fue ingresado por error.
El coeficiente de variación de todas las variables es bastante alto, por lo tanto los datos deben
estar muy dispersos, especialmente en casos de cáncer y en cantidad de controles.
3) Encuentre las tablas de frecuencia absoluta, absoluta acumulada, frecuencia relativa y
frecuencia relativa acumulada para las variables Grupo Edad y Ejercicio por aparte.
Comente.
Grupo Edades Frecuencia Frecuencia Frecuencia Frecuencia
3

Absoluta Absoluta Relativa Relativa


Acumulada Acumulada
25-34 15 15 17% 17%
35-44 15 30 17% 34%
45-54 16 46 18% 52%
55-64 16 62 18% 70%
65-74 15 77 17% 88%
75+ 11 88 13% 100%
Total 88 100%

Podemos notar que quien realizó la investigación buscó que en cada rango de edad se
estudiaran cantidades cercanas de personas, el número de personas por rango es muy
similar entre ellas, a excepción quienes son mayores de 75 años, puede que por temas de
mortalidad o de que no se encuentren fácilmente fuera de sus hogares, no encontraran más
personas en estas edades.
Frecuencia Frecuencia
Frecuencia Frecuencia
Ejercicio Absoluta Relativa
Absoluta Relativa
Acumulada Acumulada
No 51 51 58% 58%
Si 37 88 42% 100%
Total 88 100%
Aunque la diferencia entre personas que hacen y no ejercicio no es muy alta, que el 42%
de personas no hagan ejercicio puede ser preocupante, ya que no hacer ejercicio puede
implicar muchas enfermedades, y si pasamos este porcentaje y lo medimos para todo el
país, el gran número de personas que podrían sufrir las consecuencias de la falta de
ejercicio podría saturar los centros de salud del país, requiriendo más médicos, enfermeras
y en general personal que pueda trabajar allí, lo cual se traduce a más paga de salarios,
sitios, instrumentos y máquinas de salud.
Teniendo en cuenta lo anterior, sería conveniente añadir más impuestos a la salud para
contrarrestar esto.
4) Encuentre la probabilidad de que una persona escogida al azar en su estudio tenga entre
25 y 34 años. Comente.
Cantidad de personas en el rango de edad. 15
Cantidad de personas estudiadas. 88
Probabilidad 17%
4

Esto ya que:

𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑐𝑎𝑠𝑜𝑠 𝑓𝑎𝑣𝑜𝑟𝑎𝑏𝑙𝑒𝑠


𝑃 (𝐴 ) =
𝑛ú𝑚𝑒𝑟𝑜 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑐𝑎𝑠𝑜𝑠 𝑝𝑜𝑠𝑖𝑏𝑙𝑒𝑠

15
𝑃 (𝐴 ) == 0.17 = 17%
88
Aunque la probabilidad no parece ser muy, esto se debe a que los datos con las otras
edades están muy a la par, esto puede evidenciarse en el hecho de la mayoría no se
encuentra en ningún rango de edad especificado en la tabla. No hay mucho que decir
sobre salud o impuestos, pues este dato por sí solo no nos indica el estado de salud de
estas personas en este rango de edades, o que tanto se cuidan a si mismo.
5) Encuentre las tablas de frecuencia absoluta y frecuencia para las variables Alcohol Diario
y Tabaco Diario. Comente.
Frecuencia Frecuencia
Frecuencia Frecuencia
Alcohol Diario (cl) Absoluta Relativa
Absoluta Relativa
Acumulada Acumulada
0 1 1 1% 1%
2 1 2 1% 2%
11 1 3 1% 3%
12 2 5 2% 6%
15 3 8 3% 9%
18 1 9 1% 10%
21 2 11 2% 13%
22 1 12 1% 14%
24 1 13 1% 15%
27 1 14 1% 16%
29 1 15 1% 17%
30 2 17 2% 19%
31 1 18 1% 20%
33 2 20 2% 23%
34 1 21 1% 24%
37 1 22 1% 25%
38 1 23 1% 26%
40 1 24 1% 27%
43 1 25 1% 28%
45 1 26 1% 30%
46 1 27 1% 31%
50 1 28 1% 32%
52 1 29 1% 33%
54 1 30 1% 34%
56 1 31 1% 35%
5

57 1 32 1% 36%
59 1 33 1% 38%
62 3 36 3% 41%
64 1 37 1% 42%
66 1 38 1% 43%
68 1 39 1% 44%
71 1 40 1% 45%
72 2 42 2% 48%
74 1 43 1% 49%
76 1 44 1% 50%
77 1 45 1% 51%
79 1 46 1% 52%
81 2 48 2% 55%
83 2 50 2% 57%
84 1 51 1% 58%
86 2 53 2% 60%
87 1 54 1% 61%
89 1 55 1% 63%
90 1 56 1% 64%
92 2 58 2% 66%
99 1 59 1% 67%
101 1 60 1% 68%
102 1 61 1% 69%
103 1 62 1% 70%
106 2 64 2% 73%
114 1 65 1% 74%
115 2 67 2% 76%
121 2 69 2% 78%
123 2 71 2% 81%
124 1 72 1% 82%
125 1 73 1% 83%
127 1 74 1% 84%
129 1 75 1% 85%
131 1 76 1% 86%
135 1 77 1% 87%
139 1 78 1% 89%
140 1 79 1% 90%
142 1 80 1% 91%
143 1 81 1% 92%
146 1 82 1% 93%
149 2 84 2% 95%
150 1 85 1% 97%
152 1 86 1% 98%
6

153 1 87 1% 99%
158 1 88 1% 100%
Total 88 100%
Analizar estos datos por solo no es muy fácil, puesto que la mayoría no tenemos en
conocimiento que tan grave es el consumo de estas cantidades de alcohol, acorde con un
artículo de la BBC, en reino unido se recomienda que los hombre no deben beber más de
tres o cuatro unidades de alcohol al día, y las mujeres más de dos o tres, una unidad de
alcohol son 10 mililitros de alcohol puro en una bebida, que equivalen a 1 centilitro, cabe
aclarar que no es saludable consumir alcohol a diario.
Acorde con esto, podemos ver una alarmante situación puesto que solo el 2% de las
personas tiene un consumo de alcohol diario que podría considerarse seguro, el resto
tienen un consumo de alcohol bastante alto que podría llevar a una alta tasa de personas
perjudicadas.
Podría aumentarse el impuesto a bebidas alcohólicas para bajar su consumo.
Frecuencia Frecuencia
Frecuencia Frecuencia
Tabaco Diario (Cigarrillos) Absoluta Relativa
Absoluta Relativa
Acumulada Acumulada
0 4 4 5% 5%
1 2 6 2% 7%
2 2 8 2% 9%
3 6 14 7% 16%
5 1 15 1% 17%
7 3 18 3% 20%
8 4 22 5% 25%
9 2 24 2% 27%
10 1 25 1% 28%
11 2 27 2% 31%
12 1 28 1% 32%
13 3 31 3% 35%
14 5 36 6% 41%
15 4 40 5% 45%
16 5 45 6% 51%
17 1 46 1% 52%
18 2 48 2% 55%
20 2 50 2% 57%
21 3 53 3% 60%
23 2 55 2% 63%
24 3 58 3% 66%
25 1 59 1% 67%
7

26 1 60 1% 68%
27 1 61 1% 69%
28 5 66 6% 75%
29 2 68 2% 77%
31 2 70 2% 80%
33 1 71 1% 81%
34 2 73 2% 83%
35 2 75 2% 85%
36 1 76 1% 86%
37 1 77 1% 88%
39 1 78 1% 89%
40 3 81 3% 92%
41 1 82 1% 93%
45 1 83 1% 94%
46 3 86 3% 98%
49 1 87 1% 99%
50 1 88 1% 100%
Total 88 100%

El consumo de tabaco es alto, ya que la mayoría de los entrevistados fuman cerca de una cajetilla
diaria, los riesgos de enfermedades respiratorias, preocupa el hecho de que solo el 5% no fumen.
Es necesario aumentar considerablemente impuestos a cigarrillos para evitar y reducir su
consumo diario.
6) Encuentre la probabilidad de que una persona consuma el rango de 100 cl diarios de
Alcohol (Utilice la ley de Sturges). Comente.
Alcohol Diario (cl) Fr Absoluta Fr Relativa
0-21,18 11 13%
21,18-42,36 13 15%
42,36-63,54 12 14%
63,54-84,72 15 17%
84,72-105,9 11 13%
105,9-127,08 12 14%
127,08-148,26 8 9%
148,26-169,44 6 7%
88 100%
13% es la probabilidad de que una de las personas de la base de datos beba a diario una cantidad
de alcohol que se encuentre en el rango, más no los 100 cl.
8

Este rango de consumo de alcohol es alto y peligroso, 13% en alto considerando lo poco
saludable que es, y se vuelve más preocupante al saber que aún hay rangos más altos con una
frecuencia relativa no tan alejada.

7) Realice un histograma de la variable Alcohol Diario y analice.


16 15
14 13
12 12
Frecuencia Absoluta

12 11 11
10
8
8
6
6
4
2
0

Alcohol Diario (cl)

En el histograma podemos ver la distribución de frecuencias en el conjunto de datos, la


cual se da en grados de alcohol que diariamente se consume dentro de la muestra
identificando lo siguiente: la mayoría consumen diariamente entre un rango de 0cl a
127,08 cl muy poca parte de la muestra consume más que eso, una parte significativa
consume entre 63,54cl y 84,72 representando un pico máximo
8) Realice un diagrama circular de la variable ejercicio y analice.

Ejercicio

42% No
58% Si

La gráfica nos muestra con más claridad la preocupante situación de personas que hacen y
no hacen ejercicio, sería bueno saber de qué manera se realizó el estudio, para saber qué
9

tan representativa es la muestra, ya que como dijimos anteriormente al analizar las tablas
de frecuencia de esta misma variable, si este porcentaje fuera similar para el resto del país,
habrían muchos casos de enfermedades causadas por falta de ejercicio, lo cual haría
necesario dar algún impuesto a la salud, para poder sostener los recursos necesarios para
tratar con un alto número de enfermedades o condiciones como el sobrepeso o el alto
colesterol.

9) Encuentre la tabla cruzada de Edad y Cáncer para ver si existe alguna relación entre la
edad y los casos de cáncer. Comente.
Cáncer
Edad No Si Total
25-34 14 1 15
35-44 10 5 15
45-54 3 13 16
55-64 16 16
65-74 1 14 15
75+ 1 10 11
Total 29 59 88
Podría parecer que a mayor edad, más casos de cáncer, sin embargo de 65 años en
adelante parecen volver a disminuir, aunque no hasta el punto de edades más jóvenes, esto
puede deberse a que en estas edades sufrir de cáncer es mucho más grave y es más difícil
sobrevivir a la enfermedad lo cual reduce la probabilidad de encontrar personas en el
rango de edades que aún vivan con la enfermedad.
10) Encuentre la tabla cruzada entre Ejercicio y Cáncer para saber si existe alguna relación
entre estas variables. Comente.
Cáncer
Ejercicio No Si Total
No 12 39 51
Si 17 20 37
Total general 29 59 88

Acorde con la tabla, hacer ejercicio y tener cáncer sí parecen estar relacionados, ya que
aunque la cantidad de personas que hacen ejercicio es menor a las que no, podemos ver
que en quienes hacen ejercicio hay menos casos de cáncer y más casos de quienes no lo
padecen (en comparación a quienes no hacen ejercicio).
10

11) Encuentre el percentil 60% de los Casos de Cáncer. Comente.


Percentil
60% 2
El 60% de los casos de las personas entrevistadas tienen 2 o menos casos de cáncer, y aunque la
mayoría de los estudiados si tienen cáncer, el 40% supera 2 casos, si en ese 40% la mayoría
superan los 2 casos podría ser grave debido a la gravedad y el costo de la enfermedad, ya que
además, estaríamos viendo que esta enfermedad puede repetirse varias veces en una sola persona.

12) Encuentre el 3er cuartil de los Casos de Cáncer. Comente.


Cuartil
3 4
Aunque los datos del percentil parecían buenos, ahora podemos ver que el 25% de los
entrevistados han padecido 4 o más veces cáncer una cantidad alta de casos para una
enfermedad tan grave.

También podría gustarte