Está en la página 1de 6

Tarea 2.

- Errores durante el desarrollo de proyectos de ciencia de datos debidos


a una ingeniería mal aplicada.

Profesor
Dr. IVÁN ESTEBAN VILLALÓN TURRUBIATES
MSC2526A–PROGRAMACIÓN PARA ANÁLISIS DE DATOS

Autor
Iván Alí Tonatiuh González Novelo
Maestría en Ciencia de Datos
Guadalajara, Jalisco a 30 de agosto de 2021

1
Introducción
El conocimiento humano proviene de la observación. Desde los ancestros más lejanos al hombre,
que desconocían formalmente el método científico, se empleaban los sentidos para obtener
conclusiones y sobrevivir a las adversas condiciones del ser humano.

No obstante, incluso con el desarrollo de la ciencia, el ser humano es capaz de influir en sus
propias investigaciones basado en prejuicios o ideas preconcebidas. De hecho, el sesgo está
presente en todas y cada una de nuestras creencias. La cultura, las emociones, la esperanza de
hacer un hallazgo y muchas otras motivaciones, son capaces de llevarnos a conclusiones
equivocadas.

Aunque los sesgos cumplen con un objetivo biológico, ya que nos permitieron sobrevivir y
evolucionar, son un obstáculo para la objetividad formal y estricta de un estudio estadístico
científico. Por eso, elegí el tema del sesgo de supervivencia, que representa una de las
concepciones costosas para la ciencia y que considero debe tenerse en cuenta al hacer ciencia
de datos e ingeniería.

Desarrollo
Descripción del error histórico
El sesgo de supervivencia es un tipo de error de muestreo o sesgo de selección, que ocurre
cuando el proceso de selección de un ensayo favorece a ciertos individuos (u observaciones)
que sobrellevaron un cierto obstáculo o punto en el tiempo, pero ignora a los individuos que no
lo lograron (y que por tanto son menos visibles).
El error histórico proviene de un evento particular ocurrido en un estudio de aviones de combate
durante la Segunda Guerra Mundial. Los aviones fueron estudiados después de regresar de sus
tareas de bombardeo, y los expertos de la época recomendaron que las áreas del avión con el
mayor daño fueran reforzadas.
Los ingenieros de la época eran brillantes, independientemente de los objetivos de la guerra, los
aviones funcionaban y podían soportar las condiciones, la velocidad y el ataque enemigo. Los
científicos que los analizaban eran expertos, matemáticos, con estudios de aeronáutica
avanzada. Probablemente cualquiera de nosotros habría hecho lo mismo, reforzar las áreas
dañadas para hacer el avión mucho más resistente.
El problema con esta solución es que los expertos de la época solamente podían observar a los
aviones que sobrevivieron las batallas. Los aviones muertos no regresaban para ser analizados,
se quedaban en territorio enemigo, eran destruidos o se hundían en el fondo del océano. Esos
aviones muertos, no podían decirle nada a nadie.
Pero el experto tendría que hacer su trabajo, al final, le pedían una respuesta y la urgencia, lo
llevaba a trabajar con la poca información que tenía a la mano. No estaba ni siquiera consciente
de su sesgo, porque claramente nadie escogía que aviones volverían y cuales no. Ellos querrían
que todos los aviones volvieran, así como cualquier encuestador esperaría que el encuestado
responda de forma honesta, exacta y completa. Pero, así como los encuestados se equivocan,

2
dejan espacios en blanco o llanamente mienten, los aviones muertos no podían decir nada útil.
Al menos eso parecía.
Pero los aviones muertos, en su ausencia, decían algo vital: no volvimos por algo. Ese algo era
desconocido, podría ser que se les acabara la gasolina, una falla mecánica o la incompetencia
de sus pilotos, entre muchos etcéteras. Pero siendo una guerra, podría de algún modo inferirse
que esos aviones muertos no volvían porque habían sido heridos gravemente.
De hecho, las áreas de los aviones sobrevivientes que habían recibido poco daño (intactas hasta
cierto punto) eran las más importantes de reforzar, porque en esas áreas, si hubieran sido
perforados o atacados, habrían causado que el avión se perdiera (muriera, y por tanto, no estaría
incluido en la muestra de sobrevivientes).
Este descubrimiento fue un hito, no solo para los militares, sino para los estadísticos y en general
investigadores, que pusieron mayor atención a la naturaleza de la muestra con la que cuentan.
Eso llevo a mejorar los procesos de selección.
Otro ejemplo curioso clásico del sesgo de supervivencia tiene que ver con los gatos que se caen
de los edificios altos. Revisando los datos observados, claramente concluían que los gatos que
caían de edificios de más de 6 pisos, tenían menos heridas que aquellos gatos que caían de
menos de 6 pisos. Pareciera que es preferible que tu gato juegue más alto, entonces. Y podrían
decir que mientras más alto sea, el gato estará más seguro. Pero no.
De hecho, los investigadores arrojaron tantas hipótesis como pudieron, hasta que alguien remitió
al sesgo de supervivencia. La explicación más razonable proviene de los gatos muertos, que no
tienen visibilidad porque, bueno, no sobrevivieron. Los gatos evidentemente muertos no son
llevados al veterinario y por lo tanto, no se capturan en las bases de datos. Como los gatos que
caen de grandes alturas son más propensos a morir, y también más propensos a tener heridas
severas y numerosas, pero al ser excluidos de los datos, resultan en una muestra sesgada.
Pobres gatos.
Un poco más aterrizado a la realidad próxima, tenemos un ejemplo en los ensayos clínicos, pero
específicamente en la medicina de emergencia, cuando un paciente que ha sufrido accidentes
consiente que su caso se utilice en investigaciones clínicas. Desafortunadamente, esto resulta
en una muestra de pacientes sesgados, porque excluye a todos los que mueren de manera
temprana antes de su resucitación, o aquellos que están demasiado lastimados o enfermos para
consentir y firmar los papeles.

¿Cuál fue el impacto negativo que tuvo?


Al partir de un supuesto erróneo al seleccionar la muestra, se consideraba fundamental reforzar
las áreas dañadas más dañadas del avión sobreviviente, lo cual implicaba un gasto económico
y de recursos múltiples, pero especialmente, pérdidas de vidas humanas.
Muchos pilotos pudieron haber sobrevivido de haberse tomado las medidas pertinentes a tiempo.

3
¿Cómo pudo haberse evitado?
Para haber evitado el sesgo de supervivencia, se tendría que haber sabido de antemano que
existía. Los mejores ingenieros y estadísticos de la época, no lo tenían considerado.
Quizás al tomar más tiempo para deliberar, pero estando en la guerra, las decisiones se tomaron
de formas apresuradas. Definitivamente una mejor metodología y apego al método científico
podría haber prevenido el error.

¿Cómo pudo la ciencia de datos haber ayudado a evitar ese error?


Si bien el error no parte per se de datos inválidos, sino de datos ausentes o de un error de
enfoque, la ciencia de datos, en conjunto con las telecomunicaciones y la ingeniería, pudo haber
recabado información de los aviones muertos antes de que fueran destruidos. Con esto, se
podría haber notado antes el sesgo de supervivencia y corregido los aviones.

Conclusiones Personales
Anteriormente, en épocas donde la tecnología no se encontraba interconectada, reunir datos era
una labor verdaderamente pesada. Simplemente por las distancias, por los formatos y los
idiomas, comunicar hallazgos, recabar datos y procesarlos era una labor titánica.
Curiosamente, el siglo XXI ha sorteado muchas de esas dificultades, pero nuevos retos
aparecen. Podemos tener gran cantidad de datos y no saber usarlos o interpretarlos. Este es el
mayor riesgo de la ciencia de datos.
Cuando se analiza el diagrama de Venn de la Ciencia de Datos, hay una zona de peligro de
aquellos que tienen un área de experiencia fuerte y habilidades de programación. En esa zona,
el analista podría hacer muchísimas cosas con los datos, ciertamente, pero podría llegar a
conclusiones equivocadas si no considera la estadística y la matemática y el trasfondo de los
problemas de forma lógica.
Esto fue lo que sucedió en la Segunda Guerra Mundial con el sesgo de supervivencia. Los
expertos tenían datos, pero no los interpretaron correctamente. Y seguramente nos pasará a
todos los que estudiamos datos. Quizás no comprendemos a cabalidad el origen de los datos, o
su significado, lo que nos llevará inexorablemente a conclusiones erróneas.
Cuando leí por primera vez sobre el sesgo de supervivencia, me agradó el tema, pero no le di la
importancia debida. Más tarde, en un video de Veritasium sobre el eterno debate de la
meritocracia: esfuerzo o suerte, el tema me atrapó por completo.
La mayoría de los millonarios que han amasado fortunas y poder, expresan que lo han logrado
gracias a su dedicación y esfuerzo. Si tomas una revista Forbes, podrás leer que cada uno de
ellos se desveló y sudó sangre para lograr sus objetivos. Ergo, esforzarte es suficiente.
Pero no. Al revisar la revista Forbes o cualquier otra información sobre millonarios, estás cayendo
en el sesgo de supervivencia. ¿Dónde están todos los demás que se esforzaron mucho, pero no
son millonarios famosos? Bueno, están en todos lados, pero nadie los conoce ni los entrevista.

4
No tienen visibilidad. Nadie saca la historia del hombre que estudió cinco carreras, tres
doctorados, con dos trabajos y un negocio propio… y es pobre.
El ejemplo que utilizan en Veritasium es excelente por su simpleza. Se toman los datos de los
corredores más rápidos en los 100 metros planos. Cuando se revisa la población total, puede
verse que aquellos que están en el top 10, tuvieron ayuda del viento… tuvieron suerte. Los que
están en el top 100, los 90 restantes, en realidad tuvieron la misma velocidad, fuerza, desempeño
que esos 10 afortunados… solo menos fortuna.
El sesgo de supervivencia nos llevaría a pensar que esos 10 corredores deben su éxito al
esfuerzo (sin duda para llegar a esos niveles de rendimiento, el esfuerzo será clave), pero se
desestima el valor de la suerte u otras circunstancias.
Usando un experimento muy simple, se tomaron los datos de los aplicantes al programa espacial
de la NASA. Se reciben miles de solicitudes para ser astronauta, y ya de por sí, alguien con la
seguridad para aplicar a este puesto, debe ser una persona que se ha esforzado en la vida.
Cuando se revisa la información de 100mil aplicantes, se seleccionan solamente 10 para la
contratación. Sin embargo, computando la información de los aplicantes, y agregando una
variable aleatoria que influya tan sólo en un 5% en la calificación final, resulta que ese 5% cambia
radicalmente la selección final. Es decir, todo el esfuerzo (95% de la calificación basada en el
perfil del astronauta) enfrentado con el 5% de suerte, y resulta que la suerte es la que determina
quien viajará al espacio.
Se realizaron miles de iteraciones, y el resultado es el mismo.
Los astronautas seleccionados, probablemente dirán que han ganado porque se han esforzado
(nuevamente, para llegar a ese nivel, el esfuerzo debe ser clave), pero en realidad, necesitaron
suerte para ganarle a los otros 999,990 aplicantes. Los no seleccionados tendrán poca visibilidad,
nadie entrevista al aplicante que casi entra a la NASA.
Así como este video es claramente revelador, nos encontramos con este problema en muchos
análisis y estudios de datos. La estadística formal y su metodología son fundamentales para
sortearlos.
Un poco más joven, recuerdo el comercial de Whiskas donde decían: 8 de cada 10 gatos
prefieren Whiskas. Recuerdo que la estadística poderosa, me convenció al instante… Pero,
prefieren Whiskas sobre que otra opción. ¿Si le ofrecen atún o pescado, el gato seguirá
prefiriendo Whiskas? ¿Los otros 2 gatos, que prefirieron?
Si no cuidamos la metodología, encontraremos soluciones costosas, y en ciertas áreas como la
medicina, mortales. Por eso, la labor de ciencia de datos es delicada y requiere un riguroso apego
al método científico y un compromiso ético para hallar la verdad.

5
Referencias bibliográficas:

Survival Bias:
Mangel, Marc; Samaniego, Francisco (June 1984). “Abraham Wald’s work on aircraft
survivability”. Journal of the American Statistical Association. 79 (386): 259–267. doi:
10.2307/2288257
Whitney, WO; Mehlhaff, CJ (1987). “High-rise syndrome in cats”. Journal of the American
Veterinary Medical Association. 191 (11): 1399–403. PMID 3692980

Veritasium video:
https://www.youtube.com/watch?v=IrRiVoH3sGQ

También podría gustarte