Documentos de Académico
Documentos de Profesional
Documentos de Cultura
cruce de los distintos casos que vinculaban al asesino permitió no tan solos descubrir un patrón
de actuación, sino también el perfil de las víctimas, años donde actuó más o menos… Todo
mediante una distribución binominal.
La alta tasa de muertes de los niños de Bristol entre el 84 y el 95. Problema en la recopilación
de los datos para el establecimiento exacto del número de “niños” fallecidos durante o a causa
de “cirugías cardíacas”.
La presentación de los datos es importante. Decir “X%” de mortalidad” (marco negativo) suena
peor que decir “X% de tasa de supervivencia” (marco positivo). Asimismo, el uso de fuentes,
disposición de las columnas, lugar de aplicación… En general, la presentación afecta a la
recepción emocional y legibilidad. El uso de los “marcos” puede alterar la percepción del
lector: podemos hacer que se sienta seguro (bajas tasas de criminalidad) o inseguro (X número
de personas son peligrosas); así, también el orden de columnas/filas puede dar buena o mala
imagen, o incluso en qué momento del porcentaje se empieza (a partir del 0 muchos pueden
ser iguales; a partir del 90% pueden ser distintos).
Todo ello puede afectar cómo podemos ver incluso en aquellos casos de variables binarias.
Variables categóricas: medidas (variables) que pueden adoptar dos o más categorías
(nominales, ordinales).
La transición del riesgo relativo (un aumento de X porcentaje) al riesgo absoluto (cambio en el
porcentaje real de cada grupo que se espera que sufra un efecto adverso) puede ayudar a
entender mejor los datos. Un aumento del riesgo del 18% relativo puede ser solo el aumento
de una persona (de cada 100) entre las víctimas de una enfermedad en el riesgo absoluto. Esto
es comunicar con frecuencias esperadas (en vez de usar pocentajes o proporciones, datos cada
X número de personas). Usar una matriz de iconos puede ser útil.
“Probabilidades”: La razón entre la probabilidad de que un evento suceda y de que no
suceda. Por ejemplo: Si 6 personas desarrollarán cáncer y 94 no, la probabilidad es de
6/94 (razón de probabilidad).
Desviación típica: Apropiada solo para datos simétricos al verse afectada por outlayers.
Normalmente una diferencia sustancial entre media y mediana implicará una distribución de
los datos tiene una larga cola derecha.
1. Información fiable.
Proceso de inferencia inductiva: Datos > Muestra > Población objeto de estudio >
Población objeto.
Distribución de los datos: Pauta que siguen los datos, conocida como distribución
empírica o muestral.
3. Población Metafórica: Cuando no existe población mayor. Hacemos como que ha sido
una extracción aleatoria de alguna población, aunque no sea el caso. Por ejemplo,
cuando usamos estadísticas del gobierno.
¿Qué tenemos que hacer si queremos descubrir una relación de causalidad? Primero,
hacer experimentos. En segundo lugar, intervenir en más de una sola ocasión para
reunir evidencia (recordando que causalidad no implica si pasa X, pasará Y; solamente
que la aparición del factor X aumenta la probabilidad de la ocurrencia de Y). A la hora
de inferir resultados, no debemos ni basarnos en un único estudio, y debemos revisar
la evidencia sistemáticamente.
La aleatorización (reparto aleatorio entre los grupos de control y placebo, o entre grupos que
serán sometidos a tratamientos experimentales distintos) como la base de experimentos
médicos, entre otros. Cuando no es posible la aleatorización, podemos hacer distitnos tipos de
estudios que se adecúen a nuestro problema a resolver: estudio prospectivo de cohorte
(seguimiento durante mucho tiempo, pero muy caro), estudio retrospectivo de cohorte (figurar
el pasado mediante evidencia fotográfica sin tener que estar largo tiempo tras la muestra),
estudio de caso y control…
Cuidado con las viariables de confusión, pese a que haya correlación posible, buena parte de la
tendencia de ambas viene dada por una tercera variable (como edad y peso, relacionados,
pero cuya buena parte de correlación se da por el factor edad).
Variable de Confusión: variable que está asociada tanto con la dependiente como con
el predictor, y que puede explicar parte de su aparente relación.
Paradoja de Simpson.
1. Evidencia directa: Tamaño del efecto tan grande que no puede ser explicado por una
variable de confusión. Proximidad temporal/espacial, en tanto que al causa precede al
efecto. Dosis-respuesta y reversibilidad, es decir, el efecto aumenta cuanto mayor sea
la exposición al causante.
1. Error residual: Diferencia entre lo que predice el modelo y lo que ocurre realmente.
La línea de mínimos cuadrados del recuadro de las alturas mostró que, en todo caso, los hijos
de padres altos tendían a ser algo más bajos, mientras que los hijos de padres bajos, más altos.
A esta “regresión” o ida hacia la media se la llamaría, precisamente, “regresión a la media”. A
cualquier proceso de ajuste de líneas o curvas a los datos se lo acabaría llamando “regresión”.
No todas las acciones que tomamos llevan a las consecuencias que recibimos. ¿De verdad
instalar cámaras de tráfico ayuda a disminuir los accidntes? ¿Es una reducción en ese momento
debida a la instalación o al fin de una mala racha? Algo parecido sucede con la suerte.
Todos los modelos pueden ser útiles, algunos son mejores que otros, o más precisos, pero
ninguno es perfecto. Como diría George Box: “Todos los modelos están equivocados; algunos
son útiles.” Creer demasiado en ellos es peligroso.
Los datos pueden ser macro (macrodatos) de dos formas: Por el número de ejemplares en la
base de datos, que pueden ser o bien personas individuales, o bien cualquier otro objeto,
como estrellas en el cielo, escuelas… Este número de ejemplos es indicado muchas veces con la
letra “n”.
Otra manera en que un dato es macro es midiendo muchas características de cada ejemplo. Es
lo que llamamos parámetros (letra “p”). Antes sabíamos pocas características de los sujetos,
pero hoy en día sabemos mucho. Estamos en la era de los grandes n y p.
A veces usaremos la agrupación de casos: juntar distintos n con ps parecidos. Búsqueda de
grupos homogéneos. Por otra parte, a veces tendremos que reducir el número de
características (ingeniería de características), como por ejemplo para los softwares predictivos.
Kaggle: competición de algoritmos para decidir cuáles son los más precisos (concurso de frikis
de la predicción).
Curvas ROC: Comparables a los algoritmos que dan una probabilidad en vez de una simple
clasificación. Algoritmos de probabilidad suelen usarlos los metereólogos (probabilidades de
lluvia, mismamente). Pese a ello, no las curvas ROC no las usa la metereología.
En la metereología es necesaria la calibración: cruce de los distintos días-modelo para que den
el mismo %. La Curva ROC evalúa lo bien que el algoritmo divide los grupos, y el gráfico de
calibración evalúa si las probabilidades quieren decir lo que dicen. Los metereólogos se
ocuparon de desarrollar una medida que combine ambas cosas.
Error: diferencia entre los datos predichos y observados realmente. El resumen normal de los
errores a lo largo de varios días es el Error Cuadrático Medio (ECM) (similar al criterio de
mínimos cuadrados en los modelos de regresión).
Validación Cruzada: Nos sirve para evitar o corregir el sobreajuste. una técnica utilizada
para evaluar los resultados de un análisis estadístico y garantizar que
son independientes de la partición entre datos de entrenamiento y prueba. Consiste en
repetir y calcular la media aritmética obtenida de las medidas de evaluación sobre
diferentes particiones
Los árboles de clasificación y los modelos de regresión surgen de filosofías algo distintas sobre
cómo modelizar: los árboles intentan construir reglas simples que identifiquen grupos de casos
con resultados esperados similares; los modelos de regresión se centran en el peso que hay
que asignar a características específicas, con independencia de cualquier otra cosa que
observemos en un caso.
No hay ningún algoritmo que sea claramente ganador ni siquiera en la puntuación de Brier. A
veces es preferible la sencillez del algoritmo a la excesiva precisión.
1. Falta de Robustez: Los algoritmos pueden ser muy sensibles a los cambios puesto que
no entendemos cuáles son los procesos subyacentes. Si algunos algoritmos se
construyen sobre datos passados, su posibilidad de predicción futura puede cambiar
(el mundo no es estático, cambia).
El análisis estadístico es solo una parte (componente) del desarrollo de sistemas de IA. Ahora,
los sistemas de predicción juegan un papel importante en la fiabilidad/éxito de las IAs. Tener
toneladas de datos agrava los desafíos que acarrea generar conclusiones sólidas y
responsables.
En un buen estudio esperamos que la media de nuestra muestra esté cerca de la media de
nuestra población, que el rango intercuartílico lo esté, y así sucesivamente… Sin embargo, el
tamaño muestral puede ser a veces poco representativo (usamos una muestra de 100 o 1.000
para inferir un porcentaje de toda la población, por ejemplo). EL tamaño muestral afecta a la
fiabilidad.
Para determinar cómo son de precisos mis estadísticos debo repetir el proceso muestral para
saber cuánto cambiaría. Ahora, si no sabemos los detalles de la población, tenemos dos
opciones:
Teorema Central del Límite: La distirbución de la media tiende hacia una distribución
normal a media que se incrementa el tamaño muestral, casi que con independencia de
la forma de la distribución original de los datos.
El bootstrap nos permite evaluar la incertidumbre de nuestros estimadores sin recurrir a las
matemáticas. La simetría de las distribuciones bootstrap indica que los intervalos de
incertidumbre son aproximadamente simétricos alrededor del estimador original.
Historia del Chevaliere de Mère y los dos juegos de los dados: adivinar en cuál de los dos tiene
más probabilidades de ganar (spoiler: el 1, donde solo tiene un dado). Gracias a Pascal y
Fermat tenemos el precedente de la teoría de la probabilidad, ¿pero por qué la necesitamos?
Por ejemplo, en la selección aleatoria de casos: cualquier persona de la población puede ser
escogida con igual probabilidad para la muestra (sopa de Gallup). Así, como en la inferencia,
sabemos que nuestra aseveración tiene una probabilidad de ser incierta.
3. La regla de la suma (o regla de la O): Sumar dos eventos mutuamente exclusivos (no
pueden darse al mismo tiempo). Por ejemplo, la probabilidad de al menos una cruz es
de 3/4, dado que incluirá dos caras, O “cara + cruz”, o “cruz + cara”… Cadad una de
ellas con una probabilidad de 3/4.
1. Situación 1: Se considera que el punto de datos ha sido generado por algún mecanismo
de aleatorización (lanzar un dado o una moenda) o utilizando un generador de
números falsamente aleatorios a un sujeto (cuyos datos serámn registrados).
2. Situación 2 (la que se suele dar en la práctica): Un punto de datos PREEXISTENTE (no
generado) es escogido a partir de un mecanismo de aleatorización, como cuando
escogemos a alguien para que forme parte de una encuesta.
3. Situación 3 (muchas veces sucede por nuestros datos): No hay nada aleatorio, pero
actuamos como si nuestro punto de datos hubiese sido generado por algún proceso
aleatorio (como al interpretar el peso al nacer del bebé de nuestra amiga).
Aunque la estadística use el ejemplo del muestreo aleatorio (2), la mayoría de casos realmente
se dan a partir de la situación 3. Ahora, observando las situaciones 1 y 2, se asume el uso del
mecanismo de aleatorización útil (por lo que la probabilidad es relevante), pero a veces solo
consideramos las medidas que tenemos disponibles en un tiempo y espacio limitados, es decir,
representamos todas las “observaciones posibles”: no hay muestreo aleatorio ya que tenemos
todas las observaciones posibles a nuestra mano, como cuando utilizamos todos los registros
de los propios hospitales.
Aunque algo no pase en presente, podemos desarrollar una distirbución de probabilidad para
determinar si podría ocurrir en el futuro. Si las posibilidades de que ocurran esos eventos son
bajas pero queremos determinarlas, utilizaremos precisamente una distribución Poisson. La
distribución normal depende tanto de la media como de la desviación típica, pero la Poisson
solamente de la media. Es posible que desarrollemos pautas globales predictibles derivadas de
eventos individualmente impredecibes (como el ejemplo de los homicidios). Muchos
fenómenos sociales pueden mostrar pautas generales muy similares, pero recordemos,
eventos individuales son totalmente impredecibles.
2. Variabilidad natural: La inevitable, aquella que ocurre cuadno asumimos que el azar
resulta ser aquello que engloba toda la inevitable impredictibilidad del mundo.
Cap. 09: Juntar la Probabilidad y Estadística
Nos interesa algo más allá de un punto de datos: una masa, que resumimos en los estadísticos
(medidas de tendencia central…). Esos mismos estadísticos pueden ser considerados variables
aleatorias.
Distribución binominal.
o Bernoulli: Describe aquella situación donde hay dos valores posibles, como una
moneda. Si encima es equiprobable, también es uniforme.
Teorema Central del Límite: La distirbución de la media tiende hacia una distribución
normal a media que se incrementa el tamaño muestral, casi que con independencia de
la forma de la distribución original de los datos. El autor lo usó para los casos de
distribución binominal, aunque esto suele pasar en la mayoría de distribuciones. Se
puede asumir que las medias muestrales y otros estadísticos de resumen tienen una
distribución normal en el caso de grandes muestras.
Dos tipos de incertidumbre (la ignorancia personal sobre un evento que es fijo pero
desconocido):
1. Aleatoria: Previa.
Si tenemos todos los datos posibles, no existe margen de error. Ahora, si queremos decir algo
sobre tendencias subyacentes podemos crear un modelo probabilístico para evaluar
precisamente la inferencia sobre las cantidad desconcoidas que han variado, o no se explican
(sobre todo cuando una tasa de algo cambia de un año a otro, hay posibles cantidades
desconocidas).
Estos intervalos de confianza que hacemos tienen dos posibilidades: algunos nacen de nuestra
incertidumbre epistémica sobre el número real de algún estimador, como la tasa de
desempleo; otros pretenden no tanto poner en duda el estimador o medida que hemos usado
(ya que asumismos que los registros de X, p. ej. la tasa de homicidios, son correctos), sino del
riesgo subyacente (la tendencia) de la sociedad. En este último caso los intervalos representan
la incertidumbre sobre los parámetros de una “población metafórica subyacente”.
Hipótesis Nula: Lo que asumimos que es verdad hasta que se demuestra lo contrario.
Es invariablemente negativa, niega todo progreso o cambio. Es una hipótesis, por lo
que no queda demostrada, pero podemos rebatirla.
Corrección de Bonferroni: Sirve para aquellos casos donde hacemos múltiples pruebas,
corrigiendo los resultados mediante el siguiente umbral: 0.05 / n (n=número de
pruebas realizadas). Sirve para decidir si al final los resultados más extremos son los
más significativos.
En ciencia: si un resultados está a “dos sigmas”, quiere decir que está a dos errores típicos de la
hipótesis nula. La letra sigma se usa para reflejar la desviación típica de la población.
Dos tipos de errores posibles en los test de hipótesis vistos (teoría Neyman-Pearson del
comportamiento inductivo):
Ley del logaritmo iterado: Muestra que si llevamos a cabo muchas pruebas repetidas
para determinar el nivel de significatividad, incluso si la hipótesis nula es cierta, es
seguro que al final la rechazaríamos sea cual sea el nivel de significatividad que
escojamos.
Nota: aunque los sistemas estadísticos puedan detectar y extraer resultados atípicos, no
pueden ofrecer las razones que explican por qué se dan esos resultados.
Un valor P no significativo solamente indica que los datos son compatibles con la hipótesis
nula, no que la hipótesis nula sea cierta.
1. Los valores P pueden indicar cómo son de incompatibles los datos con un determinado
modelo estadístico.
4. Una inferencia adecuada requiere informar de todo con transparencia (por ejemplo, el
número de pruebas, para aplicar correciones como la de Bonferroni).
Creado por Thomas Bayes. Se puede usar la probabilidad no solo para eventos futuros, sino
para eventos ciertos, ocurridos, donde opinamos o teorizamos de manera personal
(incertidumbre epistémica). Es un reflejo de nuestra ignorancia personal. La probabilidad
depende de nosotras, por tanto, es subjetiva, depende cómo vemos el mundo exterior. Los
datos no hablan por sí mismos, sino que nuestro juicio juega un papel fundamental. Usa el
conocimiento contextual para ofrecer inferencias más realistas.
Probabilidad inversa: Primero lo que ocurre, y luego la prueba para saber la verdad.
Disputa de los años 20s, 30s y 40s entre frecuentistas y bayesianos. Termina en usar hoy en día
un enfoque más global, donde los métodos se escogen en base al contexto práctico. Hoy en día
se debe dar más hincapié a la calidad de los datos y la seriedad científica qu a disputas
ideológicas.
Se pueden cometer errores, por ejemplo, en la propia muestra, en los mismos cálculos, en el
empleo de métodos estadísticos incorrectos… Incluso al hacer muchas pruebas estadísticas,
pero solamente mostrar aquellas que son significativas e interpretar el estudio en base
exclusiva a éstas. La selección espuria de casos es lo que muchas veces da el fraude en la
comunidad científica. También pueden haber “errores comunicativos”, como una mala
selección de palabras o un diseño fallido, así como distorsiones. También está la prensa, que
premia titulares exagerados o directamente los crea de la nada (ej. de los tumores cerebrales y
estudios universitarios) con tal de atraer la mayor atención posible de los lectores.
Otro problema son las prácticas científicas cuestionables, como qué datos destacar o qué
grupos excluir.
Estudios exploratorios: Son más libres ya que manejan distintas hipótesis, permitiendo
retoques que de otra forma serían prácitcas cuestionables.
HARKing: Inventarse las hipótesis después de conocerse los resultados (mala praxis).
Tres grupos que deben actuar (mejor) si queremos que la estadística mejore:
1. Productores de estadísticas
2. Comunicadores
3. Audiencias
Los revisores de las revistas deben ser más estrictos en el control de calidad, así como más
flexibles o negativos frente a estudios infructuosos e imperfecciones.
1. Los métodos estadísticos deberían permitir que los datos respondan a cuestiones
científicas.
2. Las señales siempre llevan al ruido (la variabilidad es inevitable, y los modelos de
probabilidad son una abstracción útil).
6. No se complique.