Apuntes Libro de Estadística

El libro comienza con el análisis de caso de Harold Shipman y como la estadística a partir del
cruce de los distintos casos que vinculaban al asesino permitió no tan solos descubrir un patrón
de actuación, sino también el perfil de las víctimas, años donde actuó más o menos… Todo
mediante una distribución binominal.
 Dos limitaciones de los datos: Son imperfectos (problema de la inferencia de la

muestra al universo); su variabilidad (cambios entre lugares, personas, tiempos) hace
que los resultados nos puedan parecer aleatorios y no significativos.
 Alfabetización en datos: Capacidad no solo de llevar a cabo análisis estadísticos de

problemas del mundo real, sino también de comprender y criticar cualquier conclusión
alcanzada por otros basada en análisis estadísticos.
 PPDAC: Problem, Plan, Data, Analysis, Conclusion (ciclo de resolución de problemas).
o Problema: Especificar el problema a tratar, plantear la primera gran pregunta a

resolver.
o Plan: Qué queremos medir; cómo; si debemos o no registrar o recopilar…
o Datos: Recopilación/Compilación de los datos y su subsiguiente gestión,

filtración, codificación…
o Análisis: Generar hipótesis, buscar pautas, clasificar datos… Generar gráficas….
o Conclusión: Interpretar los datos, comunicarlos… Pero también dar

conclusiones factibles y que reconozcan las limitaciones de su método…
Cap. 1: Datos categóricos y porcentajes
La alta tasa de muertes de los niños de Bristol entre el 84 y el 95. Problema en la recopilación
de los datos para el establecimiento exacto del número de “niños” fallecidos durante o a causa
de “cirugías cardíacas”.
La presentación de los datos es importante. Decir “X%” de mortalidad” (marco negativo) suena
peor que decir “X% de tasa de supervivencia” (marco positivo). Asimismo, el uso de fuentes,
disposición de las columnas, lugar de aplicación… En general, la presentación afecta a la
recepción emocional y legibilidad. El uso de los “marcos” puede alterar la percepción del
lector: podemos hacer que se sienta seguro (bajas tasas de criminalidad) o inseguro (X número
de personas son peligrosas); así, también el orden de columnas/filas puede dar buena o mala
imagen, o incluso en qué momento del porcentaje se empieza (a partir del 0 muchos pueden
ser iguales; a partir del 90% pueden ser distintos).
Todo ello puede afectar cómo podemos ver incluso en aquellos casos de variables binarias.
 Variables categóricas: medidas (variables) que pueden adoptar dos o más categorías
(nominales, ordinales).
La transición del riesgo relativo (un aumento de X porcentaje) al riesgo absoluto (cambio en el
porcentaje real de cada grupo que se espera que sufra un efecto adverso) puede ayudar a
entender mejor los datos. Un aumento del riesgo del 18% relativo puede ser solo el aumento
de una persona (de cada 100) entre las víctimas de una enfermedad en el riesgo absoluto. Esto
es comunicar con frecuencias esperadas (en vez de usar pocentajes o proporciones, datos cada
X número de personas). Usar una matriz de iconos puede ser útil.
 “Probabilidades”: La razón entre la probabilidad de que un evento suceda y de que no
suceda. Por ejemplo: Si 6 personas desarrollarán cáncer y 94 no, la probabilidad es de
6/94 (razón de probabilidad).
Cap. 2: Cómo resumir y communicar datos (muchos números)
 Distribución de datos (muestral/empírica): Pauta que siguen los valores

proporcionados.
 Variables numéricas: Contables (solo números enteros) y Continuas (pueden hallarse

cifras intermedias).
 Promedio: Dato estadístico de resumen sacado a partir de distintas observaciones

contables o continuas. Hay tres interpretaciones del término promedio:
o Media: Suma de los números dividida por el número de casos.
o Mediana: El valor central cuando los números están en orden.
o Moda: Valor más repetido/común.
Necesitamos tener una idea de la dispersión, de la variabilidad.
 Rango Intercuartílico: Contiene la distancia entre el percentil 25 y 75, es decir, la mitad

central de los números (es lo que luego encontramos normalmente como la caja
central en los diagramas de bigote y caja).
 Desviación típica: Apropiada solo para datos simétricos al verse afectada por outlayers.
Normalmente una diferencia sustancial entre media y mediana implicará una distribución de
los datos tiene una larga cola derecha.
 Coeficiente de correlación de Pearson: 1 implica que todos los puntos se encunetran

en una línea recta creciente; -1 en una decreciente; 0 puede darse por una dispersión
aleatoria de puntos. Los coeficientes (incluido el de rango de Spearman) son simples
resúmenes de asociaciones.
Cuatro características de una buena visualización de los datos:
1. Información fiable.
2. Diseño elegido para destacar las pautas importantes.
3. Presentación atractiva, pero que no sustituye los datos fiables y la honestidad.
4. Que permita la exploración de los datos cuando sea necesario.
5. Primera regla de la comunicación: Callar y escuchar (conocer a la audiencia a la que

comunico algo).
6. Segunda regla: Saber lo que uno quiere, el objetivo.
 Dataviz: Visualización de los datos. El gráfico aséptico.
 Infoviz: La infografía tras recibir de los datos el mensaje a comunicar.
Cap. 3: Poblaciones y Mediciones

En ocasiones, el recuento, medición y descripción de los datos es más que suficiente ya que
supone un fin en sí mismo. Empero, en otras ocasiones buscamos o bien hacer predicciones, o
decir algo que va más allá (crear generalizaciones). Esto último es la inferencia inductiva.
 Proceso de inferencia inductiva: Datos > Muestra > Población objeto de estudio >
Población objeto.
1. Si existen problemas de los datos a la muestra, tenemos un problema de medición:

¿son nuestros datos un reflejo de aquello que nos interesa (investigamos)? Puede ser
un problema de validez o de fiabilidad.
2. Si existen problemas de la muestra a la población objeto de estudio, tenemos un

problema de validez interna: ¿la muestra refleja fielmente al grupo que estamos
estudiando? Para lograrlo debemos utilizar el muestreo aleatorio.
3. Si existen problemas de la población objeto de estudio a la población objeto, tenemos

un problema de validez externa. Ocurre cuando no preguntamos a las personas
indicadas, en las que estamos interesados.
 Distribución de los datos: Pauta que siguen los datos, conocida como distribución
empírica o muestral.
 Distribución poblacional: La pauta que sigue todo el grupo de interés.
 Distribución normal (campana de Gauss): Podemos esperar una distribución normal

para fenómenos que están determinados por un gran número de pequeñas variables.
Fenómenos menos naturales (como los ingresos) pueden tener una distribución menos
normal (se pueden alargar hacia la derecha). Esta distribución normal se caracteriza
por su media/esperanza y su desviación típica
o Puntuación Z: Mide cuántas desviaciones típicas algo está alejado de la media.
Podemos concebir a la población también como una distribución de probabilidad de una

variable aleatoria, así eliminando muchas veces la distancia entre la muestra y la población
objeto de estudio.
 3 Tipos de Población de las que podemos extraer muestras:
1. Población Literal: Un grupo identificable (como escoger a una persona de forma

aleatoria), o un grupo de individuos medible, que aunque no sean escogidos
voluntariamente, han sido voluntarios.
2. Población Virtual: Tomamos medidas mediante algún dispositivo, como la polución o la

temperatura.
3. Población Metafórica: Cuando no existe población mayor. Hacemos como que ha sido
una extracción aleatoria de alguna población, aunque no sea el caso. Por ejemplo,
cuando usamos estadísticas del gobierno.
A menudo los datos no son una muestra de una población literal.
Cap. 4: ¿Qué causa qué?
 Falacia de la evidencia incompleta: acción de citar casos individuales o datos que

parecen confirmar la verdad de una cierta posición o proposición, a la vez que se
ignora una importante cantidad de evidencias de casos relacionados o información que
puede contradecir la proposición.
 Apofenia: Tendencia psíquica, innata al ser humano y agudizada en la psicosis, a

percibir sentido en estímulos azarosos (buscar una correlación/causalidad inexistente
en dos fenómenos que siguen una tendencia similar, ya sea positiva o negativa).
 ¿Qué tenemos que hacer si queremos descubrir una relación de causalidad? Primero,
hacer experimentos. En segundo lugar, intervenir en más de una sola ocasión para
reunir evidencia (recordando que causalidad no implica si pasa X, pasará Y; solamente
que la aparición del factor X aumenta la probabilidad de la ocurrencia de Y). A la hora
de inferir resultados, no debemos ni basarnos en un único estudio, y debemos revisar
la evidencia sistemáticamente.
La aleatorización (reparto aleatorio entre los grupos de control y placebo, o entre grupos que
serán sometidos a tratamientos experimentales distintos) como la base de experimentos
médicos, entre otros. Cuando no es posible la aleatorización, podemos hacer distitnos tipos de
estudios que se adecúen a nuestro problema a resolver: estudio prospectivo de cohorte
(seguimiento durante mucho tiempo, pero muy caro), estudio retrospectivo de cohorte (figurar
el pasado mediante evidencia fotográfica sin tener que estar largo tiempo tras la muestra),
estudio de caso y control…
Cuidado con las viariables de confusión, pese a que haya correlación posible, buena parte de la
tendencia de ambas viene dada por una tercera variable (como edad y peso, relacionados,
pero cuya buena parte de correlación se da por el factor edad).
 Variable de Confusión: variable que está asociada tanto con la dependiente como con
el predictor, y que puede explicar parte de su aparente relación.
 Paradoja de Simpson.
 Causalidad inversa: fenómeno que describe la asociación entre dos variables de un

modo diferente al esperado.
 Factores ocultos: causas potenciales que no medimos y se mantienen a la espera de

ser medidos.
 Tres tipos de evidencias (criterios de Bradford Hill):
1. Evidencia directa: Tamaño del efecto tan grande que no puede ser explicado por una
variable de confusión. Proximidad temporal/espacial, en tanto que al causa precede al
efecto. Dosis-respuesta y reversibilidad, es decir, el efecto aumenta cuanto mayor sea
la exposición al causante.
2. Evidencia mecanicista: Existe un mecanismo de acción plausible (con evidencia externa

de una cadena causal).
3. Evidencia paralela: El efecto encaja en lo ya conocido.Se encuentra el efecto al

replicarse el estudio. Encontramos el efecto en estudios similares, aunque no idénticos.
Cap. 5: Modelizar relaciones mediante regresión
Resume previo: Los modelos de regresión proporcionan una representación matemática de la

relación entre un conjunto de variables explicativas y de variables de respuesta. Los
coeficientes de estos modelos indican cuánto se espera que cambie una respuesta cuando se
osberva un cambio en la variable explicativa.
 Modelo estadístico: Representación formal de las relaciones entre variables, que

podemos usar para la explicación o la predicción. Tienen dos componentes principales:
1. Una fórmula matemática que expresa un componente determinista, predecible (como

la línea recta de ajuste que ayuda predecir la estatura de padres e hijos).
 Error: No es algo que está mal, es nuestra incapacidad de representar perfectamente lo

que observamos (una suerte de margen de error).
1. Error residual: Diferencia entre lo que predice el modelo y lo que ocurre realmente.
 Observación = Modelo determinista + Error residual.
La línea de mínimos cuadrados del recuadro de las alturas mostró que, en todo caso, los hijos
de padres altos tendían a ser algo más bajos, mientras que los hijos de padres bajos, más altos.
A esta “regresión” o ida hacia la media se la llamaría, precisamente, “regresión a la media”. A
cualquier proceso de ajuste de líneas o curvas a los datos se lo acabaría llamando “regresión”.
 Modelo: Algún fenómeno que se representa matemáticamente y que, en este caso, a

través generalmente de un software informático, para porducir una versión simulada,
simplificada, de la realidad.
No todas las acciones que tomamos llevan a las consecuencias que recibimos. ¿De verdad
instalar cámaras de tráfico ayuda a disminuir los accidntes? ¿Es una reducción en ese momento
debida a la instalación o al fin de una mala racha? Algo parecido sucede con la suerte.
 Regresión lineal múltiple: Se basa en la suma de las posibles variables explicativas

aplicando el modelo de mínimos cuadrados. Cada tipo de variable dependiente tiene
su propia forma de regresión múltiple.
Todos los modelos pueden ser útiles, algunos son mejores que otros, o más precisos, pero
ninguno es perfecto. Como diría George Box: “Todos los modelos están equivocados; algunos
son útiles.” Creer demasiado en ellos es peligroso.
Cap. 06: Algoritmos, analítica y predicción
 Objetivos de un algoritmo: La clasificación para decirnos a qué clase de situación nos

enfrentamos, y la predicción para decirnos qué es lo que ocurrirá. Los algoritmos
utilizan un conjunto de observaciones relevantes para una determinada situación
actual, y extraen de ellas una conclusión relevante (analítica predictiva).
Los datos pueden ser macro (macrodatos) de dos formas: Por el número de ejemplares en la
base de datos, que pueden ser o bien personas individuales, o bien cualquier otro objeto,
como estrellas en el cielo, escuelas… Este número de ejemplos es indicado muchas veces con la
letra “n”.
Otra manera en que un dato es macro es midiendo muchas características de cada ejemplo. Es
lo que llamamos parámetros (letra “p”). Antes sabíamos pocas características de los sujetos,
pero hoy en día sabemos mucho. Estamos en la era de los grandes n y p.
A veces usaremos la agrupación de casos: juntar distintos n con ps parecidos. Búsqueda de
grupos homogéneos. Por otra parte, a veces tendremos que reducir el número de
características (ingeniería de características), como por ejemplo para los softwares predictivos.
Kaggle: competición de algoritmos para decidir cuáles son los más precisos (concurso de frikis
de la predicción).
 El ejemplo del Titanic: para saber la posibilidad de supervivencia de un pasajero que se

fue a hacer fortuna a Nueva York (Francis William Somerton).
 Árbol de Clasificación: Tipo de algoritmo donde la respuesta de sí o no a una pregunta

decidirá la siguiente, hasta alcanzar una conclusión. El porcentaje de supervivientes
correctamente predichos se llaman “sensibilidad”, mientras que los no supervivientes
son llamados “especificidad”.
Curvas ROC: Comparables a los algoritmos que dan una probabilidad en vez de una simple
clasificación. Algoritmos de probabilidad suelen usarlos los metereólogos (probabilidades de
lluvia, mismamente). Pese a ello, no las curvas ROC no las usa la metereología.
En la metereología es necesaria la calibración: cruce de los distintos días-modelo para que den
el mismo %. La Curva ROC evalúa lo bien que el algoritmo divide los grupos, y el gráfico de
calibración evalúa si las probabilidades quieren decir lo que dicen. Los metereólogos se
ocuparon de desarrollar una medida que combine ambas cosas.
Error: diferencia entre los datos predichos y observados realmente. El resumen normal de los
errores a lo largo de varios días es el Error Cuadrático Medio (ECM) (similar al criterio de
mínimos cuadrados en los modelos de regresión).
 Sobreajuste: Ajuste de los datos al entrenamiento, lo que provoca una reducción de su

precisión. Si hacemos demasiado complejo al algoritmo ajustamos ya no la señal, sino
el ruido. Tenemos menos datos con los que trabajar, por lo que la fiabilidad se reduce
con ese exceso de refinamiento. La protección contra este sobreajuste es lo que se
llama “solución de compromiso sesgo-varianza.”
 Validación Cruzada: Nos sirve para evitar o corregir el sobreajuste. una técnica utilizada
para evaluar los resultados de un análisis estadístico y garantizar que
son independientes de la partición entre datos de entrenamiento y prueba. Consiste en
repetir y calcular la media aritmética obtenida de las medidas de evaluación sobre
diferentes particiones
Los árboles de clasificación y los modelos de regresión surgen de filosofías algo distintas sobre
cómo modelizar: los árboles intentan construir reglas simples que identifiquen grupos de casos
con resultados esperados similares; los modelos de regresión se centran en el peso que hay
que asignar a características específicas, con independencia de cualquier otra cosa que
observemos en un caso.
No hay ningún algoritmo que sea claramente ganador ni siquiera en la puntuación de Brier. A
veces es preferible la sencillez del algoritmo a la excesiva precisión.
 Cuatro Grandes Problemas de los Algoritmos:
1. Falta de Robustez: Los algoritmos pueden ser muy sensibles a los cambios puesto que
no entendemos cuáles son los procesos subyacentes. Si algunos algoritmos se
construyen sobre datos passados, su posibilidad de predicción futura puede cambiar
(el mundo no es estático, cambia).
2. No tener en cuenta la variabilidad estadística: Las clasificaciones automatizadas

basadas en datos limitados son poco fiables.
3. Sesgo implícito: Ya que se basan en asociaciones, puede implicar el uso de

características que normalmente consideraríamos irrelevantes para las tareas a las que
nos enfrentamos (uso de nieve para diferencias huskies de pastores alemanes en uno).
4. Falta de transparencia: Algunos algoritmos pueden resultar opacos por su excesiva

complejidad, aunque incluso los sencillos pueden serlo si su estructura es privada
producto de las patentes comerciales. La población demanda mayor transparencia en
aquellos algoritmos que afectan su vida diaria, lo que puede llevar a una preferencia
por la sencillez.
El análisis estadístico es solo una parte (componente) del desarrollo de sistemas de IA. Ahora,
los sistemas de predicción juegan un papel importante en la fiabilidad/éxito de las IAs. Tener
toneladas de datos agrava los desafíos que acarrea generar conclusiones sólidas y
responsables.
Cap. 07: Estimadores e Intervalos
En un buen estudio esperamos que la media de nuestra muestra esté cerca de la media de
nuestra población, que el rango intercuartílico lo esté, y así sucesivamente… Sin embargo, el
tamaño muestral puede ser a veces poco representativo (usamos una muestra de 100 o 1.000
para inferir un porcentaje de toda la población, por ejemplo). EL tamaño muestral afecta a la
fiabilidad.
Para determinar cómo son de precisos mis estadísticos debo repetir el proceso muestral para
saber cuánto cambiaría. Ahora, si no sabemos los detalles de la población, tenemos dos
opciones:
1. Hacer asunciones matemáticas sobre la distribución poblacional, y usar teoría

probabilística para determinar la variabilidad de nuestra estimación.
2. Aasumir que la población se parece a nuestra muestra. Ya que no podemos extraer

nuevas muestras de nuestra población, extraemos nuevas muestras repetidamente de
nuestra muestra. Es el re-muestreo con reemplazo (o re-muestreo bootstrap: crear
nuevos conjntos de datos del mismo tamaño re-muestreando los datos originales, con
reemplazamiento).
 Teorema Central del Límite: La distirbución de la media tiende hacia una distribución
normal a media que se incrementa el tamaño muestral, casi que con independencia de
la forma de la distribución original de los datos.
El bootstrap nos permite evaluar la incertidumbre de nuestros estimadores sin recurrir a las
matemáticas. La simetría de las distribuciones bootstrap indica que los intervalos de
incertidumbre son aproximadamente simétricos alrededor del estimador original.
Cap. 08: Probabilidad
Historia del Chevaliere de Mère y los dos juegos de los dados: adivinar en cuál de los dos tiene
más probabilidades de ganar (spoiler: el 1, donde solo tiene un dado). Gracias a Pascal y
Fermat tenemos el precedente de la teoría de la probabilidad, ¿pero por qué la necesitamos?
Por ejemplo, en la selección aleatoria de casos: cualquier persona de la población puede ser
escogida con igual probabilidad para la muestra (sopa de Gallup). Así, como en la inferencia,
sabemos que nuestra aseveración tiene una probabilidad de ser incierta.
 La probabilidad es, según el autor, una idea difícil y poco intuitiva.
Árbol de probabilidad (como el de la moneda) muestra lo siguiente:
1. La probabilidad de un evento es un número entre 0 (eventos imposibles) y 1 (eventos

seguros).
2. Regla del complemento: La probabilidad de que ocurra un evento es 1 menos la

probabilidad de que no ocurra. Por ejemplo, la probabiliadd de “al menos una cruz” es
1 menos la probabilidad de dos caras: 1-1/4=3/4.
3. La regla de la suma (o regla de la O): Sumar dos eventos mutuamente exclusivos (no
pueden darse al mismo tiempo). Por ejemplo, la probabilidad de al menos una cruz es
de 3/4, dado que incluirá dos caras, O “cara + cruz”, o “cruz + cara”… Cadad una de
ellas con una probabilidad de 3/4.
4. La regla de la multiplicación (o de Y): Multiplicamos las probabilidades para obtener la

probabilidad global de la ocurrencia de una secuencia de eventos independientes (uno
no afecta a otro). Por ejemplo, la probabilidad de una cara Y una cruz: 1/2*1/2=1/4.
Probabilidad condicional: cuando nuestras probabilidades dependen de otros eventos. Ejemplo

del cáncer de mama: a pesar de la precisión del 90% del escáner, una gran parte de mujeres
con una mamografía positiva no tienen cáncer de mama. Es la falacia del fiscal: asumir que un
test positivo es equivalente a tener directamente cáncer de mama (o algo).
Distintas definiciones de probabilidad:
1. Probabilidad clásica: La de la simetría de monedas, dados… Es “el ratio del número de

resultados que favorecen un evento dividido por el nº total de resultados posibles,
asumiendo que los resultados son igualmente posibles.” 1/2 de probabilidad de sacar
cara si tiro una vez una moneda…
2. Probabilidad enumerativa: Una extensión de la idea clásica. Requiere la elección

aleatoria de un objeto físico (p.ej: tengo dos calcetines y tres tangas… Probabilidad de
3/5 de sacar los tangas).
3. Probabilidad de frecuencia a largo plazo: Se basa en el porcentaje de veces que ocurre

un evento en una secuencia infinita de experimentos idénticos (ejemplo del Chevalier
de Mère). Malo debido a que casi cualquier situación realista no se repite
infinitamente.
4. Propensión/Destino: Idea de que una situación tiene una tendencia objetiva de

producir otro evento. Difícil ya que impone la necesidad de un “destino verdadero”.
5. Probabilidad subjetiva/personal: Juicio específico de una persona sobre una ocasión

específica, basado en su conocimiento actual, y se interpreta como probabilidad de
ganar.
Preferencia del autor: probabilidad subjetiva, es decir, la probabilidad que construyo se basa
esencialmente en lo que sé en ese momento (de hecho, no existiría la probabilidad, a
excepción del nivel subatómico, según Spiegelhalter). Es un enfoque que forma parte de la
escuela bayesiana. De todas formas, siempre actuaremos en base a que las observaciones son
aleatorias.
Situaicón difícil de conectar los datos, la teoría de probabilidad y el aprendizaje de la población

objetivo que nos interesa.
Se pueden dar así tres situaciones:
1. Situación 1: Se considera que el punto de datos ha sido generado por algún mecanismo
de aleatorización (lanzar un dado o una moenda) o utilizando un generador de
números falsamente aleatorios a un sujeto (cuyos datos serámn registrados).
2. Situación 2 (la que se suele dar en la práctica): Un punto de datos PREEXISTENTE (no
generado) es escogido a partir de un mecanismo de aleatorización, como cuando
escogemos a alguien para que forme parte de una encuesta.
3. Situación 3 (muchas veces sucede por nuestros datos): No hay nada aleatorio, pero
actuamos como si nuestro punto de datos hubiese sido generado por algún proceso
aleatorio (como al interpretar el peso al nacer del bebé de nuestra amiga).
Aunque la estadística use el ejemplo del muestreo aleatorio (2), la mayoría de casos realmente
se dan a partir de la situación 3. Ahora, observando las situaciones 1 y 2, se asume el uso del
mecanismo de aleatorización útil (por lo que la probabilidad es relevante), pero a veces solo
consideramos las medidas que tenemos disponibles en un tiempo y espacio limitados, es decir,
representamos todas las “observaciones posibles”: no hay muestreo aleatorio ya que tenemos
todas las observaciones posibles a nuestra mano, como cuando utilizamos todos los registros
de los propios hospitales.
La probabilidad es útil cuando usamos mecanismos de aleatorización, ya que no tenemos toda

las observaciones posibles, pero cuando las tenemos, no hay muestreo aleatorio posible, y por
tanto la probabilidad no nos es útil = actuaremos irracionalmente, ya que actuaremos como si
esos datos fueran generados por un mecanismo aleatorio a partir de esa población, aunque no
sea así.
Aunque algo no pase en presente, podemos desarrollar una distirbución de probabilidad para
determinar si podría ocurrir en el futuro. Si las posibilidades de que ocurran esos eventos son
bajas pero queremos determinarlas, utilizaremos precisamente una distribución Poisson. La
distribución normal depende tanto de la media como de la desviación típica, pero la Poisson
solamente de la media. Es posible que desarrollemos pautas globales predictibles derivadas de
eventos individualmente impredecibes (como el ejemplo de los homicidios). Muchos
fenómenos sociales pueden mostrar pautas generales muy similares, pero recordemos,
eventos individuales son totalmente impredecibles.
Dos aspectos de la probabilidad:
1. Aleatoriedad pura: Las partículas subatómicas, monedas, dados
2. Variabilidad natural: La inevitable, aquella que ocurre cuadno asumimos que el azar
resulta ser aquello que engloba toda la inevitable impredictibilidad del mundo.
Cap. 09: Juntar la Probabilidad y Estadística
 Variable aleatoria: Un punto de datos extraído de una distribución de probabilidad

descrita por parámetros.
Nos interesa algo más allá de un punto de datos: una masa, que resumimos en los estadísticos
(medidas de tendencia central…). Esos mismos estadísticos pueden ser considerados variables
aleatorias.
 Distribución binominal.
 Esperanza: La media de un estadístico.
 Error típico: La desviación típica de un estadístico (desviación se llama cuando

hablamos de la distribución poblacional).
 Ley de los números grandes: A medida que aumenta la muestra, se reduce la

variabilidad.
o Bernoulli: Describe aquella situación donde hay dos valores posibles, como una
moneda. Si encima es equiprobable, también es uniforme.
 Teorema Central del Límite: La distirbución de la media tiende hacia una distribución
normal a media que se incrementa el tamaño muestral, casi que con independencia de
la forma de la distribución original de los datos. El autor lo usó para los casos de
distribución binominal, aunque esto suele pasar en la mayoría de distribuciones. Se
puede asumir que las medias muestrales y otros estadísticos de resumen tienen una
distribución normal en el caso de grandes muestras.
La distribución normal surge de manera ordenada a partir de un caos aparente: es una

extraordinaria ley natural.
 Dos tipos de incertidumbre (la ignorancia personal sobre un evento que es fijo pero
desconocido):
1. Aleatoria: Previa.
2. Epistémica: Posterior al acto. La estadística es la que usamos cuando nos enfrentamos

a la incertidumbre epistémica sobre alguna cantidad. El modelo de la teoría de
probabilidad (modelo probabilístico) puede ser usado para determinar qué podemos
aprender del pasado, ya que podemos enfrentarlo a la incertidumbre epistémica. Es lo
que llamamos inferencia estadística.
El cálculo del margen de error tiene tres estadios:
1. Usamos la teoría de probabilidad para que nos dé un intervalo en el que esperamos

que se encuentre el estadístico observado con una probabilidad de 95%. Son los
intervalos de predicción al 95%.
2. Observamos un estadístico particular.
3. Finalmente establecemos el rango de posibles parámetros poblacionales para los

cuales nuestro estadístico se encuentra dentro del intervalo de predicción del 95%
(intervalo de confianza del 95%). Un intervalo de confianza es el rango de parámetros
de población para los cuales nuestro estadístico observado es una consecuncia
plausible.
Los márgenes de error solamente se sostienen si nuestras asunciones son aproximadamente

correctas. Estos mismos márgenes de error deben basarse (siempre) en dos componentes
necesarios:
 Tipo A: La medida estadística (¿márgenes de error?), que se esperaría que se redujese

a medida que aumentan las observaciones.
 Tipo B: errores sistemáticos que no se esperaría que se redujesen pese al aumento de

las observaciones.
Si tenemos todos los datos posibles, no existe margen de error. Ahora, si queremos decir algo
sobre tendencias subyacentes podemos crear un modelo probabilístico para evaluar
precisamente la inferencia sobre las cantidad desconcoidas que han variado, o no se explican
(sobre todo cuando una tasa de algo cambia de un año a otro, hay posibles cantidades
desconocidas).
 Esta tendencia subyacente es simplemente algo similar a los intervalos de cofianza y

márgenes de error que hicimos en los ejercicios de clase, lo de hacer la raíz cuadrada
de m, y luego usar la unidad Z de 1,96 multiplicada por el resultado de la raíz cuadrada
para obtener el intervalo +/-.
 Un intervalo de confianza del 95% es el resultado de un procedimiento en que en el

95% de los casos en los cuales sus asunciones son correctas, contendrá el valor real del
parámetro. No se puede decir, en todo caso, que un intervalo específico tiene una
probabilidad del 95% de contener el valor real.
Estos intervalos de confianza que hacemos tienen dos posibilidades: algunos nacen de nuestra
incertidumbre epistémica sobre el número real de algún estimador, como la tasa de
desempleo; otros pretenden no tanto poner en duda el estimador o medida que hemos usado
(ya que asumismos que los registros de X, p. ej. la tasa de homicidios, son correctos), sino del
riesgo subyacente (la tendencia) de la sociedad. En este último caso los intervalos representan
la incertidumbre sobre los parámetros de una “población metafórica subyacente”.
Cap. 09: Responder preguntas y reivindicar descubrimientos
 Hipótesis: Explicación propuesta para un fenómeno.
 Hipótesis Nula: Lo que asumimos que es verdad hasta que se demuestra lo contrario.
Es invariablemente negativa, niega todo progreso o cambio. Es una hipótesis, por lo
que no queda demostrada, pero podemos rebatirla.
 Área de la cola (valor P): Un valor P es la probabilidad de obtener un resultado al

menos tan extremo como el que hemos obtenido, si la hipótesis nula (y todas las
demás asunciones del modelo) fuer realmente cierta. El valor P de una cola es de 0,45
(45%), lo que es una prubea bilateral. EL valor P de dos colas es de 0,89 (89%)
 Significatividad estadística: Si un valor P es lo suficientemente pequeño decimos que

son estadísticamente significativos.
 Test estadístico de Chi-cuadrado: calcula el número esperado de eventos en cada celda
de la tabla, en el caso de que la hipótesis nula de no asociación sea cierta, y después
un estadístico de chi-cuadrado mide la discrepancia total entre los recuentos
observado y esperado.
 T de Student: El valor-T es simplemente el estimador-error típico, por lo que se puede

interpretar como lo lejos que está el estimador de 0, medido en número de errores
típicos. Un valor t determinado y el tamaño muestreal = el software puede
proporcionar un valor P preciso. En muestras grandes, un valor T mayor a 2 o menor a -
2 corresponden a P <0.05. R usa un sistema de * (de una a tres) para determinar la
significatividad.
 Cuantos más ensayos hagamos buscando esa significatividada de P <0.05, más

probabilidades hay de que saquemos un falos positivo. Tenemos otro problema
llamado “problema de pruebas múltiples” cuando se llevan a cabo muchas pruebas de
significatividad y se declaran los resultados más significativos.
 Corrección de Bonferroni: Sirve para aquellos casos donde hacemos múltiples pruebas,
corrigiendo los resultados mediante el siguiente umbral: 0.05 / n (n=número de
pruebas realizadas). Sirve para decidir si al final los resultados más extremos son los
más significativos.
En ciencia: si un resultados está a “dos sigmas”, quiere decir que está a dos errores típicos de la
hipótesis nula. La letra sigma se usa para reflejar la desviación típica de la población.
Dos tipos de errores posibles en los test de hipótesis vistos (teoría Neyman-Pearson del
comportamiento inductivo):
1. Error de tipo 1: Cuando rechazamos una hipótesis nula que es cierta.
2. Error de tipo 2: No rechazamos la hipótesis nula y es la alternativa la que se sostiene.
 Ley del logaritmo iterado: Muestra que si llevamos a cabo muchas pruebas repetidas
para determinar el nivel de significatividad, incluso si la hipótesis nula es cierta, es
seguro que al final la rechazaríamos sea cual sea el nivel de significatividad que
escojamos.
o Prueba de Razón de Probabilidad Secuencial (PRPS): Posible solución al

problema. Es un estadístico que evalúa la evidencia acumulada sobre
desviaciones, y puede en todo momento ser comparado con determinados
umbrales: cuando uno de los umbrales es traspasado, entonces se dispara una
alarma y se investiga la secuencia… Estos umbrales pueden ser caracterizados
como, por ejemplo, errores de X tipo.
Nota: aunque los sistemas estadísticos puedan detectar y extraer resultados atípicos, no
pueden ofrecer las razones que explican por qué se dan esos resultados.
Un valor P no significativo solamente indica que los datos son compatibles con la hipótesis
nula, no que la hipótesis nula sea cierta.
 Principios de los Valores P:
1. Los valores P pueden indicar cómo son de incompatibles los datos con un determinado
modelo estadístico.
2. Los valores P no miden la probabilidad de que la hipótesis estudiada sea cierta, o la

probabilidad de que los datos sean resultados exclusivamente del azar.
3. Las conclusiones científicas y las decisiones económicas o políticas no deberían basarse

en si un valor P cruza un determinado umbral.
4. Una inferencia adecuada requiere informar de todo con transparencia (por ejemplo, el
número de pruebas, para aplicar correciones como la de Bonferroni).
5. Un valor P, o significatividad estadística, no mide el tamaño de un efecto o la

importancia de un resultado (significatividad estadística no es igual a significatividad
práctica).
6. En sí mismo, el valor P no proporciona una buena medida de la evidencia referida a un
modelo o hipótesis. Por ejemplo, un valor P cercano a 0.05, tomado aisladamente, solo
ofrece una evidencia débil frente a una hipótesis nula.
Cap. 10: La escuela bayesiana
Creado por Thomas Bayes. Se puede usar la probabilidad no solo para eventos futuros, sino
para eventos ciertos, ocurridos, donde opinamos o teorizamos de manera personal
(incertidumbre epistémica). Es un reflejo de nuestra ignorancia personal. La probabilidad
depende de nosotras, por tanto, es subjetiva, depende cómo vemos el mundo exterior. Los
datos no hablan por sí mismos, sino que nuestro juicio juega un papel fundamental. Usa el
conocimiento contextual para ofrecer inferencias más realistas.
 Probabilidad inversa: Primero lo que ocurre, y luego la prueba para saber la verdad.
 Razón de probabilidad: Probabilidad de que ocurra un evento dividida por la

probabilidad de que no ocurra (ejemplo de la moneda de 1/2 dividido por el otro 1/2).
 Razón de verosimilitud: Probabilidad de que la evidencia apoye la hipótesis A, dividida

por la probabilidad de que la evidencia apoye la hipótesis B (usado mucho en juicios).
En el ejemplo de dopaje se usa para saber cuánto más probable es que dé positivo si
uno se ha dopado, que si uno no se ha dopado (recordar falsos positivos).
 Teorema de Bayes: Razón de probabilidad final (posterior) = Razón de probabilidad

inicial (previa) * Razón de verosimilitud.
 Modelos jerárquicos/multinivel: Analizan simultáneamente varias cantidades
individuales. Se pueden usar en encuestas preelectorales. Se pueden hacer encuestas a
partir del modelo de regresión multinivel y post-estratificación (RMP): división de todos
los posibles votantes en celdas, las cuales comprenden a una serie de votantes muy
homogéneos (misma área, edad, género…). Lo que sigue no tengo ni puta idea.
Permiten combinar la evidencia de a lo largo de múltiples análisis menores que se
asume que tienen parámetros en común.
 Mente bayesiana: Partimos de unas expectativas previas sobre lo que nos vamos a
encontrar en cualquier contexto, y después solo tenemos que tomar nota de
características inesperadas, que se usan después para actualizar nuestra percepción
actual.
Disputa de los años 20s, 30s y 40s entre frecuentistas y bayesianos. Termina en usar hoy en día
un enfoque más global, donde los métodos se escogen en base al contexto práctico. Hoy en día
se debe dar más hincapié a la calidad de los datos y la seriedad científica qu a disputas
ideológicas.
Cap. 12: Cuando las cosas se hacen mal
 Crisis de la reproductibilidad: El problema de la significatividad y hacer constantemente

nuevos descubrimientos científicos, que luego no pueden replicarse.
Se pueden cometer errores, por ejemplo, en la propia muestra, en los mismos cálculos, en el
empleo de métodos estadísticos incorrectos… Incluso al hacer muchas pruebas estadísticas,
pero solamente mostrar aquellas que son significativas e interpretar el estudio en base
exclusiva a éstas. La selección espuria de casos es lo que muchas veces da el fraude en la
comunidad científica. También pueden haber “errores comunicativos”, como una mala
selección de palabras o un diseño fallido, así como distorsiones. También está la prensa, que
premia titulares exagerados o directamente los crea de la nada (ej. de los tumores cerebrales y
estudios universitarios) con tal de atraer la mayor atención posible de los lectores.
 Grados científicos (o del científico) de libertad: Cuando se dan esos retoques en el

modelo de investigación o estos se adaptan en exceso a los datos que vamos
encontrando, casi que deformando la investigación.
Otro problema son las prácticas científicas cuestionables, como qué datos destacar o qué
grupos excluir.
 Estudios exploratorios: Son más libres ya que manejan distintas hipótesis, permitiendo
retoques que de otra forma serían prácitcas cuestionables.
 Estudios confirmatoriso: Reglas preescritas y preferiblemente d ecarácter público.
 HARKing: Inventarse las hipótesis después de conocerse los resultados (mala praxis).
Cap. 13: Hacer una estadística mejor
Tres grupos que deben actuar (mejor) si queremos que la estadística mejore:
1. Productores de estadísticas
2. Comunicadores
3. Audiencias
Los revisores de las revistas deben ser más estrictos en el control de calidad, así como más
flexibles o negativos frente a estudios infructuosos e imperfecciones.
Las afirmaciones basadas en datos deben ser:
 Accesibles: Poder acceder todo el mundo.
 Inteligibles: Poder comprender la info.

 Evaluables: Poder comprobar la fiabilidad de la info.
 Usables: Poder explotar la info. para nuestras necesidades.
 Las diez grandes preguntas que nos debemos hacer:
1. ¿Es el estudio riguroso?
2. ¿Cuál es la incertidumbre estadística o la confianza en los resultados?
3. ¿Es apropiado el resumen?
4. ¿Es fiable la fuente?
5. ¿Está la historia siendo manipulada?
6. ¿Qué es lo que no se me está contando?
7. ¿Cómo encaja la afirmación con lo que ya conocemos?
8. ¿Cuál es la explicación de los autores de los resultado?
9. ¿Cuál es la relevancia de la historia para el público?
10. ¿Es el efecto predicado importante?
Cap. 14: En Conclusión
 10 Reglas para la Estadística:
1. Los métodos estadísticos deberían permitir que los datos respondan a cuestiones
científicas.
2. Las señales siempre llevan al ruido (la variabilidad es inevitable, y los modelos de
probabilidad son una abstracción útil).
3. Planifique con (mucha) antelación.
4. Hay que preocuparse por la calidad de los datos.
5. El análisis estadístico es mucho más que un conjunto de cálculos informáticos.
6. No se complique.
7. Proporcionee evaluaciones de variabilidad (los márgenes de error son generalmente

mayores de lo que se afirma).
8. Compruebe sus supuestos.
9. Siempre que pueda, ¡replique!
10. Haga que sus análisis sean reproducibles.

Apuntes Libro de Estadística

Cargado por

Información del documento

Descripción original:

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Apuntes Libro de Estadística

Cargado por

Copyright:

Formatos disponibles

El libro comienza con el análisis de caso de Harold Shipman y como la estadística a partir del

 Dos limitaciones de los datos: Son imperfectos (problema de la inferencia de la

 Alfabetización en datos: Capacidad no solo de llevar a cabo análisis estadísticos de

 PPDAC: Problem, Plan, Data, Analysis, Conclusion (ciclo de resolución de problemas).

o Problema: Especificar el problema a tratar, plantear la primera gran pregunta a

o Plan: Qué queremos medir; cómo; si debemos o no registrar o recopilar…

o Datos: Recopilación/Compilación de los datos y su subsiguiente gestión,

o Análisis: Generar hipótesis, buscar pautas, clasificar datos… Generar gráficas….

o Conclusión: Interpretar los datos, comunicarlos… Pero también dar

Cap. 1: Datos categóricos y porcentajes

Cap. 2: Cómo resumir y communicar datos (muchos números)

 Distribución de datos (muestral/empírica): Pauta que siguen los valores

 Variables numéricas: Contables (solo números enteros) y Continuas (pueden hallarse

 Promedio: Dato estadístico de resumen sacado a partir de distintas observaciones

o Media: Suma de los números dividida por el número de casos.

o Mediana: El valor central cuando los números están en orden.

o Moda: Valor más repetido/común.

Necesitamos tener una idea de la dispersión, de la variabilidad.

 Rango Intercuartílico: Contiene la distancia entre el percentil 25 y 75, es decir, la mitad

 Coeficiente de correlación de Pearson: 1 implica que todos los puntos se encunetran

Cuatro características de una buena visualización de los datos:

2. Diseño elegido para destacar las pautas importantes.

3. Presentación atractiva, pero que no sustituye los datos fiables y la honestidad.

4. Que permita la exploración de los datos cuando sea necesario.

5. Primera regla de la comunicación: Callar y escuchar (conocer a la audiencia a la que

6. Segunda regla: Saber lo que uno quiere, el objetivo.

 Dataviz: Visualización de los datos. El gráfico aséptico.

 Infoviz: La infografía tras recibir de los datos el mensaje a comunicar.

Cap. 3: Poblaciones y Mediciones

1. Si existen problemas de los datos a la muestra, tenemos un problema de medición:

2. Si existen problemas de la muestra a la población objeto de estudio, tenemos un

3. Si existen problemas de la población objeto de estudio a la población objeto, tenemos

 Distribución poblacional: La pauta que sigue todo el grupo de interés.

 Distribución normal (campana de Gauss): Podemos esperar una distribución normal

o Puntuación Z: Mide cuántas desviaciones típicas algo está alejado de la media.

Podemos concebir a la población también como una distribución de probabilidad de una

 3 Tipos de Población de las que podemos extraer muestras:

1. Población Literal: Un grupo identificable (como escoger a una persona de forma

2. Población Virtual: Tomamos medidas mediante algún dispositivo, como la polución o la

A menudo los datos no son una muestra de una población literal.

Cap. 4: ¿Qué causa qué?

 Falacia de la evidencia incompleta: acción de citar casos individuales o datos que

 Apofenia: Tendencia psíquica, innata al ser humano y agudizada en la psicosis, a

 Causalidad inversa: fenómeno que describe la asociación entre dos variables de un

 Factores ocultos: causas potenciales que no medimos y se mantienen a la espera de

 Tres tipos de evidencias (criterios de Bradford Hill):

2. Evidencia mecanicista: Existe un mecanismo de acción plausible (con evidencia externa

3. Evidencia paralela: El efecto encaja en lo ya conocido.Se encuentra el efecto al

Cap. 5: Modelizar relaciones mediante regresión

Resume previo: Los modelos de regresión proporcionan una representación matemática de la

 Modelo estadístico: Representación formal de las relaciones entre variables, que

1. Una fórmula matemática que expresa un componente determinista, predecible (como

 Error: No es algo que está mal, es nuestra incapacidad de representar perfectamente lo

 Observación = Modelo determinista + Error residual.

 Modelo: Algún fenómeno que se representa matemáticamente y que, en este caso, a

 Regresión lineal múltiple: Se basa en la suma de las posibles variables explicativas

Cap. 06: Algoritmos, analítica y predicción

 Objetivos de un algoritmo: La clasificación para decirnos a qué clase de situación nos

 El ejemplo del Titanic: para saber la posibilidad de supervivencia de un pasajero que se

 Árbol de Clasificación: Tipo de algoritmo donde la respuesta de sí o no a una pregunta

 Sobreajuste: Ajuste de los datos al entrenamiento, lo que provoca una reducción de su

 Cuatro Grandes Problemas de los Algoritmos:

2. No tener en cuenta la variabilidad estadística: Las clasificaciones automatizadas