Documentos de Académico
Documentos de Profesional
Documentos de Cultura
INTRODUCCIÓN
DEFINICIÓN DE ESTADÍSTICA
La estadística es una disciplina que se dedica a la recolección de datos, su
organización, resumen, análisis e interpretación, con la finalidad de tomar decisiones.
Hay dos clasificaciones de la estadística. La primera diferencia la estadística
descriptiva de la estadística inferencial. Y la segunda distingue la estadística paramétrica
de la estadística no paramétrica.
La estadística descriptiva se dedica a la organización y resumen de los datos.
La organización de los datos se hace en base a diferentes variables como sexo, edad,
nivel económico y social, tiempo y espacio. Resumir los datos significa determinar las
medidas de tendencia central que son la media, la mediana y la moda. También se
resumen mediante las medidas de variabilidad o medidas de dispersión, que son la
varianza y la desviación estándar.
La estadística inferencial se refiere a los procedimientos para tomar decisiones
acerca de una población con los datos de una muestra, tomada de esa misma población.
Para que estos procedimientos sean válidos es necesario que las muestras sean
aleatorias, es decir, que todos los componentes de la población tengan la misma
probabilidad de estar incluidos en la muestra. Si esto ocurre se dice que la muestra es
representativa
La estadística paramétrica es una rama de la estadística inferencial que se
sustenta en el supuesto de que la población bajo estudio se distribuye de manera normal.
Si la población no sigue una distribución normal o se desconoce su forma es necesario
recurrir a procedimientos estadísticos no paramétricos.
La estadística no paramétrica es una rama de la estadística que estudia
modelos matemáticos y procedimientos de análisis cuando la distribución de la población
no sigue una distribución normal. Existen muchos métodos no paramétricos de los cuales
solo mencionaremos la Distribución Binomial, la Prueba de Kappa para el análisis de
concordancia y la Prueba de Anderson-Darling.
POBLACIÓN Y MUESTRA
El término población es en cierto sentido arbitrario, porque se denomina población
al conjunto de personas o cosas acerca de las cuales queremos saber algo, y por tanto,
se pueden convertir en objeto de estudio. Las poblaciones pueden ser grandes o
pequeñas. Son ejemplos de poblaciones pequeñas la formada por los diputados o por el
conjunto de los senadores del país. No obstante, lo usual es que las poblaciones sean
grandes como los habitantes de un país, de una provincia o de un municipio.
Cuando las poblaciones son pequeñas se pueden estudiar todos sus
componentes. Sin embargo, cuando las poblaciones son grandes no podemos estudiar
todos sus componentes por razones de tiempo, de trabajo y de recursos, por eso
recurrimos a los procedimientos de muestreo estadístico. Una muestra es un subconjunto
de la población que se selecciona de manera aleatoria para que sea representativa de
toda la población.
PARÁMETRO Y ESTADÍSTICO
Los procedimientos que se realizan en la población se llaman parámetros y
cuando se hacen en la muestra se llaman estadísticos. Por ejemplo, considere una
población formada por 2000 personas. Nos interesa saber la media de la presión arterial
sistólica de esa población. Tengo dos caminos. Puedo trabajar con toda la población o
puedo tomar una muestra aleatoria. Suponga que se tomó la presión arterial sistólica a
las 2000 personas y resultó en una media de 125 mm HG. Este valor es un parámetro
porque es la media de la población. Si, en cambio, tomo una muestra aleatoria de esa
población y calculo la media y resultó ser 128 mm HG, entonces este valor es un
estadístico porque se calculó en una muestra. Los estadísticos también son llamados
estimadores. Porque si se quiere conocer la media de la población, se estima mediante
la media de la muestra. Si se quiere saber la varianza de la población se estima a partir
de la varianza de la muestra y si se quiere saber la desviación estándar de la población
se estima con la desviación estándar de la muestra.
Es conveniente, desde ahora familiarizarnos con la jerga de la bioestadística y lo
haremos mediante la siguiente tabla:
TABLA 1-1
ALGUNOS SíMBOLOS DE LA ESTADíSTICA DESCRIPTIVA
POBLACIÓN MUESTRA
Símbolo Nombre Símbolo Nombre
MEDIA Miu ̅
𝑋 Media Muestral
µ
VARIANZA
2 Sigma s2 Varianza Muestral
DESVIACIÓN
ESTÁNDAR Sigma2 S Desviación
Estándar Muestral
TIPOS DE DATOS
Hay dos tipos de datos o variables. Datos cualitativos y datos cuantitativos o
numéricos. Los datos cualitativos se refieren a cualidades o características de las cosas
o de las personas a las cuales se les ha asignado un nombre. Son ejemplos de datos
cualitativos los colores, los nombres de los equipos deportivos, los nombres de los
partidos políticos. También las condiciones de obeso, delgado, fuerte, débil, o las
características psicológicas como simpáticas, agradables, odiosas, tristes y alegres.
Las variables cuantitativas se clasifican a su vez en datos discretos y datos
continuos. Los datos discretos son valores enteros, no fraccionables y se pueden contar.
Con los datos discretos solo podemos calcular proporciones. Por ejemplo, en un grupo
de 20 personas podemos decir que cinco simpatizan por el partido rojo y diez simpatizan
por el partido azul. Por tanto, la proporción de simpatizantes por el partido rojo es 5 de
20, es decir, 0.25, que es el 25%. La proporción de simpatizantes por el partido azul es
10 de 20, es decir, 0.50, que representa el 50%.
En cambio, las variables cuantitativas continuas son producto de mediciones,
como la presión arterial, el peso, la talla, los niveles de colesterol, glicemia o acido úrico.
Con las variables cuantitativas continuas solo podemos calcular medias aritméticas o
promedios. Podemos calcular la presión arterial media de un grupo de personas. Lo
mismo podemos hacer con los niveles de hemoglobina, colesterol, o glicemia.
NIVELES DE MEDICIÓN
Otra característica de los datos es su nivel de medición. La importancia de
establecer los niveles de medición es que se relacionan con los cálculos estadísticos que
se pueden hacer. Hay cuatro niveles de medición que son el nivel nominal, el nivel
ordinal, el nivel de intervalo y el nivel de razón.
El nivel nominal corresponde a datos cualitativos. En este nivel a los datos se les
ha asignado un nombre que designa una cualidad o una característica de una persona o
de una cosa. Este es el más bajo nivel de medición. En este nivel no se puede hacer
ningún cálculo matemático, excepto establecer qué proporción de individuos poseen
alguna cualidad. Podemos decir, por ejemplo, que el 20% de los médicos de un hospital,
son especialistas en medicina interna.
En el nivel ordinal las variables pueden ser cualitativas o cuantitativas y hay un
orden. Por ejemplo, un dolor puede ser leve, moderado o severo. Otro ejemplo son los
tres primeros lugares en una competencia deportiva o en un certamen de belleza. En
este nivel se pueden establecer relaciones de mayor que, menor que o igual que en
relación con alguna variable. Pero las diferencias no se pueden usar para hacer cálculos
En el nivel de intervalo la escala es cuantitativa. Aquí hay un orden en las
mediciones. En este nivel las variables tienen intervalos iguales entre sus valores. El
tiempo es un buen ejemplo. La distancia del intervalo que va desde el 5 de enero hasta
el diez de enero es igual a la distancia que hay entre el 20 y 25 de febrero. Este nivel
acepta la existencia de un cero, que se coloca arbitrariamente. Por ejemplo, el tiempo se
mide en minutos, horas, días, meses y años. Además, sabemos que estamos en el XXI
de la era cristiana. Y esto es así porque el hombre inventó un cero, que es evidentemente
arbitrario. Naturalmente, este cero no es verdadero porque la historia no se inicia con la
era cristiana.
El ejemplo más sonado es el de la temperatura. Si se observa la escala del
termómetro veremos que los intervalos son iguales. Y que marca un orden, desde una
temperatura menor a una mayor. Pero el cero de esa escala es arbitrario, porque fue
establecido por el hombre y el cero de la escala Celsius o de la escala Fahrenheit podrían
ser modificados. En esta escala pueden calcularse las medidas de tendencia central,
como la moda, la mediana y la media aritmética, es decir, podemos establecer la
temperatura que se registra con más frecuencia, el valor central en una serie de
temperaturas ordenadas y el promedio de las mediciones. En esta escala también se
puede sumar y restar.
El nivel de razón es el nivel más alto de medición. Esta escala utiliza un cero
verdadero que significa ausencia de una característica. Es aplicable al peso y la talla. Se
pueden hacer operaciones matemáticas de división y multiplicación.
TÉCNICAS DE MUESTREO
Como es difícil trabajar con toda la población por razones de trabajo, tiempo y
costo, usualmente se recurre a las muestras, que son porciones de la población.
Para obtener muestras no sesgadas el investigador debe asegurarse de que su
muestra sea representativa de la población. Existen técnicas de muestreo que nos
pueden asegurar que las inferencias que se hagan a partir de una muestra sean validas.
Cuando se toma una muestra esa muestra debe ser aleatoria y una muestra es aleatoria
solo si todos los miembros de la población tienen la misma probabilidad de aparecer en
la muestra. Si esto se viola hay sesgo y los resultados del procedimiento estadístico
aplicado no son reales.
Hay un error que siempre persigue al investigador y es el error de muestreo, que
es la diferencia entre el valor verdadero de la población y valor encontrado en la muestra.
Por ejemplo, si calculamos la media de los pesos de una población de mil personas
obtendremos la media verdadera porque hemos pesado a todas las personas. Pero si en
cambio, pesamos una muestra y calculamos la media, es muy probable que la media de
la muestra difiera de la media de la población, este es el error de muestreo. Naturalmente
mientras mayor es el tamaño de la muestra menor será el error de muestreo.
1. Carmen
2. María
3. Darío
4. Teresa
5. Celeste
6. Natalia
7. Elpidio
8. Jesús
Primer periodo
Los Estados y los Censos
Lo que caracteriza este incipiente estadio de la estadística es su relación con los
Estados, en los que había interés en conocer datos poblacionales y datos relacionados
con la producción, el comercio y la agricultura. En esta etapa se realizaban censos. Hay
documentos sobre Israel, Egipto, China y Grecia, desde antes de Cristo, que dan cuenta
de recopilación de datos sobre la agricultura y las actividades comerciales e industriales.
En el año 27 antes de Cristo, el Imperio Romano, durante el mandato de Cesar Augusto,
exigió que todos los súbditos tuvieran que tributar y se estableció la realización de censos
cada cinco años para registrar nacimientos, defunciones y matrimonios. Y, además, se
hacían recuentos periódicos del ganado y de las riquezas de los territorios conquistados.
En la Biblia, en el libro cuarto de Moisés, llamado Números, habla del Censo de
Israel en Sinaí donde dice lo siguiente: Habló Jehová a Moisés en el desierto de Sinaí,
en el tabernáculo de reunión, en el día primero del mes segundo, en el segundo año de
la salida de la tierra de Egipto diciendo: Tomad el censo de toda la congregación de los
hijos de Israel, por sus familias, por las casas de sus padres, con la cuenta de los
nombres, todos los valores por sus cabezas.
Se debe a Godofredo Achenwall, profesor de la universidad de Gotinga, Prusia
Oriental, que en 1760 acuñó la palabra estadística, extraída del término italiano statista
(estadista) porque él creía que los datos de esta nueva ciencia serian un aliado eficaz de
los gobernantes.
Segundo periodo
Las estadísticas Vitales: John Graunt
Este es un periodo que se inicia en el Siglo XVII con los aportes de John Graunt
(1620-1674). En 1660 Graunt estudió los certificados de defunción de Londres y recopiló
documentos que abarcaron 30 años. Fue el primero en manejar cantidades masivas de
datos y sus trabajos sentaron la base de la estadística moderna. Hizo estudios de
predicciones sobre mortalidad por diferentes enfermedades y sobre los nacimientos. Su
trabajo está condensado en su obra “Natural and Political observations made upon the
Bills of Mortality” (Observaciones Políticas y Naturales hechas a partir de los registros de
mortalidad).
Tercer periodo
Las Teorías de la Probabilidad
Los matemáticos Blaise Pascal (1623-1662) y Pierre de Fermat (1601-1665) se
consideran como creadores de la teoría de la probabilidad por sus aportes en la solución
del problema del reparto de apuestas cuando se suspende un juego. Este problema
surge cuando un juego de apuestas es suspendido y es necesario decidir cómo distribuir
el dinero apostado.
La primera propuesta de solución a este problema, de la que hay constancia, fue
la del matemático italiano Fray Luca Pacioli en 1494. La solución ofrecida por Pacioli
planteaba que era necesario tener en cuenta la parte del juego que se había jugado y la
proporción de esa parte que había conseguido cada equipo. Esta era una solución
retrospectiva. Sin embargo, el método propuesto por Pacioli nunca fue considerado una
solución satisfactoria.
Pasaron muchos años para que Blaise Pascal y Pierre de Fermat resolvieran el
problema, de otra forma. Estos matemáticos plantearon que el reparto de apuesta
cuando se suspende un juego de azar debe hacerse en base a la probabilidad de éxito
de cada uno de los jugadores.
Supongamos dos jugadores de dados. El jugador A apuesta al número cinco y el
jugador B al número tres. El jugador que obtenga tres puntos se convierte en ganador.
Supongamos, además, que la apuesta es de 32 pesos cada uno. Se están apostando 64
pesos. Después del tercer lanzamiento, por alguna razón, se suspende el juego. La
puntuación esta 2 a 1. El jugador A tiene dos puntos y el jugador B tiene un punto. ¿Cómo
repartir el dinero?
El jugador B, siguiendo la propuesta retrospectiva de Pacioli, alega que el jugador
A tendría derecho a dos terceras partes del dinero en base a la proporción del juego
ganado al momento de suspenderse el juego. Dos terceras partes de 64 equivalen a
42.6.
Sin embargo, Pascal y Fermat no están de acuerdo con esta solución. Alegan que
si el jugador A, en el próximo lanzamiento gana, completaría los tres puntos para llevarse
los 64 pesos, pero si el juego se empata habría que hacer un cuarto lanzamiento del
dado. En esta situación las probabilidades de ganar son iguales a las probabilidades de
perder. Entonces el jugador A, antes de este último lanzamiento, argumenta que ya tiene
asegurado la mitad del dinero, es decir, 32 pesos. Y como para el último lanzamiento
tiene las mismas posibilidades de ganar que de perder le correspondería 16 pesos de
los 32 restantes. Por tanto, lo tocaría 48 pesos y no 42.6.
En este ejercicio se han manejado términos básicos de la estadística, como el
espacio muestral, el de suceso aleatorio y el concepto de probabilidad, de ahí los méritos
atribuidos a Pascal y Pierre de Fermat.
Jakob Bernoulli (1654-1705), matemático y científico suizo. Fue el primero en
ofrecer una definición clásica de la estadística. En su obra El Arte de la Conjetura,
publicada después de su muerte, se encuentra su famoso Teorema de Bernoulli, que
es la base de la Distribución de Probabilidad Binomial
Al matemático francés, Abraham de Moivre (1667-1754), se le debe la
formulación moderna del concepto de Probabilidad de un Suceso y lo expresó de la
siguiente manera: “La probabilidad es una fracción en la que el numerador es igual al
número de apariciones del suceso y el denominador es igual al número total de casos en
los que el suceso pueda o no pueda ocurrir”. Otros aportes de este autor son el Teorema
de la Multiplicaciones de Probabilidades y el concepto de la Independencia de los
Sucesos Aleatorios
Tomas Bayes (1707-1761) fue un estadístico, filósofo y ministro presbiteriano, de
nacionalidad inglesa, muy conocido por el Teorema que lleva su nombre, El Teorema
de Bayes. En vida nunca publicó sus trabajos, sus apuntes fueron publicados, después
de su muerte, por Richard Price, filósofo y matemático inglés. Los apuntes de Bayes
fueron publicados en 1763 en un ensayo titulado “An Essay Toward Solving a Problem
in the Doctrine of Chances” (Un Ensayo para la solución de problemas en el campo del
azar). Como las pruebas de laboratorio pueden dar positivas en ausencia de enfermedad
o negativas en presencia de enfermedad, siempre será válida la pregunta, ¿Cual es la
probabilidad de enfermedad ante un resultado positivo? El teorema de Bayes nos ayuda
a contestar este tipo de preguntas.
Pierre Simón Laplace (1749-1827), astrónomo, físico y matemático francés,
sentó las bases matemáticas de la probabilidad. En el 1812 publicó un libro titulado
“Teoría Analítica de las Probabilidades”. Allí presentó sus análisis sobre la Distribución
de Probabilidad Discreta y sobre la Distribución de Probabilidad Continua. Fue,
además, responsable del descubrimiento del Teorema del Limite Central, que es un
tema central en la estadística paramétrica.
Cuarto periodo
La Inferencia Estadística
La inferencia estadística se refiere a la prueba de hipótesis y a la estimación de
los intervalos de confianza. Estos procedimientos permiten tomar decisiones y hacer
afirmaciones acerca de poblaciones partiendo del análisis estadístico de muestras
aleatorias. En el diseño de estos métodos participaron diversos autores, hay varios
precursores. Pierre Simón Laplace contribuyo con el concepto del Teorema del Limite
Central. Otras contribuciones importantes son las de Carl Gauss, Francis Galton, Jerzy
Neyman, William Gosset, Arnold Fischer y Frank Wilcoxon.
La contribución de Carl Friedrich Gauss (1777-1855) fue notable. Estudió la
regresión y los métodos de los mínimos cuadrados. En su honor, a la curva de
distribución normal también se le llama Distribución de Gauss. El estudio, por parte de
Gauss, de la teoría de los errores lo condujo al estudio de la distribución de probabilidad
de errores y de esta forma llega a la distribución normal. El tema de la teoría de los
errores parte del conocimiento de que ninguna medida es exacta. Siempre hay errores
de medida que pueden deberse a factores relacionados con el observador o factores
relacionado con el instrumento de medida. De ahí surge el concepto de error absoluto,
que es la diferencia entre el valor medido y el valor exacto. Este fue un tema estudiado
por Gauss. Uno de sus postulados expresa que cuando se mide una magnitud varias
veces, se obtiene una serie de valores, pero ninguno de esos valores es el valor
verdadero de la magnitud que estamos midiendo. Sin embargo, el promedio de esos
valores es el que más se acerca al valor verdadero.
Con Francis Galton (1822-1911) se inicia la estadística moderna. Fue él quien
acuñó el concepto estadístico de Correlación, que luego fue refinado por Pëarson. Fue,
además, el primero en explicar el concepto de Regresión a la Media y fue pionero en el
uso de la Distribución Normal.
Karl Pearson (1857-1936). Tuvo dos contribuciones importantes. En primer lugar,
en base al concepto de correlación de Francis Galton desarrollo el Coeficiente de
Correlación, que lleva su nombre. Pero, además, fue el creador del famoso Chi
cuadrado. Un hijo suyo, llamado Egon, junto a un matemático nacido en Polonia,
llamado Jerzy Neyman, se ha considerado el fundador de las modernas pruebas de
contraste de hipótesis.
Quinto periodo
El Software estadístico y su Interpretación
b. Varianza_____
c. Desviación Estándar_____