Documentos de Académico
Documentos de Profesional
Documentos de Cultura
KENNEDY
BIOESTADÍSTICA
Guía de Lectura
2016
1
UNIDAD I
Introducción
Ante el término Estadística es probable que uno evoque cifras, extensos cuadros, tablas
de números, datos económicos y demográficos, gráficos, porcentajes, etc. Ideas más o ideas
menos, lo cierto es que la actitud de la mayoría de las personas, ante la Estadística, es de
escepticismo cuando no de ironía. Ahora bien, actitudes de por medio, no podemos negar que la
Estadística es un instrumento que circula e interviene en los ámbitos y dominios más diversos y
cotidianos y específicamente en el campo de la investigación. Se hace estadística cuando se
estima el tiempo probable para llegar a un punto “x” de la ciudad un día viernes en que el aumento
del transito es una constante. Pero también se hace estadística cuando se repiten o reiteran
experiencias u observaciones de un fenómeno para extraer conclusiones acerca de un hecho ya
sea en el campo de las ciencias sociales o las ciencias naturales. Con mayor o con menor
precisión o sistematización se esta haciendo un recuento o inventario de sucesos.
En la historia de la humanidad aparece la estadística expresando diversos censos o recuentos :
• En la Biblia, el cuarto libro del A.T., Números, se destaca por la preocupación de los israelitas
por la precisión numérica :
− dos censos ( caps. 1-4; 26)
− reglamentaciones de los sacrificios ( caps. 28-29)
− instrucciones en el reparto del botín (caps. 31)
− división del territorio alrededor de las ciudades levíticas (35. 1-8)
• En el Nuevo Testamento, Lc. 2. 1-5, se menciona el censo ordenado por el emperador
Augusto, en vísperas del nacimiento de Cristo.
• En Egipto se encontraron vestigios de cierto tipo de administración, organización y movimientos
poblacionales sistematizados y anotados con periodicidad.
• En China, Confucio (500 a.C. ) narra un censo realizado por el Rey Yao (3000 a.C.), que
realizó una estadística agrícola y un relevamiento comercial del país.
• En Grecia, Platón, menciona un diálogo entre Socrates y Glauco en el que destacan la
importancia de la estadística para el “hombre de gobierno”.
• Imperio Romano, los censos calculaban la cantidad de ciudadanos y sus bienes.
• En Inglaterra, en el 1000 d.C., el Rey Guillermo “el conquistador”, estableció un censo o
documentación administrativa.
• En Italia, al final de la Edad Media y en el Renacimiento se registran datos estadísticos.
• La Iglesia, en el Concilio de Trento, introduce la obligación de inscribir los matrimonios,
nacimientos y muertes.
• Con German Cönning, (1600-1681), en el siglo XVII aumentan los datos oficiales y se
sistematiza la estadística como descripción de los aspectos más notables de un Estado. Funda,
en Alemania, la Estadística Universitaria, puramente descriptiva, al mismo tiempo que en
Inglaterra surgen los “aritméticos políticos” que pretendían crear un estadística investigadora,
derivando de esta dos tendencias : Cálculo probabilístico, probabilidades y curva de Gauss y
Cálculo demográfico.
2
Si bien fue definida la estadística en la unidad anterior de manera conceptual a partir de lo
señalado por Susel, es posible definirla en forma operacional:
Funciones de la Estadística
Estadística Estadística
Descriptiva Inferencial
Técnicas Técnicas
3
La Estadística se aplica a distintos campo científicos: Psicopedagogía, Psicología,
Sociología, Biología, Física, etc. Las diversas ramas del saber aplican los criterios estadísticos
para extraer información útil de la gran cantidad de observaciones y registros que se realizan,
mediante la descripción y la síntesis precisas de lo que se ha observado. Este procedimiento se
facilita con la asignación numérica a las observaciones.
La Estadística aplicada a Ciencias biológicas se denomina Bioestadística
1. Estadística Descriptiva
4
representativos de dicha población. Por lo tanto, en las investigaciones, lo que se analizan son
muestras de una población.
1.2. Recolección exhaustiva de datos. Población
Los elementos, personas, objetos o fenómenos a observar constituyen la muestra de la
investigación. Estos elementos forman parte de un grupo de conceptos básicos y específicos que
convienen clarificar. A saber: universo, población, muestra e individuo.
• Universo: es la serie real o hipotética de todos los elementos que componen unas
características definidas relacionadas con el problema de investigación. Es decir, esta
conformado por la totalidad de unidades de análisis que se quiere estudiar. Por ejemplo, todos
los padres que han sufrido la pérdida de un hijo menor de 25 años en accidentes de tránsito.
• Población: es un conjunto definido, limitado y accesible del universo que forma el referente
para la elección de la muestra. Es el grupo al que se intenta generalizar los resultados. Por
ejemplo, todos los padres del universo previamente definido que concurrieron en los últimos 5
años a alguna institución de salud mental de la Ciudad de Buenos Ares.
También se utiliza este término para denominar a todos los datos recogidos. Es más pertinente
en este caso llamarla Población de Datos.
Población de Conjunto de todos los entes a los cuales se pueden aplicar las
conclusiones obtenidas a través de la predicción, estimación o
Investigación o estudio verificación de una hipótesis.
de estudio
5
UNIVERSO
HIPOTÉTICO
(prácticamente infinito)
UNIVERSO o
POBLACIÓN, (finito)
MUESTRA, N
Unidades a observar
6
• Muestra por azar sistemático: se eligen los elementos de la muestra utilizando un sistema fijo
de intervalos iguales, a partir del primer elemento elegido al azar. Por ejemplo, en una línea de
producción de algún producto se toma el primero al azar y los siguientes cada 100 productos
que salen de la línea. Este método es más conveniente que el anterior cuando se trabaja con
una población muy extensa.
• Muestra al azar por estratos: cuando en la población es heterogénea y pueden reconocerse
grupos bien diferenciados en cuanto al factor en estudio, se divide a la misma en estratos
internamente homogéneos y de cada uno de ellos se saca, al azar, un grupo cuyo número de
elementos sea proporcional al tamaño del estrato del cual provino. Por ejemplo, en una
población que compuesta por hombres y mujeres la misma cantidad de unidades de análisis al
azar en los hombres y en las mujeres.
• Muestra al azar por conglomerado: en este caso se divide a la población en sectores
llamados conglomerados y que son heterogéneos internamente, de tal forma que en cada
conglomerado están representadas todas las características de la población; entonces, un
conglomerado puede representarla, y de éste se extrae una muestra al azar. Por ejemplo, en
un estudio de investigación de mercado en donde se supone que la necesidad del producto es
variada pero con iguales características en toda la ciudad se elige la muestra al azar en un
barrio de la misma.
La muestra escogida al azar es la única que puede ser examinarse con completa confianza por
medio de la teoría estadística. En una muestra aleatoria representativa se incluyen,
proporcionalmente, elementos de todos los diferentes grupos que haya en la población. No todas
las muestra aleatorias son representativas.
Condiciones o requisitos de la muestra para determinar la seriedad, validez y confiabilidad de
un informe estadístico :
1. Comprender parte del universo o de la población y no su totalidad.
2. Amplitud. Es estadísticamente proporcionada a la magnitud de la población,
3. Representatividad. Refleja verdaderamente la composición y las características de la
población.
4. Muestra tomada al azar. La ausencia de distorsión en la elección de los elementos de la
muestra. Esto asegura que cada miembro de la población tienen igual posibilidad de
pertenecer a la muestra.
Ventajas Limitaciones
• En las ciencias sociales, con una muestra • Cierta inexactitud en los parámetros.
relativamente reducida en relación al universo se
pueden encuestar las grandes poblaciones y núcleos
humanos.
• Las muestras suponen economía en los costos.
• Disminución del tiempo empleado para obtener y
procesar la información.
7
1.4. Variables
Todos los elementos de la muestra y los de la población tienen atributos, características.
La variable es un atributo susceptible de tomar distintos valores o variantes. Cuando el atributo es
variable en formas impredecible, se trata de una variable aleatoria. La Estadística se ocupa solo
de variables aleatorias. Es un aspecto o dimensión de un objeto o fenómeno y de las propiedades
que estos pueden asumir y no puede predecirse el valor para ninguna unidad de análisis. Por ej.
sexo, rendimiento escolar, nacionalidad, puntaje en un examen, edad, peso, color de ojos, etc.
Cuando el atributo toma siempre el mismo valor para todo los elementos observados, no
se trata de una variable, sino de un atributo constante o simplemente de una constante. Es decir
este atributo no se modifica a través del tiempo. Ej.: La edad mínima para votar
Así como los atributos tienen diferente naturaleza, esto debe reflejarse en la forma de
medirlos.
CUALITATIVAS
VARIABLES
No admiten valores intermedios. Su
8
tipos de medición
DIRECTA INDIRECTA
ê ê
Fundamental Derivada
ê ê
se mide por la observación y el hallazgo de se obtiene a partir de tomar datos que se
unidades típicas que sumados dan un incluirán en una ecuación.
resultado Ej. : Inteligencia
Ej.: peso kilogramos
Altura centímetros
Distancia kilómetros
9
1.5. Distribución de frecuencias.
Los datos recogidos tienen poca significación si no se los clasifica con algún criterio y ordena
de alguna manera sistemática.
⇒ Filas o matriz de datos: datos recogidos sin organización numérica. Ej.: la altura de 100
estudiantes.
⇒ Ordenaciones: es un conjunto de datos numéricos en orden creciente o decreciente. La
diferencia entre el mayor y el menor se llama rango. Ej.: ordenar de menor a mayor o viceversa
la altura de los 100 estudiantes. La altura máxima registrada es 174 cm. y la menor altura es
160 cm. El rango es 174-160 = 14 cm.
⇒ Distribución de frecuencias: al resumir grandes colecciones de datos, es útil distribuirlos en
clases o categorías y determinar el numero de individuos que pertenecen a cada clase, la
frecuencia de clase. La disposición tabular o en tablas de los datos por clase con su
correspondiente frecuencia (ƒi ) se denomina distribución o tabla de frecuencias.
muestra de alturas de 100 estudiantes universitarios Número de estudiantes
que poseen esa altura
Altura (cm.) ƒi
160-162 5
163-165 18
166-168 42
169-171 27
172-174 8
N (total) 100
Los datos se los ordenan con algún criterio y este depende de del objetivo de las
investigación y del tipo de variable. Por ejemplo, si se desea analizar el aumento o la disminución
de la variable es conveniente ordenar los datos de manera creciente.
Una tabla de distribución de frecuencias contiene dos columnas. La primera muestra todos
los posibles valores que asume la variable: altura de estudiantes, edad, cursada de otra carrera,
sexo, estado civil, etc. En la segunda columna se ubica el número de veces, la frecuencia, con que
se presenta dicho valor
Si se trata de tabular los datos de más de una variable, como cantidad de alumnos que
cursan otra carrera y sus respectivas edades, se debe elegir una variable y ordenar los restantes
en función de la misma.
10
Frecuencias dobles
corresponden a dos
variables distintas
Cursan otra
carrera NO SI TOTAL
Edad
18-23 1 4 5
23-28 0 3 3
28-33 1 1 2
33-38 1 1 2
38-43 0 3 3
TOTAL 3 12 15
xi ƒi
160-162 5
163-165 18
166-168 42
169-171 27
172-174 8
100
N: Tamaño de la muestra
11
La frecuencia relativa (ƒr ) de una clase es su frecuencia absoluta dividida por la frecuencia total
de todas las clases (N).ƒi / N. La suma de las frecuencias relativas da 1 (uno).
ƒr =ƒi / N
Ejemplo de aplicación:
muestra de altura de 100 estudiantes universitarios
xi ƒi ƒr
160-162 5 0,05
163-165 18 0,18
166-168 42 0,42
169-171 27 0,27
172-174 8 0,08
100 1
ƒ1 = 5, ƒ2 = 18, ƒ3 = 42, ƒ4 = 27 y ƒ5 = 8
ƒr = ƒi / N = 42 / 100 = 0.42
Otra expresión de la ƒr es la “frecuencia relativa porcentual ” (ƒr % ) que indica las veces que se
repite la variable cada 100 observaciones de la misma. Esta (ƒr % ) se obtiene multiplicando cada
ƒr por 100. La suma de todos las ƒr % da como resultado 100.
ƒr x 100 = ƒr
Ejemplo de aplicación:
muestra de altura de 100 estudiantes universitarios
xi ƒi ƒr ƒr %
160-162 5 0,05 5%
163-165 18 0,18 18%
166-168 42 0,42 42%
169-171 27 0,27 27%
172-174 8 0,08 8%
100 1 100%
12
Al realizar una hilera de frecuencias se indica en la línea correspondiente la categoría y su
frecuencia. Ahora bien los datos con los que se trabaja pueden ser:
xi : 20-31-24-22-20-21-25-20-21-20
• datos agrupados.
Ej. edades de estudiantes varones del segundo año de la carrera de psicológia
xi ƒi
20 4
21 2
22 1
24 1
25 1
31 1
N 10
• datos agrupados por intervalos de clase. Este recurso se utiliza cuando mayor es el número
de elementos presenta la muestra.
Ej. edades de estudiantes varones del segundo año de la carrera de psicología
xi ƒi
20-22 7
23-25 2
26-28 0
29-31 1
N 10
Cada valor de la variable se agrupa en intervalos de valores que se denominan clases
Cuando los datos se agrupan en intervalos, los valores extremos de la clase se denominan límites
inferiores y superiores respectivamente de la clase. Las distancia entre sus límites, o sea entre
el mínimo y el máximo, se denomina módulo de la clase La selección del intervalo de clase se
relaciona con cada caso particular. Es necesario conservar una información suficientemente
detallada del fenómeno. Para esto hay que evitar clases demasiado pequeñas o muy numerosas
que podrían complicar, sin provecho alguno, los cálculos ulteriores y la información.
13
Cuando se desconoce el límite inferior del menor intervalo o el límite superior del mayor
intervalo o se desconocen los límites de ambos, se presenta un fenómeno denominado intervalos
abiertos y se registra:
xi ƒi
menos de 20 0
20-22 7
23-25 2
26-28 0
Más de 29 1
N 10
li + Ls
2
Limite superior
xi ƒi
20-22 7
23-25 2
26-28 0
29-31 1
N 10
Límite inferior
Ejemplo de aplicación : li + Ls = 23 + 22 = 22,5
2 2
lir xi Lsr ƒi
19,5 20-22 22,5 7
22,5 23-25 25,5 2
25,5 26-28 28,5 0
28,5 29-31 31,5 1
N 10
Límites reales
El punto medio o marca de clase del intervalo i ( x´i ) es la semisuma o promedio de los límites
reales inferiores y superiores de un mismo intervalo. Todos guardan la misma diferencia.
14
lir xi Lsr ƒi x´i
19,5 20 - 22 22,5 7 21
22,5 23 - 25 25,5 2 24
25,5 26 - 28 28,5 0 27
28,5 29 - 31 31,5 1 30
N 10
El tamaño del intervalo de clase se llama módulo de la clase y es la diferencia entre la frontera o
límite real superior (Ls) y la frontera o límite real inferior (lir)
Cuando todos los intervalos de clase de una distribución de frecuencia tienen la misma
amplitud o tamaño se los consigan así : c. En tal caso c es igual a la diferencia entre dos límites
inferiores o superiores de dos clase sucesivas.
lir xi Lsr
19,5 20 - 22 22,5
22,5 23 - 25 25,5
25,5 26 - 28 28,5
28,5 29 - 31 31,5
c = 25,5 - 22,5 = 3
c = 28,5 - 25,5 = 3
1. Determinar el mayor y el menor de todos los datos, hallando así el rango o diferencia entre
ambos.
2. Dividir el rango en un número adecuado de intervalos de clase del mismo tamaño. Si no es
posible, se puede utilizar intervalos abiertos o de distinto tamaño. El mejor criterio de elección
de intervalos es hacer que coincidan las marcas de clases o puntos medios (x´i) con los datos
realmente observados. Esto tiende a disminuir el error de agrupamiento. No es necesario que
coincidan las fronteras con datos realmente observados, si es conveniente que los intervalos
los contengan.
15
3. Determinar el números de observaciones que cae dentro de cada intervalo de clase, la
frecuencia de clase, esto se logra mejor con el uso de una tabla de recuentos.
Tabla de recuentos
xi Recuento ƒi
20-22 //// // 7
23-25 // 2
26-28 0
29-31 / 1
N 10
xi ƒi Fi Fir Fi%
20-22 7 7 0,7 70%
23-25 2 9 0,9 90%
26-28 0 9 0,9 90%
29-31 1 10 1 100%
N 10
La lectura que se puede hacer de tabla es por ejemplo, 2 varones tienen entre 23-25 años,
pero también que 9 varones tienen menos de 25 años, o que están entre 20-25
16
1.6. Representaciones Gráficas
Un gráfico es una representación de la distribución de valores de la variable. Para cada
tipo de variables existe una gama de gráficos específicos. Los gráficos permiten una
visualización rápida de la evolución o distribución de una variable. Esta representación
permita una rápida y clara comparación y superposición de muestras tomadas en distintas
oportunidades de tiempo o lugar. El requisito que deben cumplir los gráficos es la proporcionalidad
del área representada.
BARRAS
CUALITATIVAS SECTORIAL / PASTEL
(categóricas) PICTOGRAMA
VARIABLES
BASTONES
DISCRETAS
CUANTITATIVAS PICTOGRAMA
(numéricas)
CONTINUAS HISTOGRAMA
POLIGONO DE
FRECUENCIAS
OJIVA DE GALTON
POLÍGONO DE
FRECUENCIAS
ACUMULADAS
• BARRAS: es un gráfico unidimensional, es decir de una unidad, donde los rectángulos, las
barras, que se diagrama tienen el ancho de sus bases idénticas. Este ancho se escoge
arbitrariamente, pero toda la representación debe conservar la misma base. La base de la
barra representa geométricamente cada uno de los valores que asume la variable. La altura de
la barra representa geométricamente la frecuencia correspondiente a cada uno de los valores
de la variable. Esta escala debe construirse con precisión para que realmente guarden las
barras entre si la precisión necesaria para su comparación. En los ejes cartesianos, las bases
se apoyan sobre el eje de las abcisas (x) y las alturas sobre las ordenadas (y).
El siguiente gráfico representa gráficamente el nivel de rendimiento de un sujeto
adulto en el test de inteligencia WAIS de Weschler.
17
TEST DE I NTELI GENCI A PARA ADULTOS
Escalas: VERBAL Y EJECUCIÓN
40 40
35 35
30 30
25 25
20 20
15 15
10 10
5 5
0 0
37 39
ƒi x 360º
N
El siguiente gráfico representa la distribución por sexos de padres que asistían a un centro de
atención en violencia familiar. Los consultantes eran víctimas de violencia por parte de sus hijos.
La muestra, 250 personas, está tomada del archivo de historias clínica.
xi ƒi
mujeres 195
varones 55
N 250
18
VIOLENCIA FAMILIAR:Padres Golpeados
VARONES 22%
MUJERES 78%
MUJERES VARONES
Lic. Roberto E Ramos-
ADRES
Población consultante en la Fundación Familia por Familias (1996)
xi ƒi
mujeres 195
varones 55
N 250
L = 5 personas
mujeres varones
LLLLLLLLL LLLLLLLLL
LLLLLLLLL LL
LLLLLLLLL
LLLLLLLLL
LLL
19
Por las características del pictograma, se lo puede usar en para representar escalas cualitativas y
particularmente cuantitativas discretas, pero no es conveniente. No es el tipo de gráfica más
conveniente porque puede generar confusión el valor, la frecuencia y el significado.
• BASTONES: para este gráfico se ubican en el eje horizontal las categorías de las variables,
igual que en las barras, con la diferencia que los bastones no tienen amplitud en su base, son
solo líneas o segmentos que guardan una distancia proporcional y preestablecida entre si.
• HISTOGRAMA: es un conjunto de rectángulos continuos con base en el eje horizontal (x),
centros en las marcas de clase o punto medio y longitudes iguales a los tamaños de los
intervalos de clase, o sea considerando los límites inferiores y superiores de cada intervalo. También
tienen áreas proporcionales a las frecuencias de clases que se ubica en le eje vertical (y).
20
UNIDAD II
2. Síntesis de Datos. Índices estadísticos
Hasta aquí se vieron las técnicas de la estadística descriptiva que se utilizan para resumir
un grupo de observaciones utilizando tablas y gráficos. En el presente capítulo veremos que es
mucho más claro y rápido transmitir la información a partir de índices numéricos que la
representan.
Estos índices denominados “índices estadísticos” o simplemente “estadísticos” son una
medida de la tendencia de los valores predominantes de la variable en la muestra y de su
variabilidad.
Dado un grupo de datos organizados en un cuadro de distribución de frecuencias estos
estadísticos los describen en dos o tres valores representativos.
Las características de la información que interesa describir pueden sintetizarse en las
siguientes:
• La media
• La mediana
• La moda
Ø La media
La media aritmética o simplemente la media de un grupo de observaciones de una
variable es el promedio ponderado de los valores, es decir, la suma de todos los valores dividida
por la cantidad de observaciones. La media expresa la tendencia central de las observaciones de
la variable, entendiendo esto como un valor típico o representativo de la misma.
Si la tabla de valores de una variable X es
21
X fi fr
x1 f1 fr1
.........
Xk fk frk
1 k
x = x1 fr1 + ... + xk frk = 1 (x1 f1 + ...xk fk) = – ∑ xi. fi
N N i=1
_ x1 + .....+ xn
x = ----------------------
N
Ø La mediana
Consideramos una variable discreta X cuyas observaciones en una tabla estadística han
sido ordenadas de menor a mayor. Llamaremos mediana M al primer valor de la variable que deja
por debajo de al 50 % de las observaciones.
En el caso de variables continuas, las clases vienen dadas por intervalos y aquí la fórmula
de la mediana se complica un poco más (pero no demasiado): Sea l (i-1) , li el intervalo donde
22
hemos encontrado que por debajo están el 50 % de las observaciones. Entonces se obtiene la
mediana a partir de las frecuencias acumuladas, mediante interpolación lineal como sigue
N/2 - Fi-1
M = l (i-1) + ------------------ mi
fi
Esto equivale a decir que la mediana divide al histograma en dos partes de áreas iguales.
Propiedades de la mediana
§ Como medida descriptiva, tiene la ventaja de no estar afectada por las observaciones
extremas, ya que no depende de los valores que toma la variable, sino del orden de los
valores de la misma. Por ello es adecuado su uso en distribuciones asimétricas.
Ø La moda
Llamaremos moda a cualquier valor de la variable que posea la frecuencia absoluta
máxima de la distribución de frecuencias. El símbolo que la representa es Mo.
Una distribución puede tener una moda única (unimodal) o dos o más modas (plurimodal)
23
2.2. Estadísticos de posición o de orden
Los estadísticos de posición van a ser valores de la variable caracterizados por superar a
cierto porcentaje de observaciones en la población (o muestra).
Tenemos fundamentalmente a los percentiles como medidas de posición, y asociados a
ellos veremos también los cuarteles y deciles
Ø Percentiles
Para una variable discreta, se define el percentil de orden k, como la observación Pk que
deja por debajo de sí el k % de la población.
Esta definición nos recuerda a la mediana, pues como consecuencia de la definición es
evidente que
M = P50
Q1 = P25
Q2 = P50 = M
Q3 = P75
Ø Deciles
Se definen los deciles como los valores de la variable que dividen a las observaciones en
10 grupos de igual tamaño. Más precisamente, definimos D1,D2, ..., D9 como:
Por ejemplo:
D1=P10 ó D6=P60
Por lo tanto:
D5=P50=M
24
Ø Rango ó Amplitud
Una medida razonable de la variabilidad podría ser la amplitud o rango A, que se obtiene
restando el valor más bajo de un conjunto de observaciones del valor más alto.
§ Es fácil de calcular y sus unidades son las mismas que las de la variable.
Ø Varianza
La varianza V se define como la media de las diferencias cuadráticas de N puntuaciones
con respecto a su media aritmética, es decir
1 N 2
V = ----- ∑ ( xi - x)
N i =1
Esta medida es siempre una cantidad positiva, con propiedades interesante para la
realización de inferencia estadística. Como sus unidades son las del cuadrado de la variable, es
más sencillo usar su raíz cuadrada, que es la que vemos en la siguiente sección.
En muchos textos técnicos esta fórmula está ligeramente modificada al dividir la sumatoria
por N - 1. Cuando estudiemos las técnicas de inferencia veremos en qué casos utilizaremos esta
modificación.
S = V
25
Calcular el rango, varianza y desviación típica de las siguientes cantidades medidas en
metros:
3, 3, 4, 4, 5
Solución: El rango de esas observaciones es la diferencia entre la mayor y menor de
ellas, es decir, 5 - 3 = 2. Para calcular las restantes medidas de dispersión es necesario calcular
previamente el valor con respecto al cual vamos a medir las diferencias. Este es la media:
x = (3+3+4+4+5)/5 = 3, 8 metros
La varianza es:
1 N 2 2 2 2 2 2
V = -------- ∑ ( xi - x) = 1/5 (-0.8) + (-0.8) + 0.2 + 0.2 + 1.2 =
N i =1
§ Ambas son sensibles a la variación de cada una de las puntuaciones, es decir, si una
puntuación cambia, cambia con ella la varianza. La razón es que si miramos su definición,
la varianza es función de cada una de las puntuaciones.
Ø Coeficiente de variación
Hemos visto que las medidas de centralización y dispersión nos dan información sobre
una muestra. Nos podemos preguntar si tiene sentido usar estas magnitudes para comparar dos
poblaciones. Por ejemplo, si nos piden comparar la dispersión de los pesos de las poblaciones de
elefantes de dos circos diferentes, S nos daría información útil.
26
¿Pero qué ocurre si lo que comparamos es la altura de unos elefantes con respecto a su
peso? Tanto la media como la desviación estandar, x y S, se expresan en las mismas unidades
que la variable. Por ejemplo, en la variable altura podemos usar como unidad de longitud el metro
y en la variable peso, el kilogramo. Comparar una desviación (con respecto a la media) medida en
metros con otra en kilogramos no tiene ningún sentido.
El problema no deriva sólo de que una de las medidas sea de longitud y la otra sea de
masa. El mismo problema se plantea si medimos cierta cantidad, por ejemplo la masa, de dos
poblaciones, pero con distintas unidades. Este es el caso en que comparamos el peso en
toneladas de una población de 100 elefantes con el correspondiente en miligramos de una
población de 50 hormigas.
El problema no se resuelve tomando las mismas escalas para ambas poblaciones. Por
ejemplo, se nos puede ocurrir medir a las hormigas con las mismas unidades que los elefantes
(toneladas). Si la ingeniería genética no nos sorprende con alguna barbaridad, lo lógico es que la
dispersión de la variable peso de las hormigas sea prácticamente nula (¡Aunque haya algunas que
sean 1.000 veces mayores que otras!)
En los dos primeros casos mencionados anteriormente, el problema viene de la dimensión
de las variables, y en el tercero de la diferencia enorme entre las medias de ambas poblaciones. El
coeficiente de variación es lo que nos permite evitar estos problemas, pues elimina la
dimensionalidad de las variables y tiene en cuenta la proporción existente entre medias y
desviación típica. Se define del siguiente modo:
S S
CV = ------- ó porcentualmente CV% = --------- 100
x x
27
acerca de la posible relación entre dos variables y las características de la misma. Es un capítulo
importante de la estadística ya que permite tomar decisiones y predecir el comportamiento de
una variable a partir de la otra.
Distribución bidimensional o bivariada, es la distribución estadística en la que intervienen
dos variables, x e y, y, por tanto, a cada individuo o unidad de estudio le corresponden dos
valores, xi, yi. Estos dos valores se pueden considerar como coordenadas de un punto (xi, yi)
Esta tabla es una distribución bidimensional porque intervienen dos variables: valoración
Mu, valoración Ma. A cada individuo le corresponden dos valores: A(5,6), B(7,10), C(4,5), D(8,6),
E(2,4). De este modo se asocia a cada individuo un punto en un diagrama cartesiano:
Entre dos variables de una población que determinan una distribución bidimensional
puede existir una relación más o menos estrecha que se llama correlación,.
Existen distintos patrones de correlación, pero la más frecuente y que estudiaremos es
la correlación lineal, que existe cuando la relación entre las variables en el gráfico de
coordenadas cartesianas se puede representar con una recta. Esta correlación se puede medir
28
mediante el coeficiente de correlación ρ (ro), que es un número, asociado a los valores de
las dos variables. El coeficiente de correlación puede valer entre -1 y 1.
Cuando ρ = 1 existe una correlación directa y absoluta o perfecta entre las dos variables
de modo que el valor de cada variable tiene un único valor de la otra y está ubicado sobre la
recta que las representa. Los puntos de la nube están todos situados sobre una recta de
pendiente positiva.
Esto ocurre, por ejemplo, cuando una barra metálica se somete a distintas temperaturas,
x1, x2,…, xn, y se miden con precisión sus correspondientes longitudes, y1, y2,…, yn. Las
Es el caso de las estaturas, x1, x2,…, xn, y los pesos, y1, y2,…, yn, de diversos atletas de
una misma especialidad. A mayor estatura cabe esperar que tengan mayor peso, pero puede
haber excepciones.
Cuando ρ es próximo a cero (por ejemplo, ρ = - 0,12 o ρ = 0,08) se dice que la
correlación es muy débil (prácticamente no hay correlación). La nube de puntos es amorfa.
29
Cuando ρ es próximo a -1 (por ejemplo, p = -0,93) se dice que hay una correlación
fuerte y negativa. Los valores de cada variable tienden a disminuir cuando aumentan los de la
otra. Los puntos de la nube están próximos a una recta de pendiente negativa.
Si en un conjunto de países en vías de desarrollo se miden sus rentas per cápita, xi, y
sus índices de natalidad, yi, se obtiene una distribución de este tipo, pues suele ocurrir que,
grosso modo, cuanto mayor sea la renta per cápita menor será el índice de natalidad.
Cuando ρ = -1 todos los puntos de la recta están sobre una recta de pendiente negativa
y entonces existe una existe una correlación negativa y absoluta o perfecta entre las dos
variables.
Hay además un nuevo parámetro, σxy, llamado covarianza, que sirve para medir el
grado de relación entre las dos variables: cómo varía cada una con relación a la otra.
La covarianza de una distribución bidimensional de n individuos dados por los pares de
valores (x1, y1), (x2, y2),…,(xn, yn), se calcula mediante la fórmula siguiente:
30
Este parámetro no tiene dimensiones. Por ejemplo, si la variable x es una longitud y la y
un peso, los valores x, σx. son longitudes, y sus valores varían según que los datos estén dados
en centímetros, en metros…; los valores y, σy son pesos, y sus valores varían según las
unidades en que se expresen los datos; la covarianza, σxy, es el producto de una longitud por
un peso, y su valor varía según las unidades en que se den xi, yi; sin embargo, el coeficiente de
correlación es un número abstracto cuyo valor no depende de las unidades en que se hallen los
valores de las variables. Además, el hecho de que ρ tome valores entre –1 y 1 hace que resulte
muy cómodo interpretar sus resultados.
Por todo ello, ρ es un parámetro sumamente adecuado para calcular la correlación entre
dos variables estadísticas.
Cuando la correlación se determina sobre una muestra de la población el símbolo que
se usa para representar el coeficiente de correlación de Pearson es R y solo se podrán
generalizar los resultados a la población mediante una prueba de significación que descarte el
posible error de muestreo.
La fórmula para conocer el valor del índice o coeficiente de correlación en una muestra
es la misma que las señalada precedentemente pero es más sencillo su cálculo en este formato:
∑ (x - x) . (y - y)
r = -1 ≤ r ≤ 1
2 2
∑ (x - x) . ∑(y - y)
El valor y el signo del coeficiente de correlación puede variar según sea la fuerza de la
misma y su sentido. Cuanto más cerca 1 ó -1 más fuerte es la correlación y cuanto más cerca de
0 es más despreciable.
En síntesis, el coeficiente de correlación brinda tres informaciones: si hay o no
correlación, la fuerza y el sentido de la misma.
El símbolo sobre la variable y significa que se trata de un valor estimado por la recta de
regresión y no es un valor medido experimentalmente.
31
Los parámetros a y b de la recta de regresión se determinan mediante un método
matemático que se denomina el método de los cuadrados mínimos partiendo de la condición por la
cual la suma de los cuadrados de las desviaciones entre los valores experimentales de y los
estimados por la recta de regresión es la mínima posible.
De igual forma, la recta de regresión de X sobre Y es aquella para la cual la suma de los
cuadrados de las desviaciones de los valores experimentales de x respecto de las x estimadas
por la recta de regresión es la mínima.
La ecuación que surge para el parámetro b de la recta Y en función de X es:
∑ (x - x) . (y - y)
b =
yx 2
∑ (x - x)
El parámetro a es:
a = y - b. x
yx
El producto de las pendientes de las rectas de regresión son byx y 1/bxy se llama
2
Coeficiente de determinación y si símbolo es r y si su valor es ≥ a 0.80 tiene sentido
utilizar una de las rectas de regresión para estimar una variable a partir del valor de la otra
32
• Cuando ρ es positivo y grande (próximo a 1, por ej. p = 0,90) se dice que hay una
correlación fuerte y positiva. Los valores de cada variable tienden a aumentar cuando
aumentan los de la otra.
• Cuando ρ es negativo y de valor absoluto grande (próximo a 1, por ej. p = -0,93) se dice
que hay una correlación fuerte y negativa. Los valores de cada variable tienden a disminuir
cuando aumentan los de la otra.
• Cuando ρ = -1 todos los puntos de la recta están sobre una recta de pendiente negativa y
entonces existe una existe una correlación negativa y absoluta entre las dos variables.
• Naturalmente existe toda una gama de valores intermedios entre las correlaciones fuertes
y débiles, ya sean éstas positivas o negativas.
En base a lo anterior es posible afirmar que el coeficiente de correlación brinda información respecto a:
etc. Es necesario, sin embargo, tener presente que una correlación, aunque sea fuerte, no implica
necesariamente una relación de causa a efecto entre ambas variables. Por ejemplo, si en un
recinto en que se hace aumentar la temperatura se colocan un hilo metálico y un caldo de cultivo
microorganismos, se hallará entre esas dos variables una fuerte correlación. La “causa”, origen de
regresión sirve para realizar estimaciones fiables de una de las variables para valores de la otra
variable.
33
2
6 ∑ Di
ρ = 1 -- ----------------------- )
2
N (N - 1)
Siendo ρ: coeficiente de correlación por rangos de Spearman.
Di: Diferencia de rango de una prueba respecto a la otra para el mismo individuo.
N: Número total de individuos.
Cuando el coeficiente de correlación de Spearman se calcula para muestras y no para una población su
símbolo es R.
6 . 8
R = 1 -- ----------------- = 0,77
6 (36 – 1)
de correlación de Pearson. Por tal motivo, la interpretación de los valores del coeficiente de
UNIDAD III
3.1. Fundamentos de la inferencia estadística
Los temas que integran la unidad anterior corresponden al campo de la Estadística
Descriptiva, y como se ha visto, permiten la presentación y resumen de los datos recogidos del
análisis de una muestra en una investigación.
34
Sin embargo, la Estadística tiene como principal objetivo ser una guía del investigador en
la toma de decisiones que exceden a los datos de la muestra. Esto significa que las conclusiones
respecto de la muestra se generalizan a la población que la misma representa.
Las técnicas y procedimientos que se utilizan para tal generalización corresponden a la
Estadística Inferencial o Predictiva.
Algunas de los procedimientos inferenciales que se estudiarán en Psicoestadística son.
Pruebas de Hipótesis o de Significación, Técnicas de Estimación de Parámetros y Pruebas de
correlación y Regresión.
35
Este modelo de distribución muestral es, en realidad, un modelo de distribución de los
distintos valores que puede asumir el índice por efecto del muestreo. Puede afirmarse que esta
distribución expresa una distribución de errores respecto del parámetro de la población, como
consecuencia del muestreo.
Al contar con un modelo de distribución de los estadísticos muestrales es posible,
entonces, comparar los resultados de una muestra particular con dicha distribución y de esta
manera decidir si la muestra es una muestra probable de dicha población o si existe una
diferencia significativa entre el resultado de la misma y la distribución muestral.
La lógica de toda prueba de significación es decidir si hay una diferencia significativa entre
los resultados obtenidos para la variable en la muestra y la distribución probable del estadístico de
que se trate en muestras de esa población.
Decir que hay una diferencia significativa quiere decir que se descarta la diferencia
producida por un error de muestreo, ya que el índice obtenido es poco probable si la muestra es
representativa de la población.
En otras palabras, toda prueba de significación estadística determina si es probable o no
un error de muestreo, a partir de los resultados de la investigación.
Los psicólogos realizan investigaciones partiendo de una hipótesis de trabajo que, de ser
confirmada, probaría un principio teórico o la efectividad de alguna nueva metodología de
abordaje terapéutico. Esta hipótesis de investigación sólo podrá aprobarse con seguridad a partir
de un experimento que permita la evaluación y medición de todas las variables que intervengan en
el fenómeno investigado.
Este procedimiento es común en ciencias tales como la química y la física, con sus
experimentos de laboratorio, pero es imposible cuando se trabaja con fenómenos complejos en los
que están involucradas muchas variables y algunas desconocidas. Es en estos casos en que se
recurre a la comprobación estadística de las hipótesis, que tendrá como resultado la afirmación de
la hipótesis de investigación o su negación.
Como adelantamos, la estadística sólo puede evaluar una probable diferencia significativa en los
resultados de una investigación, por lo que, la aprobación de la hipótesis se realiza sólo cuando
existe una muy pequeña probabilidad que se trate de una diferencia producto del azar del
muestreo. Esto implica que la decisión sobre la hipótesis de investigación se toma de manera
indirecta y una vez que se descarte un error de muestreo.
Es por esto, que se necesita plantear una hipótesis que pueda contrastar estadísticamente
ese probable error de muestreo y es la que se denomina Hipótesis nula o Hipótesis estadística, y
ésta será la que se ponga a prueba en la prueba de significación.
La hipótesis nula afirma que no hay diferencias significativas entre los resultados de la
investigación y los marcados por el modelo de distribución muestral, o lo que es lo mismo, que la
diferencia en los valores de los índices es producto del error de muestreo.
Frente a esta hipótesis siempre habrá una hipótesis que afirme lo contrario que se
denomina hipótesis alternativa.
36
Sólo si se rechaza la hipótesis nula el investigador podrá afirmar la hipótesis alternativa. Si
ésta coincide con la hipótesis de investigación habrá afirmado esta última.
Como se verá en las temas siguientes, siempre que se contraste una distribución muestral
el investigador debe decidir previamente el nivel de error que está dispuesto a asumir en su
decisión. A este nivel de error posible se lo llama el nivel de significación de la prueba.
Este nivel de significación corresponde con una zona de muy baja probabilidad del modelo
de probabilidades que se descarta para realizar el contraste de la hipótesis nula. La zona de
probabilidades que se utiliza para la prueba es la restante del modelo y se denomina zona de
confianza, y es donde se confía de que se cumpla la hipótesis nula.
37
1. El error en la medición, que incluye la variabilidad debida a clasificaciones
equivocadas, la variabilidad de los instrumentos que se usan y la variabilidad entre los que
hacen las mediciones.
2. La variabilidad inherente a todos los sistemas biológicos. Existen diferencias entre
las especies, entre individuos dentro de una especie y entre partes de un mismo individuo.
Por estas razones se denomina a toda variable que es observada como parte de un experimento
como variable aleatoria. Por lo tanto se debe pensar de cada observación de un conjunto de
datos como el resultado de una variable aleatoria. En algunos casos se asignan arbitrariamente
números a los resultados de una variable aleatoria, por ejemplo, 0 si no es afectado, 1 si es
afectado, resultando una variable discreta. En otros casos, variables como mediciones de presión
sanguínea ó concentración sérica de colesterol son variables aleatorias contínuas.
El azar, lo entendemos como el suceso o caso fortuito, es decir aquello que aparece, sucede sin
"intencionalidad" conocida; sería "lo imprevisto".
Con la caída del determinismo, como plantea Sussel, la evolución del pensamiento
científico nos lleva a darle hoy, un real estatuto al azar como inherente a toda investigación; no ya
en forma peyorativa, como ignorancia, sino como aquello que desconocemos en una primera
aproximación de nuestro pensamiento lineal, y que nos exige considerarlo permanentemente parte
del proceso.
Sistematizar el azar, sería entonces algo así como un sofisma, pues como podría
sistematizarse lo fortuito, como podríamos sistematizar lo desconocido. Pero el azar es una
variable aleatoria en todo fenómeno que se estudie, por lo cual podemos emplear las
herramientas apropiadas que nos permitan contrastarlo permanentemente, acotándolo.
La estadística se constituye en una de esas herramientas, permitiendo al científico, en
cualquier campo "predecir y prever" con relación a los fenómenos que le conciernen. Acotando
así el impacto de lo que llamamos en el primer párrafo "lo imprevisto", pero no como una forma
ilusoria más, para eliminar la "incertidumbre", sino amplificando la predictibilidad.
Dijimos que el azar se relaciona con el desconocimiento y con la incertidumbre. Veamos a
que nos referimos, con un ejemplo, si conocemos del parto de cinco madres, internas de un
neuropsiquiátrico con diagnóstico de psicosis, podríamos suponer que ninguno de los hijos recién
nacidos, o algunos, o todos podría presentar alteraciones de personalidad significativas;
convirtiéndose en una situación azarosa (o aleatoria) y la parte esencial de este azar es que no
sabemos el resultado, lo desconocemos. Y si no es posible evaluar o conocer qué tan factible es
cada resultado, tenemos una situación de incertidumbre. Pero si por el contrario, podemos tener
una idea de qué tan probables son los diferentes resultados (ninguno, alguno, algunos o todos),
tendremos una situación de riesgo, que en realidad es toda situación aleatoria o azarosa.
Estas situaciones enfrentaron al pensamiento científico, imperante hasta fines del siglo
XIX, a su imposibilidad. El esquema causal determinista que concibe a las leyes científicas, como
una relación entre fenómenos, de tal suerte, que estarían encadenados indefectible y eternamente
38
a una relación causa-efecto, en forma inmutable y unívoca, donde a idénticas situaciones se
obtienen idénticos resultados. Pero como los fenómenos responden a situaciones de riesgo, es
decir son fenómenos aleatorios, que implican el comportamiento de poblaciones o universos
numerosos, no se ajustan a leyes sistemáticas, están influidos por el azar e incluso regidos por él;
ante idénticas situaciones pueden obtenerse comportamientos diversos de los sujetos o entidades.
Por lo tanto se afianza más la Estadística y el Cálculo de probabilidades, estas disciplinas
permiten arribar a leyes estables (no fijas), del comportamiento "promedio" de los individuos de
la población, no del comportamiento de los individuos.
El cálculo de probabilidades se atribuye a los matemáticos Pascal y Fermat, a partir del
siglo XVII, tratando de resolver o intentar responder a las preguntas que surgían en los juegos de
azar.
Posteriormente Laplace, a fines del siglo XVIII - principios del XIX, le da una estructuración
definitiva al Cálculo de probabilidades, permitiendo además la unificación con la Estadística, hasta
ese momento disciplinas separadas, de tal manera, que se constituye la Probabilidad en la
estructura matemática de base de la Estadística.
La probabilidad es una cualidad, de "probable", y ambas palabras provienen de la familia
de "probar", siendo ésta un verbo, que significa por tanto una acción, un hacer, con el fin acreditar
por la experiencia que algo del orden de un atributo o fenómeno es verosímil, la verosimilitud
nos indica aquello que se funda en la razón prudente.
Por lo tanto probar es hacer un examen y un experimento de cualidades, que nos permita
el conocimiento del fenómeno.
Por ello, por un lado tenemos los conceptos, que apuntan a los hechos como fenómenos
captados por nuestros sentidos y a principios que con relación a nuestras experiencias previas
intentan mediante la comparación, por oposición o analogía, arribar a la "seguridad" de un
concepto. Por otro lado desarrollamos procedimientos que permitan corroborar ese concepto. Los
procedimientos implican estrategias y algoritmos, siempre con relación a la destreza en el manejo
de ambos.
La estrategia se refiere al arte de dirigir las operaciones destinadas a un fin, y los
algoritmos precisamente son las secuencias de operaciones encaminadas a lograr ese fin. Esto
significa que tenemos operaciones, secuencias, y que todo ello depende de la destreza, es decir
de la habilidad para realizar eficientemente la acción.
Los algoritmos según el grado de complejidad, implican el instrumento que se utiliza y el
tipo de elementos que se aplican para la ejecución; y como hemos visto, la estadística recorre
todos los grados de complejidad a fin de ser una herramienta eficiente para cualquier campo
científico y sobre todo en las ciencias sociales. Los sucesos aleatorios se caracterizan porque
admiten dos resultados posibles o más, y no tenemos elementos de juicio, o sea que nuestra
razón no puede afirmar cuál de esos resultados ocurrirá en una determinada realización o
situación.
39
A esos resultados que tienen la misma oportunidad de ocurrir, se los llama sucesos o
fenómenos equiprobables es decir que son igualmente posibles de suceder, cuando no hay razón
para que uno de ellos pueda producirse con preferencia a otro.
Deducimos los dos componentes esenciales en toda situación o experimento aleatorio:
• La enumeración de posibilidades a futuro, llamado espacio muestral, que es el
conjunto de todos los resultados posibles.
• La cuantificación de la incertidumbre, que es la asignación de probabilidades.
La probabilidad de un evento dentro del espacio muestral, puede ser: a) nula; b) posible; c)
segura o extrema. Veamos el significado, a través de un ejemplo:
b. Si planteo qué probabilidad de que mañana llueve, esto es una probabilidad posible.
Si planteamos qué probabilidad existe, de que un alumno universitario tenga el nivel
primario completo, esta es una probabilidad segura, o extrema.
40
p= 1 (tengo un solo rojo) luego p = 0,2
5 (tengo un total de 5 lápices)
Observaremos que cuanto más veces se repita el fenómeno, o sea cuanto más grande
sea el número de observaciones, mayor es la aproximación al valor que defina la probabilidad de
ese suceso.
41
Es importante destacar que no todos los problemas son sencillos, pues podemos estudiar
acontecimientos en que los distintos resultados pueden tener distintas probabilidades de ocurrir, o
Llamamos evento dentro de un espacio muestral a un resultado que planteo, en este caso
es simple, es un solo punto dentro del espacio, pero puede suceder que se estudien 2 o más
resultados, en ese caso el evento es conjunto o compuesto.
Ante eventos compuestos, es necesario tener en cuenta de qué forma se arriba a la
estimación cuantitativa de la probabilidad, siempre teniendo en cuenta delimitar exactamente en
tiempo y espacio el fenómeno y la forma en que deseo determinar los resultados.
Veamos a través de un ejemplo: tomando de una población marginal, es decir de escasos
recursos económicos, una muestra de 10 niños entre 5 y 7 años, que probabilidad de encontrar un
niño con avanzado estado de desnutrición por un lado y por otro, un niño sometido a malos tratos.
Se plantea la probabilidad de acuerdo con el fin de nuestra investigación, supongamos que
deseamos saber la probabilidad de encontrar un niño con problemas de desnutrición y sometido a
malos tratos.
La conjunción y determina una probabilidad de eventos compuestos, es decir, que ambos
se tienen que dar juntos, matemáticamente responde a la ley de la multiplicación, que significa
que la probabilidad de obtener ambos es igual al producto de cada probabilidad individual, en
fórmula:
P (A y B) = P (A) . P (B)
Pero si ocurre, que ambos eventos se deben dar juntos, pero que la presencia de uno
depende de la presencia del otro, y viceversa, se plantea una probabilidad condicional, dado que
cada uno de los eventos puede depender del otro, son sucesos dependientes. En este caso la
fórmula:
P (E1) = 2 = 2
3 + 2 5
42
Y E2 que la segunda bola extraída sea negra:
P (E2) = 1 = 1
3 + 1 4
Se ve que E1 y E2 son sucesos dependientes. La probabilidad que sucedan ambos serán
entonces:
P (A ó B) = P (A) + P (B)
UNIDAD IV
4. Modelos probabilísticas
Un modelo matemático es una representación ideal o una construcción, en la forma de
un sistema, proposición, fórmula o ecuación, de un fenómeno biológico, físico, social, etc. Estos
modelos preexistentes son instrumentos para la interpretación de comportamientos en fenómenos
aleatorios. En probabilidad son los que nos permiten la interpretación de los sucesos que
investigamos. Si los pasos al igual que en la Estadística, apuntan al resumen, organización e
interpretación de los datos, el modelo es el medio para interpretar. Muchas veces la interpretación
43
no resulta y esto no depende de errores del modelo elegido, sino precisamente en el error al elegir
el modelo. Este debe responder a los fines de nuestra investigación para permitir la lectura e
interpretación adecuada de los resultados, para lograr tener cierta predictibilidad sobre el
comportamiento de la o las variables dentro de una muestra, en relación el fenómeno estudiado y
permitirnos proyectar los resultados a la población.
Como debe indicarnos en qué forma se distribuyen los valores de la variable y de las
probabilidades, se les llama distribución, nosotros conoceremos dos familias de distribución, la
binomial y la normal.
Una distribución de probabilidad es un modelo para una variable aleatoria, que
describe la forma en que la probabilidad está distribuida entre los valores posibles que la variable
aleatoria puede asumir. Como se vio anteriormente la probabilidad puede ser interpretada como la
frecuencia relativa en un número indefinido de pruebas. Desde el punto de vista matemático,
los conceptos “distribución de la probabilidad” y “variable aleatoria” están interrelacionados;
una variable aleatoria debe tener una distribución de probabilidad y ésta debe estar asociada a
una variable aleatoria.
El primer paso para toda inferencia estadística que permita obtener información de la
población a partir de la información de una muestra de la misma, es la adopción de un “modelo
matemático de distribución de probabilidades” que represente el comportamiento probable de
una variable en dicha población.
Las distribuciones que se describirán a continuación son, por lo tanto, teóricas; aunque
algunas de ellas tienen gran importancia y utilidad en la práctica.
Es obvio que la probabilidad de obtener r caras y n-r cruces en otro orden tiene la
misma probabilidad. Por lo tanto, para obtener la probabilidad de conseguir exactamente r caras
44
en cualquier orden sólo se necesita contar el número de maneras distintas que tenemos de
obtener x caras y (N-x) cruces y sumar las probabilidades. Cuando n es grande esto es
engorroso, pero, afortunadamente existe una fórmula matemática para determinar las
combinaciones posibles de r en n y se expresa por:
n n!
( --- ) = -----------------
r r ! ( n-r) !
donde n! es el factorial de n y (n-r)! es el factorial de (n-r)
Por lo tanto, la probabilidad total será
N r n-r
P(r) = (-------) . p . q
r
p p p
0,33
0,50 0,50
0,16
0,25
0,03
45
λ . eλ
x
p (x) = ----------------------
x!
UNIDAD V
5.1. Distribución normal
Este es el modelo de distribución continua y corresponde a la llamada función normal
según la siguiente ecuación:
2
- (x - µ )
2
1 2 σ
p= e
σ √2 π
donde:
µ = media
σ = desvío estándar
e y π son constantes
Esta función está definida en todo el campo real y la representación gráfica responde a
una curva en forma de campana simétrica al eje de las ordenadas (p). En esta distribución, la
variable y es dependiente de x, y ésta última es la variable independiente, por lo que se conoce
como distribución de probabilidad continua. Y por ello resulta la curva independiente del valor que
adopte N.
Además hemos visto que la distribución binomial para valores muy grandes de N se
asemeja a la normal, por lo cual decimos que ambas distribuciones se igualan a valores muy
grandes, en el límite.
46
p
x
La mayoría de los fenómenos objeto de estudio para las ciencias sociales y biológicas,
cumplen aproximadamente las características de esta distribución, dado que las frecuencias
tienden a distribuirse simétricamente alrededor de los valores promedios, es decir de sus medias,
por lo cual cobra importancia relevante la función normal, para permitir la observación e
interpretación del comportamiento de las variables.
Es un modelo útil, que a través de una extensa aplicación en innumerables
investigaciones, se justifica su empleo, pues se adecua y además nos facilita trabajar
inferencialmente, a través de muestras y hacer la consecuente proyección a la población.
Se observa, como hemos dicho al principio, que dadas determinadas características en las
muestras, muchas distribuciones se hacen muy semejantes a las distribuciones de las
probabilidades de sucesos aleatorios. En la distribución normal, sabemos que todos los sucesos
se consideran independientes, con la misma fuerza, y la misma probabilidad de ocurrir, tal cual
suponemos a priori de cada una de las variables que en el campo de los fenómenos psíquicos se
hallan involucradas, y este modelo hipotético encuentra en ello otro motivo de elección.
Volviendo a su expresión gráfica, debemos tener en cuenta que toda curva o figura, en un gráfico,
encierra un área, en Estadística se establece la relación proporcional del área encerrada como la
proporción de sujetos o entidades que presentan los valores de la variable, encerradas en esa
superficie.
Con relación a la curva normal, el área de la región encerrada bajo la curva, es la
probabilidad de que una variable aleatoria continua x, tome valores encerrados entre 2 valores de
x:
p
x1 x2
5.2. Distribución normal estandarizada
Llamada también distribución de la variable reducida z, es un ejemplo de distribución
continua muy significativo e interesante pues facilita la comparación entre postulados teóricos y las
experiencias prácticas consecuentes de la Estadística y el Cálculo de probabilidades. Es un
modelo simplificado y estandarizado, que nos permite trabajar con cálculos matemáticos sencillos,
obteniendo iguales resultados que con la curva normal, pues en la elaboración del modelo
estandarizado, se hallan representadas todas las posibles curvas normales y las probabilidades
están volcadas en una tabla rápido y sencilla interpretación.
47
Es una función representada, entonces por una curva de forma de campana, igual a la
normal en forma, pero con las siguientes características:
A) Es una curva con ordenadas y abscisas siempre positivas, es monótona, y decreciente hacia
ambos lados del máximo, por lo que tiene la forma de campana.
B) Es simétrica respecto al eje de ordenadas, y, y asintótica con el eje de las abscisas, (quiere
decir, que se acerca indefinidamente al eje z pero jamás lo toca).
C) Tiene un solo máximo, en el valor de z = 0.
D) Tiene 2 puntos de inflexión, para los valores de z = 1 y z = -1.
-1 0 +1 z
Cuando trabajamos con una muestra, que responda a la distribución normal, podemos
efectuar operaciones que nos permitan utilizar el modelo de la variable reducida z, a fin de poder
emplear la tabla, efectuando las conversiones correspondientes.
Dos son en líneas generales las operaciones que debemos realizar para dicha
transformación: una gráfica y otra de cálculo:
a) Gráfica: desplazamos el origen de z, es decir z=0, al valor de la media de la muestra,
resultando que la media de la muestra se transforma en el valor 0 del eje de la variable z.
Por ejemplo si la media de la muestra es 70 en x, será 0 en z:
70 (media) x
-z 0 +z
48
z = (x-µ)
σ
Una vez efectuadas estas operaciones ya se puede utilizar la tabla de z, construidas para
dicha curva, con valores que nos permiten hallar cualquier medida de mi muestra, pudiendo
establecer áreas, que representan los valores de probabilidad, para cada par de valores que
desee particularizar.
Como la curva es una campana simétrica, tendremos en cuenta que a pesar de trabajar
sólo con la rama positiva de la campana, y que se halla exclusivamente esa rama positiva
tabulada, podemos ya deducir la otra rama. Sabemos, por otra parte, que los valores negativos de
z, corresponde a valores inferiores a la media de la muestra con la cual trabajo, y que las áreas se
encuentran predeterminadas con relación a las unidades de desvío estándar, de tal forma que
resultan los siguientes valores de probabilidad porcentual
Entre σ = -1 y σ = 1 se halla el 68,27% de la muestra
Entre σ = -2 y σ = 2 se halla el 95,45% de la muestra
Entre σ = -3 y σ = 3 se halla el 99,73% de la muestra
-3 -2 -1 0 1 2 3 z
49
Esta distribución de probabilidades se produce por utilizar muestras y no a toda la
población para calcular el índice estadístico, en cuyo caso obtendríamos un único valor que sería
el parámetro de la población.
De esta forma, podemos decir que la distribución muestral es la distribución de errores en
el cálculo de los estadísticos de muestras de tamaño N; errores posibles por la elección aleatoria
de las unidades que integran las muestras.
5.4. Lógica de la Estadística Inferencial
La distribución de probabilidades teóricas de muestreo son los patrones de comparación
frente a los que se contrastan los resultados empíricos de una investigación para saber si una
muestra tiene un comportamiento igual o significativamente diferente de una población.
Para afirmar que una diferencia es significativa debemos descartar la posibilidad de que el
resultado haya sido producto de un mero error de muestreo.
A partir de esta lógica se definen diferentes conceptos que nos permiten hacer operativa la
misma, como: intervalo de confianza, nivel de significación, hipótesis de nulidad e hipótesis
alternativa.
UNIDAD VI
6.1. Pruebas de hipótesis. Pruebas de significación
El objetivo de la llamada prueba de hipótesis, es verificar si una hipótesis estadística
planteada es verdadera o falsa. Recordemos que, siempre, hablamos de hipótesis que son
formuladas en forma matemática, y que, por lo tanto, su verificación es matemática.
A estas pruebas de hipótesis se las llama también pruebas de significación, dado que uno
de los principios de estas pruebas es verificar si la diferencia entre la hipótesis planteada y lo
obtenido experimentalmente es significativa.
Usualmente trabajamos con pruebas que responden a la distribución normal como modelo
matemático o probabilístico. Es por ello que debemos primero ver cual es la capacidad de
utilización de este tipo de distribución.
En principio, esta distribución se puede utilizar en aquellas variables que podemos decir
que siguen en forma muy aproximada a la distribución normal. Pero esto es posible generalizarlo
aun mas.
6.2. Distribución Muestral. Error Estandar
Si en una población con una media aritmética μ y un desvío estándar σ extraemos n
muestras todas de tamaño N, obtendremos de cada una de las muestras n medias aritméticas y n
desvíos estándar. Esta variación de resultados se produce porque tomamos una cantidad limitada
de datos de una población y no todos.
Para cada uno de estos estadísticos podemos a su vez trazar la distribución que tendrá su
propia media aritmética y su propio desvío estándar. A esta distribución se la llama distribución
muestral de medias o de desvíos estándar, y se puede probar que para N > 30 estas
distribuciones muestrales siguen siempre muy aproximadamente la distribución normal,
independientemente del tipo de variable que se trate. Así, a la distribución hecha con las medias
50
se la llama distribución muestral de medias, que tendrá una media que llamaremos μ y un
desvío estándar σ al que llamamos error estándar y que serán:
σ
μ =μ σ = ------------- (Error Estándar)
51
significación se hallara del lado de medias mayores (derecha de la curva). En el caso inverso, si
planteamos una hipótesis experimental de diga que la muestra tiene una media menor que la de la
población, la zona de rechazo se ubica en la potra cola de la distribución, a la izquierda de la
misma
Una cola
P(x) Intervalo de Confianza
Nivel de Significación
µ xf
Dos colas
P(x)
(µ - σ) µ (µ + σ) X
UNIDAD VII
7.1. Prueba de Hipótesis de Medias
Las pruebas de hipótesis se realizan utilizando la distribución normal estándar (en función de z),
que nos permitirá delimitar perfectamente el intervalo de confianza y la zona de rechazo. Así, para
una distribución muestral, en la que la variable es medias de muestras de tamaño N, tendremos:
x - μ
z= ----------
σ
x es la media muestral,
μ es la media poblacional
52
σ es el desvío poblacional, que reemplazaremos por el valor conocido mas aproximado (en
general el desvío de la muestra)
N es el tamaño de la muestra.
Hallado este valor de z, que corresponde a nuestro dato, iremos al gráfico para verificar si cae en
el intervalo de confianza o la zona de rechazo, lo que nos hará aceptar o rechazar la hipótesis
nula.
7.2. Prueba de significación de diferencias de medias muestrales.
En este caso, lo que se desea es saber si dos poblaciones difieren significativamente. Lo
que se tiene en general son dos muestras de estas poblaciones, con las que trabajaremos.
El Teorema del Límite Central dice que las diferencias de medias de muestras de una misma
población también se distribuyen según la Distribución Normal con una media de diferencias nula
(μ = 0) y un desvío estándar de las diferencias σ
(x1-x2)
( x1 – x2 )
z = -------------
Sd
Donde:
2 2
s1 s2
Sd = ---- + ----
N1 N2
Una vez obtenida z, y tratándose siempre de una prueba de dos colas, el procedimiento de toma
de decisión es el ya visto.
53
Esta distribución esta expresada en una tabla en la que por un lado tendremos los niveles de
significación, y por el otro los grados de libertad. Estos últimos estarán en el caso de esta
distribución, ligados a N tal que:
gl = N – 1
x - μ
t = -----------
S
N–1
( x1 – x2 )
t = -------------
Sd
Donde:
2 2
N1 + N2 (N1 – 1)S1 + (N2 - 1) S2
Sd = ---------------- -----------------------------------
N1 . N2 N1 + N2 - 2
54
7.4. Prueba de estimación de µ
Cuando se ha probado de una muestra es significativamente diferente y ya no
corresponde a las muestras de una población, se impone la tarea de predecir cual será el
parámetro µ que corresponderá a la población a la que pertenece la muestra. Debemos recordar
que cuando hablamos de población estamos refiriéndonos al comportamiento de una variable en
una población, por lo que la tarea será predecir el parámetro µ que define el nuevo
comportamiento de la variable.
La prueba estadística que nos permite hacer esta inferencia se denomina Prueba de
estimación de µ y se basa en estimar los valores probables de µ a partir de la media y el desvío
estándar conocidos de la muestra y suponiendo que la misma está dentro del nivel de confianza
de la distribución muestral teórica de las muestras de tamaño N de dicha población cuyos
parámetros se desconocen.
La lógica de esta prueba consiste trabajar con la distribución muestral de medias en una
prueba bi-lateral de tal manera de situar el Nivel de Confianza en el centro de la distribución. En
principio se supone que la muestra es la que corresponde al límite inferior del Nivel de Confianza,
es decir, es la de valor menor de media probable, con lo que es posible aplicar la fórmula de
estimación de media sabiendo el valor de t que corresponde para el nivel de confianza elegido y
los grados de libertad y calcular la µ probable. Como, al desconocer el parámetro de la curva no
sabemos en que lugar del Nivel de Confianza se encuentra la muestra, un segundo paso consiste
en suponer a la muestra en el límite superior del mismo y recalcular µ.
El resultado final de la estimación es un intervalo de la distribución de medias en el cual
puede estar el parámetro µ de la población.
La ecuación que debemos utilizar en esta prueba es la que sigue:
x - t S ≤ µ ≤ x +t S
N-1 N-1
--------------------------------------------------oOo--------------------------------------------------------
Bibliografía
• Cortada de Kohan, Nuria y Carro, José Manuel: Estadística aplicada. EUdeBA. (1968)
Bs.As.
55
UNIDAD VIII
8.1. Análisis de Frecuencias. Prueba de Chi cuadrado
Vamos a analizar una Prueba de hipótesis que se realiza a partir de las frecuencias,
por lo que no es imprescindible que se trabaje con variables cuantitativas como las
anteriormente tratadas.
De hecho, es la prueba más valiosa para utilizar con variables cualitativas expresadas en
escala nominal.
Para variables cuantitativas existen las otras pruebas de significación, que son más
adecuadas.
En esta prueba las hipótesis se expresan como igualdades o desigualdades entre
frecuencias.
La prueba de chi cuadrado es una prueba muy general que puede emplearse cuando
deseamos apreciar si unas frecuencias obtenidas empíricamente difieren significativamente o no
de las que se esperarían bajo cierto conjunto de supuestos teóricos.
Es por esto, que se expresan las frecuencias como frecuencias observadas (las que son
producto de la investigación) y frecuencias esperadas (las que son producto del modelo teórico
de comparación)
En cuanto a su lógica de contraste, es similar a las demás pruebas de significación que
hemos estudiado, ya que se adopta un nivel de significación y se contrasta el estadístico de la
prueba con el valor crítico del intervalo de confianza de la distribución. Esta prueba es siempre de
una cola porque la distribución de chi cuadrado siempre parte del valor mínimo que es cero.
Para comparar las frecuencias y tomar una decisión se utiliza un estadístico llamado chi
cuadrado que proporciona una medida de la diferencia entre las frecuencias observadas y las
esperadas:
2
2 ( fo - fe )
א
= ∑ -------------------
fe
Cuanto mayores sean las diferencias entre las frecuencias observadas y las esperadas,
tanto mayor es el chi cuadrado. Este sólo será cero si todas las frecuencias observadas y las
esperadas son exactamente las mismas.
La distribución de muestreo, esto es la distribución de probabilidades de valores de chi
cuadrado producto del muestreo es conocida y está tabulada. Existe una curva de distribución
probabilística diferente para cada grado de libertad de la variable.
Si el chi cuadrado resulta mayor de lo que anticiparía el azar de muestreo estaremos en
condiciones de descartar la hipótesis nula siguiendo el procedimiento habitual
8.1.1 Pasos a seguir para el cálculo del estadístico chi cuadrado
1. Encontrar las frecuencias observadas, reales de cada atributo
2. Determinar las frecuencias observas para cada atributo, de acuerdo al modelo
propuesto
56
3. Calcular las frecuencias observadas menos las esperadas de cada atributo
4. Elevar al cuadrado las diferencias
5. Dividir cada diferencia cuadrática por la frecuencia esperada del atributo
6. Sumar los resultados del pasa anterior para obtener el chi cuadrado de la
prueba
7. Extraer de la Tabla el chi cuadrado crítico para el nivel de significación adoptado
8. Rechazar o no la Ho
Esta prueba puede utilizarse para diferentes situaciones:
2 2
2 ( foi - fei ) foi
א
= ∑ ----------------- = ∑ ------ - N
fei fei
Los grados de libertad, para elegir la curva de chi cuadrado a contrastar se calcular restando 1 a la
cantidad de valores o atributos diferentes de la variable:
gl = n - 1
Restricciones para la prueba. Los requisitos para aplicar la prueba son los siguientes:
57
3. Hasta un 20% máximo de frecuencias menores a 5
X1
A1 A2 . . . Ai
B1
X2 B2 fij f j.
.
.
.
Bj f.j N
Existen dos clases de tablas de contingencia que responden a dos modelos diferentes de
comparación:
1. El caso de una muestras y una variable independiente y una variable dependiente, los
renglones serán las categorías de una variable independiente, en tanto que las columnas
serán las categorías de una variable dependiente.
2. El caso de una muestra y dos variables dependientes, los renglones serán las categorías de
una variable dependiente y las columnas serán las categorías de la otra variable dependiente.
58
En el primer caso la aplicación de la prueba de chi cuadrado permite contrastar la
hipótesis de homogeneidad de la variable dependiente respecto de la independiente, Por esto se
la llama Prueba de homogeneidad y la Ho plantea la existencia de homogeneidad.
En el segundo caso la aplicación permite contrastar la hipótesis Ho de independencia
entre las dos variables. En este caso se denomina Prueba de independencia
En este caso los grados de libertad se calculan multiplicando los grados de libertad de
cada variable, calculados en la sección anterior.
La decisión se toma de la misma forma que en la prueba de bondad de ajuste: si el chi
cuadrado de la prueba supera el chi cuadrado de la tabla de distribución de chi cuadrado de
muestreo para los grados de libertad correspondiente y un nivel de significación, se rechaza la Ho
y se acepta la Ha.
Bibliografía
• Aron Arthur, Aron Elaine: “Estadística para Psicología” Cap.1 Pearson Education,
Bs.As. 2001
• Cortada de Kohan, Nuria y Carro, José Manuel: Estadística aplicada. EUdeBA. (1968)
Bs.As.
UNIDAD VIII
Epidemiología
8.1. ¿Qué es la Epidemiología?
La epidemiología es el estudio de la distribución y los factores determinantes de las
enfermedades. Se trata de descubrir quién adquiere la enfermedad y por qué. Por ejemplo: ¿es
más frecuente entre varones o mujeres, jóvenes o adultos, ricos o pobres, etc? ¿Adquirieron la
enfermedad a causa de una tendencia genética, una exposición ocupacional, un hábito, un vicio
particular?
La epidemiología difiere de la medicina clínica en dos puntos:
• los epidemiólogos estudian grupos de personas, poblaciones y no individuos
• los epidemiólogos estudian tanto personas sanas como enfermas, tratando de
encontrar la diferencia crucial entre los atacados y los respetados.
Una epidemia ocurre cuando hay un número bastante mayor de casos de la misma
enfermedad que el que permite predecir la experiencia para el lugar, en el momento dado y entre
esta población. La enfermedad en el individuo puede considerarse como resultado de tres
factores:
• agente • huésped • ambiente
59
• Tiempo • Lugar • Características personales
Por ejemplo: ante una intoxicación con un alimento, el índice de ataque se calcula como el número
de personas que desarrollan síntomas, dividido el total de personas que ingirieron ese alimento.
8.2.3. Índice de Mortalidad
En forma global, expresa la mortalidad actual observada en una población bajo estudio; mide
la proporción de la población que muere cada año o el número de muertos en la comunidad con
referencia a la población total. Resume el efecto de varios factores:
• la probabilidad de morir
• las características de edad o la distribución de edad de la población problema.
Los índices de mortalidad se pueden calcular para cada edad: Índice de mortalidad
específica por edad. Cuando hay diferencias en la distribución de edades para los grupos que se
60
desean comparar se deben emplear índices ajustados según la edad. De igual forma, se pueden
calcular otros índices de mortalidad específicos: según sexo, raza, trabajo, otras causas.
8.2.4. Frecuencia y Prevalencia
El Índice de Frecuencia mide la cantidad de personas sanas que se enferman durante un
lapso específico, esto es, el número de casos nuevos de un padecimiento en una población
durante un período determinado. Por otro lado, el Índice de Prevalencia mide el número de
personas en una población que tienen la enfermedad en un momento dado. La frecuencia mide la
aparición de la enfermedad, la prevalencia computa la existencia de la enfermedad.
Restablecimiento
Frecuencia Muerte
Caldero de la
Prevalencia
61
8.2.5. Riesgo Relativo
Mide la relación que guarda la exposición a un factor particular y el riesgo de determinado
desenlace.
El clínico utiliza el riesgo relativo, el cual expresa el riesgo de un grupo con un factor
(varones, hipertensos, fumadores) en comparación con el riesgo de un grupo de referencia sin ese
factor (mujeres, tensión normal, no fumadores). El riesgo relativo es el índice de la frecuencia de
un grupo que presenta el factor con la frecuencia del grupo que no lo presenta. No es un índice,
sino un cociente, y no indica la frecuencia de la enfermedad, pero dice en qué medida está
aumentando el riesgo del paciente. Sin embargo, no mide la probabilidad de que alguien con el
factor presente la enfermedad
El riesgo relativo también mide la potencia de una relación entre un factor y determinado
desenlace; de esta manera, el riesgo relativo señala la causa y es útil para buscar la etiología de
un padecimiento. La evaluación del Riesgo Relativo permite asociar un factor de riesgo con el
desarrollo de una condición específica; son una medida del impacto de factor de riesgo. Por
ejemplo: si se seleccionan dos muestras, una de fumadores (F+) y otra de no fumadores (F-), y los
sujetos de cada grupo se clasifican según estén o no enfermos de bronquitis crónica (B+, B-),
entonces el Riesgo Relativo se calcula como:
62
Parecería que la sensibilidad es lo único que se puede exigir de una prueba. Si se puede
identificar de manera exacta a todos los que padecen la enfermedad, eso sería suficiente. Sin
embargo, es necesario que se incluyan como casos positivos únicamente aquellos con la
enfermedad. De esta limitación surge el concepto de especificidad.
La especificidad es la capacidad para identificar con exactitud quiénes no la tienen. Dicho
de otra manera, es la capacidad de la prueba para proporcionar datos negativos cuando las
personas investigadas están sanas. También se expresa como porcentaje:
Veamos un ejemplo:
• Un equipo de diagnóstico presenta una sensibilidad para detectar la presencia de
Escherichia coli, en caso de haberla.
• Si no está presente, detecta su ausencia con una determinada especificidad.
• La probabilidad de que una muestra de agua contenga E. coli es la prevalencia.
• Suponiendo que el examen da un resultado positivo, la probabilidad de que realmente la
muestra de agua contenga E. coli es el Valor predictivo positivo del test.
• Por otro lado, si el test da un resultado negativo, la probabilidad de que realmente el agua
está libre de bacterias es el Valor predictivo negativo del test.
• Además, cada ensayo resulta positivo o negativo, pero el agua en realidad puede o no
estar contaminada. Así se pueden calcular los coeficientes:
Coeficiente Falso – positivo = Pb (test positivo dado que el agua está sana)
Coeficiente Falso – negativo = Pb (test negativo dado que el agua está
contaminada).
63
Un hecho notable es que si la sensibilidad aumenta, la especificidad disminuye y
viceversa. Por eso, el problema real es decidir cual de ellas debe ser optimizada en cada caso
adoptando un punto de corte apropiado.
Otro problema a tener en cuenta con los falsos positivos es el costo involucrado en
curaciones innecesarias, internaciones y tratamientos superfluos, etc. No sólo para el paciente que
debe afrontar los gastos, sino para las unidades asistenciales con poca capacidad de internación.
Y por eso, la decisión final para darle una cama se debe tomar luego de una cuidadosa evaluación
de todos los factores involucrados, tales como historias clínicas, radiografías, electrocardiogramas,
análisis clínicos; o sea, una revisión completa y detallada. Una serie de pruebas es la manera de
resolver el problema básico de Sensibilidad vs. Especificidad.
8.2.7. Índice de Youden
Este índice se define como la suma del valor de la sensibilidad y la especificidad, menos
uno, para poder expresado en valores que varían entre cero y uno. O sea:
IY = {( S + E ) / 100 } - 1
Es uno de los criterios de selección más tradicionales usado por distintas profesiones. Se
busca la máxima eficiencia cuando no es deseable ninguno de los dos tipos de errores, pues
ambos son graves y costosos. Por ejemplo, es el caso de enfermedades transmisibles muy
graves, pero curables, donde un Falso Positivo podría traer aparejado un serio perjuicio
psicológico al paciente, así como un Falso Negativo podría contagiar a otra persona o desatar una
epidemia. Es parecido al uso del índice de Youden, pero haciendo hincapié en otro aspecto de la
cuestión.
64
8.3. Estudios experimentales y observacionales
Los estudios experimentales son los más fáciles de reconocer, porque en ellos el
investigador tiene el control de algún factor que cando varía puede guardar relación con distintos
resultados definitivos. Esto se advierte de manera clásica en estudios con animales, en los cuales,
por ejemplo, se puede controlar la dieta para medir índices reproductivos y de crecimiento. Sin
embargo, en estudios sobre seres humanos, las consideraciones éticas limitan la aplicabilidad del
método experimental y el investigador debe emplear el enfoque observacional. En este caso no se
intenta manipulación alguna, sino que se observan los diferentes resultados definitivos en las
circunstancias naturales y se relacionan con exposiciones distintas. Las personas tienen algún
atributo de la índole de tipo sanguíneo A, o una exposición, verbigracia, al uso de contraceptivos
bucales, y la aparición de enfermedad en el grupo con el atributo se compara con la que ocurre en
el grupo que no lo presenta. La dificultad es que los grupos observados pueden diferir de otras
maneras además del atributo en cuestión, posibilidad que dificulta la comparación.
Estudios retrospectivos y prospectivos
El término Prospectivo denota el hecho de que al grupo de estudio se le vigila en dirección
anterógrada hacia lo futuro; a diferencia de los estudios Retrospectivos, que va hacia el pasado.
En un estudio retrospectivo (de casos testigos) al comenzar la investigación ya han ocurrido todos
los acontecimientos importantes (enfermedad y exposición). En un estudio prospectivo ha ocurrido
la exposición pero no la enfermedad.
Asociación y causalidad
Los estudios epidemiológicos proporcionan asociaciones o relaciones (estadísticas) entre una
enfermedad y la exposición. Esta es únicamente la primera etapa. Se debe interpretar el
significado de estas relaciones. Una asociación puede ser:
65
• Espuria = causada por un sesgo o error en el estudio
• No Causal = ocurren de dos maneras, (a) la enfermedad causa la exposición, (b) la
enfermedad y la exposición guardan relación con un tercer factor.
• Causal = se demuestra que un factor contribuye a la aparición de un padecimiento y su
eliminación disminuye la frecuencia de la enfermedad.
En la prevención o profilaxis basta identificar una exposición sin identificar obligadamente la causa
última de la enfermedad. Por ejemplo: se ha observado que fumar cigarrillos guarda relación con
el aumento de la frecuencia de cáncer; pero es innecesario identificar con exactitud qué
compoenete del humo de cigarrillo es el atacante principal antes de emprender medidas
preventivas.
Los métodos estadísticos por sí solos no pueden comprobar una relación causal en una
asociación. La interpretación de una asociación de esta índole debe efectuarse de manera
sistemática. Así, los cinco requisitos que se deben cumplir para establecer una relación causal
son:
66