Está en la página 1de 41

La estadstica es una ciencia formal y una herramienta que estudia el uso y los

anlisis provenientes de una muestra representativa de datos, busca explicar las


correlaciones y dependencias de un fenmeno fsico o natural, de ocurrencia en
forma aleatoria o condicional.
Sin embargo, la estadstica es ms que eso, es decir, es la herramienta
fundamental que permite llevar a cabo el proceso relacionado con la investigacin
cientfica.
Es transversal a una amplia variedad de disciplinas, desde la fsica hasta
las ciencias sociales, desde las ciencias de la salud hasta el control de calidad.
Se usa para la toma
instituciones gubernamentales.

de

decisiones

en

reas

de negocios o

La estadstica se divide en dos grandes reas:


1. Estadstica descriptiva: Se dedica a la descripcin, visualizacin y resumen
de datos originados a partir de los fenmenos de estudio. Los datos
pueden ser resumidos numrica o grficamente. Ejemplos bsicos
de parmetros estadsticos son: la media y la desviacin estndar. Algunos
ejemplos grficos son: histograma, pirmide poblacional, grfico circular,
entre otros.
2. Estadstica inferencial: Se dedica a la generacin de los modelos,
inferencias y predicciones asociadas a los fenmenos en cuestin teniendo
en
cuenta
la aleatoriedad de
las
observaciones.
Se
usa
para modelar patrones en los datos y extraer inferencias acerca de
la poblacin bajo estudio. Estas inferencias pueden tomar la forma de
respuestas a preguntas s/no (prueba de hiptesis), estimaciones de unas
caractersticas
numricas
(estimacin), pronsticos de
futuras
observaciones, descripciones de asociacin (correlacin) o modelamiento
de relaciones entre variables (anlisis de regresin). Otras tcnicas
de modelamiento incluyen anova, series de tiempo y minera de datos.
Ambas ramas (descriptiva e inferencial) comprenden la estadstica aplicada. La
estadstica inferencial, por su parte, se divide en estadstica paramtrica y
estadstica no paramtrica.
Hay tambin una disciplina llamada estadstica matemtica, la que se refiere a las
bases tericas de la materia.

La palabra estadsticas tambin se refiere al resultado de aplicar un algoritmo


estadstico a un conjunto de datos, como en estadsticas econmicas, estadsticas
criminales, entre otros.
ndice
[ocultar]

1 Historia
o

1.1 Origen

1.2 Orgenes en probabilidad

1.3 Estado actual

2 Mtodos estadsticos
o

2.1 Estudios experimentales y observacionales

2.2 Niveles de medicin

2.3 Tcnicas de anlisis estadstico

3 Disciplinas especializadas

4 Computacin estadstica

5 Crticas a la estadstica

6 Estadsticos famosos

7 Notas

8 Bibliografa

9 Enlaces externos
Historia[editar]
Origen[editar]

El
trmino alemn Statistik,
introducido
originalmente
por Gottfried
Achenwall en 1749, se refera al anlisis de datos del Estado, es decir, la ciencia
del Estado (o ms bien, de la ciudad-estado). Tambin se llam aritmtica
poltica de acuerdo con la traduccin literal del ingls. No fue hasta el siglo XIX
cuando el trmino estadstica adquiri el significado de recolectar y clasificar
datos. Este concepto fue introducido por el militar britnico sir John Sinclair (17541835).
En su origen, por tanto, la estadstica estuvo asociada a los Estados o ciudades
libres, para ser utilizados por el gobierno y cuerpos administrativos (a menudo
centralizados). La coleccin de datos acerca de estados y localidades contina
ampliamente a travs de los servicios de estadstica nacionales e internacionales.
En particular, los censos comenzaron a suministrar informacin regular acerca de
la poblacin de cada pas. As pues, los datos estadsticos se referan
originalmente a los datos demogrficos de una ciudad o Estado determinados. Y
es por ello que en la clasificacin decimal de Melvil Dewey, empleada en las
bibliotecas, todas las obras sobre estadstica se encuentran ubicadas al lado de
las obras de o sobre la demografa.
Ya se utilizaban representaciones grficas y otras medidas en pieles, rocas, palos
de madera y paredes de cuevas para controlar el nmero de personas, animales o
ciertas mercancas. Hacia el ao 3000 a. C. los babilonios usaban ya pequeos
envases moldeados de arcilla para recopilar datos sobre la produccin agrcola y
de los gneros vendidos o cambiados. Los egipcios analizaban los datos de la
poblacin y la renta del pas mucho antes de construir las pirmides en el siglo
XI a. C. Los libros bblicos de Nmeros y Crnicas incluyen en algunas partes
trabajos de estadstica. El primero contiene dos censos de la poblacin de laTierra
de Israel y el segundo describe el bienestar material de las diversas tribus judas.
En China existan registros numricos similares con anterioridad al
ao 2000 a. C. Los antiguos griegos realizaban censos cuya informacin se
utilizaba hacia el 594 a. C. para cobrar impuestos.
Orgenes en probabilidad[editar]
Los mtodos estadstico-matemticos emergieron desde la teora de probabilidad,
la cual data desde la correspondencia entre Pascal y Pierre de Fermat
(1654). Christian Huygens (1657) da el primer tratamiento cientfico que se conoce
a la materia. El Ars coniectandi (pstumo, 1713) de Jakob Bernoulli y la Doctrina
de posibilidades (1718) de Abraham de Moivre estudiaron la materia como una
rama de las matemticas.1En la era moderna, el trabajo de Kolmogrov ha sido un

pilar en la formulacin del modelo fundamental de la Teora de Probabilidades, el


cual es usado a travs de la estadstica.
La teora de errores se puede remontar a la pera miscellnea (pstuma, 1722)
de Roger Cotes y al trabajo preparado por Thomas Simpson en 1755 (impreso en
1756) el cual aplica por primera vez la teora de la discusin de errores de
observacin. La reimpresin (1757) de este trabajo incluye el axioma de que
errores positivos y negativos son igualmente probables y que hay unos ciertos
lmites asignables dentro de los cuales se encuentran todos los errores; se
describen errores continuos y una curva de probabilidad.
Pierre-Simon Laplace (1774) hace el primer intento de deducir una regla para la
combinacin de observaciones desde los principios de la teora de probabilidades.
Laplace represent la Ley de probabilidades de errores mediante una curva y
dedujo una frmula para la media de tres observaciones. Tambin, en 1871,
obtiene la frmula para la ley de facilidad del error (trmino introducido
por Lagrange, 1744) pero con ecuaciones inmanejables. Daniel Bernoulli (1778)
introduce el principio del mximo producto de las probabilidades de un sistema de
errores concurrentes.

Fotografa de Ceres por el telescopio espacial Hubble. La posicin fue estimada


por Gauss mediante el mtodo de mnimos cuadrados.
El mtodo de mnimos cuadrados, el cual fue usado para minimizar los errores
en mediciones,
fue
publicado
independientemente
por Adrien-Marie
Legendre (1805), Robert Adrain (1808), y Carl Friedrich Gauss (1809). Gauss
haba usado el mtodo en su famosa prediccin de la localizacin del planeta
enano Ceres en 1801. Pruebas adicionales fueron escritas por Laplace (1810,
1812), Gauss (1823), James Ivory (1825, 1826), Hagen (1837), Friedrich
Bessel (1838), W.F. Donkin (1844, 1856), John Herschel (1850) yMorgan
Crofton (1870). Otros contribuidores fueron Ellis (1844), Augustus De

Morgan (1864), Glaisher (1872) y Giovanni Schiaparelli (1875). La frmula de


Peters para , el probable error de una observacin simple es bien conocido.
El siglo XIX incluye autores como Laplace, Silvestre Lacroix (1816), Littrow
(1833), Richard Dedekind (1860), Helmert (1872), Hermann Laurent (1873),
Liagre, Didion y Karl Pearson. Augustus De Morgan y George Boole mejoraron la
presentacin de la teora. Adolphe Quetelet (1796-1874), fue otro importante
fundador de la estadstica y quien introdujo la nocin del hombre
promedio (lhomme moyen) como un medio de entender los fenmenos sociales
complejos tales como tasas de criminalidad, tasas de matrimonio o tasas de
suicidios.
Estado actual[editar]
Durante el siglo XX, la creacin de instrumentos precisos para asuntos de salud
pblica (epidemiologa, bioestadstica, etc.) y propsitos econmicos y sociales
(tasa dedesempleo, econometra, etc.) necesit de avances sustanciales en las
prcticas estadsticas.
Hoy el uso de la estadstica se ha extendido ms all de sus orgenes como un
servicio al Estado o al gobierno. Personas y organizaciones usan la estadstica
para entender datos y tomar decisiones en ciencias naturales y sociales, medicina,
negocios y otras reas. La estadstica es entendida generalmente no como un
sub-rea de las matemticas sino como una ciencia diferente aliada.
Muchas universidades tienen departamentos acadmicos de matemticas y
estadstica separadamente. La estadstica se ensea en departamentos tan
diversos comopsicologa, educacin y salud pblica.

Regresin lineal Grficos dedispersin en estadstica.


Al aplicar la estadstica a un problema cientfico, industrial o social, se comienza
con un proceso o poblacin a ser estudiado. Esta puede ser la poblacin de un
pas, de granos cristalizados en una roca o de bienes manufacturados por una
fbrica en particular durante un periodo dado. Tambin podra ser un proceso

observado en varios instantes y los datos recogidos de esta manera constituyen


una serie de tiempo.
Por razones prcticas, en lugar de compilar datos de una poblacin entera,
usualmente se estudia un subconjunto seleccionado de la poblacin,
llamado muestra. Datos acerca de la muestra son recogidos de manera
observacional
o experimental.
Los
datos
son
entonces
analizados
estadsticamente lo cual sigue dos propsitos: descripcin e inferencia.
El concepto de correlacin es particularmente valioso. Anlisis estadsticos de
un conjunto de datos puede revelar que dos variables (esto es, dos propiedades
de la poblacin bajo consideracin) tienden a variar conjuntamente, como si
hubiera una conexin entre ellas. Por ejemplo, un estudio del ingreso anual y la
edad de muerte podra resultar en que personas pobres tienden a tener vidas ms
cortas que personas de mayor ingreso. Las dos variables se dice que estn
correlacionadas. Sin embargo, no se puede inferir inmediatamente la existencia de
una relacin de causalidad entre las dos variables. El fenmeno correlacionado
podra ser la causa de una tercera, previamente no considerada, llamada variable
confusora.
Si la muestra es representativa de la poblacin, inferencias y conclusiones hechas
en la muestra pueden ser extendidas a la poblacin completa. Un problema mayor
es el de determinar cun representativa es la muestra extrada. La estadstica
ofrece medidas para estimar y corregir por aleatoriedad en la muestra y en el
proceso de recoleccin de los datos, as como mtodos para disear experimentos
robustos como primera medida, ver diseo experimental.
El concepto matemtico fundamental empleado para entender la aleatoriedad es
el de probabilidad. La estadstica matemtica (tambin llamada teora estadstica)
es la rama de las matemticas aplicadas que usa la teora de probabilidades y
el anlisis matemtico para examinar las bases tericas de la estadstica.
El uso de cualquier mtodo estadstico es vlido solo cuando el sistema o
poblacin bajo consideracin satisface los supuestos matemticos del mtodo. El
mal uso de la estadstica puede producir serios errores en la descripcin e
interpretacin, lo cual podra llegar a afectar polticas sociales, la prctica mdica y
la calidad de estructuras tales como puentes y plantas de reaccin nuclear.
Incluso cuando la estadstica es correctamente aplicada, los resultados pueden
ser difciles de interpretar por un inexperto. Por ejemplo, el significado estadstico
de una tendencia en los datos, que mide el grado al cual la tendencia puede ser
causada por una variacin aleatoria en la muestra, puede no estar de acuerdo con

el sentido intuitivo. El conjunto de habilidades estadsticas bsicas (y el


escepticismo) que una persona necesita para manejar informacin en el da a da
se refiere como cultura estadstica.
Mtodos estadsticos[editar]
Estudios experimentales y observacionales[editar]
Un objetivo comn para un proyecto de investigacin estadstica es investigar la
causalidad, y en particular extraer una conclusin en el efecto que algunos
cambios en los valores de predictores o variables independientes tienen sobre una
respuesta o variables dependientes. Hay dos grandes tipos de estudios
estadsticos para estudiar causalidad: estudios experimentales y observacionales.
En ambos tipos de estudios, el efecto de las diferencias de una variable
independiente (o variables) en el comportamiento de una variable dependiente es
observado. La diferencia entre los dos tipos es la forma en que el estudio es
conducido. Cada uno de ellos puede ser muy efectivo.
Niveles de medicin[editar]
Hay cuatro tipos de mediciones o escalas de medicin en estadstica: niveles de
medicin (nominal, ordinal, intervalo y razn). Tienen diferentes grados de uso en
la investigacin estadstica. Las medidas de razn, en donde un valor cero y
distancias entre diferentes mediciones son definidas, dan la mayor flexibilidad en
mtodos estadsticos que pueden ser usados para analizar los datos. Las medidas
de intervalo tienen distancias interpretables entre mediciones, pero un valor cero
sin significado (como las mediciones de coeficiente intelectual o temperatura en
grados Celsius). Las medidas ordinales tienen imprecisas diferencias entre valores
consecutivos, pero un orden interpretable para sus valores. Las medidas
nominales no tienen ningn rango interpretable entre sus valores.
La escala de medida nominal, puede considerarse la escala de nivel ms bajo. Se
trata de agrupar objetos en clases. La escala ordinal, por su parte, recurre a la
propiedad de orden de los nmeros. La escala de intervalos iguales est
caracterizada por una unidad de medida comn y constante. Es importante
destacar que el punto cero en las escalas de intervalos iguales es arbitrario, y no
refleja en ningn momento ausencia de la magnitud que estamos midiendo. Esta
escala, adems de poseer las caractersticas de la escala ordinal, permite
determinar la magnitud de los intervalos (distancia) entre todos los elementos de la
escala. La escala de coeficientes o Razones es el nivel de medida ms elevado y
se diferencia de las escalas de intervalos iguales nicamente por poseer un punto
cero propio como origen; es decir que el valor cero de esta escala significa

ausencia de la magnitud que estamos midiendo. Si se observa una carencia total


de propiedad, se dispone de una unidad de medida para el efecto. A iguales
diferencias entre los nmeros asignados corresponden iguales diferencias en el
grado de atributo presente en el objeto de estudio.
Tcnicas de anlisis estadstico[editar]
Algunos tests y
conocidos son:

procedimientos

para investigacin de observaciones bien

Prueba t de Student

Prueba de

Anlisis de varianza (ANOVA)

U de Mann-Whitney

Anlisis de regresin

Correlacin

Iconografa de las correlaciones

Frecuencia estadstica

Anlisis de frecuencia acumulada

Prueba de la diferencia menos significante de Fisher

Coeficiente de correlacin de Pearson

Coeficiente de correlacin de Spearman

Anlisis factorial exploratorio

Anlisis factorial confirmatorio

Grfica estadstica

Disciplinas especializadas[editar]

Algunos campos de investigacin usan la estadstica tan extensamente que


tienen terminologa especializada. Estas disciplinas incluyen:

Ciencias actuariales

Fsica estadstica

Estadstica industrial

Estadstica espacial

Matemtica estadstica

Estadstica en medicina

Estadstica en medicina veterinaria y zootecnia

Estadstica en nutricin

Estadstica en agronoma

Estadstica en planificacin

Estadstica en investigacin

Estadstica en restauracin de obras

Estadstica en literatura

Estadstica en astronoma

Estadstica en antropologa (antropometra)

Estadstica en historia

Estadstica militar

Geoestadstica

Bioestadstica

Estadsticas de negocios

Estadstica computacional

Estadstica en ciencias de la salud

Investigacin de operaciones

Estadsticas de consultora

Estadstica de la educacin, la enseanza, y la formacin

Estadstica en comercializacin o mercadotecnia

Cienciometra

Estadstica del medio ambiente

Estadstica en epidemiologa

Minera de datos (aplica estadstica y reconocimiento de patrones para el


conocimiento de datos)

Econometra (estadstica econmica)

Estadstica en ingeniera

Geografa y sistemas de informacin geogrfica, ms especficamente


en anlisis espacial

Demografa

Estadstica en psicologa (psicometra)

Calidad y productividad

Estadsticas sociales (para todas las ciencias sociales)

Cultura estadstica

Encuestas por muestreo

Anlisis de procesos y quimiometra (para anlisis de datos en qumica


analtica e ingeniera qumica)

Confiabilidad estadstica

Procesamiento de imgenes

Estadsticas deportivas

La estadstica es una herramienta bsica en negocios y produccin. Se usa para


entender la variabilidad de sistemas de medicin, control de procesos (como
en control estadstico de procesos o SPC (CEP)), para compilar datos y para
tomar decisiones. En estas aplicaciones es una herramienta clave y
probablemente la nica herramienta disponible.
Computacin estadstica[editar]
El rpido y sostenido incremento en el poder de clculo de la computacin desde
la segunda mitad del siglo XX ha tenido un sustancial impacto en la prctica de la
ciencia estadstica. Viejos modelos estadsticos fueron casi siempre de la clase de
los modelos
lineales.
Ahora,
complejos
computadores
junto
con
apropiados algoritmos numricos han causado un renacer del inters en modelos
no lineales (especialmenteredes neuronales y rboles de decisin) y la creacin
de nuevos tipos tales como modelos lineales generalizados y modelos multinivel.
El incremento en el poder computacional tambin ha llevado al crecimiento en
popularidad de mtodos intensivos computacionalmente basados en remuestreo,
tales como tests de permutacin y de bootstrap, mientras tcnicas como
el muestreo de Gibbs han hecho los mtodos bayesianos ms accesibles. La
revolucin en computadores tiene implicaciones en el futuro de la estadstica, con
un nuevo nfasis en estadsticas experimentales y empricas. Un gran
nmero de paquetes estadsticos est ahora disponible para los investigadores.
Los sistemas dinmicos y teora del caos, desde hace una dcada, empezaron a
interesar en la comunidad hispana, pues en la anglosajona de Estados Unidos
estaba ya establecida la conducta catica en sistemas dinmicos no lineales
con 350 libros para 1997 y empezaban algunos trabajos en los campos de las
ciencias sociales y en aplicaciones de la fsica. Tambin se estaba contemplando
su uso en analtica.

Vase tambin: Computacin Cientfica


Crticas a la estadstica[editar]
Hay una percepcin general de que el conocimiento estadstico es intencionado y
frecuentemente mal usado, encontrando maneras de interpretar los datos que
sean favorables al presentador. Un dicho famoso, al parecer de Benjamin
Disraeli,2 es: Hay tres tipos de mentiras: mentiras pequeas, mentiras grandes y
estadsticas. El popular libro How to lie with statistics (Cmo mentir con las
estadsticas en la edicin espaola) de Darrell Huff discute muchos casos de mal
uso de la estadstica, con nfasis en grficas malintencionadas. Al escoger (o
rechazar o modificar) una cierta muestra, los resultados pueden ser manipulados;
por ejemplo, mediante la eliminacin selectiva de valores atpicos (outliers). Este
puede ser el resultado de fraudes o sesgos intencionales por parte del
investigador (Darrel Huff3 ). Lawrence Lowell(decano de la Universidad de
Harvard) escribi en 1909 que las estadsticas, como algunos pasteles, son
buenas si se sabe quin las hizo y se est seguro de los ingredientes.
Algunos estudios contradicen resultados obtenidos previamente y la poblacin
comienza a dudar en la veracidad de tales estudios. Se podra leer que un estudio
dice (por ejemplo) que hacer X reduce la presin sangunea, seguido por un
estudio que dice que hacer X no afecta la presin sangunea, seguido por otro
que dice que hacer X incrementa la presin sangunea. A menudo los estudios
se hacen siguiendo diferentes metodologas, o estudios en muestras pequeas
que prometen resultados maravillosos que no son obtenibles en estudios de mayor
tamao. Sin embargo, muchos lectores no notan tales diferencias, y los medios de
comunicacin simplifican la informacin alrededor del estudio y la desconfianza del
pblico comienza a crecer.
Sin embargo, las crticas ms fuertes vienen del hecho que la aproximacin de
pruebas de hiptesis, ampliamente usada en muchos casos requeridos por ley o
reglamentacin, obliga a una hiptesis a ser favorecida (la hiptesis nula) y
puede tambin exagerar la importancia de pequeas diferencias en estudios
grandes. Una diferencia que es altamente significativa puede ser de ninguna
significancia prctica.
Vase tambin crticas de prueba de hiptesis y controversia de la hiptesis
nula.
En los campos de la psicologa y la medicina, especialmente con respecto a la
aprobacin de nuevos medicamentos por la Food and Drug Administration,
crticas de la aproximacin de prueba de hiptesis se han incrementado en los

aos recientes. Una respuesta ha sido un gran nfasis en el p-valor en vez de


simplemente reportar si la hiptesis fue rechazada al nivel de significancia
dado. De nuevo, sin embargo, esto resume la evidencia para un efecto pero no
el tamao del efecto. Una posibilidad es reportar intervalos de confianza,
puesto que estos indican el tamao del efecto y la incertidumbre. Esto ayuda a
interpretar los resultados, como el intervalo de confianza para un dado
indicando simultneamente la significancia estadstica y el efecto de tamao.
El p-valor y los intervalos de confianza son basados en los mismos clculos
fundamentales como aquellos para las correspondientes pruebas de hiptesis.
Los resultados son presentados en un formato ms detallado, en lugar del s
o no de las pruebas de hiptesis y con la misma metodologa estadstica.
Otro tipo de aproximacin es el uso de mtodos bayesianos. Esta
aproximacin ha sido, sin embargo, tambin criticada.
El fuerte deseo de que los medicamentos buenos sean aprobados y que los
medicamentos peligrosos o de poco uso sean rechazados crea tensiones y
conflictos (errores tipo I y II en el lenguaje de pruebas de hiptesis).
Estadstica Descriptiva

CONCEPTOS BSICOS
INTRODUCCIN
La investigacin cuya finalidad es: el anlisis o experimentacin de situaciones
para el descubrimiento de nuevos hechos, la revisin o establecimiento de teoras
y las aplicaciones prcticas de las mismas, se basa en los principios de
Observacin y Razonamiento y necesita en su carcter cientfico el anlisis
tcnico de Datos para obtener de ellos informacin confiable y oportuna. Este
anlisis de Datos requiere de la Estadstica como una de sus principales
herramientas, por lo que los investigadores de profesin y las personas que de
una y otra forma la realizan requieren adems de los conocimientos
especializados en su campo de actividades, del manejo eficiente de los conceptos,
tcnicas y procedimientos estadsticos.
ESTADSTICA

Es el conjunto de procedimientos y tcnicas empleadas para recolectar, organizar


y analizar datos, los cuales sirven de base para tomar decisiones en las
situaciones de incertidumbre que plantean las ciencias sociales o naturales.
ESTADSTICA INDUCTIVA Y DEDUCTIVA
Uno de los problemas fundamentales de la Estadstica es el estudio de la relacin
existente entre una poblacin y sus muestras. Segn la direccin de tal relacin la
Estadstica puede ser:
Deductiva, cuando a partir del conocimiento de la poblacin se trata de
caracterizar cada muestra posible.
Inductiva, cuando a partir del conocimiento derivado de una muestra se pretende
caracterizar la poblacin.
ESTADSTICA DESCRIPTIVA E INFERENCIAL
Estadstica Descriptiva se refiere a la recoleccin, presentacin, descripcin,
anlisis e interpretacin de una coleccin de datos, esencialmente consiste en
resumir stos con uno o dos elementos de informacin (medidas descriptivas) que
caracterizan la totalidad de los mismos. La estadstica Descriptiva es el mtodo de
obtener de un conjunto de datos conclusiones sobre si mismos y no sobrepasan el
conocimiento proporcionado por stos. Puede utilizarse para resumir o describir
cualquier conjunto ya sea que se trate de una poblacin o de una muestra, cuando
en la etapa preliminar de la Inferencia Estadstica se conocen los elementos de
una muestra.
Estadstica Inferencial se refiere al proceso de lograr generalizaciones acerca de
las propiedades del todo, poblacin, partiendo de lo especfico, muestra. las
cuales llevan implcitos una serie de riesgos. Para que stas generalizaciones
sean vlidas la muestra deben ser representativa de la poblacin y la calidad de la
informacin debe ser controlada, adems puesto que las conclusiones as
extradas estn sujetas a errores, se tendr que especificar el riesgo o
probabilidad que con que se pueden cometer esos errores. La estadstica
inferencial es el conjunto de tcnicas que se utiliza para obtener conclusiones que
sobrepasan los lmites del conocimiento aportado por los datos, busca obtener
informacin de un colectivo mediante un metdico procedimiento del manejo de
datos de la muestra.
En sus particularidades la Inferencia distingue la Estimacin y la Contrastacin de
Hiptesis. Es estimacin cuando se usan las caractersticas de la muestra para
hacer inferencias sobre las caractersticas de la poblacin. Es contrastacin de

hiptesis cuando se usa la informacin de la muestra para responder a


interrogantes sobre la poblacin.
ANALISIS ESTADSTICO
El anlisis estadstico es todo el proceso de organizacin, procesamiento,
reduccin e interpretacin de datos para realizar inferencias.
DATOS Y VARIABLES
Cuando se consideran los mtodos de organizacin, reduccin y anlisis de datos
estadsticos, se hace necesario aclarar los siguientes conceptos.
Variables: es toda caracterstica que vara de un elemento a otro de la poblacin.
Datos: son medidas o valores de las caractersticas susceptibles de observar y
contar, se originan por la observacin de una o ms variables de un grupo de
elementos o unidades
CLASIFICACIN DE VARIABLES
Las variables pueden clasificarse en: categricas o cualitativas (atributos), no
tienen ningn grado de comparacin numrica, ejemplo: sexo, estado civil; y
numricas o cuantitativas, son caractersticas factibles de expresar por medio de
nmeros, estas pueden ser Discretas, que solo pueden tomar ciertos valores
aislados en un intervalo, y Continuas, que pueden tomar cualquier valor en un
intervalo.
REPRESENTACIN DE DATOS
Los datos son colecciones de un nmero cualquiera de observaciones
relacionadas entre si, para que sean tiles se deben organizar de manera que
faciliten su anlisis, se puedan seleccionar tendencias, describir relaciones,
determinar causas y efectos y permitan llegar a conclusiones lgicas y tomar
decisiones bien fundamentadas; por esa razn es necesario conocer lo mtodos
de Organizacin y Representacin, la finalidad de stos mtodos es permitir ver
rpidamente todas las caractersticas posibles de los datos que se han
recolectado.
Representacin Tabular:
Presenta las variable y las frecuencias con que los valores de stas se encuentran
presentes en el estudio.
Representacin Grfica :

Se llaman grficas a las diferentes formas de expresar los datos utilizando los
medios de representacin que proporciona la geometra.
METODOS DE REPRESENTACIN DE DATOS CUANTITATIVOS
Arreglo de Datos. Es una forma de presentar los datos en un arreglo ascendente o
descendente. Ofrece las ventajas siguientes: describe los valores mnimos y
mximos, en l se pueden dividir los datos fcilmente en secciones, permite darse
cuenta de los valores que aparecen ms de una vez, se puede observar la
distancia entre valores consecutivos.
Diagrama de Puntos. Muestra la frecuencia con que aparece cada uno de los
valores
Diagrama de Tallo y Hoja. Es til para realizar una exploracin preliminar del
conjunto, genera una imagen adecuada de ellos sin perder informacin.
Distribucin de Frecuencias. Es una forma de sintetizar los datos y consiste en
valerse de una tabla para clasificar los datos segn su magnitud, en ella se seala
el nmero de veces que aparece cada uno de los valores. Cuando se dispone de
un gran nmero de valores discretos o cuando las variables son continuas, tiene
sentido formar una tabla que presente la distribucin de frecuencias de los datos
agrupados en intervalos o clases, de igual tamao si es posible, sin embargo una
tabla de este tipo supone una concentracin de datos que produce prdida de
informacin.
DISTRIBUCIN DE FRECUENCIAS
Organizacin de datos agrupados
Definiciones
Clases o intervalos de clase: Grupo de valores que describen una caracterstica.
Deben incluir todas las observaciones y ser excluyentes. Los intervalos contienen
los lmites de clase que son los puntos extremos del intervalo. Se denominan
intervalos cerrados, cuando contienen ambos lmites e intervalos abiertos si
incluyen solo un lmite.
Limites Reales: Sirven para mantener la continuidad de las clases
Anchura o tamao del intervalo: es la diferencia entre los lmites reales de una
clase
Nmero de clases: es el nmero total de grupos en que se clasifica la informacin,
se recomienda que no sea menor que 5 ni mayor que 15

Marca de Clase: Es el punto medio del intervalo de clase, se recomienda observar


que los puntos medios coincidan con los datos observados para minimizar el error.
Frecuencia: es el nmero de veces que aparece un valor
Frecuencia Acumulada: Indica cuantos casos hay por debajo o arriba de un
determinado valor o lmite de clase.
Frecuencia Relativa: Indica la proporcin que representa la frecuencia de cada
intervalo de clase en relacin al total, es til para comparar varias distribuciones
con parmetros de referencia uniformes.
Frecuencia Acumulada Relativa: Indica la proporcin de datos que se encuentra
por arriba o debajo de cierto valor o lmite de clase.
Grficos de una Distribucin de Frecuencias
Los grficos son tiles porque ponen en relieve y aclaran las tendencias que no se
captan fcilmente en la tabla, ayudan a estimar valores con una simple ojeada y
brinda una verificacin grfica de la veracidad de las soluciones.
Histograma:
Esta formado por rectngulos cuya base es la amplitud del intervalo y tiene la
caracterstica que la superficie que corresponde a las barras es representativa de
la cantidad de casos o frecuencia de cada tramo de valores, puede construirse con
clases que tienen el mismo tamao o diferente ( intervalo variable). La utilizacin
de los intervalos de amplitud variable se recomienda cuando en alguno de los
intervalos , de amplitud constante, se presente la frecuencia cero o la frecuencia
de alguno o algunos de los intervalos sea mucho mayor que la de los dems,
logrando as que las observaciones se hallen mejor repartidas dentro del intervalo.
Polgono de Frecuencias
Se puede obtener uniendo cada punto medio (marca de clase) de los rectngulos
del histograma con lneas rectas, teniendo cuidado de agregar al inicio y al final
marcas de clase adicionales, con el objeto de asegurar la igualdad del reas.
Curvas de frecuencia
No es ms que la curva suavizada que se traza sobre el polgono y representa la
asimetra y la curtosis que tiene la distribucin, permite visualizar un esquema ms
claro del patrn de datos. Existen varios tipos de curva de frecuencia: Curvas J,
Simtricas o Asimtricas (sesgada a la derecha o a la izquierda), Unimodales,
Bimodales y Multimodales.

Ojivas: Cuando se trata de relacionar observaciones en un mismo aspecto para


dos colectivos diferentes no es posible ejecutar comparaciones sobre la base de la
frecuencia, es necesario tener una base estndar, la frecuencia relativa. La ojiva
representa grficamente la forma en que se acumulan los datos y permiten ver
cuantas observaciones se hallan por arriba o debajo de ciertos valores. Es til
para obtener una medida de los cuartiles, deciles , percentiles.
MEDIDAS DESCRIPTIVAS
Con estas medidas se persigue reducir en pocas cifras significativas el conjunto de
observaciones de una variable y describir con ellas ciertas caractersticas de los
conjuntos, logrando una comparacin ms precisa de los datos que la que se
puede conseguir con tablas y grficas.
MEDIDAS DE TENDENCIA CENTRAL: PROMEDIOS
Los promedios son una medida de posicin que dan una descripcin compacta de
como estn centrados los datos y una visualizacin ms clara del nivel que
alcanza la variable, pueden servir de base para medir o evaluar valores extremos
o raros y brinda mayor facilidad para efectuar comparaciones.
Es importante poner en relieve que la notacin de promedio lleva implcita la idea
de variacin y que este nmero promedio debe cumplir con la condicin de ser
representativo de conjunto de datos.
El promedio como punto tpico de los datos es el valor al rededor del cual se
agrupan los dems valores de la variable.
MEDIA ARITMTICA
Es una medida matemtica, un nmero individual que representa razonablemente
el comportamiento de todos los datos.
Para datos no agrupados X = S xi / n
Para datos agrupados X = S fi Xi / S fi
donde Xi es la marca de clase para cada intervalo y fi es la frecuencia de clase
Caractersticas de la Media:
1. En su clculo estn todos los valores del conjunto de datos por lo que cada uno
afecta la media.
2. La suma algebraica de las desviaciones de los valores individuales respecto a la
media es cero.

3. La suma del cuadrado de las desviaciones de una serie de datos a cualquier


nmero A es mnimo si A = X
4. Aunque es confiable porque refleja todos los valores del conjunto de datos
puede ser afectada por los valores extremos, y de esa forma llegar a ser una
medida menos representativa, por lo que si la distribucin es asimtrica, la media
aritmtica no constituye un valor tpico.
LA MODA
Es el valor de un conjunto de datos que ocurre ms frecuentemente, se considera
como el valor ms tpico de una serie de datos.
Para datos agrupados se define como Clase Modal el intervalo que tiene ms
frecuencia.
La moda puede no existir o no ser nica, las distribuciones que presentan dos o
ms mximos relativos se designan de modo general como bimodales o
multimodales.
Caractersticas de la Moda.
1. Representa ms elementos que cualquier otro valor
2. No est afectada por los valores extremos pero para datos continuos es dudoso
su clculo.
3. La moda para una distribucin de frecuencias de datos agrupados no puede ser
calculada exactamente, el valor de la moda puede ser afectado por el mtodo de
agrupacin de los intervalos de clase.
4. La moda no permite conocer la mayor parte de los datos
5. Algunas veces el azar interviene de manera importante y hace que un valor no
representativo se repita frecuentemente.
6. Puede usarse para datos cuantitativos como cualitativos
7. La moda como estadstico, vara mucho de una muestra a otra
8. Cuando se tienen dos o ms modas es difcil su interpretacin
9. Tiene la ventaja de que los datos desproporcionados con respecto al resto no la
distorsionan, pero no se presta para un tratamiento matemtico.
LA MEDIANA

Es el valor de la observacin que ocupa la posicin central de un conjunto de


datos ordenados segn su magnitud. Es el valor medio o la media aritmtica de
los valores medios. La mediana es un valor de la variable que deja por debajo de
l un nmero de casos igual al que deja por arriba.
Geomtricamente la mediana es el valor de la variable que corresponde a la
vertical que divide al histograma en dos reas iguales.
Cuando determinados valores de un conjunto de observaciones son muy grandes
o pequeos con respecto a los dems, entonces la media aritmtica se puede
distorsionar y perder su carcter representativo, en esos casos es conveniente
utilizar la mediana como medida de tendencia central.
Caractersticas de la mediana
1. Es un promedio de posicin no afectado por los valores extremos.
2. No est definida algebraicamente
3. Cuando la localizacin del elemento central puede ser determinada y los lmites
de clase mediana son conocidos, la mediana para la distribucin de frecuencias
puede ser calculada por interpolacin, no importando que sta contenga intervalos
abiertos, cerrados, iguales o diferentes.
4. La suma de los valores absolutos, sin considerar el signo, de las desviaciones
individuales respecto a la mediana es mnimo.
5 La mediana en caso de una distribucin asimtrica, no resulta desplazado del
punto de tendencia central.
6. Si el universo tiene curtosis excesiva la mediana como estadstico, vara menos
que cualquier otra medida.
7. Si la mediana se calcula por interpolacin y hay lagunas en los valores de la
clase mediana o los datos son irregulares, esta medida no es buena ya que su
ubicacin puede resultar falsa.
8. Si se desea ubicar las condiciones de un elemento en una clase, la mediana
resulta se indicada, ya que por comparacin pone en evidencia si un elemento
est en la mitad superior a ella o en la inferior.
MEDIA ARITMETICA PONDERADA
En sta, para cada uno de los valores de xi se asigna un factor wi de peso, que
depende de la importancia que el investigador desee darle.

Xp = S ( xi wi) / S wi
MEDIA GEOMTRICA
til cuando la variable cambia a lo largo del tiempo, esto es, en el calculo del
promedio de tasas, razones, proporciones geomtricas y relaciones de variables.
Se utiliza en Matemticas Financieras y Finanzas para promediar nmeros
ndices, tasas de cambio, etc.
La media Geomtrica de una serie de nmeros es la raz n-sima del producto de
esos nmeros
M = n e (x 1 * x 2 * x 3 *.....*x n )
Se ve afectada por todos los nmeros y valores extremos pero en menor grado
que la Media Aritmtica, su valor siempre es menor que el de sta.
MEDIA ARMNICA
Se utiliza para el promedio de rendimientos y velocidades. La Media Armnica de
una serie de nmeros es el reciproco de la media aritmtica del recproco de esos
nmeros.
1 / MH = [ S 1 / xi ] / n
MEDIA CUADRTICA
Es la raz cuadrada de la media aritmtica de los cuadrados de los nmeros, se
usa eficientemente para promediar los errores o desviaciones porque es ms
susceptible a los mismos.
MC = 2 e S [ xi 2 ] / n
LOS CUANTILES
Son valores que dividen a la distribucin en n partes iguales
Cuartiles, cuatro partes iguales: Q1, Q2, Q3
Deciles, diez pares iguales : D1, D2..........D9
Percentiles o centiles, cien partes iguales: P1, P2.....P99
Los cuantiles permiten hacer un anlisis minucioso de la distribucin, se utilizan
generalmente cuando se quiere ubicar un dato dentro del conjunto. Por ejemplo.
Pertenece el dato x al 50% superior ?, al 10% inferior? , al 50 % central?, etc.
MEDIDAS DE DISPERSIN

Un rasgo principal de los datos es su dispersin o amplitud, que se refiere a su


variabilidad, a la evaluacin de cun separados o extendidos estn estos datos o
bien cuanto difieren unos de otros.
Variacin: es el grado en que los datos numricos tienden a extenderse al rededor
de un valor, generalmente el valor medio
Por qu es importante la variacin?
1. Al menudo una medida de posicin de un conjunto de datos se vincula con la
indicacin de cun tpico o representativo es para la poblacin y para ello es
necesario contar con la informacin que proporcionan las mediadas de variacin.
Solo el conocimiento de un estadstico de tendencia central no aclara o define toda
la distribucin, adems que no existe un valor de tendencia central ideal, por lo
que es significativo tener una idea de la dispersin de los valores y determinar si
es mucha o poca al rededor de la media, pues si la variacin es muy grande
entonces esta medida de tendencia central no es buena seleccin como valor
tpico.
2. La medida de tendencia central no indica la relacin de un dato con los otros, es
necesario para ello las medidas de variabilidad o dispersin.
3. Al tratar problemas con datos dispersos se requiere conocer que problemas
puede esto traer, hasta que punto la dispersin tiene un riesgo aceptable o
inaceptable en la toma de decisiones.
4. Al comparar dos distribuciones por lo general centramos la atencin en la
posicin y en la dispersin.
RANGO
Mide la dispersin de la totalidad de los datos. Es la ms obvia de las mediadas ya
que es la distancia entre los valores mximo y mnimo.
El rango o recorrido da alguna idea del grado de variacin que ocurre en la
poblacin, pero con frecuencia los resultados pueden ser engaosos, pues este
depende de los valores extremos e ignora la variacin de las dems
observaciones. Est afectado por ocurrencias raras o extraordinarias.
INTERVALO INTERDECIL
Mide la dispersin del 80% de los datos centrales y se obtiene de la diferencia
entre el decil 9 y el decil 1, evitando as los puntos extremos.
INTERVALO INTERCUARTIL

Cuando aumenta la dispersin de una distribucin de frecuencias, se ampla la


distancia entre los cuartiles, por lo que esta distancia puede usarse como base de
una medida de variabilidad
El intervalo intercuartil, es el recorrido entre el cuartil 3 y el cuartil 1. Es el intervalo
en el cual est comprendido el 50% de los datos centrales.
DESVIACIN CUARTLICA
Mide el intervalo promedio de un cuarto de los datos [Q3-Q1)/2]
Si la distribucin es perfectamente simtrica, los dos cuartiles Q1 y Q3 equidistan
de la mediana y la mitad de la distancia entre los cuartiles representa la distancia
promedio entre ellos y la mediana.
Si en una distribucin simtrica se mide una distancia igual a la desviacin
cuartlica a ambos lados de un punto ubicado en el centro de los cuartiles, el 50%
de los valores estarn incluidos dentro de esos lmites y el valor del punto medio
coincide con la mediana.
La ventaja de la desviacin cuartlica es que evita los valores extremos utilizando
nicamente la mitad intermedia de los datos.
DESVIACIN MEDIA
La desviacin Media o Desviacin absoluta promedio, es la media aritmtica de
las desviaciones absolutas de cada una de las observaciones con respecto a su
valor central, la media aritmtica, o la mediana
Cuanto mayor es su valor, mayor es la dispersin de los datos
DM =[ S | xi . X | ] / n
DM = [ S fi | xi - X | ] / S fi
Las caractersticas de esta media de dispersin son:
1. Su valor depende del valor de cada observacin.
2. Se puede calcular al rededor de la media o de la mediana.
3. La desviacin promedio respecto a la mediana es un mnimo
4. Mide la desviacin de una observacin sin notar si est por encima o por debajo
del promedio.
VARIANZA

Otro tratamiento para evadir la suma cero de las desviaciones de las


observaciones respecto a su Media Aritmtica, consiste en recurrir al proceso de
elevar al cuadrado estas desviaciones y sumar los cuadrados, dividiendo la suma
por el nmero de casos, a esta cantidad se le denomina varianza, y es la ms
importante de las medidas de variacin porque tiene la ventaja de no prescindir de
los signos de las desviaciones, pero al igual que la desviacin media los valores
extremos pueden distorsionarla
s 2 = S ( xi - X ) 2 / n
s 2 = S fi (xi-X ) 2 / S fi
S 2 = S (xi-X) 2 / ( n)
S 2 = S fi ( xi-X ) 2 / ( S fi )
S 2 * = S (xi-X) 2 / ( n-1)
S 2 *= S fi ( xi-X ) 2 / ( S fi -1)
En inferencia, con una muestra tomada de una poblacin grande se pretende
descubrir cuanto varan los datos al rededor de la media poblacional, si embargo
cuando no se conoce la media de la poblacin se estima a partir de la media
aritmtica de la muestra y esto hace que parezca menos variable de o que es en
realidad, al dividir por n-1 se est compensando por la variabilidad ms pequea
que se observa en la muestra, por lo que S 2 * , la suma de cuadrados dividida por
n-1 es considerado un estimador ms eficiente para la varianza poblacional.
DESVIACION ESTANDAR
Cuando se utiliza la varianza como medida de dispersin, para salvar el problema
de trabajar con distintas dimensiones en la media y en la medida de variabilidad es
necesario definir la Desviacin estndar como la raz cuadrada de l varianza.
La Desviacin Estndar es til para describir cuanto se apartan de la media de la
distribucin los elementos individuales. Una medida de ello se denomina
puntuacin estndar nmero de desviaciones a las que determinada observacin
se encuentra con respecto a la media.
Puntuacin estndar de xi = (xi - X) / s
Al comparar distribuciones tambin hacemos uso de la calificacin estndar.
Caracterstica de la Desviacin Estndar:
1. Es afectada por el valor de cada observacin

2. Como consecuencia de considerar desviaciones cuadrticas pone mayor


nfasis en las desviaciones extremas que en las dems desviaciones.
3. Si en el eje X de la distribucin de frecuencias normal, se mide a ambos lados
de la media una distancia igual a :
Una desviacin estndar se forma un intervalo en el cual se encuentra el 68.27%
de los valores centrales de la variable
Dos desviaciones estndar, se forma un intervalo donde se encuentra el 95.43%
de los valores centrales
Tres desviaciones estndar, se forma un intervalo que contiene el 99.73% de los
valores centrales
4. Al construir la tabla de frecuencias de una variable discreta y calcular a partir de
ella la desviacin estndar no hay prdida de informacin por lo que la desviacin
para los datos observados es igual que para los datos tabulados.
En la construccin de una tabla de una variable continua hay prdida de
informacin por el agrupamiento de los valores en intervalos y se traduce en la
discrepancia entre el valor de la desviacin observada y tabulada.
MEDIADAS DE DISPERSIN RELATIVAS
Cuando se necesita comparar dos o ms series de datos a veces no es posible
hacerlo con las medidas absolutas, ya sea porque las unidades son diferentes o
porque tienen diferente media, en stos casos deben utilizarse cantidades
relativas definida generalmente como:
Dispersin relativa = Dispersin absoluta / media
COEFICIENTE DE VARIACIN
Es la medida de dispersin relativa ms usada y se define como el cociente de la
desviacin estndar entre el promedio aritmtico, expresado en porcentaje y es
adimensional
V=S/X
MEDIDAS DE ASIMETRA Y CURTOSIS
MEDIDAS DE SESGO O ASIMETRIA
En las distribuciones que no toman la forma de una curva acampanada Normal,
interesa muchas veces obtener dos medias adicionales, las de asimetra y
curtosis. Las medidas de asimetra muestran si en la distribucin hay

concentracin de datos en un extremo, superior o inferior, y se denomina Sesgo


positivo o a la derecha si la concentracin es en el extremo inferior y Sesgo
Negativo o a la izquierda si la concentracin es en el superior.
COEFICIENTE DE PEARSON
En las distribuciones simtricas, la media , la mediana y la moda coinciden y
conforme la distribucin se separa de la simetra estos valores se separan, por lo
que la ms corriente de las medidas de asimetra es la diferencia entre la moda y
la media que se la ms sensible a los valores extremos
Sk = ( X -Mo) / S
Para cuando la moda no se encuentra bien definida se puede sustituir por la
mediana
Sk= 3 ( X -Me) / S
Estas medidas se conocen como el primero y segundo coeficiente de Pearson y
varan entre el intervalo + 3, es cero para la distribucin normal.
MEDIDA CUARTIL DE ASIMETRIA
En una distribucin simtrica los cuartiles quedan simtricamente colocados
respecto a la mediana, pero si es asimtrica un cuartil se separa ms que otro. La
medida cuartil de asimetra marca esta relacin
Sk =[ ( Q3-Me) -( Me-Q1) ]/ ( Q3-Q1)
Si la asimetra es a la derecha Q3 est ms lejos de la mediana que Q1, si la
asimetra es a la izquierda Q1 est mas alejada de la mediana que Q3.Esta
medida vara siempre entre + 1, si es cero la distribuciones normal.
COEFICIENTE DE SESGO PERCENTLICO
Se aplica con el mismo criterio de la medida Cuartil de Asimetra
Sk = [( P90-P50) -(P50-P10) ]/ ( P90-P10)
MEDIDAS DE CURTOSIS
Al comparar cun aguda es una distribucin en relacin con la Distribucin
Normal, se pueden presentar diferentes grados de apuntalamiento.
1. Mesocrtica, Normal
2. PlarticrtiCa, Menor apuntalamiento

3. Leptocrtica, Mayor apuntalamiento


COEFICIENTE DE CURTOSIS PERCENTILICO
Una medida del apuntalamiento o curtosis de la distribucin est basada en los
cuartiles y percentiles, y est dada por el coeficiente de Curtosis Percentlico
K= ( 0.5 ( Q3- Q1) ) / ( P90-P10)
Para la distribucin normal K toma un valor de 0.263 y las distribuciones se
definen como:
Leptocrtica si k es mayor que 0.263
Platicrtica si k es menor que 0.263

10 METODOS ESTADISTICOS Jos Jimnez La estadstica puede definirse como


un mtodo de razonamiento que permite interpretar datos cuyo carcter esencial
es la variabilidad. Est presente en la prctica mdica cada vez con ms
frecuencia y en muy diversas formas, desde las estadsticas de actividad de un
hospital o los resultados de auditoras, por ejemplo, hasta los hallazgos de
estudios de investigacin que aparecen en la literatura mdica. En investigacin,
la finalidad de la estadstica es utilizar datos obtenidos en una muestra de sujetos
para realizar inferencias vlidas para una poblacin ms amplia de individuos de
caractersticas similares. La validez y utilidad de estas inferencias dependen de
cmo el estudio ha sido diseado y ejecutado, por lo que la estadstica debe
considerarse como una parte integrante del mtodo cientfico. Muchos
profesionales creen que se trata simplemente de un conjunto de frmulas y
clculos matemticos que se aplican a un conjunto de datos. Si bien el anlisis de
datos es la parte ms visible de la estadstica, deben tenerse en cuenta los
aspectos metodolgicos relacionados con el estudio. La justificacin del an- lisis
no radica en los datos, sino en la forma en que han sido recogidos. Habitualmente
se distingue entre estadstica descriptiva, que comprende la organizacin,
presentacin y sntesis de datos de una manera cientfica, y estadstica inferencial,
que comprende las bases lgicas mediante las cuales se establecen conclusiones
relacionadas con poblaciones a partir de los resultados obtenidos en muestras.
Las tcnicas estadsticas pueden utilizarse para confirmar hiptesis de trabajo o
bien para explorar conjuntos de datos sin hiptesis previas. Ambas finalidades, la
confirmacin y la exploracin, estn vinculadas a la naturaleza de los objetivos del
estudio, a la actitud con que el investigador se enfrenta a los datos y a los
trminos en que debern interpretarse los resultados. Una hiptesis se confirma
cuando se disea un estudio con el propsito de hacerlo. Se explora cuando se
rastrean datos en busca de informacin, sin objetivos concretos y formales que
hayan gobernado el dise- o del estudio. La exploracin puede servir para sugerir
nuevas hiptesis, pero de ningn modo para contrastarlas, sino que la
confirmacin deber obtenerse en un nuevo estudio diseado especficamente
para ello. Para las finalidades de este captulo, consideraremos que existen dos
grandes tipos de estudio: los que tienen por objetivo estimar un parmetro a partir
de observaciones obtenidas en una muestra (por ejemplo, determinar el

porcentaje de errores de medicacin en J. Jimnez un hospital), y los que


contrastan hip- tesis mediante la comparacin de dos o ms grupos (por ejemplo,
determinar cul de dos estrategias es ms eficaz para reducir el porcentaje de
infecciones quirrgicas). ESTUDIOS DE ESTIMACION DE UN PARAMETRO
Principio de representatividad En estadstica, el trmino poblacin se utiliza para
describir todas las posibles observaciones de una determinada variable o todas las
unidades sobre las que podra haberse realizado una observacin. Puede tratarse
de pacientes, de profesionales o de prescripciones teraputicas, por ejemplo.
Habitualmente se estudian muestras en lugar de poblaciones por criterios de
eficiencia. El trmino muestra se refiere a cualquier conjunto especfico de sujetos
u observaciones procedentes de una poblacin determinada. Para que sea til y la
estadstica aplicable, se requiere que la muestra tenga un tamao razonable y sea
representativa de la poblacin de la que procede. Un tamao elevado no asegura
la representatividad, sino que sta radica bsicamente en que la muestra haya
sido escogida adecuadamente y est libre de sesgos. En cualquier estudio pueden
considerarse tres niveles de poblacin: Poblacin diana, a la que hace referencia
el objetivo del estudio, y a la que se deseara generalizar los resultados. Poblacin
de estudio, a la que se tiene la intencin de estudiar, definida por los criterios de
seleccin establecidos en el protocolo del estudio. Muestra o conjunto de
individuos realmente estudiados. La validez de las conclusiones de un estudio
dependen de cmo haya sido diseado, de si la muestra es representativa, de si
no se han producido prdidas o no respuestas, de si las mediciones se han
realizado correctamente y son de calidad, etc. (validez interna). Por otro lado, la
capacidad para generalizar las conclusiones o extrapolarlas a otras poblaciones
diferentes de la estudiada dependen de las diferencias entre la poblacin diana y
la de estudio, y entre stas y la poblacin a la que se quiera aplicar los resultados
(validez externa). Para que los resultados de un estudio tengan validez interna, la
muestra de sujetos estudiada debe ser representativa de la poblacin de estudio
(principio de representatividad). Este principio puede verse comprometido cuando
la muestra inicial ha sido mal seleccionada, cuando, aunque se haya utilizado una
tcnica de muestre0 adecuada, la variabilidad aleatoria (el azar) ha hecho que se
obtenga una muestra no representativa, o bien cuando la muestra de sujetos
finalmente analizados est sesgada debido a las no respuestas (sujetos de los que
no se ha podido obtener la informacin deseada). Intervalos de confianza En un
estudio, tan slo se estudia una de las mltiples muestras que podran haberse
obtenido de la poblacin de referencia. Si se estudiara ms de una, Mtodos
estadsticos en cada una de ellas el resultado podra presentar valores diferentes
simplemente por azar. Las diferentes tcnicas de la estadstica inferencia1 se
fundamentan en que esta variabilidad inherente al proceso de muestre0 sigue
unas leyes conocidas y puede ser cuantificada. Si la variable es cuantitativa, la
media m y la desviacin estndar s observadas en la muestra son la mejor

estimacin que se dispone de los verdaderos valores de los parmetros


poblacionales. Pero cules seran los resultados si se repitiera el estudio en
mltiples ocasiones? Supongamos que en una muestra de 60 sujetos se observa
una media de tensin arteria1 sistlica (TAS) de 150 mmHg con una desviacin
estndar de 20 mmHg. Se desea conocer el verdadero valor de la TAS media en la
poblacin de referencia. El valor ms probable es el observado en la muestra (150
mmHg), conocido por ello como estimacin puntual. Pero ste no es ms que el
resultado observado en una de las mltiples muestras que hubieran podido
obtenerse de la misma poblacin. Dado que diferentes muestras podran conducir
a diferentes resultados, se necesita una medida de la precisin de esta
estimacin, lo que se hace mediante el clculo del llamado intervalo de confianza
(IC). Por ello, siempre que se estimen parmetros poblacionales a partir de
estadsticos muestrales, los resultados deben expresarse como IC, y no slo como
estimaciones puntuales. Si se desea una confianza del 95% en la estimacin, se
trabaja con un valor a del 5%, que corresponde a un valor Z (distribucin normal
tipificada) de 1.96. En el ejemplo, aplicando la frmula de la tabla 1, se obtendra
un IC del 95% que sera aproximadamente de 150 2 5 mmHg, lo que significa que
la TAS media de la poblacin de referencia est situada entre 145 y 155 mmHg
con un 95% de confianza. De forma similar se calculara el IC en el caso de una
variable cualitativa (tabla 1). El clculo del IC proporciona mucha ms informacin
que la simple estimacin puntual, ya que permite evaluar la Tabla 1. Clculo del
intervalo de confianza (IC) en la estirn~iGn-de- un parmetro poblacional. IC DE
UNA MEDIA (variable cuantitativa)*: m I ( Z . ESM ) siendo ESM = s 6 IC DE UNA
PROPORCION (variable cualitativa)**: p I ( Z - ESP ) siendo ESP= 4- m: Media
observada en la muestra; S: Desviacin estandar observada en la muestra; n:
Nmero de individuos de la muestra; ESM: Error estndar de la media; p:
Proporcin observada en la muestra, ESP: Error estndar de la proporcin; Z:
Valor de la variable normal tipificada correspondiente al valor a para un nivel de
confianza (1-a). (*) Este clculo se basa en la distribucin normal. El valor de Z
para un IC del 95% es 1.96. Para muestras de tamao inferior a 30 individuos,
este valor debe sustituirse por el de la distribucin de la t de Student-Fisher para
(n-1) grados de libertad. (* *) Las variables cualitativas no presentan una
distribucin normal. Las frmulas de la tabla se basan en una aproximacin a la
normalidad, aplicable cuando los productos n.p y n.(l-p) son mayores de 5. J.
Jimnez precisin con que el parmetro poblacional ha sido estimado, es decir,
entre qu lmites se tiene una determinada confianza de que est situado su
verdadero pero desconocido valor. Si se repitiera el estudio en 100 ocasiones, el
IC incluira el verdadero valor en 95 de ellas. De las frmulas se deduce que un
aumento del nmero de sujetos produce un estrechamiento del intervalo,
aumentando as la precisin de la estimacin. Su amplitud depende tambin del
nivel de confianza que se utilice, aumentando si se incrementa su valor

convencional del 95% al 99%, por ejemplo. En el clculo del IC se asume que se
ha estudiado una muestra aleatoria de la poblacin de referencia. Al interpretarlo,
hay que tener siempre en cuenta la posibilidad de existencia de otras fuentes de
error no debidas al azar (errores sistemticos o sesgos). Si stos existen, o si la
muestra no es aleatoria, el error de la estimacin puede ser mayor que el sugerido
por la amplitud del intervalo. Tamao de la muestra En cualquier estudio, es
importante determinar a priori el nmero de sujetos que es necesario incluir,
aunque el resultado de este clculo debe considerarse como orientativo, ya que se
basa en asunciones que pueden ser incorrectas. La inclusin de un nmero
excesivo de sujetos encarece el estudio, tanto desde el punto de vista econmico
como de los recursos humanos y fsicos necesarios. Por otra parte, un estudio con
un tamao insuficiente estimar un parmetro con poca precisin. La amplitud del
IC, es decir, la precisin de la estimacin, depende del nivel de confianza utilizado,
de la variabilidad del parmetro de inters y del nmero de sujetos estudiados.
Cuanto menor sea la variabilidad del parmetro y mayor el nmero de sujetos,
mayor precisin existir en la estimacin para un nivel de confianza determinado.
Para el clculo del tamao de la muestra debe conocerse: La variabilidad del
parmetro que se desea estimar. Si no se conoce, puede obtenerse una
aproximacin a partir de datos propios o de otras investigaciones, o un estudio
piloto. En el caso de las variables cuantitativas se mide por la variancia, y en el de
las cualitativas, por el producto p-(1-p). La precisin con que se desea obtener la
estimacin, es decir, la amplitud deseada del IC. Cuanto mayor precisin se
desee, ms estrecho deber ser este intervalo, y ms sujetos debern ser
estudiados. El nivel de confianza deseado. Habitualmente se fija en el 95%. Este
valor indica el grado de confianza que se tendr de que el verdadero valor del
parmetro en la poblacin se site en el intervalo obtenido. Cuanto ms confianza
se desee, mayor ser el nmero de sujetos necesario. De estos tres elementos,
slo debe conocerse la variabilidad del parmetro, ya que tanto la precisin como
el nivel de confianza son fijados en funcin de los intereses del investigador.
Mtodos estadsticos Estimacin de una proporcin La frmula para el clculo del
nmero de sujetos necesarios para estimar una proporcin se presenta en la tabla
2. Supongamos que se desea estimar el porcentaje de pacientes ingresados en un
servicio que requieren una dieta determinada. A partir de datos previos se supone
que debe estar situado alrededor del 40% (p=0,40). Se quiere realizar la
estimacin con una precisin de 24 % (i=0,04) y una confianza del 95% (1-a
=0,95; Z =1,96). Aplicando la frmula, puede determinarse que seran necesarios
576 sujetos. Esta cifra se convierte en 9.220 cuando se desea una precisin muy
alta (i=0,01), o en tan slo 92 si se es menos exigente (i=0,1). Modificando
cualquier valor, puede obtenerse un nmero de sujetos que se aproxime al
"deseado" o al disponible. Debe evitarse esta manipulacin del clculo ya que, al
reducir el nmero de sujetos que se van a estudiar, tambin disminuye el grado de

precisin con que el parmetro va a ser estimado y aumenta la amplitud del IC. En
el clculo del tamao de la muestra debe tenerse en cuenta tambin la estrategia
de anlisis y cmo se presentarn los resultados. As, por ejemplo, si los
investigadores desean presentar el resultado en funcin del sexo, la estratificacin
har que la estimacin se haya obtenido en un nmero menor de sujetos por lo
que la precisin en cada estrato ser menor de la deseada. En algunas ocasiones
no se conoce el valor aproximado del parmetro que se est buscando. Si no
existen datos de la literatura que resulten tiles, o si no puede realizarse una
prueba piloto para obtener una primera aproximacin a dicho valor, puede
adoptarse la postura de la mxima indeterminacin, que consiste en suponer que
el porcentaje que se desea estimar se sita alrededor del 50%, ya que es el valor
que requiere una mayor cantidad de individuos para una precisin determinada.
Estimacin de una media Cuando el objetivo del estudio es estimar una media, el
clculo del nmero de sujetos necesario es similar (tabla 2), con la diferencia que
la medida de la variabilidad es la variancia de la distribucin de la variable en la
poblacin. Supongamos que desea estimar la tensin arteria1 diastlica (TAD) de
los pacientes diabticos ingresados en un servicio. Por estudios previos, se
conoce que la desviacin estndar de la TAD Tabla 2. Frmulas para el clculo del
nmero de sujetos necesarios para la realizacin de un estudio cuyo objetivo es la
estimacin de una media o una proporcin.
ESTIMACION DE UNA PROPORCION (Variable cualitativa) N = (z2-~.(1-~))/i2
ESTIMACION DE UNA MEDIA (Variable cuantitativa) N = (Z2-s2)/i2 N: Nmero de
sujetos necesarios; Z:Valor de Z correspondiente al riesgo a fijado (cuando
cr=0,05, Z=1,96); P: Valor de la proporcin que se supone existe en la poblacin;
s2:Variancia de la distribucin de la variable cuantitativa que se supone que existe
en la poblacin. i: Precisin con que se desea estimar el parmetro (2i es la
amplitud del intervalo de confianza). J. Jimnez en sujetos diabticos es de 25
mmHg (s=25 rnrnHg; s2=625 mrnHg). Se desea realizar la estimacin con una
confianza del 95% (1-a =0,95) y una precisin de 15 mmHg (i=5). Aplicando la
frmula, se puede determinar que son necesarios 96 sujetos. Correccin para
poblaciones finitas En los clculos anteriores no ha intervenido el tamao de la
poblacin, ya que se ha asumido que es infinito. Sin embargo, en muchas
ocasiones, desea obtenerse una muestra de una poblacin de tamao conocido
(finito). En esta situacin, puede aplicarse la siguiente frmula que ajusta el
nmero de sujetos necesarios en funcin del tamao de la poblacin: donde n, es
el nmero de sujetos necesarios, n es el nmero de sujetos calculado para
poblaciones infinitas y N es el tamao de la poblacin de referencia. En el ejemplo
en que se haba calculado que eran necesarios 576 sujetos para estimar el
porcentaje de pacientes ingresados que requeran una dieta, si la poblacin de
referencia fuera de 1000 sujetos, aplicando la frmula anterior podra determinarse

que son necesarios 365 pacientes pacientes. Correccin segn el porcentaje


esperado de no respuestas El nmero de sujetos calculado debe ser ampliado en
funcin del porcentaje de no respuestas que se espera que se produzcan, de
forma que se asegure que se obtendr informacin del nmero de pacientes
deseado. Una frmula para hacerlo es la siguiente: donde N representa el nmero
de sujetos terico, Na el nmero de sujetos ajustado y R la proporcin esperada
de no respuestas. Supongamos que para realizar un estudio se ha calculado que
son necesarios 300 sujetos (N=300) y que se espera un 20% de no respuestas
(R=0,20). El nmero de sujetos que deberan iniciar el estudio sera Na=300(1/(10,2))=375 sujetos. La utilizacin de esta frmula asegura que el estudio mantenga
la potencia estadstica deseada pero no evita que se puedan producir sesgos si
las no respuestas no se han producido aleatoriamente, es decir, si los sujetos de
los que no se obtiene informacin son diferentes de aquellos de los que s se
obtiene (lo que suele ser lo habitual). Para que se cumpla el principio de
representatividad, debe prestarse atencin al proceso de seleccin de los sujetos,
utilizando una tcnica de muestreo adecuada que aumente la probabilidad de
obtener una muestra representativa. El muestreo probabilstico se define como el
proceso de seleccin en que todos los individuos candidatos tienen una
probabilidad conocida, distinta de Mtodos estadsticos cero, de ser incluidos en la
muestra, utilizndose alguna forma de seleccin aleatoria para obtener las
unidades que sern estudiadas. Tiende a asegurar que se obtendr una muestra
representativa, especialmente si la poblacin y la muestra son de gran tamao,
pero tambin puede ocurrir que no sea as, ya que el propio azar puede conducir a
una muestra que no tenga la misma distribucin de las variables de inters que la
poblacin de referencia, especialmente si su tamao es reducido. La unidad de
muestreo es el elemento sobre el que se aplica la tcnica de seleccin, ya sean
personas, servicios u hospitales. La unidad de muestreo no tiene por qu coincidir
con la unidad de anlisis. En un estudio para conocer la frecuencia de errores de
medicacin en un hospital, la unidad de muestreo pueden ser los servicios, y
analizar en una muestra de ellos las prescripciones teraputicas. En las tcnicas
probabilsticas la seleccin de las unidades se realiza al azar, evitando la posible
parcialidad, consciente o inconsciente, de los investigadores. Por esta razn, es
ms probable que las muestras tiendan a ser representativas de la poblacin de
referencia. En el muestreo aleatorio simple, se prepara un listado de las unidades
de muestreo, numerndolas, por ejemplo, secuencialmente, y a continuacin, se
seleccionan tantos nmeros aleatorios como elementos debe tener la muestra. El
muestreo aleatorio estratificado es una modificacin que intenta asegurar que la
muestra presenta la misma distribucin que la poblacin en relacin a
determinadas variables, previniendo la aparicin de sesgos debidos a las mismas.
La poblacin se divide en estratos en funcin de las categoras de las variables
por las que se desea estratificar, es decir, se forman subgrupos de poblacin que

comparten alguna caracterstica en comn y son mutuamente excluyentes. A


continuacin, se escoge una muestra al azar en cada estrato, habitualmente
manteniendo las proporciones observadas en la poblacin de referencia (muestreo
aleatorio estratificado proporcional). Es preciso que los estratos se delimiten en
funcin de variables que puedan influir sobre los resultados. El muestreo en
mltiples etapas consiste en seleccionar unidades de muestreo de una poblacin
(unidades primarias, por ejemplo, servicios), y, en una segunda etapa, obtener una
muestra de cada una de las unidades primarias seleccionadas (unidades
secundarias, por ejemplo, pacientes ingresados). Se pueden usar el nmero de
etapas que sean necesario y, en cada una de ellas, un mtodo diferente de
muestreo (simple, estratificado, sistemtico). Cuando se incluyen todas las
unidades secundarias, se denomina muestreo en conglomerados. El muestreo
sistemtico se basa en aplicar alguna regla sistemtica simple, como elegir uno de
cada n individuos. En primer lugar, se calcula la constante de muestreo k,
dividiendo el tamao de la poblacin candidata por el de la muestra. A
continuacin, se extrae la primera unidad al azar entre las k primeras unidades de
muestreo y se le suma la constante sucesivamente hasta completar el tamao de
la muestra. J. Jimnez Tiene la ventaja de que es ms cmodo y prctico que el
muestreo aleatorio simple, y de que no siempre es necesario tener de antemano
una lista completa y exhaustiva de toda la poblacin. Adems, cuando la poblacin
de referencia est ordenada siguiendo una tendencia conocida (de mayor a
menor, de ms viejo a ms joven...), el muestreo sistemtico asegura una
cobertura de unidades de todos los tipos. En muchos estudios, bien porque no se
dispone de un listado con los miembros que forman la poblacin de estudio o bien
porque sta es dinmica, la muestra de sujetos se selecciona por otros mtodos
no probabilsticos (por ejemplo, incluyendo consecutivamente a los pacientes que
acuden a la consulta y cumplen los criterios de seleccin, o a voluntarios). En
estos casos, para poder realizar inferencias vlidas, debe poderse asumir que la
muestra seleccionada es repiesentativa de la poblacin de estudio. ESTUDIOS DE
CONTRASTE DE HIPOTESIS Principio de comparabilidad En los estudios
analticos, adems del principio de representatividad, debe cumplirse el de
comparabilidad de los grupos. Estos estudios se basan en que los grupos son
comparables por todos los factores pronsticos y en que se ha obtenido la
informacin de la misma forma en todos ellos, de manera que las diferencias en
los resultados observados puedan atribuirse al factor que se est estudiando. La
funcin del grupo control es proporcionar una estimacin del valor de la variable
de respuesta en ausencia del factor de estudio. En otras palabras, debe permitir
aislar el efecto del factor de estudio del debido a otros factores, por lo que el grupo
control debe ser comparable al de estudio en todas aquellas variables que puedan
influir sobre la respuesta o su medicin. El proceso de formacin de los grupos
depende del tipo de estudio. En los diseos observacionales, se realiza en funcin

de la existencia o no de la enfermedad de inters (estudios de casos y controles) o


de la presencia o no de la exposicin (estudios de cohortes). En los estudios
experimentales, los sujetos son asignados a los diferentes grupos que se desea
comparar por un procedimiento aleatorio. Contraste de hiptesis La aplicacin ms
frecuente de la inferencia estadstica en investigacin mdica son las llamadas
pruebas de contraste de hiptesis o de significacin estadstica. Supongamos que
existe inters en comparar dos tratamientos (un diurtico D y el tratamiento
estndar E), y determinar cul de ellos es el ms eficaz en el control de las cifras
tensionales. Para ello, se disea un ensayo clnico controlado, distribuyendo
aleatoriamente una muestra de pacientes hipertensos en dos grupos, cada uno de
los cuales recibe uno de los tratamientos. A los tres meses, el porcentaje de
individuos controlados en cada grupo es del 70 y 50%, respectivamente. Qu
conclusin puede obtenerse a la vista de estos resultados? Mtodos estadsticos
Lo que se quiere determinar es hasta qu punto es posible que la diferencia
observada sea debida exclusivamente al azar (variaciones del muestreo).
Hiptesis nula e hiptesis alternativa La hiptesis que en realidad se va a
contrastar estadsticamente es la de que no existen diferencias entre los
porcentajes de hipertensos controlados observados en ambos grupos. La prueba
de significacin estadstica intentar rechazar esta hiptesis, conocida como
hiptesis nula Ho. Si lo consigue, se aceptar la hiptesis alternativa Ha de que
existen diferencias entre ambos grupos. El primer paso es, pues, formular la Ho. A
continuacin, se calcula, mediante la prueba estadstica ms adecuada, la
probabilidad de que los resultados observados puedan ser debidos al azar, en el
supuesto de que Ho sea cierta. En otras palabras, la probabilidad de que, a partir
de una poblacin de referencia, puedan obtenerse dos muestras que presenten
unos porcentajes tan diferentes como los observados. Esta probabilidad es el
grado de significacin estadstica, y suele representarse con la letra p. Basndose
en su valor, se decide si se rechaza o no Ho. Cuanto menor sea la p, es decir,
cuanto menor sea la probabilidad de que el azar pueda haber producido los
resultados observados, mayor ser la evidencia en contra de Ho, y, por lo tanto,
mayor ser la tendencia a concluir que la diferencia existe en la realidad. El valor
de p por debajo del cual se considerar que se dispone de la suficiente evidencia
en contra de Ho para rechazarla, conocido como el nivel de significacin
estadstica, debe fijarse previamente. De forma arbitraria, y por convenio, suele
fijarse este valor en el 5% (0,05). Supongamos que en el ejemplo se obtiene un
valor de p de 0,10. Esto significa que, si Ho fuera cierta, la probabilidad de que el
azar pueda producir unos resultados como los observados es del lo%, o bien, que
existe un 10% de probabilidad de que dos muestras del tamao de las estudiadas
obtenidas de una misma poblacin presenten unos porcentajes del 70 y 50% slo
por variabilidad aleatoria. Si se haba prefijado el valor 0,05 para el nivel de
significacin, dado que el valor de p obtenido es superior, se considerar que la

probabilidad de haber obtenido estos resultados por azar es demasiado elevada y


que, por tanto, no se dispone de la suficiente evidencia para rechazar la Ho. Se
concluye que no se han encontrado diferencias estadsticamente significativas en
el porcentaje de pacientes controlados en ambos grupos. No se concluye que
ambos grupos son iguales, sino que no se ha encontrado la suficiente evidencia
para decir que son diferentes. Supongamos que se hubiera obtenido un valor de p
de 0,02. Como este valor es inferior al nivel de significacin del 0,05, se
considerar que la diferencia observada es estadsticamente significativa, ya que
es poco probable (p2 categoras Ji al cuadrado Q de Cochran Ji al cuadrado Q de
Cochran Anlisis de la variancia Cualitativa ordinal Prueba de los signos Prueba
de los rangos signados de Wilcoxon Prueba de KruskalWallis Prueba de Friedman
Correlacin de Spearman Cuantitativa (* t de Student-Fishei Prueba de Welch t de
Student-Fishe: datos apareados Anlisis de la variancia Anlisis de la variancia de
medidas repetidas Correlacin de Pearson Regresin linea simple (*) Cuando las
pruebas estadsticas aplicables a las variables cuantitativas no cumplen las
asunciones necesarias para su uso, se recurre a las pruebas correspondientes
como si la variable de respuesta fuera ordinal (pruebas no paramtricas). bles
respecto a la otra, se habla de regre- Definir la hiptesis que se va a contrassin
lineal simple. tar, precisando si es unilateral o bien bilateral. Tamao de la muestra
Establecer el riesgo de cometer un Para realizar el clculo del tamao de la error a
que se est dispuesto a aceptar. muestra necesario para comparar dos
Habitualmente suele aceptarse un 5%, grupos, deben utilizarse los siguientes y
preferiblemente con hiptesis bilateelementos: rales, ya que son ms
conservadoras. J. Jimnez Establecer, asimismo, el riesgo que se acepta de
cometer un error fl. Habitualmente se sita entre el 5 y el 20%. A menudo, es ms
fcil enhentar esta decisin a partir del concepto de poder o potencia estadstica
(1-fl), que es la capacidad del estudio para detectar una determinada diferencia.
Aceptar un riesgo de cometer un error fl del 20%, significa que, si la diferencia que
se busca existe en la realidad, el estudio tiene un 80% de probabilidades de
detectarla. Definir la mnima magnitud de la diferencia, efecto o asociacin, que se
desea ser capaz de detectar. Debe estar basada en datos de estudios previos o de
la literatura que definan el rango de valores esperables, y en la mnima magnitud
que se considera de relevancia clnica. Es necesario, tambin, disponer de alguna
medida de la variabilidad de la variable de respuesta en la poblacin o grupo de
referencia. De estos cinco elementos, slo el ltimo debe ser conocido, ya que los
otros cuatro son fijados por el investigador. A continuacin, se aplica la frmula
correspondiente (tabla 5). Supongamos un estudio que tiene por objetivo
determinar si un nuevo tratamiento T consigue un mayor porcentaje de xitos en
las sobreinfecciones respiratorias que el tratamiento estndar E. Lo primero que
debe conocerse es el porcentaje de curaciones en pacientes de caractersticas
similares a los que van a ser estudiados obtenido con el tratamiento estndar E.

Supongamos que esta ciha se sita alrededor del 40% (P1=0,4). El siguiente paso
es determinar la diferencia mnima que se desea detectar, es decir, responder a la
siguiente pregunta: A partir de qu porcentaje de xitos con el nuevo tratamiento
se considerar que ste es mejor que E, y, por lo tanto, se estar dispuesto a
modificar la pauta teraputica habitual? Es decir, si el porcentaje de indiTabla 5.
Frmulas para el clculo del nmero de sujetos necesarios por grupo en un
estudio cuyo objetivo es la comparacin de dos muestras del mismo tamao.
COMPARACION
DE
DOS
PROPORCIONES
(Variable
cualitativa)
COMPARACION DE DOS MEDIAS (Variable cuantitativa) N =[2.(Za +ZP)~. s2]/d2
N: Nmero de sujetos necesarios en cada uno de los grupos; ZCL: Valor de Z
correspondiente al riesgo CL fijado (cuando a=0,05,Za=1,96 en hiptesis bilateral y
Za=1,645 en unilateral); ZB: Valor de Z correspondiente al riesgo $ fijado (cuando
$=0,20, ZB=0,842; cuando $=0,10, ZB=1,282; cuando B=0,05, ZB=1,645); P1:
Valor de la proporcin que se supone que existe en el grupo de referencia; P2.
Valor de la proporcin que se supone que existe en el grupo de estudio; P2-P1:
Valor mnimo de la diferencia que se desea detectar (variable cualitativa); P: Media
ponderada de las proporciones P1 y P2; s2: Variancia de la distribucin de la
variable cuantitativa que se supone que existe en el grupo de referencia;-d: Valor
mnimo de la diferencia que se desea detectar (variable cuantitativa). Mtodos
estadsticos viduos curados con T es del 41%, puede considerarse que esta
diferencia del 1% es un resultado lo suficientemente importante para modificar la
pauta terapetica? LO se exigir un mnimo, por ejemplo, del 50% de xitos? La
respuesta a esta pregunta depende de muchos factores, tales como la seguridad
del frmaco, la facilidad de administracin o el coste, entre otros. Supongamos
que los investigadores consideran que, si se cura el 50 % de pacientes con T
(P2=0,5), se aceptar como la eleccin terapetica. A continuacin, slo falta
determinar los niveles de riesgo de cometer algn tipo de error aleatorio que se
est dispuesto a asumir. Supongamos que se acepta el nivel de riesgo a habitual
del 5% con una hiptesis bilateral y un riesgo B del 20% (potencia: 1- P=0,80).
Aplicando la frmula puede calcularse que son necesarios 387 sujetos por grupo
de estudio. Esta cifra indica el nmero de sujetos que deben finalizar el estudio
para tener un 80% de probabilidades de detectar una diferencia igual o superior a
la fijada, con un nivel de error a del 5%. Por lo tanto, hay que incrementarlo en
funcin del nmero de prdidas de seguimiento y de abandonos que se prevea
que ocurrirn durante el estudio, aplicando la misma frmula que se ha presentado
en el caso de la estimacin de parmetros. Estimacin frente a significacin
estadstica En realidad, cuando analizan los resultados de un estudio, los
investigadores estn interesados no slo en saber si una diferencia o asociacin
es estadstiTabla 6. Clculo del intervalo de confianza (IC) de la diferencia entre
dos proporciones. IC DE LA DZFERENCiA DE DOS PROPORCIONES (*) a)
MUESTRAS INDEPENDIENTES: (PA - PB) I Z.ESD b) MUESTRAS APAREADAS

(PA - Pg) k Z.ESD PA, Pg: Proporciones observadas en las muestras A y B; nA, ng:
Nmero de sujetos de las muestras A y B; b, c: Nmero de casos que presentan
valores diferentes en ambas mediciones (series apareadas); n: Nmero total de
casos; ESD: Error estndar de la diferencia; Z : Valor de la variable normal
tipificada correspondiente al valor a, para un nivel de confianza (1-a). (*) Las
variables cualitativas no presentan una distribucin normal. Las frmulas de la
tabla corresponden a una aproximacin a la normalidad, aplicable cuando todos
los productos n.PA, n.(lmPA), n.PB y n.(l-PB) son mayores de 5. J. Jimnez Tabla
7. Clculo del intervalo de confianza (IC) de la diferencia entre dos medias. IC DE
LA DIFERENCIA DE DOS MEDIAS (*) a) MUESTRAS INDEPENDIENTES: (mA mg) I Z.ESD ESD=S -+- J.: ne b) MUESTRAS APAREADAS iiid ' Z.ESmd mA, mg:
Medias observadas en las muestras A y B; S*, sg: desviaciones estndar
observadas en las muestras A y B; nA, nB: Nmero de sujetos de las muestras A y
B; ESD: Error estndar de la diferencia; md: Media de las diferencias de las dos
mediciones en cada individuo (series apareadas); ESmd: Error estndar de la
media de las diferencias individuales; Z: Valor de la variable normal tipificada
correspondiente al valor a, para un nivel de confianza (1-a). (*) El clculo se basa
en la distribucin normal. El valor de Z para un IC del 95% es 1,96. Para muestras
de tamao inferior a 30 individuos, este valor debe sustituirse por el de la t de
Student para (n-1) grados de libertad. Asimismo, el clculo requiere que no existan
diferencias significativas entre las desviaciones estndar de ambas muestras.
camente significativa, sino tambin en determinar su magnitud. El valor observado
en el estudio es la mejor estimacin puntual de dicha magnitud. Si se repitiera el
estudio con otras muestras, podran observarse resultados de diferente magnitud.
Por tanto, hay que calcular un IC que contenga, con una determinada confianza, la
verdadera magnitud de inters. Las tablas 6 y 7 presentan las frmulas para el
clculo del IC de la diferencia entre dos proporciones y entre dos medias,
respectivamente. Cuando se utiliza como medida del efecto una diferencia, si el IC
del 95% incluye el valor 0, que es el valor correspondiente a la Ho de que no
existe diferencia entre ambos grupos, se concluir que el resultado no es
estadsticamente significativo. Si, por el contrario, el IC del 95% excluye este valor
O, se concluir que la diferencia observada es estadsticamente significativa.
Adems de saber si la diferencia es o no estadsticamente significativa, el IC
permite conocer entre qu lmites es probable que se encuentre la verdadera
diferencia, lo que es muy til en la interpretacin de los resultados. Supongamos
un estudio que compara la eficacia de dos tratamientos A y B en dos grupos de 30
pacientes. Se observa una diferencia en el porcentaje de xitos del 20% (70% 50%) a favor del tratamiento B, que no es estadsticamente significativa (p=0,12).
El IC del 95% de la diferencia entre los dos tratamientos es 0,2 I 0,24, es decir, de
4% a 44%. La verdadera magnitud de la diferencia est en un intervalo que va
desde un 4% a favor del tratamiento A hasta un 44% a favor de B. Dado que una

diferencia del O % tambin es posible, no puede descartarse que ste sea su


verdadero valor, por lo que la prueba esta- Mtodos estadsticos dstica da un
valor no significativo. En cambio, el IC informa adems que tambin son posibles
grandes diferencias a favor de B, y que son improbables grandes diferencias a
favor de A. Aunque los resultados siguen sin ser concluyentes, se dispone de ms
informacin para interpretarlos adecuadamente. El IC cuantifica el resultado
encontrado y provee un rango donde es muy probable que se encuentre el valor
real que se est buscando. Los IC tienen otra ventaja adicional, y es la de
expresar los resultados en las unidades en que se han realizado las mediciones, lo
que permite al lector considerar crticamente la relevancia clnica de los mismos.
Aunque las pruebas de significacin continan siendo los procedimientos
estadsticos utilizados con mayor frecuencia, las ventajas de la utilizacin de los IC
en el anlisis e interpretacin de los resultados, tanto si el objetivo es la estimacin
de parrnetros como el contraste de una hiptesis, hacen que cada vez ms
revistas recomienden a los autores la utilizacin de los mismos. Anlisis
multivariante En muchas ocasiones, interesa considerar la influencia de ms de
dos variables simultneamente. Ello requiere tcnicas sofisticadas, basadas en
modelos matemticos complejos, agrupadas bajo el nombre genrico de anlisis
multivariante. Existen mltiples tcnicas estadsticas multivariantes. En
investigacin clnica y epidemiolgica las ms utilizadas son las que analizan la
relacin entre una variable dependiente (variable de respuesta) y un grupo de
variables independientes (factor de estudio y variables a controlar). Estas tcnicas
implican la construccin de un modelo matemtico. La eleccin de un modelo u
otro depender del diseo empleado en el estudio, la naturaleza de las variables y
de las interrelaciones entre el factor de estudio,$ la variable de respuesta y las
restantes variables incluidas en el modelo (variables a controlar). Los utilizados
con ms frecuencia son la regresin lineal mltiple cuando la variable dependiente
es cuantitativa, y la regresin logstica cuando es dicotmica. BIBLIOGRAFIA 1.
Altman DG. Practical statistics for medical research. London: Chapman & Hall,
1991. 2. Andersen B. Methodological errors in medical research. Oxford: Blackwell
Scientific Publications, 1990. 3. Argimon Palls JM, Jimnez Villa J. Mtodos de
investigacih clnica y epidemiolgica. Madrid: Harcourt Internacional, 2000. 4.
Armitage P, Berry G. Estadstica para la investigacin biomdica. Barcelona:
Doyma, 1992. 5. Campbell MJ, Julious SA, Altrnan DG. Estimating sample size for
binary, ordered categorial, and continuous outcomes in two group comparison.
BMJ 1995; 311: 1145- 1148. 6. Dawson-Saunders E, Trapp RG. Bioestadstica
mdica. Mxico: El Manual Moderno, 1993. 7. Essex-Sorlie D. Medical
bioestatistics & epidemiology. East Norwalk: Appleton & Lange, 1995. 8. Everitt
BS. Statistical methods for medical investigations. New York: Oxford J. Jimnez
University Press, 1989. 9. Fleiss JL. Statistical methods for rates and proportions.
2nd ed. New York: John Wiley & sons, 1981. 10. Florey CV. Sample size for

beginners. BMJ 1993; 306: 1181-1184. 11. Gardner MJ, Altman DG. confidence
intervals rather than p values: estimation rather than hypotesis testing. BMJ 1986;
292: 746-750. 12. Gardner MJ, Altman DG. Statistics with confidence: confidence
intervals and statistical guidelines. Londres: Bristish Medical Journal, 1989. 13.
Kelsey JL, Thompson WD, Evans A. Methods in obsewational epidemiology.
Nueva York, Oxford University Press; 1986. 14. Kleinbaum D, Kupper L,
Morgenstern H. Epidemiologic Research. Belmont, Lifetime Learning Publications
1982. 15. Marrugat J, Vila J, Pavesi M, Sanz F. Estimacin del tamao de la
muestra en la investigacin clnica y epidemiolgica. Med Clin (Barc) 1998; 111:
267-76. 16. Martn Andrs A, Luna del Castillo J de D. Bioestadstica para las
ciencias de la salud. 2" edicin. Madrid: Norma, 1989. 17. Norman GR, Streiner
DL. Bioestadstica. Madrid: MosbyIDoyma Libros, 1996; 18. Plasencia A, Porta M.
La calidad de la informacin clnica (11): significacin estadstica. Med Clin (Barc)
1988; 90: 122-126. 19. Porta M, Plasencia A, Sanz F. La calidad de la informacin
clnica (111): ~estadsticamente significativo o clnicamente importante? Med Clin
(Barc) 1988; 90: 463468. 20. Sahai H, Khurshid A. Formulae and tables for the
determination of sample sizes and power in clinical trials for testing differences in
proportions for the two-sample design: a review. Stat Med 1996; 15: 1-21. 21. Silva
Aycaguer LC. Muestreo para la investigacin en ciencias de la salud. Madrid: Daz
de Santos; 1993.