Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Según Kerlinger, la estadística es ―la teoría y el método para analizar datos cuantitativos
obtenidos de muestras de observaciones para estudiar y comparar fuentes de varianza
de fenómenos, ayudar a tomar decisiones sobre aceptar o rechazar relaciones hipotéticas
entre los fenómenos y ayudar a hacer inferencias fidedignas de observaciones
empíricas‖. Para López González, estadística es ―la ciencia que recoge, ordena y analiza
las muestras extraídas de ciertas poblaciones o conjuntos de elementos, con base en
éstas y en el cálculo de probabilidades, se encarga de hacer averiguaciones (inferencias)
acerca de las correspondientes poblaciones‖.
En ocasiones, los resultados son muy claros, mostrando enormes diferencias entre los
distintos criterios utilizados y confirmando las hipótesis iniciales de forma evidente. Otras
veces, las diferencias son muy sutiles o no existen en absoluto. En este abanico de
posibilidades, y para evitar interpretaciones subjetivas que restarían valor a los
resultados, es necesario utilizar criterios matemáticos previamente validados y aceptados
por la comunidad científica universal. Estos criterios son lo que hoy denominamos
estadística o, más concretamente, estadística inferencial. Las pruebas estadísticas
cumplen aquí un doble cometido. Por un lado, indican la probabilidad que tiene un
resultado determinado de ser explicado por las variaciones del azar y, por otro, al fijar
convencionalmente unos coeficientes de riesgo, proveen de un criterio objetivo para
decidir sobre la aceptación o el rechazo de las hipótesis de investigación.
73
Grupo de Investigación de Ingeniería Tisular Máster en Ingeniería Tisular
Por otro lado, algunos diseños de investigación, como hemos visto en los apartados
anteriores de este Proyecto de Investigación, pueden resultar enormemente complejos y
muy difíciles de abordar si no se cuenta con las estrategias de análisis múltiple que nos
ofrece la estadística (por ejemplo, el análisis factorial o el de covarianza).
Todo lo anterior indica que las pruebas estadísticas son un instrumento valioso en el
contraste de hipótesis. Normalmente existe más de una prueba estadística para cada tipo
de diseño, por lo que el investigador puede seleccionar una u otra. Pero esta elección no
es gratuita, sino que obedece, entre otros, a cuatro factores que estudiaremos a
continuación: el nivel de medición, el modelo estadístico, la potencia de la prueba y la
potencia-eficiencia.
74
Grupo de Investigación de Ingeniería Tisular Máster en Ingeniería Tisular
Medir es asignar números a los objetos de acuerdo con ciertas reglas. Cuando un físico
mide la temperatura de fusión de ciertos metales y las compara, obtiene informaciones de
los objetos que mide. Y es que la relación entre lo que observa y los números es tan
directa, que mediante la manipulación de éstos es fácil generar nueva información.
En ocasiones tendemos a extrapolar los métodos y técnicas que utilizan las ciencias
experimentales más controladas, como pueden ser las ciencias físicas, a cualquier
modelo experimental como puede ser el de la Histología Humana. Sin embargo, cuando
tomamos la física como modelo, podemos caer en errores al intentar medir variables
humanas complejas, asignándoles numerales y realizar con éstos operaciones que
presuponen la correspondencia isomórfica entre la estructura de las observaciones y la de
los números. Y es que dentro de la teoría de la medición existen diferentes niveles de
medida que comportan distintos tipos de relaciones y, en consecuencia, distintas
operaciones de los datos. Los más conocidos son: nominal, ordinal, de intervalo y de
razón (Tabla 1):
Algunas pruebas estadísticas que utilizan o pueden utilizar datos nominales son
2
la binomial, la y la de McNemar, por ejemplo. En estas pruebas, los datos
son meras agrupaciones de frecuencias obtenidas según cierta clasificación.
75
Grupo de Investigación de Ingeniería Tisular Máster en Ingeniería Tisular
Gran número de pruebas estadísticas de uso muy frecuente utilizan este tipo de
datos. El problema es que en ciertos tipos de experimentos es difícil lograr
medidas de intervalo, por no hablar de la posible discusión acerca de la
naturaleza exacta de algunas distribuciones que, para algunos, son
consideradas de intervalo, siendo de cuasintervalo para otros y ordinales para
otros.
76
Grupo de Investigación de Ingeniería Tisular Máster en Ingeniería Tisular
Conclusiones Transformación
Tipo de escala Ejemplos
acerca de … admisible
Relaciones del tipo Cualquiera que Sexo, raza, estado
Nominal ―igual que‖ o preserve la civil, diagnóstico
―distinto que‖ igualdad/desigualdad clínico
Cualquiera que
Relaciones del tipo Dureza minerales,
preserve el orden o
Ordinal ―mayor que‖, ―menor prestigio social,
grado de magnitud
que‖, ―igual que‖ ubicación ideológica
de los objetos
Calendario,
Igualdad de
Intervalo a + bx (b>0) temperatura,
diferencias
inteligencia
Igualdad o
Longitud, masa,
Razón desigualdad de bx (b>0)
tiempo
razones
77
Grupo de Investigación de Ingeniería Tisular Máster en Ingeniería Tisular
Un modelo es una analogía en la que un conjunto de datos representa a otro conjunto por
ser isomórficos. Dos conjuntos se consideran isomórficos cuando en ellos existe
correspondencia entre todos y cada uno de los elementos de uno y otro conjunto y
cuando poseen entre sí ciertas estructuras semejantes (García Hoz, 1981). Para aclarar
este concepto, utilizaremos el siguiente ejemplo:
78
Grupo de Investigación de Ingeniería Tisular Máster en Ingeniería Tisular
ninguna muestra genera dichos cultivos o una muestra genera cultivos primarios y la otra
no.
Si se aplica este modelo a los datos del ejemplo, tenemos que X representa a las
muestras que son capaces de generar cultivos primarios de queratinocitos e Y a las que
no son capaces de ello. De este modo, el modelo es análogo con respecto a los datos.
Asi, X2 representa una muestra formada por dos biopsias de piel que sí son capaces de
generar cultivos primarios; el segundo término, 2XY, representa a una biopsia que será
cultivada con éxito y a otra que no, y el tercer término Y2, representa a dos biopsias de
piel que no generarán cultivos primarios. Como los datos se ajustan a las características
del modelo, podemos utilizarlo para conocer la probabilidad de ocurrencia de unos
resultados como los del ejemplo, es decir, un 100 por cien de cultivos con éxito. A esto se
le llama contrastar la hipótesis.
79
Grupo de Investigación de Ingeniería Tisular Máster en Ingeniería Tisular
Con esta distribución de probabilidad a la vista, el investigador puede saber ahora que su
100 por cien de éxitos en los cultivos primarios no es significativamente distinto a la
probabilidad original de 0,40. Es decir, aunque la probabilidad de cultivar los
queratinocitos con éxito siguiera siendo de 0,40, habría un 16 por ciento de probabilidad
de encontrar dos alumnos que aspirasen a ello. Como esta probabilidad es muy superior
al nivel de significación elegido, 5 por ciento, tiene que rechazar su hipótesis de que las
condiciones de cultivo especiales han producido cambios.
Este ejemplo nos indica varias cosas. En primer lugar, que es posible construir una tabla
de probabilidades binominales para todas las combinaciones posibles de X e Y (es decir,
X = 0,01 e Y = 0,99; X = 0,02 e Y = 0,98, etc.) y para distintos tamaños de muestra (n
puede valer 2, 3, 4, etc.). Por supuesto, esta tabla (denominada tabla de probabilidades
binomiales) y la de otros modelos matemáticos, ya han sido elaboradas por diferentes
investigadores que han dedicado su tiempo al campo de la estadística durante los últimos
años. En segundo lugar, nuestro ejemplo indica que con una muestra de dos biopsias de
piel y un nivel de significación del 5 por ciento, nunca se podría probar la hipótesis de
investigación, ya que para ello, este modelo exige una muestra de mayor tamaño. La
consulta a la tabla de probabilidades binomiales se lo hubiera advertido, lo que significa
que los modelos tienen también sus exigencias. Por último, indica que los modelos
matemáticos son construcciones lógicas que guardan estrecha relación con los datos a
los que se aplican.
En resumen, la elección del modelo requiere determinar las características de los datos y
conocer los modelos disponibles y los supuestos subyacentes a cada modelo. Como
veremos a continuación, en el campo de las Ciencias Experimentales, se han
desarrollado dos tipos de modelos: los parámetricos, llamados así porque especifican
ciertas condiciones acerca de los parámetros de la población de la que se ha obtenido la
muestra, y los no parámetricos, que no parten de ningún supuesto relativo a los
parámetros de la población o en todo caso, son supuestos menores.
1. Pruebas paramétricas
Estas pruebas son las más poderosas, siempre que se cumplan los supuestos de los que
parte el modelo. Los tres supuestos más corrientes son: 1) que las características que se
estudian existan en la población; 2) que en ella están distribuidas normalmente, y 3) que
el estadístico muestral da una estimación del parámetro.
80
Grupo de Investigación de Ingeniería Tisular Máster en Ingeniería Tisular
Las pruebas paramétricas más conocidas por la mayoría de los investigadores son las
denominadas pruebas t y F. Ambas son consideradas pruebas muy potentes, pero parten
de los supuestos anteriores, lo cual restringe su uso. La prueba t de Student es quizás la
prueba estadística más utilizada en el campo de las ciencias básicas, pues puede
aplicarse a datos experimentales, siempre que éstos reúnan los requisitos de:
81
Grupo de Investigación de Ingeniería Tisular Máster en Ingeniería Tisular
Cuando se puede suponer razonablemente que los datos a analizar cumplen estas
condiciones, la elección de una de estas pruebas es excelente, porque la prueba
paramétrica será más poderosa que la no paramétrica a la hora de rechazar H0 cuando
ésta realmente deba ser rechazada. Es decir, "cuando los datos de la investigación
pueden ser analizados adecuadamente por una prueba paramétrica, será el medio más
poderoso para rechazar una hipótesis falsa" (Siegel y Castellán, 1995).
Pero cuando estas condiciones no son satisfechas (debido, por ejemplo, a que la
población no se distribuye normalmente, a que la medida no es tan fuerte como la escala
de intervalo o a que las poblaciones tienen distinta varianza), hay que acudir a las
pruebas no paramétricas.
Algunos autores como Arnau (1981), Welkowitz et al. (1981), Glass y Stanley (1980),
entre otros, sostienen que una ligera violación de estos supuestos no afecta radicalmente
la probabilidad obtenida en las pruebas paramétricas. Sin embargo, Siegel argumenta en
contra diciendo que "no hay hasta ahora acuerdo general en cuanto a lo que se entiende
por 'una ligera' desviación" y que, en cambio, cuando ésta ocurre "es difícil, si no
imposible, medir la potencia de la prueba. Incluso es difícil estimar el significado de una
aseveración de probabilidad acerca de la hipótesis en cuestión cuando la aseveración
proviene de aplicaciones inaceptables de una prueba" (Siegel y Castellán, 1995). En todo
caso, cuando existen poderosas razones para dudar del cumplimiento de los supuestos
el investigador no tiene otra alternativa que el recurso de las pruebas estadísticas no
paramétricas.
82
Grupo de Investigación de Ingeniería Tisular Máster en Ingeniería Tisular
2. Pruebas no paramétricas
- Estas pruebas son aplicables tanto para datos inherentes a los rangos como
para datos cuyas puntuaciones aparentemente numéricas tienen fuerza de
rangos.
83
Grupo de Investigación de Ingeniería Tisular Máster en Ingeniería Tisular
Sin embargo, los inconvenientes de este tipo de pruebas son los siguientes (Jiménez
Fernández, 2000):
84
Grupo de Investigación de Ingeniería Tisular Máster en Ingeniería Tisular
En situaciones comparables, las pruebas paramétricas son más potentes que las no
paramétricas. Esto se comprende fácilmente si consideramos que las pruebas
paramétricas necesitan datos medidos al menos en escala de intervalos. Estos datos
pueden reducirse a una escala inferior, de orden, y emplear así una prueba no
paramétrica. Pero observamos en seguida que se produce una pérdida de información,
pues la escala ordinal considera sólo el orden de las observaciones, y no la cuantía de su
separación.
85
Grupo de Investigación de Ingeniería Tisular Máster en Ingeniería Tisular
86
Grupo de Investigación de Ingeniería Tisular Máster en Ingeniería Tisular
1. El nivel de significación α
Sin embargo, todo aumento del nivel de significación se asocia a una disminución de la
potencia del test estadístico utilizado y, por tanto, a un aumento de la probabilidad de
error β. Por ejemplo, si el investigador decide utilizar un nivel de significación α de 0,05
en lugar de un nivel α de 0,01, la potencia aumenta. El problema es que la manipulación
de α no suele ser una técnica eficaz porque, para unos datos determinados, dicha
manipulación suele tener efectos opuestos en los dos tipos de errores α y β. Por ese
motivo, la mayoría de los investigadores utilizan niveles de significación estándar fijados
en 0,05 (o lo que es lo mismo, 5%) o en 0,01 (1%). Estos conceptos se muestran de
forma sintética en la Tabla 2.
87
Grupo de Investigación de Ingeniería Tisular Máster en Ingeniería Tisular
Estas figuras ilustran que el descenso o aumento del nivel de significación no puede
expresarse en una regla matemática que indique que a un aumento o descenso
determinado del mismo corresponde un descenso o aumento concreto en el riesgo de
error de tipo II. Lo único que se puede afirmar es, pues, que ambos tipos de errores se
relacionan inversamente. Por ello es más interesante manipular el tamaño de la muestra.
Figura 3. Ilustración del poder del contraste de H0: µ= 5 comparado con H1: µ.= 6,5
para distintos valores de α.
88
Grupo de Investigación de Ingeniería Tisular Máster en Ingeniería Tisular
2. El tamaño de la muestra n
n=100 n=50
Figura 4. Curvas de potencia de una prueba de dos colas con α= 0,05 y distintos
valores de n.
89
Grupo de Investigación de Ingeniería Tisular Máster en Ingeniería Tisular
Otro factor del cual depende la potencia de un test estadístico es la proximidad o lejanía
de los valores postulados por la hipótesis nula y la hipótesis alternativa. En realidad,
cuando se dice que una hipótesis nula es falsa, esta hipótesis puede ser falsa en mayor
o menor grado, aumentando su grado de falsedad en la medida en que supone un valor
más extremo del parámetro. Para valores fijos de α y n, el poder del contraste aumenta
a medida que el parámetro se aparta del valor supuesto para él en H0.
4. Determinación de la potencia
Las hipótesis alternativas específicas son las que hacen posible el análisis de la
potencia de una prueba. Generalmente, la hipótesis de nulidad es simple, esto es,
especifica y concreta un valor del parámetro. Por el contrario, la hipótesis alternativa
suele ser compuesta y contiene dos o más elementos o estados del conjunto de
parámetros.
La hipótesis compuesta está constituida por todas las hipótesis simples compatibles con
ella. Cuando H1 es compuesta, la potencia de la prueba dependerá de los valores
asignados al parámetro bajo la hipótesis alternativa. Además, H1 puede ser direccional o
no direccional, pudiendo existir diversas hipótesis alternativas para una hipótesis de
nulidad simple.
90
Grupo de Investigación de Ingeniería Tisular Máster en Ingeniería Tisular
La potencia de una prueba es fácil de calcular, ya que existen tablas que recogen las
probabilidades de 1 - β para distintos niveles de significación.
Por ejemplo: Supongamos que un investigador quiere probar que el nivel de expresión
del gen KSR1 en células de endotelio corneal difiere 3 puntos del nivel de expresión en
la población general de células humanas, que se ha estimado en 100 copias de ARNm
por célula. Dicho investigador toma una muestra aleatoria de 64 células endoteliales
corneales y fija un nivel de significación α de 0,05. Supongamos que conoce la varianza
de la población de células del organismo humano para este gen, que es de 100 y que
los datos obedecen a una distribución normal. Tenemos lo siguiente:
H0 : µ0 = 100
α =0,05
σ2 = 100
H1 : µ1 = 103 ó 97
n = 64
91
Grupo de Investigación de Ingeniería Tisular Máster en Ingeniería Tisular
Para calcular la potencia del ejemplo propuesto, procederemos del siguiente modo:
92
Grupo de Investigación de Ingeniería Tisular Máster en Ingeniería Tisular
En el caso de que µ fuera igual a 97, el mismo contraste de hipótesis correría el mismo
riesgo de un error de tipo II y tendría el mismo poder (0,67), puesto que la prueba es
bilateral y el análisis simétrico. Bajo estas condiciones, puede concluirse que si µ = 97 ó
103 la probabilidad de rechazar H0 es de 0,67.
Si la hipótesis alternativa especificara un valor menos distante de H0, como por ejemplo,
H1 : µ1 = 101, el poder del contraste disminuye. De igual modo, el poder de contraste
también disminuye si se baja a 0,01 ó 0,001 el nivel de significación, y sería igual a la
unidad si H0 es tan errónea que virtualmente no existe probabilidad de un error de tipo II.
Ello no significa que el experimento sea necesariamente bueno, pues se puede estar
comprobando algo tan evidente que resultara inútil. Por ejemplo, que el nivel medio de
expresión de KSR1 en células corneales es de 10000 (valor demasiado alto para ser
mínimamente probable).
Una vez que hemos visto el concepto y las peculiaridades del análisis de la potencia,
veamos cómo puede calcularse esta potencia recurriendo a una tabla de probabilidades.
Al mismo tiempo, veremos cómo se puede determinar el tamaño de la muestra. Por ello,
a continuación se va a determinar la potencia y el tamaño de n para la media de una
población cualquiera (Doménech i Massons, 1980):
93
Grupo de Investigación de Ingeniería Tisular Máster en Ingeniería Tisular
Para la determinación del tamaño de la muestra hay que decidir previamente qué
potencia se desea. Cada investigador puede fijar el valor más oportuno para su estudio,
pero si se quiere un valor convencional, Welkowitz recomienda el de 0,80, que fija en
0,20 la probabilidad de un error de tipo II. El sugerir una probabilidad mayor para los
errores de tipo II que para los de tipo I se debe a que en la mayoría de los problemas que
se investigan resultan menos perjudiciales los falsos negativos (aceptar H0 cuando es
falsa o error de tipo II) que los falsos positivos (rechazar H0 cuando es verdadera o error
de tipo I). Por otra parte, si se fija convencionalmente una potencia de 0,95 ó 0,99 la
muestra resultante no estará al alcance de muchos investigadores (Jiménez Fernández,
2000).
Para finalizar lo relativo al análisis de la potencia, sólo nos queda insistir en los puntos
siguientes:
94
Grupo de Investigación de Ingeniería Tisular Máster en Ingeniería Tisular
95
Grupo de Investigación de Ingeniería Tisular Máster en Ingeniería Tisular
D.- LA POTENCIA-EFICIENCIA
En este Proyecto de Investigación hemos estudiado tres criterios que conviene considerar
en la resolución estadística de los diseños. En primer lugar, hemos hablado de los
niveles de medición de las variables. A continuación, hemos estudiado el modelo
estadístico, que nos indica que existen dos tipos de pruebas, las paramétricas y las no
paramétricas, analizando las exigencias de ambas. En tercer lugar, hemos tratado el
concepto de potencia, que indica que, en igualdad de condiciones, las pruebas
paramétricas son más potentes. Analicemos ahora un cuarto criterio: el de la potencia-
eficiencia.
Este concepto hace referencia al incremento de n necesario para hacer que la prueba
estadística B sea tan poderosa como la A. Dada una potencia, compara el tamaño de la
muestra necesario para una prueba, B, con el tamaño requerido por una segunda, A, que
actúa como término de comparación. Ambas pruebas se aplicarían bajo las mismas
condiciones. Así, dadas una hipótesis de nulidad, una hipótesis alternativa, la potencia, el
nivel de significación y el tipo de contraste, la potencia-eficiencia del estadístico de
contraste B con respecto a otro A es A/B o como escribe Siegel (1995):
Lo que significa que son necesarios 100 casos de B por cada 80 casos de A, siempre que
se cumplan todos los supuestos que subyacen a la aplicación de ambas pruebas y
cuando la prueba A es más poderosa.
96
Grupo de Investigación de Ingeniería Tisular Máster en Ingeniería Tisular
Ya se ha dicho que a medida que son menores o más débiles los supuestos de un
modelo particular, más generales son las conclusiones obtenidas tras la aplicación de la
prueba estadística asociada con el modelo, pero menos poderosa es aquella para
rechazar la hipótesis de nulidad. La forma de conjugar potencia y generalidad es elegir
una prueba estadística de amplia generalidad e incrementar su potencia hasta un nivel
dado, aumentando el tamaño de la muestra. Por ejemplo, si tenemos un diseño de dos
grupos relacionados en el que podemos elegir entre la prueba t (paramétrica) y la prueba
de McNemar para la significación de los cambios (no paramétrica), si nos inclinamos por
la segunda, es necesario aumentar el tamaño de n para que ésta tenga la misma potencia
que aquélla. Es decir, la prueba t es más potente pero requiere datos que cumplan con
los requisitos de independencia, normalidad, homoscedasticidad y medida de intervalo,
mientras que la segunda posee mayor generalidad, pues sólo le afecta el primer requisito.
Su potencia puede aumentar hasta la que tendría la prueba t incrementando el tamaño de
la muestra. Respecto a ésta, su eficacia relativa oscila entre el 63 y el 95 por cien,
dependiendo de la distribución y tamaño de los datos a analizar.
En resumen, cuando se cumplen los requisitos de las pruebas paramétricas éstas tienen
más eficiencia relativa que las no paramétricas, pero pueden equipararse siempre que en
las segundas se incremente el tamaño de n hasta donde lo requiere la potencia de sus
equivalentes paramétricas. Este dato puede ser de interés práctico ya que con frecuencia
es difícil calcular la eficiencia relativa de dos pruebas, ya sean éstas paramétrica o no
paramétricas, ya sean ambas no paramétricas.
97