Está en la página 1de 25

Grupo de Investigación de Ingeniería Tisular Máster en Ingeniería Tisular

V. RESOLUCIÓN ESTADÍSTICA DEL DISEÑO EXPERIMENTAL

Según Kerlinger, la estadística es ―la teoría y el método para analizar datos cuantitativos
obtenidos de muestras de observaciones para estudiar y comparar fuentes de varianza
de fenómenos, ayudar a tomar decisiones sobre aceptar o rechazar relaciones hipotéticas
entre los fenómenos y ayudar a hacer inferencias fidedignas de observaciones
empíricas‖. Para López González, estadística es ―la ciencia que recoge, ordena y analiza
las muestras extraídas de ciertas poblaciones o conjuntos de elementos, con base en
éstas y en el cálculo de probabilidades, se encarga de hacer averiguaciones (inferencias)
acerca de las correspondientes poblaciones‖.

A la hora de decidir si una hipótesis concreta ha de ser aceptada o rechazada, el


investigador necesita contar con un criterio objetivo y universal. Después de elaborar sus
hipótesis y de llevar a cabo la fase experimental de un Proyecto de Investigación, el
científico ha de analizar sus resultados y compararlos con las hipótesis iniciales para
tomar una decisión en uno u otro sentido (en el sentido de las hipótesis planteadas o en
el contrario).

En ocasiones, los resultados son muy claros, mostrando enormes diferencias entre los
distintos criterios utilizados y confirmando las hipótesis iniciales de forma evidente. Otras
veces, las diferencias son muy sutiles o no existen en absoluto. En este abanico de
posibilidades, y para evitar interpretaciones subjetivas que restarían valor a los
resultados, es necesario utilizar criterios matemáticos previamente validados y aceptados
por la comunidad científica universal. Estos criterios son lo que hoy denominamos
estadística o, más concretamente, estadística inferencial. Las pruebas estadísticas
cumplen aquí un doble cometido. Por un lado, indican la probabilidad que tiene un
resultado determinado de ser explicado por las variaciones del azar y, por otro, al fijar
convencionalmente unos coeficientes de riesgo, proveen de un criterio objetivo para
decidir sobre la aceptación o el rechazo de las hipótesis de investigación.

73
Grupo de Investigación de Ingeniería Tisular Máster en Ingeniería Tisular

Por otro lado, algunos diseños de investigación, como hemos visto en los apartados
anteriores de este Proyecto de Investigación, pueden resultar enormemente complejos y
muy difíciles de abordar si no se cuenta con las estrategias de análisis múltiple que nos
ofrece la estadística (por ejemplo, el análisis factorial o el de covarianza).

Todo lo anterior indica que las pruebas estadísticas son un instrumento valioso en el
contraste de hipótesis. Normalmente existe más de una prueba estadística para cada tipo
de diseño, por lo que el investigador puede seleccionar una u otra. Pero esta elección no
es gratuita, sino que obedece, entre otros, a cuatro factores que estudiaremos a
continuación: el nivel de medición, el modelo estadístico, la potencia de la prueba y la
potencia-eficiencia.

74
Grupo de Investigación de Ingeniería Tisular Máster en Ingeniería Tisular

A.- EL NIVEL DE MEDICIÓN

Medir es asignar números a los objetos de acuerdo con ciertas reglas. Cuando un físico
mide la temperatura de fusión de ciertos metales y las compara, obtiene informaciones de
los objetos que mide. Y es que la relación entre lo que observa y los números es tan
directa, que mediante la manipulación de éstos es fácil generar nueva información.

En ocasiones tendemos a extrapolar los métodos y técnicas que utilizan las ciencias
experimentales más controladas, como pueden ser las ciencias físicas, a cualquier
modelo experimental como puede ser el de la Histología Humana. Sin embargo, cuando
tomamos la física como modelo, podemos caer en errores al intentar medir variables
humanas complejas, asignándoles numerales y realizar con éstos operaciones que
presuponen la correspondencia isomórfica entre la estructura de las observaciones y la de
los números. Y es que dentro de la teoría de la medición existen diferentes niveles de
medida que comportan distintos tipos de relaciones y, en consecuencia, distintas
operaciones de los datos. Los más conocidos son: nominal, ordinal, de intervalo y de
razón (Tabla 1):

1. En la escala nominal los números y símbolos se utilizan para distinguir entre


sí los grupos a que pertenecen varios objetos. Se clasifican los sujetos y las
clases se numeran. La relación es la de equivalencia. Esto es, los objetos o
miembros de cualquier clase deben ser equivalentes en la propiedad medida.
En el campo de la Histología, podemos encontrar numerosos ejemplos de
distribuciones de escala nominal. Un caso concreto sería el tipo de epitelios
encontrados en el organismo humano (simple, estratificado,
pseudoestratificado, etc.).

Algunas pruebas estadísticas que utilizan o pueden utilizar datos nominales son
2
la binomial, la y la de McNemar, por ejemplo. En estas pruebas, los datos
son meras agrupaciones de frecuencias obtenidas según cierta clasificación.

75
Grupo de Investigación de Ingeniería Tisular Máster en Ingeniería Tisular

2. La escala ordinal se diferencia de la anterior fundamentalmente porque a la


relación de equivalencia incorpora la de mayor a menor. Es decir, en ella los
números asignados a los objetos reflejan la cuantía de los atributos que los
objetos o sujetos poseen sin que ello signifique que a diferencias iguales entre
los números correspondan diferencias iguales en la cuantía de los atributos. Por
ejemplo, si medimos la responsabilidad con que los alumnos de la asignatura
de Histología Bucodental Humana acatan la disciplina académica universitaria,
tendremos una medida ordinal. En cualquier caso, podrían arbitrarse
instrumentos que indicarán que A la acata con más responsabilidad que B, éste
con más responsabilidad que C, y así sucesivamente. Si a A, B, C, etc., le
asignamos números que reflejen de mayor a menor el grado de
responsabilidad, tenemos datos ordinales. Así, le asignaríamos el 1 a A, el 2 a
B, el 3 a C, etc. Lo que no significa que entre el 1 y el 2 exista la misma
diferencia en responsabilidad que entre el 2 y el 3.

La mayor parte de las pruebas que se denominan no paramétricas y que


describiremos más adelante, utilizan este tipo de datos. Alguna de ellas, como
la prueba de los signos, requiere que los datos tengan como base una
distribución continua, aunque se midan en categorías discretas.

3. En la escala de intervalo la unidad de medida permite que los sujetos no


sólo puedan ser ordenados, sino asignados a números reales, de tal manera
que unas diferencias iguales entre los números asignados a dichos sujetos
reflejan diferencias idénticas en la cuantía de los atributos medidos. El punto
cero de la escala es arbitrario y no indica ausencia del atributo, siendo también
arbitraria la unidad de medida. A las relaciones de equivalencia y de mayor a
menor, se añade la de proporción conocida entre dos intervalos cualesquiera.

Gran número de pruebas estadísticas de uso muy frecuente utilizan este tipo de
datos. El problema es que en ciertos tipos de experimentos es difícil lograr
medidas de intervalo, por no hablar de la posible discusión acerca de la
naturaleza exacta de algunas distribuciones que, para algunos, son
consideradas de intervalo, siendo de cuasintervalo para otros y ordinales para
otros.

76
Grupo de Investigación de Ingeniería Tisular Máster en Ingeniería Tisular

4. Por último, la escala de razón o de proporción tiene todas las caracte-


rísticas de la escala de intervalo y cuenta además con un punto cero real que
indica ausencia del atributo medido. En ella, los números asignados a los
objetos son numerosos "verdaderos" con un verdadero cero, y lo único arbi-
trario es la unidad de medida. En cambio, un cero en una prueba de inteligencia
no significa ausencia de inteligencia sino cero puntos en una prueba
determinada.

Así, si en esta escala se determina la longitud de dos objetos diferentes en


centímetros y en metros, la proporción de las dos longitudes en centímetros es
la misma que la de las dos longitudes en metros. Con este tipo de medida se
puede usar cualquier prueba estadística.

Conclusiones Transformación
Tipo de escala Ejemplos
acerca de … admisible
Relaciones del tipo Cualquiera que Sexo, raza, estado
Nominal ―igual que‖ o preserve la civil, diagnóstico
―distinto que‖ igualdad/desigualdad clínico
Cualquiera que
Relaciones del tipo Dureza minerales,
preserve el orden o
Ordinal ―mayor que‖, ―menor prestigio social,
grado de magnitud
que‖, ―igual que‖ ubicación ideológica
de los objetos
Calendario,
Igualdad de
Intervalo a + bx (b>0) temperatura,
diferencias
inteligencia
Igualdad o
Longitud, masa,
Razón desigualdad de bx (b>0)
tiempo
razones

Tabla 1. Principales tipos de escalas de medida disponibles en investigación


científica.

77
Grupo de Investigación de Ingeniería Tisular Máster en Ingeniería Tisular

B.- EL MODELO ESTADÍSTICO

Un modelo es una analogía en la que un conjunto de datos representa a otro conjunto por
ser isomórficos. Dos conjuntos se consideran isomórficos cuando en ellos existe
correspondencia entre todos y cada uno de los elementos de uno y otro conjunto y
cuando poseen entre sí ciertas estructuras semejantes (García Hoz, 1981). Para aclarar
este concepto, utilizaremos el siguiente ejemplo:

Supongamos una población celular correspondiente a un cultivo primario de


queratinocitos de la piel humana. Supongamos también que algunos estudios previos
sugieren que las muestras de piel sólo son capaces de generar cultivos primarios de
queratinocitos en el 40% de los casos. Para aumentar ese porcentaje de éxito, el
investigador plantea un estudio en el que utiliza factor de crecimiento epidérmico (EGF)
en la generación de cultivos primarios de queratinocitos, manteniendo las condiciones
normales de cultivo en un grupo de muestras que utiliza como controles.

En este momento, el investigador plantea la siguiente hipótesis: las muestras de piel


humana en las que se utiliza EGF generan cultivos primarios de queratinocitos con mayor
probabilidad que las muestras control. Supongamos que el investigador elige un nivel de
significación del 5 %.

A continuación, el investigador utiliza dos muestras de piel humana y las procesa en


presencia de EGF para generar cultivos primarios de queratinocitos. El resultado es
positivo en ambos casos, generándose cultivos primarios viables a partir de las dos
muestras utilizadas (éxito del 100%). Aunque se trata tan sólo de dos muestras
individuales, ante estos resultados caben plantearse las siguientes preguntas: ¿Cuál es
la probabilidad de que un porcentaje del 100 % de resultados positivos se haya producido
por azar? ¿Qué deducciones se pueden hacer acerca de la hipótesis?

Lo primero es determinar la estructura matemática de los datos. Desde el punto de vista


matemático el problema tiene las siguientes características: 1) se tienen dos opciones:
generación de cultivos primarios de queratinocitos o no; 2) por los datos anteriores
sabemos que lo habitual es que el 40 por ciento de las muestras sea capaz de generar
cultivos primarios, mientras que el 60 por ciento no los genera; 3) las dos opciones son
inclusivas, 40 por ciento más 60 por ciento dan el 100 por ciento; y 4) hay tres resultados
posibles para la muestra: ambas muestras generan cultivos primarios de queratinocitos;

78
Grupo de Investigación de Ingeniería Tisular Máster en Ingeniería Tisular

ninguna muestra genera dichos cultivos o una muestra genera cultivos primarios y la otra
no.

Determinada la estructura matemática, se procede en segundo lugar a buscar una


función matemática que le sirva de modelo. Una función que sirve para problemas de
este tipo es el desarrollo del binomio (X + Y)n, que tiene asimismo cuatro características:
1) hay dos términos o resultados X e Y; 2) cada término tiene una probabilidad de
ocurrencia determinada; 3) X e Y cumplen la propiedad de la inclusión, ya que la suma de
sus respectivas probabilidades es igual a 1; y 4) el universo de X e Y se muestra n veces.
En nuestro ejemplo, n = 2; luego si desarrollamos (X + Y)2, tenemos: X2 + 2XY + Y2.

Si se aplica este modelo a los datos del ejemplo, tenemos que X representa a las
muestras que son capaces de generar cultivos primarios de queratinocitos e Y a las que
no son capaces de ello. De este modo, el modelo es análogo con respecto a los datos.
Asi, X2 representa una muestra formada por dos biopsias de piel que sí son capaces de
generar cultivos primarios; el segundo término, 2XY, representa a una biopsia que será
cultivada con éxito y a otra que no, y el tercer término Y2, representa a dos biopsias de
piel que no generarán cultivos primarios. Como los datos se ajustan a las características
del modelo, podemos utilizarlo para conocer la probabilidad de ocurrencia de unos
resultados como los del ejemplo, es decir, un 100 por cien de cultivos con éxito. A esto se
le llama contrastar la hipótesis.

Con los resultados de la población formemos la distribución de probabilidad


correspondiente al desarrollo del binomio:

Conclusión de la investigación Término en el modelo Probabilidad (P) P %

Dos cultivos primarios (++) X2 0,42 0,16 16

Un cultivo primario (+-) 2XY 2 (0,4) (0,6) 0,48 48

Ningún cultivo primario (--) Y2 0,62 0,36 36

Total 1,00 100

79
Grupo de Investigación de Ingeniería Tisular Máster en Ingeniería Tisular

Con esta distribución de probabilidad a la vista, el investigador puede saber ahora que su
100 por cien de éxitos en los cultivos primarios no es significativamente distinto a la
probabilidad original de 0,40. Es decir, aunque la probabilidad de cultivar los
queratinocitos con éxito siguiera siendo de 0,40, habría un 16 por ciento de probabilidad
de encontrar dos alumnos que aspirasen a ello. Como esta probabilidad es muy superior
al nivel de significación elegido, 5 por ciento, tiene que rechazar su hipótesis de que las
condiciones de cultivo especiales han producido cambios.

Este ejemplo nos indica varias cosas. En primer lugar, que es posible construir una tabla
de probabilidades binominales para todas las combinaciones posibles de X e Y (es decir,
X = 0,01 e Y = 0,99; X = 0,02 e Y = 0,98, etc.) y para distintos tamaños de muestra (n
puede valer 2, 3, 4, etc.). Por supuesto, esta tabla (denominada tabla de probabilidades
binomiales) y la de otros modelos matemáticos, ya han sido elaboradas por diferentes
investigadores que han dedicado su tiempo al campo de la estadística durante los últimos
años. En segundo lugar, nuestro ejemplo indica que con una muestra de dos biopsias de
piel y un nivel de significación del 5 por ciento, nunca se podría probar la hipótesis de
investigación, ya que para ello, este modelo exige una muestra de mayor tamaño. La
consulta a la tabla de probabilidades binomiales se lo hubiera advertido, lo que significa
que los modelos tienen también sus exigencias. Por último, indica que los modelos
matemáticos son construcciones lógicas que guardan estrecha relación con los datos a
los que se aplican.

En resumen, la elección del modelo requiere determinar las características de los datos y
conocer los modelos disponibles y los supuestos subyacentes a cada modelo. Como
veremos a continuación, en el campo de las Ciencias Experimentales, se han
desarrollado dos tipos de modelos: los parámetricos, llamados así porque especifican
ciertas condiciones acerca de los parámetros de la población de la que se ha obtenido la
muestra, y los no parámetricos, que no parten de ningún supuesto relativo a los
parámetros de la población o en todo caso, son supuestos menores.

1. Pruebas paramétricas

Estas pruebas son las más poderosas, siempre que se cumplan los supuestos de los que
parte el modelo. Los tres supuestos más corrientes son: 1) que las características que se
estudian existan en la población; 2) que en ella están distribuidas normalmente, y 3) que
el estadístico muestral da una estimación del parámetro.

80
Grupo de Investigación de Ingeniería Tisular Máster en Ingeniería Tisular

Si se está estudiando el contenido intracelular de calcio en un grupo de células, por


ejemplo, se podría utilizar una prueba paramétrica siempre que pueda suponerse que la
concentración de calcio existe en la población celular, que esta concentración se
distribuye entre las células siguiendo el modelo de la curva normal y, por último, que la
media de la muestra de células escogidas es una estimación del parámetro (valor medio
de calcio en la población general de células). El segundo supuesto incluye un cuarto: la
necesidad de contar con medidas de intervalo. De ahí que "los métodos paramétricos
están limitados al contraste de hipótesis en las que intervienen estadísticos del sistema
de momentos, como medias, varianzas y correlaciones producto-momento" (Jiménez
Fernández, 2000).

Las pruebas paramétricas más conocidas por la mayoría de los investigadores son las
denominadas pruebas t y F. Ambas son consideradas pruebas muy potentes, pero parten
de los supuestos anteriores, lo cual restringe su uso. La prueba t de Student es quizás la
prueba estadística más utilizada en el campo de las ciencias básicas, pues puede
aplicarse a datos experimentales, siempre que éstos reúnan los requisitos de:

- Independencia. Lo que significa que al elegir la muestra, la elección de un


caso cualquiera de la población no afecta a la elección de ningún otro caso y que
la puntuación asignada a un sujeto no influye en la puntuación asignada a
ningún otro. Este requisito afecta también a los modelos no paramétricos.
Naturalmente, en los grupos relacionados no se pide este requisito como es el
caso de los diseños de medidas repetidas en el que los mismos sujetos se
miden dos o más veces.

- Normalidad. Las observaciones registradas en el experimento deben proceder


de poblaciones distribuidas normalmente, esto es, que sigan una distribución
similar a una campana de Gauss. En la mayor parte de los experimentos, el
investigador no se preocupa en verificar este supuesto, sino que se asume que
los datos de las variables observadas obedecen a una distribución normal.

- Homoscedasticidad. Lo que quiere decir que los grupos en estudio proceden


de una misma población o de poblaciones con igual varianza. Es, quizá, el único
requisito que suele probarse antes de llevar a cabo el análisis estadístico
mediante la t de Student, porque su violación puede ser grave en determinadas
condiciones.

81
Grupo de Investigación de Ingeniería Tisular Máster en Ingeniería Tisular

- Medida de intervalo. La variable dependiente o variable de análisis debe


haber sido medida, como mínimo, en una escala de intervalo para poder aplicar
las operaciones aritméticas a los datos (como veremos al final de este capítulo
dedicado al análisis estadístico).

- Linealidad. Las medidas de estas poblaciones normales y homoscedásticas


deben ser combinaciones lineales de los efectos atribuidos a las columnas y a
las filas o a ambos. Es decir, que la relación atribuida a tales efectos debe ser
aditiva y no multiplicativa. Este quinto requisito sólo es necesario cuando se
utiliza la prueba F (análisis de varianza).

Cuando se puede suponer razonablemente que los datos a analizar cumplen estas
condiciones, la elección de una de estas pruebas es excelente, porque la prueba
paramétrica será más poderosa que la no paramétrica a la hora de rechazar H0 cuando
ésta realmente deba ser rechazada. Es decir, "cuando los datos de la investigación
pueden ser analizados adecuadamente por una prueba paramétrica, será el medio más
poderoso para rechazar una hipótesis falsa" (Siegel y Castellán, 1995).

Pero cuando estas condiciones no son satisfechas (debido, por ejemplo, a que la
población no se distribuye normalmente, a que la medida no es tan fuerte como la escala
de intervalo o a que las poblaciones tienen distinta varianza), hay que acudir a las
pruebas no paramétricas.

Algunos autores como Arnau (1981), Welkowitz et al. (1981), Glass y Stanley (1980),
entre otros, sostienen que una ligera violación de estos supuestos no afecta radicalmente
la probabilidad obtenida en las pruebas paramétricas. Sin embargo, Siegel argumenta en
contra diciendo que "no hay hasta ahora acuerdo general en cuanto a lo que se entiende
por 'una ligera' desviación" y que, en cambio, cuando ésta ocurre "es difícil, si no
imposible, medir la potencia de la prueba. Incluso es difícil estimar el significado de una
aseveración de probabilidad acerca de la hipótesis en cuestión cuando la aseveración
proviene de aplicaciones inaceptables de una prueba" (Siegel y Castellán, 1995). En todo
caso, cuando existen poderosas razones para dudar del cumplimiento de los supuestos
el investigador no tiene otra alternativa que el recurso de las pruebas estadísticas no
paramétricas.

82
Grupo de Investigación de Ingeniería Tisular Máster en Ingeniería Tisular

2. Pruebas no paramétricas

Las pruebas no paramétricas son aquéllas cuyo modelo estadístico no parte de


supuestos acerca de la población o éstos son muy débiles. Asimismo, estas pruebas
pueden operar incluso con datos ordinales y hasta nominales. Los dos supuestos
asociados a la mayoría de estas pruebas son la independencia de las observaciones y la
continuidad básica de la variable, supuestos mucho menos restrictivos que los estudiados
en el punto anterior.

Como indicamos anteriormente, las pruebas no paramétricas deben aplicarse siempre


que: a) los datos estén recogidos en escala nominal u ordinal, y b) cuando los datos,
aunque estén medidos en escala de intervalo, no permiten hacer suposiciones acerca de
la forma de la distribución de la población ni de la homoscedasticidad de las poblaciones.

Las ventajas de este tipo de pruebas son:

- Permiten hacer afirmaciones exactas de probabilidad. Independientemente de


la forma de la distribución de donde se obtuvo la muestra, las probabilidades
obtenidas con la mayoría de estas pruebas son probabilidades exactas, con un
determinado nivel de significación. En consecuencia, se pueden hacer a partir
de ellas inferencias probabilísticas conociendo los riesgos de error.

- Permiten trabajar con muestras de pequeño tamaño. Si se trabaja con


muestras muy pequeñas, como n = 4, 5 ó 6, por ejemplo, no pueden aplicarse
pruebas paramétricas, salvo que se conozca exactamente la naturaleza de la
distribución poblacional.

- Con observaciones obtenidas de poblaciones diferentes, la única alternativa


válida son las pruebas no paramétricas.

- Estas pruebas son aplicables tanto para datos inherentes a los rangos como
para datos cuyas puntuaciones aparentemente numéricas tienen fuerza de
rangos.

- Si los datos de un estudio son simplemente clasifícatenos, esto es, están


medidos en una escala nominal, sólo pueden aplicarse pruebas no
paramétricas.

- Son más fáciles y rápidas de aplicar que las pruebas paramétricas.

83
Grupo de Investigación de Ingeniería Tisular Máster en Ingeniería Tisular

Sin embargo, los inconvenientes de este tipo de pruebas son los siguientes (Jiménez
Fernández, 2000):

- El despilfarro de datos o sujetos que con ellas se cometen si se aplican a


datos que reúnen los requisitos exigidos por las pruebas paramétricas. El grado
de despilfarro se expresa por la potencia-eficacia de la prueba no paramétrica,
esto es, dicha prueba precisaría un mayor número de sujetos que la
paramétrica para ser tan potente como ésta.

- Otro inconveniente que se cita es que las pruebas y sus tablas de


probabilidades se hallan dispersas en distintas publicaciones. Actualmente
puede considerarse superado al contar con algunas obras que las recopilan,
como la de Siegel y Castellán (1995) o algunos libros de estadística aplicada.

En resumen, la elección de una prueba estadística adecuada a los datos concretos de


una investigación se rige, entre otros, por los siguientes principios:

1) Si el nivel de medida logrado es nominal u ordinal, se ha de elegir


necesariamente una prueba no paramétrica.

2) Como suelen existir varios tipos de pruebas no paramétricas, siempre que


los datos lo permitan, se elegirá aquella que utilice el nivel de medida más alto
ya que es más potente al utilizar más información.

3) Si se ha logrado una medida de intervalo, se elegirá una prueba


paramétrica siempre que los datos cumplan con los requisitos asociados a
ella.

4) Habrá casos en que a pesar de contar con datos medidos en intervalos, se


usará una prueba no paramétrica debido al tipo de hipótesis en estudio.

84
Grupo de Investigación de Ingeniería Tisular Máster en Ingeniería Tisular

C.- POTENCIA DE UNA PRUEBA ESTADÍSTICA

Potencia estadística es la probabilidad de que el efecto que se pretende encontrar sea


detectado por el investigador, suponiendo que este efecto esté presente. La potencia de
un análisis estadístico es en parte una función de la prueba estadística empleada. La
potencia de una prueba se define como la probabilidad que existe de rechazar H0 cuando
ésta es realmente falsa. Matemáticamente, la potencia se representa como la
complementaria del error tipo II o error β (1 – β), siendo β la probabilidad de aceptar H0
cuando ésta es falsa (y, por tanto, H1 es cierta).

En situaciones comparables, las pruebas paramétricas son más potentes que las no
paramétricas. Esto se comprende fácilmente si consideramos que las pruebas
paramétricas necesitan datos medidos al menos en escala de intervalos. Estos datos
pueden reducirse a una escala inferior, de orden, y emplear así una prueba no
paramétrica. Pero observamos en seguida que se produce una pérdida de información,
pues la escala ordinal considera sólo el orden de las observaciones, y no la cuantía de su
separación.

Veamos un ejemplo sencillo. Supongamos que hemos determinado el número de


mitocondrias que existe en un determinado compartimiento celular en cuatro células
endoteliales humanas. Los resultados que hemos obtenido son los siguientes, medidos a
nivel de intervalo: 4, 6, 7 y 9. Una prueba paramétrica considera el orden y la cuantía de
separación que existe entre ellas. Así el 9 está por encima del 7, pero separado de éste
exactamente 2 unidades; el 7 ocupa un orden superior al 6, del que le separan 1 unidad,
etc. De este modo la prueba paramétrica recoge toda la información que contienen los
datos. Para su equivalente no paramétrica, el alumno que obtuvo 9 puntos ocupa también
el primer lugar; el que obtuvo 7, el segundo; el de 6, el tercero, etc., pero no considera
que entre estos órdenes existe una distancia distinta. Así, ignora que entre el primer y el
segundo alumno la distancia es de 2 puntos; de sólo 1 entre el segundo y el tercero, etc.
Al utilizar menos información son menos potentes para datos comparables, lo que en
términos prácticos significa que, aunque para la mayoría de los datos los dos tipos de
pruebas llevarán a la misma conclusión, habrá ciertos datos para los que la prueba no
paramétrica llevaría a aceptar H0 mientras que la correspondiente paramétrica llevaría a
rechazarla.

85
Grupo de Investigación de Ingeniería Tisular Máster en Ingeniería Tisular

Habitualmente, la mayoría de los investigadores desean rechazar las hipótesis de nulidad


que plantearon al inicio de su proyecto. Por ello, lo que más les interesa es utilizar una
prueba estadística con una potencia más bien alta. Sin embargo, se le ha prestado poca
atención a este punto y con frecuencia se realizan experimentos en lo que existen
muchas probabilidades de cometer errores de tipo II, sin saberlo el investigador, y se
abandonan líneas de investigación que pueden ser prometedoras. El análisis de la
potencia de la prueba aclararía este error.

Para Welkowitz (1981), la potencia de una prueba depende de tres factores


fundamentales: α, n y . Como veremos a continuación, el nivel de significación α está
fijado convencionalmente en 0,05 ó 0,01 para la mayoría de los casos, aunque el
investigador puede cambiarla, mientras que el tamaño de muestra n suele ser fijado de
antemano por el investigador. Desafortunadamente, suele quedar casi siempre fuera del
control del investigador. La falta de control sobre suele ser el verdadero problema para
el cálculo de la potencia de una prueba estadística.

Consiste en llegar a la conclusión de que existe una relación entre las


Error tipo I
variables cuando ésta no existe. La probabilidad de cometerlo es α

Nivel de Indica la probabilidad de acertar cuando no se rechaza una hipótesis


confianza nula que es, efectivamente cierta (complementaria de α)

Cuando no se detecta una relación entre variables que en realidad sí


Error de tipo II
existe en la población. Probabilidad se llama β

Capacidad de una prueba estadística para detectar una relación entre


Potencia
variables. Probabilidad 1 – β (complementaria de β)

Tabla 2. Tabla resumen de los principales conceptos relacionados con la potencia


y los errores estadísticos.

86
Grupo de Investigación de Ingeniería Tisular Máster en Ingeniería Tisular

1. El nivel de significación α

El nivel de significación α de una prueba estadística representa la probabilidad de


rechazar la hipótesis nula H0 cuando ésta es verdadera, es decir, la probabilidad de que
las diferencias halladas en nuestros resultados se deban puramente al azar. Por
supuesto, cuanto más baja sea esa probabilidad de error (denominado error tipo I o error
α), más fiables serán los resultados y el investigador podrá confiar en mayor medida en
que las diferencias observadas sean diferencias reales y no diferencias debidas al azar.
De hecho, y si los demás factores se mantienen constantes, cuanto más alto sea el nivel
de significación, más difícil será rechazar H0 cuando ésta es verdadera.

Sin embargo, todo aumento del nivel de significación se asocia a una disminución de la
potencia del test estadístico utilizado y, por tanto, a un aumento de la probabilidad de
error β. Por ejemplo, si el investigador decide utilizar un nivel de significación α de 0,05
en lugar de un nivel α de 0,01, la potencia aumenta. El problema es que la manipulación
de α no suele ser una técnica eficaz porque, para unos datos determinados, dicha
manipulación suele tener efectos opuestos en los dos tipos de errores α y β. Por ese
motivo, la mayoría de los investigadores utilizan niveles de significación estándar fijados
en 0,05 (o lo que es lo mismo, 5%) o en 0,01 (1%). Estos conceptos se muestran de
forma sintética en la Tabla 2.

Un ejemplo de este efecto de α sobre β y de β sobre α se muestra en la Figura 3. En


dicha figura, se ilustra la interacción que se produce entre α y β, al analizar los datos de
un diseño pretest-postest de grupo único. Supongamos que se está investigando un
nuevo procedimiento pedagógico para la enseñanza universitaria de la Histología
Bucodental Humana. La media del grupo en el pretest (antes de utilizar el nuevo
procedimiento) es de 5 puntos y el contraste es de tipo unilateral derecho, ya que el
investigador afirma en su hipótesis que la media del postest (tras el nuevo procedimiento)
será superior a 5. En el primer par de figuras, la curva bajo la hipótesis de nulidad indica
el valor de µ = 5 y el valor crítico de 7,06 para α = 5 %. La zona rayada de las curvas
alternativas indica la probabilidad de un error de tipo II, β, cuando la hipótesis alternativa
especifica que el valor de la media es de 6,5 puntos.

En el ejemplo B de la Figura 3, el nivel de significación se ha elevado. Del 5 % se ha


pasado al 1 %, con lo que el valor crítico se ha elevado también. Ahora ha disminuido la
probabilidad de un error de tipo I pero ha aumentado la de un error de tipo II. Las dos
últimas figuras ilustran la situación típica de querer reducir el riesgo de error de tipo II
bajando el nivel de significación. En este caso se ha fijado en 0,08 pero al descender el

87
Grupo de Investigación de Ingeniería Tisular Máster en Ingeniería Tisular

valor crítico, el riesgo de error de tipo I ha aumentado considerablemente bajo la


hipótesis alternativa.

Estas figuras ilustran que el descenso o aumento del nivel de significación no puede
expresarse en una regla matemática que indique que a un aumento o descenso
determinado del mismo corresponde un descenso o aumento concreto en el riesgo de
error de tipo II. Lo único que se puede afirmar es, pues, que ambos tipos de errores se
relacionan inversamente. Por ello es más interesante manipular el tamaño de la muestra.

Figura 3. Ilustración del poder del contraste de H0: µ= 5 comparado con H1: µ.= 6,5
para distintos valores de α.

88
Grupo de Investigación de Ingeniería Tisular Máster en Ingeniería Tisular

2. El tamaño de la muestra n

Cuando todos los demás factores se mantienen constantes, el investigador puede


aumentar el poder del contraste de H0 aumentando el tamaño de muestra n. El motivo
de ello es que la exactitud de la mayoría de los valores estadísticos depende del tamaño
de n, pues casi todos estos valores tienen alguna función de n en el denominador. Al
aumentar n disminuye el error y se incrementa la potencia del test. Por ello, en principio,
cuanto mayor sea el tamaño de muestra escogido, mayor será la potencia del test
estadístico y menor la probabilidad de error.

Este fenómeno se puede apreciar esquemáticamente en la Figura 4, que muestra cómo


aumenta la potencia del test al aumentar el tamaño de la muestra. Estas muestras se
tomaron de poblaciones normales con varianza σ2.

n=100 n=50

Figura 4. Curvas de potencia de una prueba de dos colas con α= 0,05 y distintos
valores de n.

89
Grupo de Investigación de Ingeniería Tisular Máster en Ingeniería Tisular

3. El grado de discrepancia entre H0 Y H1

Otro factor del cual depende la potencia de un test estadístico es la proximidad o lejanía
de los valores postulados por la hipótesis nula y la hipótesis alternativa. En realidad,
cuando se dice que una hipótesis nula es falsa, esta hipótesis puede ser falsa en mayor
o menor grado, aumentando su grado de falsedad en la medida en que supone un valor
más extremo del parámetro. Para valores fijos de α y n, el poder del contraste aumenta
a medida que el parámetro se aparta del valor supuesto para él en H0.

En estadística, es una medida general del grado de falsedad de la hipótesis nula o de


la magnitud del "efecto" en la población estudiada. Por ejemplo, dado n = 200 y α =
0,05, el poder de contraste de H0: ρ = 0 es mayor para ρ1 = 0,20 que para ρ1 = 0,10.

Por ello, en el contraste de hipótesis, puede considerarse como un valor especifico


que constituye una alternativa para H0.

Para Glass y Stanley (1980), la probabilidad de rechazar H0 a un determinado nivel de


significación aumenta a medida que aumentan los valores específicos de H1. El poder
del contraste tiende a 1 a medida que ρ difiere de cero.

4. Determinación de la potencia

Las hipótesis alternativas específicas son las que hacen posible el análisis de la
potencia de una prueba. Generalmente, la hipótesis de nulidad es simple, esto es,
especifica y concreta un valor del parámetro. Por el contrario, la hipótesis alternativa
suele ser compuesta y contiene dos o más elementos o estados del conjunto de
parámetros.

Ejemplos de hipótesis simples son: µ = 120; ρ = 0,3; σ = 12. Ejemplos de hipótesis


compuestas son: µ ≠ 120; ρ ≠ 0,3; σ ≠ 12.

La hipótesis compuesta está constituida por todas las hipótesis simples compatibles con
ella. Cuando H1 es compuesta, la potencia de la prueba dependerá de los valores
asignados al parámetro bajo la hipótesis alternativa. Además, H1 puede ser direccional o
no direccional, pudiendo existir diversas hipótesis alternativas para una hipótesis de
nulidad simple.

90
Grupo de Investigación de Ingeniería Tisular Máster en Ingeniería Tisular

La potencia de una prueba es fácil de calcular, ya que existen tablas que recogen las
probabilidades de 1 - β para distintos niveles de significación.

Por ejemplo: Supongamos que un investigador quiere probar que el nivel de expresión
del gen KSR1 en células de endotelio corneal difiere 3 puntos del nivel de expresión en
la población general de células humanas, que se ha estimado en 100 copias de ARNm
por célula. Dicho investigador toma una muestra aleatoria de 64 células endoteliales
corneales y fija un nivel de significación α de 0,05. Supongamos que conoce la varianza
de la población de células del organismo humano para este gen, que es de 100 y que
los datos obedecen a una distribución normal. Tenemos lo siguiente:

H0 : µ0 = 100

α =0,05

σ2 = 100

H1 : µ1 = 103 ó 97

n = 64

La media X es el estimador muestral. Bajo H0 se tiene una distribución muestral de


medias como la representada en la parte superior de la Figura 5. Si H1 : µ1 = 103 es la
verdadera, la distribución muestral de medias es como la representada en la parte
central de la figura. Las dos distribuciones muestrales difieren sólo en el valor de µ y
tienen el mismo error típico. Utilizando la curva normal se aceptará H0 siendo falsa si se
observa una media muestral (valor crítico) inferior a 1,96 expresada en puntuaciones
típicas z (z0,975 = 1,96). Se conoce por tipificación al proceso de restar la media y dividir
por su desviación típica a una variable X. De este modo se obtiene una nueva variable z
= (x – X)/s de media y desviación típica Sz = 1, que denominamos variable
tipificada.

91
Grupo de Investigación de Ingeniería Tisular Máster en Ingeniería Tisular

Figura 5. Poder del contraste H0 : µ0 = 100 y H1 : µ1 = 103 ó 97 (n = 64 y α = 0,05).

Para calcular la potencia del ejemplo propuesto, procederemos del siguiente modo:

1. Calculamos el error típico de la media: σ/√n = 10/√64 = 1,25

2. Calculamos la media "crítica", es decir, el valor de la media que divide la


curva normal en dos partes, la de aceptación y rechazo de H0: Xc = 1,96 ×
1,25 + 100 = 102,45

3. Determinamos la puntuación típica que corresponde a este valor de 102,45


bajo H1, es decir, cuando H1, es verdadera: z1 = (102,45 – 103)/1,25 = -0,44

4. Utilizando cualquier tabla estadística de áreas de la curva normal, hallamos


el porcentaje del área de la curva normal que se encuentra a la derecha de z1
= -0,44. Su valor es de 67 por cien (50% + 17%). Esta es la potencia de la
prueba ó 1 - β y el valor de β es de 33%, esto es, el riesgo de un error de tipo
II es de 0,33. Lo que esto significa es que cuando H1 es verdadera (µ = 103),
el 67% de las medias muestrales que se pueden obtener serían significativas
por ser mayores que 102,45. Así, la probabilidad de rechazar H0 cuando µ =
103 es de 0,67 y ésta es la potencia de la prueba.

92
Grupo de Investigación de Ingeniería Tisular Máster en Ingeniería Tisular

En el caso de que µ fuera igual a 97, el mismo contraste de hipótesis correría el mismo
riesgo de un error de tipo II y tendría el mismo poder (0,67), puesto que la prueba es
bilateral y el análisis simétrico. Bajo estas condiciones, puede concluirse que si µ = 97 ó
103 la probabilidad de rechazar H0 es de 0,67.

Si la hipótesis alternativa especificara un valor menos distante de H0, como por ejemplo,
H1 : µ1 = 101, el poder del contraste disminuye. De igual modo, el poder de contraste
también disminuye si se baja a 0,01 ó 0,001 el nivel de significación, y sería igual a la
unidad si H0 es tan errónea que virtualmente no existe probabilidad de un error de tipo II.
Ello no significa que el experimento sea necesariamente bueno, pues se puede estar
comprobando algo tan evidente que resultara inútil. Por ejemplo, que el nivel medio de
expresión de KSR1 en células corneales es de 10000 (valor demasiado alto para ser
mínimamente probable).

Cuando se trabaja con hipótesis unilaterales, el procedimiento es el mismo, sólo que en


tales casos varía el valor de las puntuaciones típicas correspondientes a los distintos
niveles de significación.

Una vez que hemos visto el concepto y las peculiaridades del análisis de la potencia,
veamos cómo puede calcularse esta potencia recurriendo a una tabla de probabilidades.
Al mismo tiempo, veremos cómo se puede determinar el tamaño de la muestra. Por ello,
a continuación se va a determinar la potencia y el tamaño de n para la media de una
población cualquiera (Doménech i Massons, 1980):

Para la determinación de la potencia, hemos de calcular la probabilidad de obtener un


resultado significativo y de rechazar H0 a partir de los datos de nuestra distribución
muestral. Para ello, los pasos a seguir son los siguientes:

1. Calcular el valor de . Dicho valor debe expresarse en términos de z.

2. Calcular el valor de δ. El valor δ corresponde a veces n, y se puede


calcular como δ = f(n)

3. Consultar una tabla estadística de potencias en función de δ y de . Estas


tablas nos darán la probabilidad de rechazar H0 para distintos valores de µ.

93
Grupo de Investigación de Ingeniería Tisular Máster en Ingeniería Tisular

Para la determinación del tamaño de la muestra hay que decidir previamente qué
potencia se desea. Cada investigador puede fijar el valor más oportuno para su estudio,
pero si se quiere un valor convencional, Welkowitz recomienda el de 0,80, que fija en
0,20 la probabilidad de un error de tipo II. El sugerir una probabilidad mayor para los
errores de tipo II que para los de tipo I se debe a que en la mayoría de los problemas que
se investigan resultan menos perjudiciales los falsos negativos (aceptar H0 cuando es
falsa o error de tipo II) que los falsos positivos (rechazar H0 cuando es verdadera o error
de tipo I). Por otra parte, si se fija convencionalmente una potencia de 0,95 ó 0,99 la
muestra resultante no estará al alcance de muchos investigadores (Jiménez Fernández,
2000).

Para finalizar lo relativo al análisis de la potencia, sólo nos queda insistir en los puntos
siguientes:

1. Dicho análisis requiere que se formulen hipótesis alternativas específicas,


es decir, que concreten un valor numérico para la población.

2. El análisis de la potencia se relaciona totalmente con valores de la


población y no con los resultados observados o por observar en las muestras.

3. Puede hacerse antes de realizar el experimento para determinar cuál será


la potencia con los valores de , n y especificados, o después de realizado
para determinar la potencia que tenía la prueba, dados , n y . Si se realiza
después y la potencia resulta ser muy baja, los resultados obtenidos, si no son
estadísticamente significativos, no pueden tomarse como concluyentes.

4. Normalmente, el problema radica en formular valores específicos para la


hipótesis alternativa que sean suposiciones razonables del parámetro y sin los
cuales es imposible calcular la potencia. Cuando esto ocurre, Welcowitz
recomienda especificar valores convencionales para y que si bien son
arbitrarios, sean tan razonables como lo es la regla de decisión del 0,05 ó
0,01. Para cada prueba recomienda tres valores, según que se sospeche que
la magnitud del efecto en la población, esto es, y, sea pequeño, mediano o
grande. Los valores que recomienda son los siguientes:

94
Grupo de Investigación de Ingeniería Tisular Máster en Ingeniería Tisular

a) Para la prueba de la media de una población y para la prueba de la


diferencia entre dos medias independientes, y puede fijarse en 0,2; 0,5 y 0,8
respectivamente.

b) Para la prueba de la proporción de una población y para la de un


coeficiente de correlación de Pearson los valores recomendados son de 0,10,
0,30 y 0,50, según que se postulen efectos pequeños, medianos o grandes
respectivamente.

95
Grupo de Investigación de Ingeniería Tisular Máster en Ingeniería Tisular

D.- LA POTENCIA-EFICIENCIA

En este Proyecto de Investigación hemos estudiado tres criterios que conviene considerar
en la resolución estadística de los diseños. En primer lugar, hemos hablado de los
niveles de medición de las variables. A continuación, hemos estudiado el modelo
estadístico, que nos indica que existen dos tipos de pruebas, las paramétricas y las no
paramétricas, analizando las exigencias de ambas. En tercer lugar, hemos tratado el
concepto de potencia, que indica que, en igualdad de condiciones, las pruebas
paramétricas son más potentes. Analicemos ahora un cuarto criterio: el de la potencia-
eficiencia.

Este concepto hace referencia al incremento de n necesario para hacer que la prueba
estadística B sea tan poderosa como la A. Dada una potencia, compara el tamaño de la
muestra necesario para una prueba, B, con el tamaño requerido por una segunda, A, que
actúa como término de comparación. Ambas pruebas se aplicarían bajo las mismas
condiciones. Así, dadas una hipótesis de nulidad, una hipótesis alternativa, la potencia, el
nivel de significación y el tipo de contraste, la potencia-eficiencia del estadístico de
contraste B con respecto a otro A es A/B o como escribe Siegel (1995):

Potencia-eficiencia de la prueba B = na/nb por ciento

Donde na es el número de sujetos de la prueba A para una potencia dada y nb es el


tamaño de la muestra de la prueba B necesario para tener la misma potencia que A. Sea
na = 20 y nb = 25. La prueba B tiene una potencia-eficiencia de: 20/25 × 100 = 80%

Lo que significa que son necesarios 100 casos de B por cada 80 casos de A, siempre que
se cumplan todos los supuestos que subyacen a la aplicación de ambas pruebas y
cuando la prueba A es más poderosa.

96
Grupo de Investigación de Ingeniería Tisular Máster en Ingeniería Tisular

Ya se ha dicho que a medida que son menores o más débiles los supuestos de un
modelo particular, más generales son las conclusiones obtenidas tras la aplicación de la
prueba estadística asociada con el modelo, pero menos poderosa es aquella para
rechazar la hipótesis de nulidad. La forma de conjugar potencia y generalidad es elegir
una prueba estadística de amplia generalidad e incrementar su potencia hasta un nivel
dado, aumentando el tamaño de la muestra. Por ejemplo, si tenemos un diseño de dos
grupos relacionados en el que podemos elegir entre la prueba t (paramétrica) y la prueba
de McNemar para la significación de los cambios (no paramétrica), si nos inclinamos por
la segunda, es necesario aumentar el tamaño de n para que ésta tenga la misma potencia
que aquélla. Es decir, la prueba t es más potente pero requiere datos que cumplan con
los requisitos de independencia, normalidad, homoscedasticidad y medida de intervalo,
mientras que la segunda posee mayor generalidad, pues sólo le afecta el primer requisito.
Su potencia puede aumentar hasta la que tendría la prueba t incrementando el tamaño de
la muestra. Respecto a ésta, su eficacia relativa oscila entre el 63 y el 95 por cien,
dependiendo de la distribución y tamaño de los datos a analizar.

En resumen, cuando se cumplen los requisitos de las pruebas paramétricas éstas tienen
más eficiencia relativa que las no paramétricas, pero pueden equipararse siempre que en
las segundas se incremente el tamaño de n hasta donde lo requiere la potencia de sus
equivalentes paramétricas. Este dato puede ser de interés práctico ya que con frecuencia
es difícil calcular la eficiencia relativa de dos pruebas, ya sean éstas paramétrica o no
paramétricas, ya sean ambas no paramétricas.

97

También podría gustarte