Documentos de Académico
Documentos de Profesional
Documentos de Cultura
1
Instituto de Investigaciones en Matemáticas Aplicadas y en Sistemas, UNAM. Circuito escolar
3000, Ciudad Universitaria, 04510, Ciudad de México. 2Universidad Autónoma Metropolita-
na, Unidad Iztapalapa. Av. San Rafael Atlixco 186, Leyes de Reforma primera sección, 09340,
Ciudad de México. (hmm@xanum.uam.mx). 3Instituto Nacional de Pediatría. Avenida de los
Insurgentes Sur 3700, 04530, Ciudad de México. (chiharumurata@gmail.com). 4Grupo de
Atención Médica Integral. Pintapán sección 3 manzana 3 lote 3. Unidad Habitacional Cana-
nea, Iztapalapa, 09969, Ciudad de México. (drzaldivar2@gmail.com).
INTRODUCCIÓN INTRODUCTION
E I
n la naturaleza y en la sociedad, la construcción n nature and in the society, the construction of
del conocimiento sobre la realidad se enfrenta knowledge on reality is fraught with variability
a la variabilidad de los procesos estudiados. of the processes studied. An strategy to deal
Una estrategia para tratar esa variabilidad es conside- with this variability is to consider it as a random
rarla como un fenómeno aleatorio. En los fenómenos phenomenon. In random phenomena, it is not
aleatorios no es posible hacer una predicción exacta possible to make an accurate prediction or to establish
o establecer leyes y teorías determinísticas acerca de deterministic laws and theories about any event.
algún evento. La estadística, para contender con la Statistics to deal with randomness was developed as
aleatoriedad se ha desarrollado como una disciplina a discipline that studies the regularity with which
que estudia la regularidad con la que ocurren los resul- the results of a random phenomenon occur within
tados de un fenómeno aleatorio al considerar grupos a group of elements that share certain characteristics
de elementos que comparten ciertas características, delimiting the population as a statistical concept.
que delimitan a la población como concepto estadís- The principle of statistical regularity establishes that
tico. El principio de regularidad estadística establece the relative frequencies with which different results
que las frecuencias relativas con las que aparecen los appear will tend to change very little as the number
diferentes resultados, tenderán a cambiar muy poco of observations increases, that is, those frequencies
conforme el número de observaciones aumenta, es stabilize. Under this statistical regularity principle, the
decir esas frecuencias se estabilizan. Bajo el principio possible results or variants of a random phenomenon
de regularidad estadística, los posibles resultados o can be assessed using the frequency with which they
variantes de un fenómeno aleatorio se pueden valorar occur. The mathematical models representing the
a través de la frecuencia con que éstos ocurren. Los stabilized frequencies of these phenomena are called
modelos matemáticos que representan las frecuencias probability distributions.
estabilizadas de estos fenómenos se llaman distribu- Populations are studied through samples of
ciones de probabilidad. elements that generate numerical data (Méndez-
Las poblaciones se estudian mediante muestras de Ramírez et al., 2013). Statistical inference is a process
elementos que generan datos numéricos (Méndez- that tries to find the characterization of the regularity
Ramírez et al., 2013). La inferencia estadística es un in populations from samples data. There are three
proceso que trata de encontrar caracterizaciones de esa paradigms in statistical inference, but these are not
regularidad en las poblaciones a partir de los datos de clearly differentiated in the classroom neither in
las muestras. Existen tres paradigmas en la inferencia the common use of statistics. This paper aims to
describe and compare the principal ideas of these
*Autor responsable v Author for correspondence. three paradigms used in statistical inference, without
Recibido: marzo, 2018. Aprobado: marzo, 2019. delving into mathematical details. Firstly, the concepts
Publicado como ENSAYO en Agrociencia 53: 1043-1069. 2019. of population and probability distributions are shown,
1043
AGROCIENCIA, 1 de octubre - 15 de noviembre, 2019
estadística, pero estos no están claramente diferencia- and some common models are exemplified; then, each
dos en la enseñanza y en el uso común de la estadística. of the paradigms are described and their characteristics
En este escrito se pretende describir y comparar las are compared.
ideas principales de los tres paradigmas usados en la
inferencia estadística, sin pretender mostrar los detalles Population and probability models
matemáticos. Inicialmente se presentan los conceptos
de población y de distribución de probabilidad, y se In research and even in everyday life, it is required
ejemplifican algunos modelos comunes; después se to deal with sets of elements, whether they are
describe cada paradigma y se comparan sus caracte- people, plants, animals or objects, that constitute
rísticas. the populations of interest. To study practical
cases, the set of elements constituting a population
Población y modelos de probabilidad is delimited, mapping out the characteristics that
the set presents. For instance, if the interest is to
En la investigación y aun en la vida cotidiana se know the fertility rate projection in Mexico during
requiere contender con conjuntos de elementos ya the year 2020, the population to consider will be
sean personas, plantas, animales u objetos que cons- compounded by women between 15 and 45 years
tituyen las poblaciones de interés. Para estudiar casos old that will be dwelling in Mexico during that year.
prácticos, el conjunto de elementos que componen If each woman is assigned the number of children
una población se acota, señalando las características she has in that period, we will have a number for
que ese conjunto presenta. Por ejemplo, si lo que each woman of this population, and in such a way
interesa es conocer la tasa de fecundidad en México that by averaging these numbers, the so-called
durante el año 2020, la población a considerar está fertility rate projection will be obtained. However,
conformada por las mujeres que tienen entre 15 y if the population is changed, say, women with the
45 años y que viven en México durante ese año; si a same characteristics, but in different year of study;
cada mujer se le asigna el número de hijos que tiene a different rate will be obtained.
(se mide) en ese periodo, se tendría un número para These properties summed up as averages,
cada mujer de esa población, de tal manera que al proportions, rates, etc., that characterize the
promediar esos números se obtiene la llamada tasa de population are called “parameters”, and are commonly
fecundidad. Evidentemente, al cambiar la población, denoted by letters of the Greek alphabet , , , ,
por ejemplo, las mujeres con las mismas caracterís- , for example.
ticas, pero en diferente año de estudio, tendrán una In general, it is established that the elements of
tasa distinta. the population are units ui with certain common
Esas propiedades agregadas como promedios, characteristics represented by A, B, C, and D.
proporciones, tasas, etc., caracterizan a la población, Thus, with the ideas of the previous example we
se llaman parámetros y se denotan comúnmente por can speak of two populations: one compounded by
letras del alfabeto griego, por ejemplo , , , , . women with A) age 15 to 45, B) in Mexico, C1) in
En general, se establece que los elementos de la 2020; and two by women with A) age 15 to 45, B)
población son unidades ui con ciertas características in Mexico, C2) in 2014. The measurement of the
comunes denotadas por A, B, C, D. Así, con las ideas number of children for each woman is the variable of
del ejemplo anterior podemos hablar de dos pobla- interest, commonly denoted by X; and the aggregate
ciones: una conformada por mujeres con A) edad of this variable of interest is the fertility rate 1 in
de 15 a 45, B) en México, C1) en 2020; y otra por the first population and 2 in the second. Another
mujeres con A) edad de15 a 45, B) en México, C2) important aspect of interest is the determination
en 2014. La medición del número de hijos en cada of the frequency of the different X values. For
mujer es la variable de interés denotada comúnmente instance, what is the frequency of women with zero
por X; y el agregado de esa variable de interés es la tasa children, or with 3 or 4 children, or with more than 4
de fecundidad 1 en la primera población y 2 en la children? To answer this, a model is used to represent
segunda. Otro aspecto de interés es la determinación the stabilized relative frequency of the occurrence
de la frecuencia de los diferentes valores de X; por of different values of X but that model and their
ejemplo, cual es la frecuencia de mujeres con cero parameters depend upon the characteristics that
hijos, o con 3 o 4 hijos, o con más de 4. Entonces, se define the population. That model is the so-called
usa un modelo para representar las frecuencias relativas frequency or probability distributions f (xi|). In
estabilizadas de ocurrencia de los diversos valores de this case, the values of xi change from one element
X, pero ese modelo y sus parámetros dependen de las to another, but the model tries to reflect, as much
características que definen a la población. Ese modelo as possible, the frequencies with which the values of
es la llamada distribución de frecuencias o de probabi- xi occur in the population. If these frequencies are
lidades f (xi|). En este caso los valores xi cambian de stable, probabilities of occurrence of the different X
un elemento a otro, pero el modelo pretende reflejar lo values can be considered. These probabilities depend
mejor posible las frecuencias con que ocurren los valo- on what population is being handled, on what are
res xi en la población. Si esas frecuencias son estables se the existing elements, and on the characteristic being
pueden considerar probabilidades de ocurrencia de los measured.
diversos valores de X. Estas probabilidades dependen
de qué población se trata, qué elementos son y qué The choice of a probability distribution model
característica se les mide.
The search for a model that best fits the
La elección de un modelo de distribución de distribution of populational data, f (xi|), is done
probabilidad taking into account several aspects such as: the
nature of the data values range, previous experience
La búsqueda del modelo que se ajusta mejor a in similar populations, theoretical considerations
la distribución poblacional de los datos, f (xi|), se regarding the constitution of xi, the mathematical
hace tomando en cuenta varios aspectos: la natura- facility and the degree of adjustment (goodness of
leza del rango de valores de los datos, experiencias fit) of the information from a sample to a particular
previas en poblaciones semejantes, consideraciones model. There are graphs such as histogram or
teóricas respecto a la constitución de la xi, facilidad quantile-quantile that allows the visualization of
matemática y el grado de ajuste (bondad de ajuste) adjustment degree, in which the extent of agreement
de la información de una muestra a un modelo en of the quantiles of the model with the empirical
particular. Hay gráficas que permiten visualizar el quantiles in a sample of elements of the population
grado de ajuste, como el histograma o las gráficas can be observed. There are statistical tests employed
cuantil-cuantil en las que se observa el grado de to evaluate the goodness of adjustment, such as
concordancia de los cuantiles del modelo con los the test of Shapiro-Wilks, Kolmogorov-Smirnov,
cuantiles empíricos en una muestra de elementos de Anderson-Darling, etc. Besides, there are tests to
la población. Hay pruebas estadísticas que permiten compare the degree of adjustment: the statistics of
evaluar la bondad del ajuste, como la de Shapiro- Akaike Information Criterion (AIC) and Bayesian
Wilks, Kolmogorov-Smirnov, Anderson-Darling, etc. Information Criterion (BIC). The probability
También hay estadísticas que permiten comparar el distribution can be discrete or continuous depending
grado de ajuste: el criterio de información de Akaike on the nature of the range of data values.
(AIC) y el criterio bayesiano de información (BIC).
Las distribuciones de probabilidad pueden ser dis- Discrete distributions
cretas o continuas, según la naturaleza del rango de
valores de los datos. Some phenomena may have a discrete number of
possible outcomes and it is pertinent to count them
Distribuciones discretas up. For instance, in a clinical trial, the number of
participants who were healed on receiving certain
Algunos fenómenos tienen un número discreto treatment should be counted. It may also be of interest
de posibles resultados y es de interés contarlos. Por to count the number of traffic accidents that occur
ejemplo, en una prueba clínica se cuenta el número de in a fixed period of time. The binomial and Poisson
participantes que sanaron al recibir cierto tratamiento. distributions are two models that respectively represent
También puede ser de interés contar el número de such situations. It is worth mentioning that there are
accidentes de tránsito que ocurren en un periodo fijo some models to represent the regularity of the discrete
de tiempo. Las distribuciones binomial y Poisson son variables depending on the context in which they
dos modelos que representan respectivamente tales si- occur.
tuaciones. Cabe mencionar que existen otros modelos
para representar la regularidad de las variables discretas Bernoulli trials and derived distributions
de acuerdo al contexto en el que ocurren.
Bernoulli trials (1667-1748) are events that are
Ensayos Bernoulli y distribuciones derivadas independent of each other with a constant probability
p that certain characteristic A, called “success”, occurs.
Los ensayos de Bernoulli (1667-1748) son eventos
o sucesos independientes unos de otros y con una pro- Binomial distribution
babilidad constante p de que ocurra cierta característica
A que llamamos “éxito”. If independent trials are performed, it will be
interesting to observe the relative frequencies with
Distribución binomial which the samples from n trials would occur with 0,
1, 2, 3,..., n successes. Thus, if we consider a group of
Si hay ensayos independientes, es de interés ob- five patients (n5) that are receiving treatment and
servar las frecuencias relativas con las que ocurren the probability of success (the patient improves) is ;
las muestras de n ensayos, con 0, 1, 2, 3,..., n éxitos. these patients can be considered as five independent
Así, si consideramos un grupo de cinco pacientes Bernoulli trials with a probability of success . The
(n5) que reciben tratamiento y la probabilidad de regularity with which every possible number (n) of
éxito (el paciente mejora) es ; a esos pacientes los successes occur is known as binomial distribution
podemos considerar como cinco ensayos indepen- with parameters and n. It can be shown that the
dientes de Bernoulli con probabilidad de éxito . La probability of occurring successes, conditioned to the
regularidad con la que ocurre cada posible número (n) value of and of n is:
de éxitos es conocida como distribución binomial
con parámetros y n. Se puede demostrar que la P ( x | θ ) = C xn θ x (1− θ )n−x for x0, 1, 2, 3,…, n
probabilidad de que ocurran x éxitos, condicionada and 01
al valor de y de n es:
The expected value and the variance of this
P ( x | θ ) = C xn θ x (1− θ )n−x para x0, 1, 2, 3,…, distribution are given by the following expressions:
n y 0q1
E(X)n y Var(X)n(1) respectively.
El valor esperado y la varianza de esta distribución
están dados por las siguientes expresiones: Figure 1 depicts three binomial distributions with
different parameters (, n). It is worthwhile to note
E(X)n y Var(X)n(1) respectivamente. that the form is symmetric when 0.5 as it the case
of the central curve, but if 00.5, the curve slants
En la Figura 1 se presentan tres distribuciones bi- to the right and skewed to the left when 0.51 as
nomiales con diferentes parámetros (, n). Cabe notar it is observed the other curves. The expected values of
que la forma es simétrica cuando 0.5 como es el the three distributions are 3, 5 and 10.5, respectively
caso de la curva central, pero si 00.5, la curva es (a rightward shift is observed) and the variances are
sesgada a la derecha y sesgada a la izquierda cuando 2.1, 2.5 and 3.15 in this order.
0.51 como se observa en las otras curvas. Los
valores esperados de las tres distribuciones son 3, 5 y Poisson distribution
10.5, respectivamente (se observa un desplazamiento
a la derecha) y las varianzas son 2.1, 2.5 y 3.15, en ese Siméon Denis Poisson (1781-1840), a nineteenth-
orden. century French probabilist became interested in events
0.30
q=0.3 y n=10
q=0.5 y n=10
0.25 q=0.7 y n=15
0.20
f(x) 0.15
0.10
0.05
0
0 2 4 6 8 10 12 14 16
x
Figura 1. Distribuciones binomiales.
Figure 1. Binomial distributions.
0.30
l=10
l=10
0.25 l=15
0.20
f(x) 0.15
0.10
0.05
0
0 5 10 15 20 25
x
Figura 2. Distribuciones Poisson.
Figure 2. Poisson distributions.
Cuando en una distribución binomial n es grande distribution converges to the Poisson with n
y es pequeña, la probabilidad binomial puede (provided that takes a finite value and is constant).
aproximarse a través de la distribución Poisson. Se That is:
puede demostrar que, en el límite, cuando n y
0, la distribución binomial converge a la Poisson lim P ( x | θ ) = lim C xn θ x (1− θ )n−x
con n (siempre que tome un valor finito y sea n→∞ n→∞
θ→0 θ→0
constante). Esto es,
e− λ λ x
= P ( X = x | λ) =
lim P ( x | θ ) = lim C xn θ x (1− θ )n−x x!
n→∞ n→∞
θ→0 θ→0
where, is the only parameter of the distribution. It
e− λ λ x can also be shown that the variance and the expected
= P ( X = x | λ) =
x! value of the Poisson distribution are both equal to .
En la Figura 3 se presentan dos distribuciones con There are also phenomena that have an infinite
diferentes parámetros number of possible results. For instance, those
that result from measuring the time of life or
Distribuciones continuas anthropometric characteristics (weight, height, hip
circumference, etc.) of the members of a population.
También hay fenómenos que tienen un número Since the number of possible results is infinite, the
infinito de resultados posibles. Por ejemplo, aquellos probability of a particular value is zero; therefore, it is
que resultan de medir el tiempo de vida, o las caracte- necessary to evaluate the probabilities of intervals of
rísticas antropométricas (peso, estatura, circunferencia the values of the variables. The models for these types
de cintura, etc.) de los miembros de una población. of cases are presented in terms of density function
Dado que el número de posibles resultados es infinito, and the evaluation of probabilities corresponds to
la probabilidad de un valor particular es cero, por lo the area under the density curve in that interval.
que es necesario evaluar las probabilidades de inter- There are great varieties of models; perhaps, the
valos de valores de la variable. Los modelos para estos most common examples are gamma, exponential and
casos se plantean en términos de funciones de densidad normal distributions.
0.45
0.30
P(N=n)
0.25
0.20
0.15
0.10
0.05
0
0 1 2 3 4 5 6 7 8 9
x
Figura 3. Distribución binomial negativa.
Figure 3. Negative binomial distribution
⌠b ⌠b 1 x
P (a < X < b | θ ) = f ( x ) dx =
exp− dx As a consequence, E(X) and Var(X)2. Figure
⌡a ⌡a θ θ
5 is a graph of two exponential distributions with
para x0 y 0 different parameters.
0.40
k=1, q=1
0.35
k=2, q=2
0.30
0.25
f(x) 0.20
0.15
0.10
0.05
0
0 5 10 15 20
x
Figura 4. Distribución gama.
Figure 4. Gamma distribution
1.2
q=1
1 q=0.5
0.8
f(x)
0.65
0.4
0.2
0
0 1 2 3 4 5
x
Figura 5. Distribuciones exponenciales.
Figure 5. Exponential distributions.
llamado distribución de errores para representar las value” of that characteristic. Lambert Adolphe
frecuencias de ocurrencia de los valores de muchas Jacques Quetelet (1796-1874) applied that model
mediciones de una característica de un mismo ob- in a different situation; that is, instead of measuring
jeto. El promedio de esas mediciones se consideró a characteristic many times in a single object, he
el “valor verdadero” de esa característica. Lambert measured the same characteristic only once in
Adolphe Jacques Quetelet (1796-1874) aplicó ese many subjects. He observed that these values vary
modelo en una situación diferente; es decir, de me- around a value called average or mean, which in
dir un solo objeto muchas veces, el midió la misma the case of anthropometric measurements he called
característica una sola vez pero en muchos sujetos. it the “average man”, and that their frequencies are
Él observó que esos valores varían alrededor de un distributed with the same model of error distribution
valor llamado media, que para el caso de mediciones that he called “normal distribution”.
antropométricas lo llamó el “hombre medio”, y que The model expresses the probability that a random
sus frecuencias se distribuyen con el mismo modelo variable X takes values in an interval (a, b) and depends
de la distribución de errores que denominó “distri- on two parameters – the mean m and the variance 2.
bución normal”. The possible values for x and m range from to
El modelo expresa la probabilidad de que una ; and those of range from 0 to .
variable aleatoria X tome valores en un intervalo (a, The mathematical expression for normal model
b) y depende de dos parámetros que son la media y with an average m and variance 2 is as follows:
la varianza 2. Los valores posibles para x y van de
a ; los de van de 0 a .
La expresión matemática del modelo normal con ⌠b
media y varianza 2 es la siguiente: P ( a < X < b | µ, σ 2 ) = f ( x ) dx
⌡a
⌠b 1 ( x − µ)2
⌠b
= exp − dx
⌡a 2 πσ2 2σ 2
P ( a < X < b | µ, σ 2 ) = f ( x ) dx
⌡a
⌠b ( x − µ)2
1 this is denoted as XN(, 2).
= exp − 2
dx
⌡a 2 πσ2 2 σ
There is a very particular case when 0 and
21 denoted as ZN(0,1). This is the normal
y se denota como XN(, 2). standard that serves as a reference for calculating
probabilities in normal distributions with any pair
Hay un caso muy particular cuando 0 y 21 of parameters after applying the transformation
denotada como ZN(0,1). Esta es la normal estándar x−µ
(called standardization): z = . Figure 6 shows
que sirve como referencia para el cálculo de probabi- σ
lidades en las distribuciones normales con cualquier the graphical representation of normal standard. A
par de parámetros después de aplicar la transformación particular characteristic of this distribution is that
x−µ P(1Z1)0.68; P(1.96Z1.96)0.95;
(llamada estandarización): z = . La representa-
σ P(2.58Z2.58)0.99.
ción gráfica de la normal estándar está en la Figura 6. Several normal distributions are presented in Figure
Una característica particular de esta distribución es 7. Note that as the mean increases, the curves shift
que P(1Z1)0.68; P(1.96Z1.96)0.95; to the right and as the variance increases, the curves
P(2.58Z2.58)0.99. become wider (i.e. the data are more dispersed).
Varias distribuciones normales se presentan en la As mentioned, wherever a study of the society and
Figura 7. Nótese que conforme aumenta la media, las nature is focused, there will be randomness, variability
curvas se desplazan a la derecha y en la medida que la and unpredictability. However, due to the constancy
varianza aumenta, la curva es más amplia (los datos in the frequencies of occurrence of the possible results,
están más dispersos). regularity is also found.
f(z)
-3 -2 -1 0 1 2 3
z
68% de área
95% de área
99% de área
Figura 6. Distribución normal.
Figure 6. Normal distribution.
m=0, s2=0.2
m=0, s2=1.0
m=0, s2=5.0
1.0
m=-2, s2=0.5
0.8
0.6
f(x)
0.4
0.2
0
-5 -4 -3 -2 -1 0 1 2 3 4
x
Figura 7. Distribuciones normales.
Figure 7. Normal distributions.
Como se mencionó, donde quiera que se enfoque Applied statistics characterizes and compares
un estudio de la sociedad y la naturaleza, se encontrará populations. If you use in this task models such as
aleatoriedad, variabilidad e impredictibilidad. Sin those already exposed (among others), it is called
embargo, debido a la constancia en las frecuencias parametric statistics because it involves the value of
de ocurrencia de los posibles resultados, también se the parameters. The probability distribution models
encuentra regularidad. are assumed to be known by their forms; however, they
particular cubre o no cubre el parámetro, ignorando el Consider a subject for which specifically the 10
proceso que genera los intervalos. El proceso es el que years passed and this particular subject does not die or
tiene el 95% de probabilidad de producir un intervalo dies before the age of 80. And if he dies, his death will
que cubra el valor del parámetro. Además, es impor- be “total”, and not just 35%. Thus, a “95% confidence
tante aclarar que el investigador no necesita realizar interval for a parameter” will contain that parameter
las repeticiones de las muestras porque se efectúa con in 95% of the intervals that are constructed with the
base en la distribución teórica del estimador. possible samples. However, an interval constructed for
Considere un sujeto para el cual específicamente a particular sample include or does not include the
pasan los 10 años, ese sujeto en particular no muere parameter. The assertion is that it comes from a process
o bien muere antes de los 80. Y si muere, “se muere in which 95% of them contain the parameter. This
todito”, y no el 35% de él. Así, un “intervalo de can be likened to a reporter who says “according to
confianza al 95% para un parámetro”, contendrá ese generally well-informed sources, such event occurred”.
parámetro en el 95% de los intervalos que se cons-
truyesen con las muestras posibles. Sin embargo, un Hypothesis testing strategy
intervalo obtenido para una muestra en particular,
incluye o no incluye el parámetro. La aseveración es In “hypothesis testing” process, two hypotheses
que proviene de un proceso en el que el 95% de ellos - the null (H0) and the alternative (Ha) that specify
contiene al parámetro. Es como un reportero que dice certain probability model(s) - about the state of
“según fuentes generalmente bien informadas, ocurrió nature are proposed. Initially, there is a preference
tal evento”. for the null hypothesis; decision rules are designed
and depending on the sample the null hypothesis
Estrategia de pruebas de hipótesis is rejected or not rejected. Two types of errors can
be committed: the type 1 error consists in rejecting
En el proceso de “pruebas de hipótesis”, se plan- the null hypothesis when “the nature” supports the
tean dos hipótesis sobre el estado de naturaleza: nula hypothesis; the type 2 error is not rejecting the null
(H0) y la alternativa (Ha) que especifican cierto(s) hypothesis when the nature presents the alternative. It
modelo(s) de probabilidad considerados hipótesis is necessary to seek for procedures or decision rules that
nula (H0), y otro(s) modelo(s) como hipótesis alter- fix type 1 error probability at a low value, usually at
nativa (Ha). Al inicio hay preferencia por la hipótesis 0.05, and try to reduce the probability of committing
nula; se diseñan reglas de decisión que según sea la type 2 error as small as possible, while farther the
muestra se rechaza la hipótesis nula o no se rechaza. null hypothesis is from the true model (nature) for
Dos tipos de errores se pueden cometer: el error tipo generating the random variables summarized in the
1 que consiste en rechazar la hipótesis nula cuando test statistics. These two error probabilities are defined
“la naturaleza” es esa hipótesis; el error tipo 2 si no se by considering many possible random samples that
rechaza la hipótesis nula cuando la naturaleza presenta give raise to many values of the test statistic. A rule
la alternativa. Se buscan procedimientos o reglas de or decision function is designed and for this, the first
decisión que fijan la probabilidad del error tipo 1 en thing is to start with the data of each possible sample
un valor bajo, usualmente 0.05, y buscar que la proba- to obtain the value of a test statistic; then, the range
bilidad de cometer el error tipo 2 sea lo más pequeña of values of the test statistic, called rejection zone, that
posible mientras más alejado de la hipótesis nula esté has a given probability (vgr. 0.05) to occur if H0 is true.
el verdadero modelo (naturaleza) de generación de It is sought that this range of values of the test statistic
las variables aleatorias resumida en la estadística de has the minimum probability of occurring if the H0
prueba. Estas dos probabilidades de error se definen is not true and the truth is an alternative hypothesis
al considerar muchas posibles muestras aleatorias, que Ha; this is the type 2 error. That is to say, the test is
originan muchos valores de la estadística de prueba. powerful; power defined as the probability of rejecting
Una regla o función de decisión se diseña y para esto, H0 when it is false. This can be likened to a physician
primero con los datos de cada muestra posible se ob- who diagnoses patients, and on seeing many patients,
tiene el valor de una estadística de prueba; luego, el he obtains success in a high percentage of them (say
rango de valores de la estadística de prueba (llamado 95%). This strategy has a wide field of application
zona de rechazo) que tiene una probabilidad dada (vgr. in various areas such as epidemiology, insurances
0.05), de ocurrir si la H0 es cierta. Se busca que ese and in industries among others, since in these cases,
rango de valores de la estadística de prueba tenga la the possible samples are generated on repeating the
mínima probabilidad de ocurrir si la H0 no es cierta process many times. Its use in investigation in which
y lo cierto es una hipótesis alternativa Ha, éste es el the samples are considered obtained is questionable,
error tipo 2. Es decir, que tenga alta potencia definida as will be shown later.
como la probabilidad de rechazar H0 cuando ésta es
falsa. Es como un médico que diagnóstica a los pa- Paradigm in the instance (Fisher)
cientes y al considerar muchos pacientes, tiene éxito
en un porcentaje elevado de ellos (digamos 95%). Esta From the point of view of the research process, this
estrategia tiene un campo de aplicación muy amplio paradigm is identified after obtaining only a sample
en diversas áreas tales como la epidemiología, la de whose data are already available, without minding the
seguros y la industrial entre otras; dado que en esos values of the data in other samples.
casos las posibles muestras se generan al repetir el The sample is taken only once, that is, the data
proceso muchas veces. Su uso en investigaciones en are given, and they had happened. So, the question
las que la muestra se da por obtenida es cuestionable; is “what probability model is what makes those data
como se mencionará más adelante. to be the most likely to occur?” We will exemplify
the principal ideas of this approach in the context
Paradigma en la instancia (Fisher) of n Bernoulli trials. If the model that produces
the data is known (a binomial distribution), but its
Desde el punto de vista del proceso de investiga- parameter is unknown; then the probability that x
ción, este paradigma se ubica después de que se tiene successes occur in n trials is given by the probability
sólo una muestra (ya se tienen los datos); no interesan function:
los valores de los datos en otras muestras.
La muestra se toma por una única vez, es decir, f(x|)P(x successes in n trials given )
los datos están dados, así ocurrieron, de modo que se C xn θ x (1− θ )n−x
pregunta “qué modelo de probabilidad es el que hace
que esos datos sean los más probables de ocurrir”. Las In this function, the condition can be raised in the
ideas principales de este enfoque se ejemplificarán en reverse way, that is, as the function of conditional to
el contexto de n ensayos de Bernoulli. Si el modelo the sample x and in this way another function called
que produce los datos es conocido (una distribución “likelihood” is obtained. The likelihood function is
binomial), pero no se conoce su parámetro ; entonces usually denoted as (|x).
la probabilidad de que ocurran x éxitos en n ensayos
está dada por la función de probabilidad: (|x)p(x)P(Xx)
f(x|)P(x éxitos en n ensayos dado ) It is clear that this is not probability function for
C xn θ x (1− θ )n−x . It is the probability with which each value of
produces the sample x.
En esta función, la condición se puede plantear al The likelihood is the function of the parameters
revés, esto es, como la función de condicional a la conditional to the given data. This expression gives
muestra x y así se obtiene otra función que se llama the probability of the only sample x that occured (in
verosimilitud. La función de verosimilitud se denota the instance) according to the values of . The value
usualmente como (|x). of that maximizes the likelihood function is known
as “maximum likelihood estimator” and is usually
(|x)p(x)P(Xx) denoted with .
One way to represent the likelihood of various
Cabe aclarar que ésta no es función de probabilidad values of given that an x result occurred is to evaluate
para ; es la probabilidad con la cual cada valor de the relative likelihood or the quotient of each value of
produce la muestra x. the likelihood divided by the evaluated likelihood in
La verosimilitud es función de los parámetros, its maximum value. This is known as likelihood ratio
condicional a los datos dados. Esta expresión da la (LR). The expression is:
probabilidad de la única muestra x que ocurrió (en
la instancia) según los valores de . El valor de que LR (|x)/ ( |x)
maximiza la función de verosimilitud se conoce como
“estimador de máxima verosimilitud” y usualmente se
This expression is considered as the function of
denota con . when the value of x is what occured in the instance
Una forma de representar la verosimilitud de los
studied. Values of close to also have a “big”
diversos valores de dado que ocurrió un resultado x,
probability of having produced the sample x. Now,
es evaluar la verosimilitud relativa o el cociente de cada
the question is “What is “big”?” The idea is do not
valor de la verosimilitud dividido entre la verosimilitud
have a large decrease in the RV value. Thus, it is
evaluada en su máximo valor. Esto se conoce como
assumed that those values of that do not diminish
razón de verosimilitudes (RV). La expresión es:
the LR “by far” are a range of likelihood. The
values of are those that make credible the value
RV (|x)/ ( |x) of x. Thus, it is not known what is the value of the
parameter , and so, this is estimated in such a way
Esta expresión se considera como función de that the likelihood is the maximum (equalizing the
cuando el valor de x es el que ocurrió en la instancia es- first likelihood derivative to zero and clearing as a
tudiada. Valores de cercanos a también tienen una function of x).
probabilidad “grande” de haber producido la muestra For instance, let us assume that a decrease in
x. Cabe la pregunta ¿Qué es “grande”? La idea es que the likelihood from 1 until 0.1 would determine
no disminuya mucho el valor de la RV. Así se dice que the values of that are still possible to produce
aquellos valores de que no disminuyen la verosimi- the sample x. This set of values is represented with
litud “por mucho” son un intervalo de verosimilitud. {:(|x)/( |x)0.1}. That is, the set of values of
Los valores de son los que hacen verosímil el valor with likelihood ratios greater or equal to 0.1.
de x que se tiene. Así, no se sabe cuál es el valor del In general, it is possible to construct a range of
parámetro , y entonces, se estima éste de manera que likelihood, that is, a set of values of that have
la verosimilitud sea la máxima (igualando la primer likelihood ratio greater than a given percentage, are
derivada de la verosimilitud a cero y despejando a the ones that decrease the likelihood in this given
como una función de x). percent or less.
Por ejemplo, si se considera que una disminución
de la verosimilitud desde 1 hasta 0.1 determina valo-
res de que aún son factibles de haber producido la {: (|x)/ ( |x)p/100}
muestra x. Este conjunto de valores se representa con
{:(|x)/( |x)0.1}. Es decir, el conjunto de valores Note that the value p/100 is not a probability but
de con razones de verosimilitud mayores o iguales just a limit or level for the relative support for the
a 0.1. En general, se puede construir un intervalo de values of compared with the value of . Based on
verosimilitud, es decir, el conjunto de valores de que the analogy of the 95 and 99% confidence intervals,
tienen una razón de verosimilitud mayor que un por- Pawitan (2001) proposed two possible limits for the
centaje dado son los que disminuyen la verosimilitud value p/100: which are 0.15 and 0.04.
en ese porcentaje o menos. It is common that instead of LR as a quotient
of degrees of support, log(LR) is used as the
{: (|x)/ ( |x)p/100} measurement of the likelihood of each value of
compared with that of . If the value of (which
Nótese que este valor p/100 no es una probabili- does not detract in its probability of producing x in
dad, sólo es un límite o cota para el apoyo relativo de relation to ) is considered to be the one where LR
los valores de comparados con el valor . A partir is greater than 0.1, this is equivalent to the value of
de una analogía de los intervalos de confianza al 95 in which log(LR) is less than 2.3 (Figure 8).
y 99%, Pawitan (2001) propuso dos posibles límites In significance tests, a value or values of the
para el valor de p/100: 0.15 y 0.04. parameter 0 called null hypothesis when x given
Es frecuente que en lugar de la RV como cociente is assumed. Therefore, the supposition that H0 is
de grados de apoyo se use log(RV) como medida de true is only rejected if the maximum likelihood value
la verosimilitud de cada valor de comparada con la represents a “big” degree of contradiction between
de . Si se considera que un valor de (que no des- 0 and . The maximum of the function is obtained
merece en su probabilidad de producir x con relación under the supposition that the null hypothesis
a ) es aquel donde la RV sea mayor que 0.1, esto es P(x|0) is true. This degree of contradiction is newly
equivalente a el valor de en que log(RV) sea menor determined with a likelihood ratio which is now:
que 2.3 (Figura 8).
En las pruebas de significancia se supone un valor P ( x | θ 0 )
o valores del parámetro 0, llamada la hipótesis de LR =
nulidad dada x. Entonces, el supuesto de que H0 es P ( x | θ )
cierta sólo se rechaza si el valor de máxima verosimi-
litud representa un grado de contradicción “grande” If LR is small, say less than 0.1, H0 is rejected,
entre 0 y . El máximo de la función se obtiene bajo and we say the values of in H0 are in contradiction,
el supuesto de que la hipótesis nula es cierta P(x|0). that is, they are likely much less credible than the
Este grado de contradicción se determina de nuevo maximum likelihood estimator. However, if this
con una razón de verosimilitud, que ahora es: does not happen, H0 is not rejected. The limit for
the rejection is determined when the value of that
satisfices the hypothesis distracts or produces a much
P ( x | θ 0 ) lower probability. Then, the only x observed without
RV =
P ( x | θ ) restriction is the value of , and for this reason, the
hypothesis is rejected.
Si esta RV es pequeña, digamos inferior a 0.1, se The probability P is determined based on the fact
rechaza H0, y decimos que los valores de en H0 entran that if H0 is true, x data are produced with the degree
en contradicción, o sea, son mucho menos verosímiles of contradiction observed with the hypothesis or even
que el estimador de máxima verosimilitud. Si esto no greater. The value of P is the degree of contradiction
sucede, no se rechaza H0. El límite para el rechazo between the null hypothesis and the specific value of
4
-log RV
se determina cuando el valor de que cumple con the data in the sample. This is a decision similar to
la hipótesis desmerece o produce una mucho menor that expressed by Popper (1959): a H0 hypothesis is
probabilidad, la única x observada es el valor de sin rejected if P is “small”, but if P is not “small”, the H0
restricciones, por lo que se rechaza la hipótesis. hypothesis is not rejected although it is not proven
Se determina la probabilidad P de que si H0 es cier- to be true; it remains only as part of the plausible
ta, se produzcan datos x con el grado de contradicción hypothesis.
observado con la hipótesis, o aún mayor. El valor de P What Fisher did was an extension of the modus
es el grado de contradicción entre la hipótesis de nuli- tollen syllogism of the logic. The syllogism expresses:
dad y el valor específico de los datos en la muestra. Esta if H is true, then a certain result q must occur, but
es una decisión semejante a lo expresado por Popper if in practice, q did not occur, H is rejected. Let us
(1959), se rechaza una hipótesis H0 si P es “pequeña”; look at a simple example. Assume that the hypothesis
pero si P no es “pequeña”, no se rechaza la hipótesis H is that it rained at night, with an additional
H0 aunque no se demuestra que sea verdadera, sólo assumption that there was uncovered place. If it
queda como parte de las hipótesis plausibles. rained, the soil in that place would get wet. Here, q
Lo que hizo Fisher fue una extensión del silogismo is that the ground is wet. If this place was observed
modus tollen de la lógica. El silogismo expresa: si H es the next day and the ground was dry, H is rejected,
cierta, entonces debe ocurrir cierto resultado q, pero that is, it is established that it did not rain. This has
si en la práctica no ocurre q, se rechaza H. Veamos un also been called “negation of the consequent”. In this
ejemplo sencillo. Suponga que la hipótesis H es que example, it is seen that the rejection occurs with
llovió en la noche, con el supuesto adicional que se certainty; however, the acceptance of H is not valid.
tiene un lugar descubierto. Si llueve, se moja el suelo In the previous example, if the site observed is wet,
en ese lugar. Aquí q es que el suelo está mojado. Si al it is not all sure that it rained as the site could be
observar ese sitio al día siguiente está seco, se rechaza la watered or a pipe might be broken or that there was
H, es decir, se establece que no llovió. A esto también a flooding. All these can be alternative hypotheses.
le han llamado la negación del consecuente. En este Fisher’s postulation is the same; however in this time,
ejemplo se ve que el rechazo ocurre con certeza; en there is randomness. Therefore, the consequent of H
cambio, la aceptación de H no es válida. En el ejemplo is something that happens with a high probability.
anterior, si el sitio observado está mojado, no es seguro If this does not happen, there is a dilemma. That is
que llovió, pudo regarse, o se rompió una tubería, o H is not true or well, H is true but an unlikely event
hubo una inundación, como hipótesis alternativas. En occurred. To evaluate how unlikely is that event, the
el postulado de Fisher se trata de lo mismo, pero ahora value of P is obtained. This value is the probability
hay aleatoriedad. Entonces, el consecuente de H es algo that a shift or contradiction of the data occur with H
que ocurre con probabilidad alta. Si esto no ocurre se as the one presented or even greater. The researcher
tiene una disyuntiva; H no es cierta o bien, H es cierta uses this value as an indication of the degree of
pero ocurrió un evento improbable. Para valorar qué contradiction of the data with the hypothesis. It
tan improbable es ese evento, se obtiene el valor de P. is not necessary to make the decision to reject H,
Este valor es la probabilidad de que ocurra un aleja- much less to accept it. This approach is more linked
miento o contradicción de los datos con la H como el to scientific research than to a productive, natural or
que se presentó o aún mayor. El investigador usa este social process that is repeated. In this last case, the
valor como una indicación del grado de contradicción behavioral paradigm is appropriate.
de los datos con la hipótesis. No se requiere tomar la It is important to observe that for the evaluation
decisión de rechazar H, mucho menos aceptarla. Este of the P value, knowledge of test statistic distribution
enfoque está más ligado a la investigación científica que is required, that is, the sample derived distribution.
a un proceso productivo, natural o social que se repite. Nevertheless, a rejection zone is not established in the
En este último caso el paradigma comportamental es values of this statistic a priori. It is used only to obtain
el adecuado. the value of P.
Es importante observar que para la evaluación del The model can represent the expected situation,
valor de P se requiere conocer la distribución de la the negation of a causality hypothesis. The model is
estadística de prueba, es decir, la distribución derivada the hypothesis to test which is usually called H0. The
del muestreo. Sin embargo, no se establece una zona concordance among the observed (O) data and the
de rechazo en los valores de esta estadística a priori; se expected (E) data is evaluated under the assumption
usa solo para obtener el valor de P. that the model is true. Usually, this discordance is
El modelo puede representar la situación esperada, evaluated based on the probability (value of P) of
la negación de una hipótesis de causalidad. El modelo a discordance like the one obtained or even greater,
es la hipótesis a probar usualmente llamado H0. La with the assumption that the model given by H0 is
concordancia entre los datos observados (O) y los true. For instance, if the model postulates zero value
esperados (E) se evalúa bajo el supuesto que el modelo for the difference between two population averages
es cierto. Usualmente esta discordancia se valora de 120, it is expected that the Student’s t-value
acuerdo con la probabilidad (valor de P) de una dis- be 0 (the expected value). Once the research is done
cordancia como la obtenida o aún mayor, suponiendo and there is specific value of the Student’s t-statistic
cierto el modelo dado por H0. Por ejemplo, si el mo- (t0), the degree of shift from 0 that has the value t0 or
delo postula un valor de cero para la diferencia entre even greater shift P(tt0) is evaluated and that is the
dos promedios poblacionales 120, se espera que “P value”. The most common interpretation within
el valor de t de Student sea 0 (el valor esperado). Una this paradigm is:
vez que se hace la investigación y se tiene un valor
especifico de la estadística t de Student (t0), se valora P0.01 - Strong evidence against H0
el grado de alejamiento de 0 que tiene ese valor t0 o 0.01P0.05 - Moderate evidence against H0
un alejamiento aun mayor P(tt0) ese es el “valor 0.05P0.10 - Suggestive evidence against H0
de P”. La interpretación más común, dentro de este P0.10 - Little or no evidence against H0
paradigma es:
These evaluations are routinely used in research
P0.01 - Evidencia fuerte en contra de H0 articles. It is worthwhile to note that in the previous
0.01P0.05 - Evidencia moderada en contra de H0 reasoning, type 2 error is not contemplated, nor
0.05P0.10 - Evidencia sugestiva en contra de H0 a particular alternative hypothesis, nor is there a
P0.10 - Poca o nula evidencia en contra de H0 rejection region. It is only intended to know the
degree of support that the only available sample
Estas evaluaciones se usan rutinariamente en los gives.
artículos de investigación. Es importante notar que Consider a diagnostic test that can be positive ()
en el razonamiento anterior no se contempla el error or negative () and that this depends on whether
tipo 2 ni una hipótesis alternativa particular, tampoco the subject to whom the test is applied is sick of a
hay una región de rechazo. Sólo se pretende saber el specific disease (S) or is not (NS). Let’s consider the
grado de apoyo que la única muestra que se tiene da probabilities table of positive result () or negative
a la H0. () depending on whether it is S or no S as shown in
Considere una prueba de diagnóstico que puede Table 1.
ser positiva () o negativa () y que esto depende de According to the paradigm in the instance, if a
si el sujeto al que se le aplica la prueba está enfermo particular patient has a positive test, the likelihood
de un padecimiento específico (E) o no lo está (no E). ratio is calculated with the assumption that he is
Consideramos la tabla de probabilidades del resultado sick until proved otherwise. For some authors, this
positivo () o negativo (), según si es E o no E, evidence is sufficiently small if the following quotient
como se muestra en el Cuadro 1. is less than 0.10 (Chatterjee, 2003).
En muchos problemas estándar, pero no en todos, Unlike the previous approaches in which the
la inferencia en la instancia coincide numéricamente parameters are unknown constants, in the Bayesian
con el comportamental. Sin embargo, la interpretación paradigm, the parameters are considered random
y los supuestos que la sustentan son diferentes. variables in two directions. On one hand, the fixed
parameters are associated with a distribution of
Paradigma bayesiano probabilities that reflects the degree of uncertainty
which the researchers have about their values. But
A diferencia de los enfoques anteriores en los que there is a possibility that the parameter is random
los parámetros son constantes desconocidas, en el under a given context. The models of random effects
paradigma bayesiano los parámetros se consideran (intercept and gradient) are an example of this
variables aleatorias en dos sentidos. Por un lado, a situation. In both cases, the distribution is called “a
los parámetros fijos se les asocia una distribución de priori” or “initial”.
probabilidades que refleja el grado de incertidumbre This paradigm operates once you have the data
que los investigadores tienen sobre sus valores. Pero (x) as in the instance paradigm. It also uses the
existe la posibilidad de que el parámetro sea aleatorio likelihood function as a starting point. The Bayes
bajo un contexto determinado. Los modelos de efectos theorem is used so that with the a priori distribution
aleatorios (intercepto y pendientes) son un ejemplo and the likelihood, the posteriori or final probability
de esta situación. En ambos casos, la distribución es is obtained, which is the distribution of the parameter
llamada “a priori” o “inicial”. conditioned to the value of x, which is the given data.
Este paradigma opera una vez que se tienen los With the final distribution, conclusions on the studied
datos (x), al igual que en el paradigma en la instancia. phenomenon are obtained. In this paradigm, the
También utiliza la función de verosimilitud como likelihood is interpreted as a conditioned probability
punto de partida. El Teorema de Bayes se usa para of the two variable randoms x and :
que con la distribución a priori y la verosimilitud se
obtenga la probabilidad a posteriori o final, que es la P(x,)P()P(x|)P(x)P(|x) P(,x)P()
distribución del parámetro condicionada al valor de P(x|)/P(x)
x, es decir, dados los datos. Con la distribución final
se obtienen conclusiones sobre el fenómeno estudia- This theorem can be seen as a likelihood weighing
do. En este paradigma la verosimilitud se interpreta where the weighting is:
como una probabilidad condicionada de dos variables
aleatorias x y : P()/P(x)
P(x,)P()P(x|)P(x)P(|x) P(,x)P() This P() represents what is known before the study
P(x|)/P(x) on considering it as random.
The inference about the value of the parameter
Este teorema se puede ver como una ponderación is done by obtaining the mean or mode of the final
de la verosimilitud, donde el ponderador es: distribution. The range of probability a posteriori can
Fisher Neyman-Pearson
q fijo y X
X y q fijos aleatorio
f(q|x)
X fijo y q aleatorio
Bayes
Figura 9. Diferencias básicas en los supuestos de los tres paradigmas.
Figure 9. Basic differences in the assumption of the three paradigms.
a considerar dos muestras de tamaño ac para In general, more sensitive than specific tests are
pacientes con la enfermedad y la otra de tamaño sought for because it is more important to identify
bd para los individuos no enfermos; en ambas se correctly the patients. If abcd individuals are
clasifica el resultado de la prueba. Se puede plantear sampled globally, and these are classified according
la pregunta de investigación: entre varias pruebas to Table 1, then it is valid to obtain:
¿cuál es la mejor? Para esto se calculan los siguien-
a Positive Predictive Value (PPV)
tes cocientes: sensibilidad = P (+ | E ) = ;
a +c
a
(PPV ) = P ( E | +) = ;.
d a +b
especificidad = P (− | NE ) = .
b +d
En general se buscan pruebas más sensibles que Negative Predictive Value (NPV)
específicas por considerar que es más importante
identificar de manera correcta a los enfermos. Si se d
( NPV ) = P ( NE | −) =
muestrea de manera global abcd individuos, y c +d
éstos se clasifican de acuerdo con el Cuadro 1, entonces
es válido obtener: as the probability of being (not being) sick since the
test is positive (negative).
Valor Predictivo Positivo
a If the result of the test is continuous, for instance,
( VPP ) = P ( E | +) = ; the creatinine or hemoglobin, it can also be asked:
a +b
What is the optimum cutoff limit of each test? To
answer this question, a graph of sensitivity against
Valor Predictivo Negativo 1-specificity at different cutoff values is constructed.
d This graph is known as Receiver Operating Characteristic
( VPN ) = P ( NE | −) = (ROC) curve, which allows to determine that cutoff
c +d
point with maximum sensitivity and minimum
1-specificity.
como la probabilidad de estar (no estar) enfermo dado In this paradigm, all the possible test results and
que la prueba sale positiva (negativa). all disease status are considered.
Si el resultado de la prueba es continua, por ejem- Fisher’s approach. This starts with a question as
plo, la creatinina o hemoglobina, también se puede follows: If a specific test was used and it resulted
preguntar: ¿Cuál es el límite de corte óptimo de cada positive for a subject, “what evidence is available to
prueba? Para contestarla se construye una gráfica de la support the diagnosis in that patient?” The possibility
sensibilidad contra 1-especificidad a diferentes valores of a negative result is not of interest, because this did
de corte. Esta gráfica se conoce como “curva ROC not occur. In Table 1, the disease status is not a random
(sigla en inglés de Receiver Operating Characteristic)” P (+ | NE )
la cual permite determinar aquel punto de corte con variable; only the result of the test. is
P (+ | E )
máxima sensibilidad y mínima 1-especificidad. evaluated as the likelihood of illness given that the test
En este paradigma se consideran todos los posibles is positive. That is, the evidence that the subject is ill
resultados de la prueba y todos los estatus de la enfer- is sought until proven otherwise. If the last quotient
medad. is “small” (say less than 0.1), diagnosis of the disease
Enfoque de Fisher. Se parte de una pregunta is favored. Similarly, the situation can be handled in
como la siguiente: si se usó una prueba específica the same way if the result is negative. Therefore, the
y resultó positiva para un sujeto, ¿qué evidencia se P (− | NE )
tiene para sustentar un diagnóstico en ese paciente? quotient is evaluated.
P (− | E )
La posibilidad de un resultado negativo no es de in-
terés, porque no ocurrió. En el Cuadro 1, el estatus The question is “how does the information change
de enfermedad no es una variable aleatoria, sólo lo es a priori after doing the test?”
P (+ | NE ) Bayesian approach. In Table 1, the disease status
el resultado de la prueba. Se valora como and the result of the test are randoms. That is,
P (+ | E )
la verosimilitud de enfermedad dado que la prueba nabcd individuals are sampled and the table
salió positiva. Es decir, se busca la evidencia de que is constructed with them.
esté enfermo hasta que se demuestre lo contrario. Si The a priori distribution of the disease is estimated
el cociente anterior es “pequeño” (digamos, menor with the marginal totals of the table.
a 0.1), se favorece el diagnóstico de enfermedad. De
a +c
manera semejante se puede tratar la situación cuando P (E )=
la prueba resultó negativa, y se valora entonces el a +b + c + d
P (− | NE )
cociente . This is the prevalence of the estimated disease with
P (− | E )
the global sample (abcd). Similarly, the disease
La pregunta es ¿cómo cambia la información a 1-prevalence is estimated with:
priori después de hacer la prueba?
Enfoque Bayesiano. En el Cuadro 1, el estatus de la b +d
enfermedad y el resultado de la prueba son aleatorios. P ( NE ) =
a +b + c + d
Es decir, se muestrean nabcd individuos y con
ellos se construye el cuadro.
Assuming the test was positive for this patient, then
La distribución a priori de la enfermedad se estima
the probability of the sickness, given that the test was
con los totales marginales del cuadro.
positive, can be calculated with Bayes formula:
a +c
P (E )= P ( E ∩+) P ( E )
a +b + c + d P ( E |+) =
P (+)
Esta es la prevalencia de la enfermedad estimada a a +c
con la muestra global (abcd). De manera se- a +b + c + d a +b + c + d
=
mejante, entonces, la 1-prevalencia de enfermedad se a +b
estima con: a +b + c + d
b +d a (a + c )
P ( NE ) = =
a +b + c + d ( a + b + c + d )( a + b )
Suponiendo que la prueba resultó positiva para ese This is equivalent to assuming that the patient who
paciente, entonces la probabilidad de enfermo dado participated in the test was selected randomly from the
que la prueba salió positiva se puede calcular con la population of patients so that P() will have sense.
fórmula de Bayes: Analogically, P(NE|) can be obtained.
, qué tanto disminuye esa probabilidad. Es decir, values for n and as parameters. When x2 and n2,
es el valor de que con más probabilidad produce x, then the maximum likelihood value would occur when
x
y cualquier otro valor de produce la muestra con el θ = =1, it is called maximum likelihood estimator.
mismo valor x con menor probabilidad. Pero valores n
de cercanos a producen valor de x con probabili- When x2 and n3, the maximum likelihood
dad un poco menor que ese valor máximo. Así que se 2
estimator is: θ = = 0.666 .
quiere conocer aquellos valores de que pueden “no 3
desmerecer” porque pueden producir x con buena A case where confidence Interval of likelihood can
probabilidad. Son “compatibles” con la ocurrencia de be constructed but not that of the behavioral paradigm
x; es decir, son verosímiles. Para determinar valores de is when x0, in this case 0/n0. The likelihood
compatibles con los datos (el valor de x) se construye approach does allow to obtain values of compatibles
la verosimilitud estandarizada que está dada por: with the data x0. It is assumed that the values of
that have a likelihood equals or greater than 0.2 are
θ x (1− θ )n−x L ( θ | x ) compatible with the information. In Figure 11, three
= cases with x0 and x5, 10 and 20 are illustrated.
L ( θ | x )
x n−x
θ (1− θ )
Note that the amplitude of the likelihood interval
reduces on increasing n.
La Figura 10 muestra las funciones de verosimi-
litud estandarizadas para distribuciones binomiales Likelihood principle
con diferentes valores para n y como parámetros.
Cuando x2 y n2 de manera que el máximo valor Likelihood function is what gives evidence on the
x
de la verosimilitud ocurre cuando θ = =1, se le parameters, although the design is different. Thus,
n the evidence between a binomial and a negative
llama estimador de máxima verosimilitud. Cuando binomial, for instance, is equal when the values of
x2 y n3, el estimador de máxima verosimilitud n and x are the same in the two designs, because the
2 part that involves is the same in both expressions
es: θ = = 0.666
3 as can be seen below:
0.6
0.5
0.4
0.3
0.2
0.1
0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
q
Figura 10. Funciones de verosimilitud para distribuciones binomiales.
Figure 10. Likelihood function for binomial distributions.
1 pppvPPP
0.8
L ( θ | x ) / L ( θ | x )
0.6
n=5
0.4
n=10
0.2
n=20
0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
q
Figura 11. Intervalo de verosimilitud para una binomial con x0 y n=5, 10 y 20.
Figure 11. Likelihood interval for a binomial with x0 and x=5, 10 and 20.
En este documento hemos presentado algunos de Chatterjee, S. K. 2003. Statistical Thought: A Perspective and
los modelos de probabilidad más utilizados y también History. Oxford University Press. 440 p.
Khun, T. S. 1996. La Estructura de las Revoluciones Científicas.
los aspectos esenciales de los tres paradigmas para la Breviarios Fondo de Cultura Económica México. 264 p.
inferencia estadística. Se enfatiza que los paradigmas Méndez-Ramírez, I., H. Moreno-Macías, I. Méndez Gómez-
no compiten entre sí porque se basan en supuestos di- Humarán, y C. Murata. 2013. Objetividad y Población.
ferentes. Así, se pueden tomar ideas de uno y utilizarlas Monografía IIMAS UNAM. 54 p.
dentro de los supuestos de otro, siempre y cuando se Pawitan, Y. 2001. In all Likelihood: Statistical Modeling and
Inference using Likelihood. Oxford University Press. 544 p.
tenga coherencia entre los supuestos específicos del Popper, K. 1959. The Logic of Scientific Discovery, London:
paradigma que incorpora las ideas. Neyman y Pear- Hutchinson. 513 p.
son hicieron esto con el concepto de verosimilitud Salsburg, D. 2001. The Lady Testing Tea. How Statistics Revolu-
de Fisher. Lo importante es tener claro cuáles son los tionized Science in the Twentieth Century. W. H. Freeman
and Company. New York. 352 p.
supuestos de cada paradigma y no olvidar que, inde- Thompson, B. 2007. The Nature of Statistical Evidence. Springer.
pendientemente del enfoque, el objetivo principal de 152 p.
la inferencia no es la decisión sobre una acción en la
práctica, sino ganar conocimiento sobre el verdadero
estado de las cosas. Por supuesto, si se considera con
gran confianza que un estado de cosas es cierto, se
pueden tomar decisiones.