Ww
Introducci6n a la Estadistica
Los estadisticos han invadido todas las ramae dela ciencia con una rapier de conguista
‘que sélo tiene coma rivales a/Atla, a Mabora y l escarabajo de Colorado,
Maurice Kendall (estadistico beiénico)
LA. Tateoduccién 1
1.2 Lanaturalera de la Estadistica 3
13. Poblaciones y muestas 5
LA. Breve historia de la Estadistica 7
Problemas 10
Distintas defniciones de la Estaditica B
‘Términos clave 1B
sie capitulo introduce 1a materia objeto de la Estaistca, el arte de aprender de los datos.
Describe las dos ramas de la Estadistica, la deseriptiva y a inferencial. Se analiza la idea de
aprender sobre una pablacin a través de muestrea y estudiar a algunos de sus miembros. Finalmente
se presentan algunos rasgos istéricos.
Introducci6n
{Es mejor que nuestros hijos sean escolarizados antes o después? Esta es una cuestisn de inte-
16s para muchos padres y también para los gestores pblicos. ,Cémo se puede responder?
Inicialmente, parece razonable que nos planteemos esto a partir de nuestra propia
experiencia y de algunas conversaciones mantenidas con los amigos. Sin embargo, si se
quiere convencer a otras personas y oblener consensos, resulta necesario reunir algtin
Lipo de informacién objetiva, Por ejemplo, en muchos Estados, los nifios deben someterse
a exdimenes 0 a pruebas de conocimiento al final de su primer aio de escolarizacién, Se
pueden conseguir los resultados de los nifios en dichas pruebas y analizarlos después para
1Tabla 1.1
Capitulo 1 Introduccién ala Estadistica
vor si aparentemente existe una conexidn entre Ia edad de escolarizacin y las ealificw
ciones en las pruebas citadas, En realidad, tales estudios se han realizado y, por lo gene-
ral, se ha concluido de ellos que los estudiantes de mayor edad han oblenido mejores
calificaciones que los més j6venes, Sin embargo, también se ha observado que los nios
escolarizados a mayor edad son igualmente mayores a la hora de someterse la ruck,
x que este solo hecho por s mismo podria sera causa de sus mAs alts calificaciones. Por
‘ejemplo, sopongamos que los padres no enviaran ass hijos ala escuela aos 6 aos, sino
tun ato mas tarde. En este caso, puesto que durante ese afo adicional ls hijos aprende-
rian una gran cantidad de cosas en casa, tras su primer afo de escuela, cuando realizaran
la prucba podrian obtener calficaciones mas altas que las que abtendrian si bubieran sido
escolarizadas un afo antes. als 6 aos
Un studio reciente (abla 11) ha intentado mejorar un trabajo anterior mediante el an
lisis del efecto que tenia la edad de escolaizacisn sobre el nimero de aos de excolariza-
cidn, Los autores mantienen que este nimero de afos mide mejor el éxito escolar que la
califcacién obtenida en el primer curso. partir de los datos de los censos de 1960 hasta
1980, los autores concluyeron que Ia edad de escolaizaciOn incide muy poco sobre el
‘nimero total de cursos completades. La tabla 1.1 incluye un compendio de los datos del
estudio, La tabla muestra que, de lo nies escolarizados en 1949, la mitad mds joven (cuya
dad media de escolarizaci6n fue de 6,29 afos) se mantuvo escolaizada un promedio de
13,77 ais, mientras que la ota mitad se mantuvo una media de 13,78 aos
Destacamos que no se ha pretendido presenta los anteriores datos como una prueba de
‘que las edades de escolarizacién no afectan a su periodo de escolaizacin. Por el contra-
fio, reflejan el enfoque moderno que tiene el uso de datos con respecto al andlisis de scua-
cones complejas. En concreto, uno debe obtener informacién rlevante o datos, que han
de ser descritosy analizados. Este es el objetivo de la Estaitica
‘Naimero total de aios de escolarizacin con respecto ala edad de eseolarizacién
Mitad de los niios mas j6venes __Mitad de los nos de mas edad
Afiode Edad media de Namero medio de Edad media de Nimero medio de
cscolarizacion escolarizacién _afios de escolarizacién_escolarizacién _aéos de excolarizacién
1945, 638 13,84 682 1367
a7 634 1330 659 385
as 631 13,78 656 1379
1949 629 13,7 654 13,78
1950 628 13,68 653 3,68
1951 68 1363 645, 1365
1952 6.08, 13.49 637 13.53
Fuente: ANS. y Kao A. The ellest of age school entry on edocaionalalainment an application of
‘nsrumeatalvaables with moments fom two simples” en Journal ofthe American Stattical Assocation, $7
15, 328336,1.2
1.21
1.2 Lanaturaleza de la Estadistica 3
La naturaleza de la Estadistica
En el mundo de hoy, el que uno debe primero reunir datos para aprender sobre algo se ha
cconvertido en un axioma, Por ejemplo, el primer paso para aprender sobre temas como
1, Bl estado actual de la economia.
2. Bl porcentaje de votantes a favor de una propuesta
3. El nlimero medio de kilémetros que puede recorrer un automévil de nueva fabricacién
con un litro de gasolina
4, La eficacia de un nuevo medicamento,
5, Lautilidad de un nuevo método de ensefianza de lectura para nfios de escuela elemental
‘consiste en compilar los datos relevantes.
La Extadistica es el arte de aprender a partir de los datos. Esté relacionada con la recopi-
lacién de datos, su descripeidn subsiguiente y su andlisis, lo que nos lleva a extraer con-
clusiones.
Obtencién de datos
En ocasiones un anilisis estadistico comienza con un conjunto de datos; por ejemplo, el
‘gobierno habitualmente retine datos sobre la tasa de desempleo y sobte el producto interior
Druto. La Estadistica se utiliza después para describir,clasificar y analizar esos datos.
En olras situaciones, los datos no estin disponibles, y la Estadistica se puede usar para
disefiar un experimento apropiado para generar dichos datos. El experimento elegido
dependerfa de la utilidad que se quiera obtener de los datos. Por ejemplo, si se acaba de
desarrollar un medicamento reductor del colesterol y se quiere determinar su eficacia, se
‘deben reclutar Voluntarios y anotar sus niveles de colesterol. Después se les suministrard el
medicamento durante cierto periodo de tiempo, y posteriormente se volverdn a medir sus
niveles de colesterol. Sin embargo, el experimento serfa ineficaz si a fodos los voluntarios
reclutados se les suministrara el medicamento, Porque si fuera asf, aunque los niveles de
ccolesterol de todos los Voluntarios se hubieran reducido significativamente, no estarfa jus-
Lificado concluir que las mejoras son debidas al medicamento en cuestién sino a alguna otra
posibilidad. Es decir, esta bien documentado el hecho de que cualquier medicacién recibida
‘Por un paciente, tanto como si est o no directamente relacionada con Ia enfermedad
suftida, a menudo se traduce en mejoras en el estado del paciente, Esto se conace como el
efecto placebo, que no es tan sorprenderte como podria parecer inicialmente, puesto que la
‘conviccién que tiene el paciente de que se le esté tratando de manera efectiva a menudo
cconduce a una reduccién de su estrés, lo cual redunda en una mejora en su estado de salud,
Adicionalmente, podrfan haber existido ottos factores, por lo general desconocidos, que
influyeran sobre la reduccién en los niveles de colesterol. Quizés el que Ia temperatura
Ihubiera sido excepcionalmente célida (0 fria) podria haber hecho que los voluntarios estu-1.2.2
Capitulo 1 Introduccién a la Estadistica
vieran fuera de casa més o menos tiempo de Io habitual, lo que podria ser un factor deter-
‘minante, Asi pues, se ve que el experimento consistente en suministrar el medicamento a
todos los voluntarios no esta bien disediado para generar datos a partir de los cuales se puc-
ddan sacar conclusiones acerca de la eficacia del medicamento,
Un experimento mejor intentaria neutralizar las posibles causas que afectan al nivel de
colesterol, con excepcién del medicamento. Una forma aceptada de conseguir esto consiste
‘en dividir alos voluntarios en dos grupos: uno de ellos recibe el medicament, mientras que
1 otro grupo recibe una pastlla (conocida como placebo) con la misma apatiencia y sabor
{que el medicamento pero que no tiene ningin efecto fisiolégico. Los voluntarios no debe-
rian saber si se les esta suministrando cl medicamento ol placebo, y realmente seria mejor
‘que tampoco lo supiera el personal médico que supervise el experimento, para que sus pro-
plas actitudes no jueguen papel alguno. Adicionalmente, es deseable que la divisién de
‘voluntarios en dos grupos se haga de tal forma que ninguno de los grupos se vea favorecido
‘en el sentido de que incluya a los “mejores” pacientes. Para conseguir esto, el procedi-
‘iento generalmente més aceptado consiste en que Ia divisién de voluntatios sea “aleato-
ra"; se entiende por este término que la divisién se haga de tal forma que todas las
‘lecciones posibles de personas que compongan el grupo que recibe el medicamento sean
igualmente probables. Al grupo que no secibe tratamiento alguno (Jos Voluntarios que reci-
‘ben el placebo) se le denomina grupo de control
Una vez finalizado el experimento, se describirin los datos, Por ejemplo, se presenta
sian los niveles de colesterol de cada voluntatio antes y después del experiment, y el expe-
rimentador anotarfa para cada voluntatio si éste ha recibido el medicamento o el placebo,
Adicionalmente, se determinarfan los valores sumariales, tales como la reduccién media de
‘colesterol de los miembros del grupo de contol y de los miembros del grupo tatado con el
‘medicamento,
La parte de la Estadistica relacionada con la descripcién y la clasificacién de los datos se
cconoce con el nombre de Estadistica descriptiva,
Estadistica inferencial y modelos de probabilidad
‘Cuando se ha completado el experimento, y una vez que se han descrito y clasificado los.
datos, deseberfamos ser capaces de sacar conclusiones sobre la eficacia del medicamento,
Por ejemplo, :se puede concluir que es efective como reductor de los niveles de colesterel
‘en la sangre?
La parte de la Estadistica relacionada con la extraccidn de conclusiones a partir de los datos
se conoce con el nombre de Extadistica inferencial.
Para poder sacar conclusiones a partir de los datos se ha de tener en cuenta el azat
Supongamos que la reduccién media de colesterol es mayor para el grupo que recibié el
medicamento que para el grupo de control. Se puede concluir que exe resultado se debe al13
1.3. Poblaciones y muestras 5
medicamento, o es posible que éste sea realmente inefectivo y que la mejora se deba sim-
plemente al azar? Por ejemplo, el hecho de que en 10 lanzamientos de una moneda resul-
ten 7 caras no significa necesariamente que sea mas probable la obtencién de cara que la
‘obtencién de cruz en futuros lanzamientos, Realmente, podria tratarse de una moneda ordi-
naria y que, simplemente por azar, resultaran 7 caras en los 10 lanzamientos, (Sin embargo,
si se hubicra obtenido 47 veces cara en 50 lanzamientos de Ik moneda, estarfamos bastante
segutos de que no se trata de una moneda ordinaria.)
Para ser capaces de extraer conclusiones a partir de los datos sucle ser necesario hacer
determinadas hipétesis sobre las posibilidades (o probabilidades) de obtencr los diferentes
valores de los datos. La totalidad de esas hipétesis constituye el llamado modelo de proba
Dilidad de los datos.
En ocasiones, la naturaleza de los datos sugiere cual es Ia forma del modelo de probs-
bilidad que se ha de elegit. Por ejemplo, supongamas que los datos consisten en las res-
ppuestas dadas por un grupo de individuos a una pregunta sobre si estén a favor de una
propuesta de reforma que afecta al bienestar social. Si el grupo fue seleccionado alearoria
‘mente pasece razonable suponer que cada individuo consultado tenfa una probabilidad p de
decantarse a favor de la propuesta, donde p representa la proporcién desconocida de ciuda-
‘danos en la poblacién a favor de la propuesta. Se pueden utilizar los datos resultantes para
hacer inferencias sobse p.
En otras situaciones, no resulta evidente cual es el modelo de probabilidad adecuado
para un determinado conjunto de datos. Sin embargo, una cuidadosa descripeisn y presen-
tacién de los datos nos permite inferir sobse un modelo razonable, que se puede intentar
verificar posteriormente con el uso de datos adicionales.
Dado que la base de la inferencia estadistica es la formulacisn de un modelo de proba-
bilidad para describ los datos, para que ésta se pueda entender sera necesatio conocer pre-
vViamente la teorfa de la probabilidad. En otras palabras, la inferencia estadistica comienza
‘con Ia asuncién de que ciertos aspectos importantes del fenémeno bajo estudio se pueden
deseribir en términos de probabilidades, para luego llegar a hacer inferencias sobre estas
probabilidades a través del uso de los datos.
Poblaciones y muestras
En Estadistica, uno suele interesarse por obtener informacién sobre un conjunto total de
‘elementos, al cual nos referizemos como la poblacisin. La poblacién es a menudo dema-
siado grande para que se pueda examinar a cada uno de sus miembros. Por ejemplo, podsia
tratarse de todos los residentes de un determinado Estado, o de todos los aparatos de tele-
Visidn producidos por una determinada compaaia en el ltimo aio, o del conjunto de hoga-
1es de una comunidad dada. En tales casos se intenta aprender sobre la poblacién eligiendo
‘un subgrupo de sus elementos, que luego ser4 examinado, Este subgrupo de la poblacién
se lama muestra
conjunto total de elementos en los que estamos interesados se llama poblacién
Un subgrupo de la poblacién que serd estudiado en detalle se lama muestra,13.1
Capitulo 1 Introduccién a la Estadistica
Para que Ia muestra proporcione informacién sobre Ia poblacién total, debera ser, en
algiin sentido, representativa de dicha poblacién, Por ejemplo, supongamos que estamos
interesados en aprender sobre la distibucién de edades de los residentes de una ciudad y
{que obtenemos las edades de las 100 primeras personas que entran en una determinada
biblioteca de la ciudad. Si la edad media de esas 100 personas es de 46,2 afos, ,podemos
‘concluirjustificadamente que este valor coincide aproximadamente con la edad media de
toda la pablacién’? Posiblemente no, porque seguro que se podria argiir que la muestra ele-
‘ida no es en este caso representativa de la poblacién total, ya que generalmente son los
estudiantes jévenes y los ciudadanos mayores quienes frecuentan la citada biblioteca, en
mayor medida que las personas que estan en edad laboral. Se ha de tener en cuenta que ¢]
término muestra representativa no significa que ta distribucién de los individuos de la
‘muestra coincida exactamente con la de la poblacién total, sino que la muestra ha sido ele-
‘ida de forma que todos Jos elementos de la poblacién tengan la misma probabilidad de
pertenecer a la muestra,
En ciertas situaciones, como en el caso de la biblioteca, se nos suministra una muestra
y debemos decidir si es una muestra razonablemente representativa de la poblacién total.
En la préctica, una muestra dada no puede, por lo general, considerarse representativa de
tuna poblacién, a menos que la muestra haya sido elegida de forma aleatoria. Esto ocurre
porque cualquier procedimiento no aleatorio para seleccionar una muestra suele proporcio-
nar resultados sesgados a favor de algunos valores de datos y en contra de otros.
‘Una muestra de k miembros de una poblacién se dice que es una muestra aleatoria, en oca-
siones lamada muestra aleatoria simple, si los miembros son elegidos de tal forma que
todas las posibles elecciones de los k miembros son igualmente probables.
Asi, aungue pueda parecer paradéjico, es més factible obtener uns muestra representa-
liva si sus miembros son elegidos de forma totalmente aleatoria, sin considerar a priori qué