Documentos de Académico
Documentos de Profesional
Documentos de Cultura
De La Puente Viedma Carlos - Estadistica Descriptiva E Inferencial Y Una Introduccion Al Metodo Cientifico PDF
De La Puente Viedma Carlos - Estadistica Descriptiva E Inferencial Y Una Introduccion Al Metodo Cientifico PDF
bajo las sanciones establecidas en las leyes, la reproduccin total o parcial de esta obra
por cualquier medio o procedimiento, comprendidos la reprografa y el tratamiento
informtico, y la distribucin de ejemplares de ella mediante alquiler o prstamo
pblico.
2009 by
2009 by
ERRNVPHGLFRVRUJ
ndice
1
2
3
4
8
9
Prlogo ............................................................................................................................. 8
Introduccin...................................................................................................................... 9
2.1 Sistema perceptivo: Los sentidos .......................................................................... 12
La Cultura el Lenguaje y lo Social ................................................................................. 15
3.1 Proceso de Homo sapiens sapiens, la consciencia, el conocimiento y la ciencia . 16
Aportaciones a la definicin de persona como objeto de investigacin......................... 18
4.1 Definicin de cuerpo ............................................................................................. 19
4.2 Definicin de persona ........................................................................................... 19
4.3 Algunas consecuencias legales y sociales............................................................. 20
4.4 Estudio emprico ................................................................................................... 21
4.5 Conclusin ............................................................................................................ 23
El Mtodo Cientfico y el marco de la realidad.............................................................. 24
5.1 Paradigmas segn los aspectos ontolgicos, epistemolgicos y metodolgicos. . 34
5.2 Objeto, Objetivo, Tcnica ..................................................................................... 37
5.3 Comentarios al diseo del cuestionario................................................................. 38
Introduccin a la Estadstica........................................................................................... 41
6.1 Estadstica, preguntas y variables ......................................................................... 41
6.2 Matriz de datos...................................................................................................... 51
6.2.1 La codificacin ............................................................................................ 53
Estadstica Descriptiva Univariable................................................................................ 56
7.1 Estadsticos de Tendencia Central ........................................................................ 56
7.1.1 La moda ....................................................................................................... 56
7.1.2 La mediana .................................................................................................. 59
7.1.3 La media ...................................................................................................... 60
7.1.3.1 Propiedades de la media ............................................................... 62
7.2 Estadsticos de Dispersin..................................................................................... 67
7.2.1 Rango o Amplitud de la variable ................................................................. 67
7.2.2 La varianza .................................................................................................. 67
7.2.2.1 Propiedades de la varianza ........................................................... 69
7.2.3 La desviacin tpica ..................................................................................... 72
7.2.3.1 Propiedades de la desviacin tpica .............................................. 73
7.2.4 El coeficiente de variacin .......................................................................... 75
7.3 Estadsticos de Forma ........................................................................................... 77
7.3.1 Momentos .................................................................................................... 77
7.3.2 Asimetra y apuntamiento............................................................................ 79
7.4 Tabla de frecuencias.............................................................................................. 85
7.4.1 Tabla de frecuencias por intervalos. ............................................................ 87
7.5 Percentiles ............................................................................................................. 95
7.6 Grficos ................................................................................................................. 97
7.6.1 Introduccin a los sistemas de representacin grfica................................. 97
7.6.2 Diagrama de barras .................................................................................... 100
7.6.3 Histograma de intervalos de igual amplitud .............................................. 101
Estadstica Descriptiva Bivariable................................................................................ 107
8.1 Variable categrica por categrica...................................................................... 107
8.2 Tabla de doble entrada ........................................................................................ 109
Concepto de probabilidad y probabilidad condicionada (variables discretas) ............. 117
9.1 Punto de vista objetivo clsico (a priori) ........................................................ 117
10
11
12
13
14
15
16
17
18
19
1.
2.
3.
4.
5.
ERRNVPHGLFRVRUJ
Prlogo
Este manual quiere ser una ayuda o referente para quienes quieren acercarse a la
Estadstica. El empeo ha sido que fuese concreto en la exposicin, prctico y til, pero sin
escatimar informacin. Pero sern quienes se acerquen a leerlo los que decidan si se ha
cumplido el objetivo. La motivacin para escribirlo ha sido que el enfoque est basado en la
experiencia obtenida a travs de los aos que he impartido una asignatura de estas
caractersticas, las preguntas realizadas por el alumnado y mi propio proceso terico como
socilogo.
Se acompaa con una sntesis de los orgenes y evolucin de Homo sapiens sapiens,
hasta nuestros das. Se presenta la aparicin de lo social, en base a algunas hiptesis
actuales. La aparicin de la capacidad de conocimiento y consciencia.1 Sin entrar en las
discusiones que plantean los diferentes paradigmas sobre la cuestin, aunque facilitaremos
bibliografa para quienes deseen ampliar lo que se dice en estas pginas.
Se abordar el considerado Mtodo Cientfico, la relacin con la teora, las tcnicas, el
objeto y el sujeto y la realidad en la que se insertan.
El resto de los captulos estn dedicados a la estadstica como tcnicas de descripcin
y anlisis de datos.
Muchas gracias.2
Por la dificultad en diferenciar los trminos conciencia y consciencia, se utilizan como sinnimos. Ambos
proceden del latn conscientia literalmente con conocimiento. No se hace referencia al concepto psicoanaltico de
consciente que tendra otro tratamiento, teraputico y terico.
2
Sugerencias cdelapuente@cps.ucm.es Poner en Asunto: Libro EDeIyMC.
Introduccin
3
4
Mtodo:
Cientfico: Que tiene que ver con las exigencias de precisin y objetividad
propias de la metodologa de las ciencias (ver nota 3) (Oxford
English Dictionary, op. cit.; Real Academia Espaola, op. cit.).
Traduccin propia.
"scientific method noun" The Oxford Dictionary of English (revised edition). Ed. Catherine Soanes and Angus
10
Ciencia:
Teora:
Stevenson. Oxford University Press, 2005. Oxford Reference Online. Oxford University Press. Universidad Complutense de
Madrid. 2 June 2008 http://www.oxfordreference.com/views/ENTRY.html?subview=Main&entry=t140.e68940.
"science noun" The Oxford Dictionary of English (revised edition). Ed. Catherine Soanes and Angus Stevenson. Oxford
University Press, 2005. Oxford Reference Online. Oxford University Press. Universidad Complutense de Madrid. 13 January 2009
<http://www.oxfordreference.com/views/ENTRY.html?subview=Main&entry=t140.e68932>
5
6
"theory noun" The Oxford Dictionary of English (revised edition). Ed. Catherine Soanes and Angus Stevenson. Oxford
University Press, 2005. Oxford Reference Online. Oxford University Press. Universidad Complutense de Madrid. 2 June
2008 <http://www.oxfordreference.com/views/ENTRY.html?subview=Main&entry=t140.e79551>
7
"statistics" A Dictionary of Genetics. Robert C. King, William D. Stansfield and Pamela K. Mulligan. Oxford
University Press, 2007. Oxford Reference Online. Oxford University Press. Universidad Complutense de Madrid. 2 June
2008 <http://www.oxfordreference.com/views/ENTRY.html?subview=Main&entry=t224.e6186>
8
Tiene las mismas caractersticas que el Tipo Ideal definido por Weber, ya que es subjetivo y est basado en la
experiencia previa e histrica.
11
12
Tambin es una gimnasia para el cerebro. Sucede como con los msculos, cuanto ms se
ejercita mejor preparado est. Los puntos ms dbiles de todo el proceso pueden ser: la
adecuacin del conocimiento almacenado, que la forma de recoger la informacin sea
adecuada y que la pregunta sea correcta. Si la pregunta que se plantea no es correcta es casi
completamente imposible que se llegue a la respuesta adecuada.
Como resumen de este Epgrafe, con la Estadstica, el Mtodo y las Tcnicas de
Investigacin se realizan de forma sistemtica operaciones que el cerebro las hace de forma
habitual y cotidiana. Una diferencia es que en la aplicacin del proceso cientfico se utilizan
unas pocas variables, mientras que el cerebro utiliza una mirada. Adems, en ltima
instancia, la autntica herramienta analtica y con la que se toman las decisiones es con el
cerebro.
2.1
Probablemente se puede aplicar al sistema de visin de todos los seres vivos que poseen uno.
13
Percepcin
Color
Movimiento
3D
Vista*
Caractersticas
Caractersticas
Profundidad
Distancia
Dimensiones
etc.
Elemento fsico
percibido
Caracterstica
Caracterstica
fsica del
del sentido
elemento
percibido
Ondas
electromagnticas
Peso
Tamao
etc.
Ondas
Subjetivos
Sentidos
Sujeto/objeto
Odo*
Distancia
Origen
Movimiento
Caractersticas
Olfato*
Bondad
Maldad
Gusto*
Bondad
Maldad
Tacto
Contacto
Resistencia
Peso
Tamao
etc.
Ondas acsticas
Molculas
Dureza
Blandura
Suavidad
Aspereza
Elasticidad
Flexibilidad
Ductilidad
Humedad
Fluidez
Temperatura
etc.
Qumicos
Objetivos
Propiedades
mecnicas
de la materia
Subjetivos
Notas:
*
Sentidos especiales.
Fuente: ver referencias en: C. de la Puente, 2007 a.
14
esta escala de subjetividad, el siguiente en subjetividad puede ser el sistema auditivo. Las
ondas sonoras que recibe el odo producen un trabajo mecnico en el sistema auditivo que
convierte en una mirada de sonidos diferentes. Otro sistema sofisticado es el sistema
vestibular que mantiene el equilibrio y la orientacin.
Los sentidos del gusto y el olfato se pueden considerar los terceros en subjetividad, ya
que la formacin del olor o el sabor del exterior es a travs de estmulos qumicos a partir de
las molculas que perciben, lo que supone cierto contacto con la cosa.
El sentido del tacto se puede considerar el ms objetivo porque el cerebro entra en
contacto directo con la realidad a travs de la piel, que transmite las seales al sistema
eferente y este a travs de las canalizaciones correspondientes llega hasta las zonas
correspondientes del neocrtex. Esta escala de subjetividad supone un cierto orden. La
conclusin es que el cerebro construye una imagen de la realidad exterior y que con el
conocimiento del que se dispone hoy da, probablemente no se puede saber objetivamente
como es o qu caractersticas tiene la realidad externa material y objetiva: qu color, sabor,
olor, tamao, distancia, volumen, etc. tiene. Porque la realidad inmaterial (instintos,
emociones, pensamientos, sentimientos, conducta, hechos sociales, etc.) del objeto, que se
considera inmaterial y subjetiva, su construccin por parte del observador (sujeto) no puede
ser otra cosa que subjetiva. Repitiendo la conclusin anterior, se asume que la subjetividad es
objetivamente subjetiva.
Estos puntos pueden ser tratados y ampliados con manuales de neurociencia como por
ejemplo, Kandel et al. (2001); Bear et al. (1998); Guyton (1994) y manuales de
neurofisiologa y neuroanatoma (Ferner & Staubesand, 1974; Sobotta et al., 1996; Williams,
2001).
15
10
Las Instituciones, en definitiva, son los hechos sociales (Durkheim, 1895/1978: 30).
16
3.1
17
conocimiento. Por los descubrimientos y avances que se producen durante el siglo XVII y que
estn fundamentados en los siglos anteriores, desde este perodo, se le puede atribuir a Homo
la caracterstica de meta-sapiens, y es el que llega hasta el presente.
Probablemente el presente se corresponda con otra etapa que las generaciones futuras
se ocuparn de dar nombre y que podra ser Homo scientifcus, que se caracterizara por una
tendencia al reconocimiento de los hechos y el abandono de las formas de conocimiento no
cientficas. Esta etapa sera el estadio cientfico de Comte.
Por los registros fsiles y arqueolgicos de los que se dispone en la actualidad, este
proceso se materializa en la zona del Golfo Prsico, entre los ros ufrates y Tigris, asociado a
los sumerios, y se puede considerar el origen de la Cultura Occidental. Otras ocurrencias
seran la aparicin de la cultura hind, la asitica, la india americana y la arbiga, y en todas
ellas, y considerado como un hecho, aparece la cultura, el leguaje, la escritura, la religin y un
sistema social, que en todos los casos es en mayor o menor grado, ms o menos evolucionado.
La Cultura Occidental, y segn sus patrones culturales, se puede considerar que es la ms
evolucionada.
En el sentido biolgico, hay diferentes hiptesis sobre la lnea evolutiva de la forma
trinomial Homo sapiens sapiens. Si es la evolucin desde el sapiens Neandertalensis,
entonces es correcto porque somos ms evolucionados que ellos. Si es a partir de Cromaon y
se le considera sapiens, tambin sera correcta la forma trinomial. Pero si no se acepta la lnea
evolutiva de Cromaon y fusemos biolgicamente diferentes de Neandertal, entonces nos
correspondera la forma binomial de Homo sapiens. Los anlisis genticos tampoco presentan
un planteamiento claro para determinar una lnea evolutiva (Bednarik, 2007). En cualquier
caso, los sumerios y sus contemporneos seran los continuadores de la tradicin cultural de
sus antecesores. La cultura griega debi tener influencias de la cultura sumeria, porque su
alfabeto combina caractersticas de la escritura sumeria y egipcia. La influencia sumeria debi
llegar directa o indirectamente a travs de las invasiones de los pueblos indo-europeos y las
tribus que descendieron desde las sierras prximas que extinguieron a los sumerios pero que
debieron ser herederos de su cultura y llegaran hasta las costas del Mediterrneo (De
Kerckhove, 1987).
Sobre el origen de Homo, una de las hiptesis pone en cuestin su radiacin
africana. Pero si no ha habido radiacin en ningn punto de la Evolucin (Eucariotas,
Cordados, Terpsidos, Primates, Homnidos y Homo, por ejemplo), entonces ha habido
varios puntos de origen o la radiacin se ha producido en alguna etapa y despus ha seguido
un proceso paralelo, porque existen restos fsiles de Homo en diversos puntos del planeta.
Esta ltima hiptesis de Evolucin Paralela sera otra explicacin a las diferencias
morfolgicas entre razas, adems de la debida al proceso de seleccin-adaptacin del medio
(Bednarik, 2007). Como se ha mencionado anteriormente, la herencia gentica no permite
resolver las dudas. Hace unos 200 millones de aos la Tierra era un nico continente
(Pangea) y empez a separarse hasta la forma actual, es la teora de la deriva continental
(Wegener, 1983).
Otra vez, independientemente de cmo haya sido el proceso, se puede considerar
como un hecho que los sumerios han existido, que son los primeros a los que se les atribuye la
creacin de tablillas con textos grabados, los primeros a los que se les atribuye la creacin de
la primera ciudad, el primer cdigo o conjunto de leyes y las Instituciones y por lo tanto lo
social. Que los griegos, entre otros, son los herederos de alguna parte de su tradicin. Que
an siendo un hecho que todas las civilizaciones tienen cultura, lenguaje, sistema social y
religin, en ningn otro lugar se ha detectado con la claridad que en los sumerios, porque hoy
se pueden observar tribus que su nivel de desarrollo social, tecnolgico y cultural, se puede
considerar inferior al de los sumerios.
18
Este Epgrafe es una adaptacin de una Comunicacin presentada en las Jornadas de Sociologa. Sociedad y
Tecnologa: Qu futuro nos espera? Alcal de Henares Madrid, 20 y 21 de noviembre de 2008.
19
4.1
Definicin de cuerpo
Definicin de persona
20
cuerpo, aunque debera decir por la muerte del cuerpo, ya que la persona, al ser una
mscara no puede morir, slo se extingue. De forma ms precisa, la separacin de la
persona y el cuerpo se produce por la muerte enceflica porque se considera que el fin de la
conciencia ocurre cuando termina la actividad elctrica del cerebro y termina de forma
irreversible.
Gazzaniga (1998) considera que el 98% de la actividad del cerebro est fuera del
pensamiento consciente, incorporando como tales todas las funciones de control de los
rganos que realiza el cerebro. Entonces Se puede considerar que la parte del Yo consciente
y sus contenidos conscientes son el 2% restante?
Entonces la persona es un nombre y sus contenidos. Durkheim y Mauss definen
persona como una categora bsica de pensamiento humano formada por las estructuras
variables de las leyes y la moralidad15 y estos contenidos o categora bsica de
pensamiento son una creacin, si se quiere virtual, de la parte del cuerpo u rgano que tiene
capacidad para ello, el cerebro, principalmente los lbulos prefrontales y frontales del
neocrtex.
4.3
En el Artculo 30 del Cdigo Civil, se diferencia entre la persona y cuerpo, pero en ese
acto se unen y en las eximentes se diferencia entre la persona y el cuerpo, porque si el cuerpo
realiza un acto y la persona no es responsable, asumo que conceptualmente se les separa al
eximir a la persona, pero se les junta porque son indisolubles y ello conlleva la exculpacin
del cuerpo. Pero entonces No es cierto que el cuerpo ha realizado un acto? Quin ha
controlado entonces el cuerpo? No se tendra que condenar al cuerpo y como la persona no
se puede separar entonces tambin padece la condena?
Los Artculos 101, 102 y 103 del Cdigo Penal hacen referencia a un perodo de
educacin de la persona equivalente a la pena que les hubiese correspondido cumplir si no
hubiese habido eximente. Entonces se requiere la reeducacin de la persona para que
controle el cuerpo?
15
"person" Dictionary of the Social Sciences. Craig Calhoun, ed. Oxford University Press 2002. Oxford Reference Online. Oxford
University
Press.
Universidad
Complutense
de
Madrid.
9
November
2008
http://www.oxfordreference.com/views/ENTRY.html?subview=Main&entry=t104.e1249>.
21
Estudio emprico
Nombre y apellidos
Relacin familia
Relacin otros
Rol / estatus
Relacin entorno
Persona, ser, humano, ciudadano, individuo
Depende del entorno
Caractersticas fsicas
Caractersticas Personalidad
No s definirme
S como me llamo pero no s quien soy
No puedo responder
Cuerpo y mente
Sujeto social
Forma fsica con inteligencia
En quien me han convertido
Total
Frecuencia
18
2
1
10
3
55
1
1
2
1
1
1
1
2
1
1
101
Porcentaje
17.8
2.0
1.0
9.9
3.0
54.5
1.0
1.0
2.0
1.0
1.0
1.0
1.0
2.0
1.0
1.0
100.0
22
Caractersticas fsicas
Caractersticas de personalidad, psicolgicas, etc.
Relacin otros
Persona, ser, humano
No quiere contestar
No puedo responder
nico e irrepetible
Total
Sistema
Total
Frecuencia
10
78
5
2
2
1
1
99
2
101
Porcentaje
9.9
77.2
5.0
2.0
2.0
1.0
1.0
98.0
2.0
100.0
No se me ocurre nada
Persona, ser, humano, individuo, ciudadano
Caractersticas fsicas
Caractersticas de personalidad
Lo que consideran los dems
Conjunto de acciones
Lo da la Naturaleza
Animal racional
Relacin con otros
Igual que cmo soy yo
Piel, rganos, visceras y complementos artificiales
Proyecto de futuro profesional
Rol / estatus
Una proyeccin, posibilidades, realidades
No contesta
Una unidad
No puedo responder
Cuerpo y mente
Animal social
Conjunto de partes
Relacin con el entorno
Un grupo de clulas
Forma fsica con inteligencia
La razn de las cosas o parte de ellas que hacen mis padres
Materia y espritu
Total
Frecuencia
1
52
1
4
1
1
1
2
5
2
1
1
9
2
1
1
1
3
3
2
1
3
1
1
1
101
Porcentaje
1.0
51.5
1.0
4.0
1.0
1.0
1.0
2.0
5.0
2.0
1.0
1.0
8.9
2.0
1.0
1.0
1.0
3.0
3.0
2.0
1.0
3.0
1.0
1.0
1.0
100.0
23
Conclusin
24
Como se ha indicado, se puede considerar que la primera ciudad, los primeros textos
escritos y los primeros cdigos que regularon la vida social tienen su origen en Sumeria, son
tambin los primeros que formalmente inician una forma de mtodo cientfico y de la ciencia
al observar los hechos que ocurren y tratar de elaborar explicaciones y construir modelos.
Hicieron observaciones astronmicas, elaboraron un calendario con doce meses y corrigieron
los desfases que se producan, desarrollaron las matemticas (suma, resta, multiplicacin,
divisin, raz cuadrada, ecuaciones), la geometra, las leyes. Su mtodo estaba fundamentado
en la observacin de la realidad tal como lo entendemos hoy (Lara Peinado, op. cit., 1988,
1998; Molina, op. cit., 2000; Mas, op. cit., 2007).
A los griegos les podemos atribuir la conciencia de la conciencia, empiezan a ser
consciente de que tenemos conocimiento reflejado en los conceptos de inspiracin
platonianos de doxa y episteme, para diferenciar el conocimiento espontneo o no cientfico
del considerado cientfico. En este perodo, tambin se concibe al ser humano dentro del
paradigma dualista de Aristteles y Platn que supone la distincin: materia-espritu; cuerpoalma. Este paradigma se mantiene durante la Edad Media a travs de la Filosofa Escolstica
de Santo Toms. Esta dualidad, probablemente, ha impedido hacer las preguntas adecuadas
para buscar las respuestas.
La siguiente etapa considerada es el Renacimiento (s. XV), que supone la crtica del
aristotelismo escolstico y el inicio del empirismo con Galilei (1632/1995), y Bacon
(1620/1984) (mtodo hipottico inductivo), desarrollado en el siglo XVII (Hobbes, Locke y
Hume). Newton (1686/1987), sintetiza el mtodo inductivo en el hipottico deductivo.
Simultneamente, surge el racionalismo (Descartes, 1637/1986), como polo opuesto al
empirismo. La razn (conciencia) humana, tambin es fuente de conocimiento. Introduce el
concepto de mente o conciencia en lugar o adems de alma o espritu. La fusin de las
corrientes empirista y racionalista se materializa en Kant (1787/2003).
En el Curso de Filosofa Positiva, Comte hace referencias directas al cerebro y conecta
la fisiologa individual con las Fsicas Sociales (Comte, 1893/1968). Comte destaca el
servicio que hizo Descartes al instituir un completo sistema de Filosofa Positiva que aplic al
mundo inorgnico y a las funciones fsicas del mundo animal, pero estima que se detuvo
cuando lleg al estudio del hombre, dejando ste al amparo de la Filosofa Metafsica y la
Teologa, e interrumpe la posibilidad de aplicarle los principios de la Filosofa Positiva
(Martineau, 2000; Comte, 1893/1968).
Comte establece tres niveles para el estudio positivo de los elementos vivos:
Consideraciones filosficas para el estudio general de la vida vegetativa u orgnica
(Leccin 43); Consideraciones filosficas para el estudio general de la vida animal
propiamente dicha (Leccin 44), y Consideraciones generales para el estudio positivo de las
funciones intelectuales y morales, o cerebrales (Leccin 45). Entendiendo que difiere menos
el tercer apartado del segundo que el segundo del primero (Martineau, ibd.; Comte, ibd.).
Comte observa en los seres vivos, al menos en los animales superiores y en el hombre:
actos afectivos e intelectuales. El estudio de estos actos pertenece al mbito de la biologa, la
filosofa natural y las fsicas sociales. La sociologa, no slo pertenecera a las ciencias
sociales, sino tambin a las ciencias naturales, tomando como base las reglas de
funcionamiento del rgano interprete/ productor de los actos: el cerebro; de esta manera
quiebra la tradicin de Descartes de estudiar al hombre slo desde la filosofa metafsica y
teolgica (Martineau, ibd.; Comte, ibd.). Pero, probablemente, el primer socilogo que sigue
25
1
1o
R
Teora
Mtodo
R1
Objeto/Sujeto
1
2o
3
1
1
1s
2
1o
2
2o
R2
Sujeto
Sujeto crea R2
R1
R2
R11o
1
R 2o
1
R 1s
R21o
2
R 2o
R31
R41
16
La realidad real que se asume que existe, aunque con el conocimiento que poseemos hoy da,
probablemente, no es posible observarla tal como es.
La realidad creada por el sujeto derivada del propio proceso de la investigacin (1 hermenutica).
Representacin que se hace el objeto, como sujeto, de la R1 (1 hermenutica).
Representacin que se hace el objeto, como sujeto, de la R2 (se puede considerar una 2
hermenutica).
Representacin que se hace el sujeto de la R1 (1 hermenutica).
Representacin que se hace el sujeto de la R11o del obeto (2 hermenutica).
Representacin que se hace el sujeto de la R12o del obeto (sera una 3 hermenutica).
Representacin terica de la R1.
Es la R final del proceso que puede confirmar o ser igual a R31 o modificar a sta. Si R41 es igual a
3
4
3
R 1 se mantiene y se confirma esta, pero si son distintas, entonces R 1 pasa a ser o midificar R 1.
26
Diseo Terico
1.1. Tema a Investigar
Se expone el problema19 (Miller, 1991: 13-20) o tema de investigacin,
poniendo de forma clara la definicin de los conceptos que se van a
investigar. Tambin se debe hacer referencia a los motivos que han llevado a
realizar la investigacin.
1.2. Marco Terico (Documentacin)
El Marco Terico recoge todo el conocimiento sobre el tema a investigar,
sobre el objeto y tambin es una ayuda sobre la forma de investigarlos en
base a las investigaciones anteriores. Se consideran tres grupos de
paradigmas:20 Paradigmas Tericos, Paradigmas Tcnicos y Paradigmas
Epistemolgicos.
Los Paradigmas Tericos dan los referentes para conocer-comprender la
realidad. Los Paradigmas considerados son: Neurosociologa (la lnea
francesa: Auguste Comte; la lnea rusa: Lev S. Vygotsky, Alekxander R.
Luria, Elkhonon Goldberg, la Lnea Norteamericana: Warren D. TenHouten
y la lnea espaola Carlos de la Puente). Estructural-Funcionalismo (Emile
Durkheim, Vilfredo Pareto, Talcott Parsons y Warren D. TenHouten).
Sociologa de las Emociones (Turner, TenHouten, etc.). Interaccionismo
Simblico (George Simmel, George H. Mead, Herbert Blumer).
Institucionalismo (Emile Durkheim, Max Weber, Thorstein Veblen, Walter
W. Powell y Paul J. DiMaggio). Teora General de los Sistemas (Ludwig
17
27
21
Aunque en realidad este punto puede ser muy discutido y discutible. Ms que proponer una verdad cierta pretende ser
motivo de debate.
22
(a) una cosa externa a la mente del pensador o sujeto. (b) una cosa o ser del cual una persona piensa o tiene cognicin
(traduccin propia) "object noun" The Canadian Oxford Dictionary. Katherine Barber. Oxford University Press 2004. Oxford
Reference Online. Oxford University Press. Universidad Complutense de Madrid. 8 July 2008
http://www.oxfordreference.com/views/ENTRY.html?subview=Main&entry=t150.e48017.
Entonces
por
Objeto
consideramos que es una persona, institucin o cosa capaz de ser percibida por los sentidos. Siendo institucin en el sentido
durkheimiano, entonces son los hechos sociales.
28
Mundo fsico
Naturales
Instintos
Inmateriales Mundo no fsico Emociones
Social natural (efecto
manada)
Hechos,
sucesos, objetos
Materiales
Mundo fsico
H. S. Materiales
(Durkheim)
H. S. No Materiales
(Durkheim)
H. S. Materiales23
(Durkheim)
Culturales
23
Interpretamos como hechos sociales materiales en Durkheim aquellos hechos que son consistentes como por
ejemplo el Cdigo Civil, Cdigo Penal, Textos Bblicos, El Derecho, etc. No obstante, se recomienda a los lectores
trabajar este tema. As que los cdigos de honor, normas, costumbres, buenos modales, aunque estn escritos se consideran
Blandos y por lo tanto Inmateriales. De forma genrica se considera hecho social en el sentido dado pro Durkheim a
todo lo que no es natural. Desde el aspecto social que puede parecer ms insignificante: forma del saludo, de comer, de vestir,
etc. hasta el ms sofisticado y complejo, la Ciencia.
29
Tabla 6
Autor
Auguste Comte
Karl Marx
Materialismo Dialctico.24
Comparacin de las variaciones
25
concomitantes.
Emile Durkheim
Hechos Sociales
Max Weber
Accin Social
Talcott Parsons
El Acto Social
El Status-Rol
El Actor
La Colectividad
Principio:
Considera los hechos sociales
como cosas.
Multinivel:
Neurosociologa
Nivel material:
Celular (neurona, astrocito, etc.)
Cientfico:
rgano (partes del sistema nervioso). Heurstico,26 Holstico, de segunda
Nivel inmaterial:
hermenutica y doble
Acciones del
epistemologa.
Hechos
Individuo.
Sociales
Acciones del
Grupo.
A todo fenmeno social (Tesis), se opone otro (Anttesis) y surge otro nuevo (Sntesis).
Define varios mtodos, pero el de Comparacin de las variaciones concomitantes, es el que considera ms adecuado.
(M. Bunge, 1981: 224-229).
30
Diseo Tcnico
2.1. Definicin del Universo
La realizacin de una investigacin en sociologa, normalmente, precisa la
definicin de un Universo mediante su delimitacin geogrfica y la
poblacin que contiene.
Al definir los lmites geogrficos o administrativos de la Poblacin y las
caractersticas de la misma, se define el objeto o unidad de observacin y
anlisis. Se asume que la Poblacin es el conjunto de estas unidades (ver
nota 22).
2.2. Definicin de la Muestra (Ver Epgrafe 14)
Al ser limitados los recursos econmicos y materiales para acceder a toda la
Poblacin, se opera sobre un conjunto limitado de objetos que denominado
Muestra, con la misma delimitacin geogrfica que el Universo.
Los resultados obtenidos de la Muestra se pretenden inferir sobre la
Poblacin, por lo que aquella debe ser representativa de sta. Para que la
Muestra sea considerada representativa, es necesario aplicar Tcnicas de
Muestreo (Tabla 7) y Tcnicas de Clculo de Tamao de Muestra (Tabla 8),
segn los requisitos o criterios de la Ficha Tcnica. Con este proceso se
define a quin (Tcnicas de Muestreo) y cuntos (Tcnica de Clculo del
Tamao de la Muestra) se les va a aplicar el Instrumento de Obtencin de
Datos (Cochran, 1987; Lohr, 1999; Rodrguez Osuna, 1991, 1993; Cea
DAncona, 2004; Scheaffer et al, 2007).
Tabla 7
Tcnicas
de Muestreo
Tcnicas de Muestreo.
Muestreo Aleatorio Simple
Muestreo Aleatorio Sistemtico
Probabilsticas
Muestreo Aleatorio Estratificado
Muestreo por Conglomerados
No probabilsticas
Muestreo Intencional
Muestreo Accidental
Muestreo Bola de Nieve
Muestreo por Cuotas
31
Error muestral
e
Z2 u puq
e2
Error muestral
puq
Zu
u 1 fm
n
Zu
puq
n
Para estimacin de X
Poblacin finita.
Poblacin Infinita.
Z2 uV 2 u N
Z2 uV 2
n
n
2
2
2
e2
e u N Z uV
Error muestral
Error muestral
e
Zu
V2
u 1 fm
e Zu
V2
n
n
Corrector por poblaciones finitas (cpf)27
N n
N
N n
N N
1 fm
Tcnicas Individuales
Dinmicas.
Biogrficas.
Entrevistas.
Observacin.
Tcnicas de Grupo.
Dinmicas.
Biogrficas.
Entrevistas.
Observacin.
Cualitativo
27
Para ampliar la informacin sobre el cpf, confrontar con W. G. Cochram (1974: 47-49).
32
Asimetra.
Apuntamiento.
Grficos
Barras
Histograma
Z
t
F2
F
Tablas de
Contingencia
Frecuencia Absoluta.
Frecuencia Relativa
Asociacin
Fuerza y Direccin
Asociacin de Celdas
Tablas de Medias.
Asociacin
Lineal.
Grfico de Dispersin.
Covarianza.
Correlacin.
t-test
t-test
Estadstica
Tcnicas Multuvariable
Forma.
Cuantitativo
Descriptiva Univariable
Modelos de
reduccin de casos
(grupos
desconocidos)
Dispersin.
Una Muestra.
Dos muestras
Independientes.
K muestras
Independientes.
Dos muestras
emparejadas.
K Muestras
Emparejadas.
Grupo de
Tcnica
Tcnicas de Anlisis.
Tcnica de Anlisis
Red Kohonen
Moda
Mediana
Media
Mnimo
Mximo
Sumatorio
Percentiles
Tabla de Frecuencias
Amplitud
Varianza
Desviacin Tpica
Coeficiente de Variacin.
Dist.
Prob.
Descriptiva Bivariable
Paramtrica
Tcnica de Anlisis
Tabla 10
Paradigma
Grupo de
Tcnica
Tendencia
Central.
Cuantitativo
Tcnicas de Anlisis.
Cualitativo
Estadstica
Paradigma
Tabla 10
33
Conglomerados jerrquico
Conglomerados no jerrquico
Modelos de
reduccin de casos
(grupos conocidos)
Discriminante
Modelos de
reduccin de
variables
Modelos de
reduccin de casos
y variables
ANACOR.
HOMALS.
MDS
PRINCALS OVERALS.
Modelos de
segmentacin
CHAID
CHAID Exhaustivo
C&RT.
QUEST
Modelos de
preferencia de
mercado
CONJOINT.
CONJOINT basado en elecciones
(CBCA)
BPTO (Brand Price Trace-Off)
Otros entornos
CLEMENTINE
CHURN
QI Analist
Power Sample
Data warehouse
Anlisis de Discurso
Anlisis de Contenido
(M)ANOVA
t-test
Medidas Repetidas.
2
No Paramtrica
Dos muestras
Independientes.
K muestras
Independientes.
Dos muestras
emparejadas.
K Muestras
Emparejadas.
Modelos
explicativos/
predictivos
Tcnicas Multivariable
Cuantitativo
Una Muestra.
Kolmogorov-Smirnov; F ,
Binomial, y Rachas.
Mann-Whitney.
Kruskal-Wallis.
Wilcoxon.
Friedman.
Lineal simple
Lineal mltiple
Parciales lineal
Simple no-lineal
Mltiple no-lineal
Parciales no-lineal
Discriminante
Logartmico lineal jerrquico
Logartmico lineal no jerrquico
Modelos binomiales
Modelos polinomiales
Series temporales (TRENDS)
LISREL, AMOS.
Red Bayesiana
Perceptrn multicapa
Funcin de base radial
34
5.1
35
Concepto acuado por el filsofo ruso Mikhail Bakhtin, que significara dilogo continuo con otras tcnicas y otros
autores.
36
Lo que perciben el sujeto y el objeto, es lo que se considera la RF y que es el espectro electromagntico que est en el
rango de una longitud de onda inferior a los 100 nm (nanometros) y superior al PHz (Peta Hz), longitud de onda corta-alta
frecuencia (Rayos gamma y rayos csmicos) y entre una longitud de onda superior al Mm y una frecuencia inferior al kHz
(kilo Hz), longitud de onda larga-baja frecuencia (radio de muy baja frecuencia) y muy por debajo estaran las ondas
electromagnticas que se asume que emite el cerebro. La RD que muestra el cerebro es la que est en la longitud de onda de
380 nm (nanometros) a 780 nm y en un rango de frecuencia de 384 THz (Tera Hz) a 789 THz ("electromagnetic waves" A
Dictionary of Space Exploration. Ed. E. Julius Dasch. Oxford University Press 2005. Oxford Reference Online. Oxford
University Press. Universidad Complutense de Madrid. 6 December 2008 <http://www.oxfordreference.com/views/ENTRY
.html?subview=Main&entry=t212.e577>). En el caso del sonido, las ondas que muestra el cerebro humano son las que
estn en el rango de 20 Hz a 20.000 Hz ("sound" A Dictionary of Physics. Ed. John Daintith. Oxford University Press, 2000.
Oxford Reference Online. Oxford University Press. Universidad Complutense de Madrid. 6 December 2008 <http://0www.oxfordreference.com.cisne.sim.ucm.es:80/views/ENTRY.html?subview=Main &entry=t83.e2840>).
34
Expresado de forma proporcional y aproximada, respecto del total del espectro de longitud de onda, el cerebro humano
muestra un 0,004 por mil millones y de la frecuencia es el 4,05 por mil millones.
37
Todo lo que puede ser materia de conocimiento o sensibilidad de parte del sujeto,
incluso este mismo. Aquello que sirve de materia o asunto al ejercicio de las
facultades mentales (Real Academia Espaola, op. cit.).
Cualquier cosa que se percibe por los sentidos. Lo que sirve de materia al ejercicio
del entendimiento. Cosa (Micronet S. A., abril de 1999).
Alguna cosa material que puede ser percibido por los sentidos. Algo mental o
fsico hacia lo que el pensamiento, el sentimiento, o la accin se dirige (Encyclopedia
Britannica, Inc., 1994).
Fin o intento a que se dirige o encamina una accin u operacin (Real Academia
Espaola, op. cit.).
Materia o asunto de que se ocupa una ciencia o estudio (Real Academia Espaola,
op. cit.).
Materia y asunto de que se ocupa una ciencia (Micronet S. A., op. cit.).
Se debe considerar que la palabra method se puede traducir por mtodo y tcnica, pero
en espaol tienen significados diferentes.
Mtodo:
x
Orden que se sigue en las ciencias para investigar o ensear la verdad (Micronet S.
A., op. cit.). Ver epgrafe 2.
Tcnica:
35
36
Para ampliar la definicin de estos conceptos se puede ver Ua Jurez y Hernndez Snchez (2004).
Institucin en el sentido durkheimiano que se consideran hechos sociales.
38
5.3
Que no se conocen.
Que entre las personas existe lo que llamamos la primera impresin que puede
condicionar la entrevista.
39
La transicin a la segunda parte tambin debe ser gradual. Este segundo bloque se
considera que es el ms importante o el que contiene la informacin que es el objetivo
principal de la investigacin (aquello que queremos saber o conocer). Las preguntas pueden
ser desde temas aparentemente superficiales hasta de una gran trascendencia. Esta parte del
cuestionario puede suponer que a la persona entrevistada se le someta a un gran esfuerzo de
tipo emocional y/o memorstico. Adems se pueden movilizar ciertos contenidos de la
persona y puede llegar incluso a producir catarsis.
Preguntas aparentemente simples pueden resultar de una gran trascendencia para el
entrevistado. Por ejemplo, un estudio de mercado de comidas de animales domsticos puede
ocasionar que coincida con alguien a quien se le ha muerto su mascota y le puede movilizar
recuerdos; un estudio de satisfaccin con el automvil nos puede llevar a alguien que hace
poco ha perdido a un familiar en un accidente de trfico; un estudio sobre la opinin del
consumo de drogas, a alguien que tiene un problema familiar de este tipo; un estudio sobre la
educacin de los hijos ocasionara un fuerte impacto a una persona que estuviese en un
proceso de custodia de los hijos.
Cuando entrevistamos a alguien, entramos en un universo desconocido del que no
sabemos en que situacin se encuentra y al terminar la entrevista, al menos, debe quedar en
las mismas circunstancias emocionales y anmicas en las que empez, o por lo menos no debe
quedar peor.
La terminacin del segundo bloque debe ser de forma gradual para hacer la transicin
al tercer y ltimo bloque en el que estn las preguntas de clasificacin. Este bloque debe ir al
final. Si estas preguntas se realizasen al principio, la persona entrevistada podra sentirse
identificada y mostrar rechazo a participar.
Todas las preguntas deben tener sentido en el marco de la investigacin que se realiza.
Preguntas que no aporten cierta utilidad van a romper el hilo conductor de la entrevista y
aunque los entrevistados no son personas tcnicas en la materia, la lgica y el sentido comn
les indica perfectamente que preguntas son tiles y cuales no y en estos casos pierden el
inters en participar.
Un cuestionario puede tener ms de tres bloque. La recomendacin es proceder de la
misma manera cuando sean ms de tres bloques. La informacin final del entrevistado son sus
datos: nombre y apellidos, direccin y telfono. Esta informacin no se va a utilizar ni se va a
grabar en la matriz de datos por ser informacin protegida por la Ley Orgnica 15/1999, de 13
de diciembre, de Proteccin de Datos de Carcter Personal. Esta informacin se utiliza
posteriormente en los procesos de supervisin y verificacin del trabajo de campo. Para
terminar, se especifica la informacin propia del cuestionario y del entrevistador,
Entrevistador
Nombre:
Apellidos:
Municipio de la entrevista:
Distrito:
Barrio:
Seccin Censal:
Comienzo de la entrevista (hora:minutos):
____:____
____:____
__ __/__ __/200__
40
Cuestionario
Revisado
Codificado
Supervisin telefnica
Supervisin en campo
Grabado
Nulo
La formulacin de las preguntas del cuestionario puede ser una tarea propia o bien
utilizar cuestionarios ya testados y utilizados en otras investigaciones. Para el proceso de la
creacin del cuestionario, su redaccin, enmaquetacin, pretest, etc., se recomiendan algunos
manuales especficos que pueden consultar los lectores, ya que es una tarea que no est dentro
del mbito de este manual (Garca Ferrando, 2005: 167-201; Manzano, 1996; Payne, 1979;
Converse y Preser, 1986; Bingham y Moore, 1973; Mayntz, 1976; Stoetzel y Girard, 1973;
Scheuch, 1973).
No obstante, la realizacin de un estudio aplicando las diferentes Tcnicas de
Investigacin Social y los Instrumentos de Obtencin de Datos correspondientes sobre una
poblacin humana, no es una tarea simple, ni sencilla ni trivial, independientemente del tema
o asunto tratado.
Una Investigacin de Mercado de productos para mascotas tiene, segn el Paradigma
Sistmico, trascendencia e implicaciones en muchos niveles. Cualquier producto, por
ejemplo, como los de mascotas, tiene una fase de produccin, tratamiento y preparacin,
distribucin, venta, compra y consumo. En todas estas etapas intervienen humanos y son
inters de muchas Ciencias y entre ellas est la Sociologa.
En la produccin intervienen humanos y obtienen beneficios y sueldos con los que
proporcionan, alimento, vestido, educacin y ocio a su familia y con ello les dan ciertas dosis
de felicidad. Bsicamente todos ellos son compradores/consumidores.
En el tratamiento y preparacin intervienen humanos y obtienen beneficios y sueldos
con los que proporcionan, alimento, vestido, educacin y ocio a su familia y con ello les dan
ciertas dosis de felicidad. Bsicamente todos ellos son compradores/consumidores.
En la distribucin intervienen humanos y obtienen beneficios y sueldos con los que
proporcionan, alimento, vestido, educacin y ocio a su familia y con ello les dan ciertas dosis
de felicidad. Bsicamente todos ellos son compradores/consumidores.
En la venta intervienen humanos y obtienen beneficios y sueldos con los que
proporcionan, alimento, vestido, educacin y ocio a su familia y con ello les dan ciertas dosis
de felicidad. Bsicamente todos ellos son compradores/consumidores.
La compra es realizada por humanos para mantener en cierto estado de bienestar a sus
mascotas y stas forman parte de las relaciones e interacciones de la familia, proporcionando
situaciones de felicidad y a veces cierto sufrimiento. Se convierten en un elemento ms en el
entorno del hogar y por lo tanto tienen su funcin dentro de la estructura familiar.
Un estudio sociolgico, de mercado, etc. debe ayuda a mantener, mejorar y/o ampliar
esta red.
Introduccin a la Estadstica
6.1
41
Tipo I
Frecuencia
2
2
2
3
3
3
3
3
3
2
2
1
1
Edad_R
18-21
21-24
24-27
27-30
Frecuencia
9
9
8
4
X i'
X 1'
X 2'
X 4'
Li 1 Li 1
2
18 21
19,5
2
21 24
22,5
2
27 30
28,5
2
Frecuencia
9
9
8
4
En donde:
Li-1: Lmite inferior del intervalo
Li+1: Lmite superior del intervalo
La aplicacin de los estadsticos se hace sobre los datos de Tipo I y Tipo II. Con los
datos Tipo III se procede pasndolos a datos Tipo II, representando cada intervalo, estrato o
categora por el valor medio o marca de clase del intervalo. En este caso, a la variable se la
38
"statistics" A Dictionary of Genetics. Robert C. King, William D. Stansfield and Pamela K. Mulligan. Oxford
University Press, 2007. Oxford Reference Online. Oxford University Press. Universidad Complutense de Madrid. 16 July
2008 http://www.oxfordreference.com/views/ENTRY.html?subview=Main&entry=t224.e6186.
42
RAE: Interrogacin que se hace para que alguien responda lo que sabe de un negocio
u otra cosa.
Ejemplos:
P-1
P-2
P-3
01
02
03
04
05
06
Edad
m.
aos
Respuesta:
x
Ejemplos:
En las tres preguntas anteriores, la respuesta es marcar en la casilla correspondiente la
respuesta dada a cada una. En la P-1, indicar cual es el sexo; en la P-2 el estado civil, y en
cada una de las preguntas de la P-3, indicar el peso, la estatura y la edad, por este orden.
Categora:
x
DMM: Cada grupo de cosas o personas de la misma especie de los que resultan al ser
clasificadas por su importancia, grado o jerarqua.
BDCD: Una de las clases distintas y fundamentales a la que pertenece una entidad o
concepto. Una divisin dentro de un sistema de clasificacin.
Ejemplos:
De las tres preguntas anteriores, las categoras de la P-1 son: varn y mujer. En la P-2,
las categoras son: soltero/a, casado/a, pareja, separado/a, divorciado/a y viudo/a. En la P-3,
43
OROP:39 En las ciencias sociales, el trmino se refiere a atributos que son fijos para
cada persona u otra entidad social, el cual es observado a los diferentes niveles o
cantidades de las muestras y otros grupos de agregados. Las variables miden una
estructura social (como la clase social, edad, o tipo de albergue) y en cierto modo
permite el anlisis numrico. As que el rasgo importante de una variable es que es
capaz de reflejar la variacin dentro de una poblacin, y no es una constante.40
Ejemplos:
En el ejemplo considerado, las variables se corresponden con las preguntas y as, las
variables seran: sexo, estado civil, peso, estatura y edad.
Espacio muestral:
x
Ejemplos:
En la pregunta o variable sexo, el espacio muestral es: varn y mujer. En estado civil
el espacio muestral est definido por: soltero/a, casado/a, pareja, separado/a, divorciado/a y
viudo/a. Y en peso, estatura y edad, los espacios muestrales estn definidos por todos los
posibles valores de cada una de las preguntas o variables y que son finitos y conocidos. En el
caso del peso y la estatura son los valores posibles de la poblacin objetivo y la edad es la
definida por los criterios de delimitacin de la poblacin.
Suceso elemental:
x
39
44
muestral.43
x
Ejemplos:
En la pregunta o variable sexo, los sucesos elementales del espacio muestral son:
varn y mujer. En estado civil los sucesos elementales son: soltero/a, casado/a, pareja,
separado/a, divorciado/a y viudo/a. Y en peso, estatura y edad, los sucesos elementales son
todos los posibles valores de cada una de las preguntas o variables y que son finitos y
conocidos. En el caso del peso y la estatura son los valores posibles de la poblacin objetivo y
de la edad los sucesos elementales estn definidos por los criterios de delimitacin de la
poblacin.
NIVEL DE MEDIDA DE LAS VARIABLES
Los niveles de medida se distinguen por propiedades de distancia y orden. Un
ordenador no sabe las caractersticas de los valores que se le dan, por tanto, se deben
determinar por el investigador los niveles de medida de los datos para poder aplicar las
tcnicas estadsticas apropiadas cuando se opera con programas estadsticos.
Las variables se clasifican en dos grupos: variables cualitativas, categricas o de
frecuencias y variables cuantitativas o numricas. En el primer grupo se incluyen las variables
de nivel de medida nominal y ordinal, y en el segundo las de intervalo o escala y razn.
Nivel de medida Nominal
Las variables de nivel de medida nominal, son aquellas que sus datos son valores
numricos o cdigos que se asignan a las categoras de la variable, entre los que no existe
ninguna relacin y cada valor define una categora distinta, es el nivel considerado inferior.
La asignacin de valores o cdigos a las categoras se llama codificacin (ver el apartado de
codificacin). Con estos valores no se pueden realizar operaciones aritmticas, pero s se
pueden aplicar operadores lgicos y operaciones de clasificacin.
Son ejemplos de variables nominales: sexo, estado civil, carcter, religin, deportes
practicados, productos comprados.
Un tipo especial de variables nominales son las dicotmicas, variables con dos
categoras, pero tambin se pueden considerar variables dicotmicas a las binarias o falsas
binarias. En la Tabla 12 se presenta la diferencia entre dicotmica, binaria y pseudobinaria.
Tabla 12
Variables dicotmicas, binarias y falsas binarias.
Dicotmica
Binaria
Falsa binaria
Cdigo
Cdigo
Categora 1
1
Verdadero 1
Categora 1
Categora 2
2
Falso
0
No categora 1
Aplicacin:
Sexo
Cdigo
Asistir a clase
Cdigo
Sexo
Varn
1
Verdadero 1
Varn
Mujer
2
Falso
0
No varn
No asistir a clase Cdigo
Sexo
Verdadero 1
Mujer
Falso
0
No mujer
Cdigo
1
0
Cdigo
1
0
Cdigo
1
0
43
"sample space" A Dictionary of Statistics. Graham Upton and Ian Cook. Oxford University Press, 2008.Oxford
Reference Online. Oxford University Press. Universidad Complutense de Madrid. 8 December 2008
http://www.oxfordreference.com/views/ENTRY.html?subview=Main&entry=t106.e1433.
45
46
La caracterstica de ausencia de valor del cero, significa que se pueden comparar las
magnitudes. Por ejemplo, es correcto decir que un adulto que mida 1,84 m. mide el doble que
un nio de 0,92 m. o que una carrera de 300 m. es tres veces ms larga que una de 100 m.
Pero no es correcto decir que 40 C es el doble de calor que 20 C, s se puede decir que 40 C
es el doble del valor 20 C en la escala centgrada, en la que el 0 C es por convenio y es la
posicin en la que el agua se solidifica. Para que la temperatura se pueda comparar es
necesario que est referida a la escala de temperatura termodinmica o Kelvin en la que el
cero tiene valor absoluto y se corresponde con los -273,16 C. El Grfico 2 muestra que el
segmento a con el valor 40 es el doble que el segmento b con el valor 20, segn la escala
Centgrada. Pero el segmento c no es el doble de calor que el segmento d, tomando como
referencia el cero absoluto (0 K) que se corresponde con -273,16 C.
Grfico 2 Comparacin de escalas
Una discusin detallada sobre el tema se puede ver en De la Puente (2007 b).
"classify verb" The Oxford Dictionary of English (revised edition). Ed. Catherine Soanes and Angus Stevenson. Oxford
University Press, 2005. Oxford Reference Online. Oxford University Press. Universidad Complutense de Madrid. 14 July
2008 <http://www.oxfordreference.com/views/ENTRY.html?subview=Main&entry=t140.e14265>
45
47
Fuma Ud.?
S
No
1
2
1
2
3
Pero plantea los mismos problemas que la anterior. Se puede optar por una pregunta
de tipo escalar o intervalar: Escala de Intensidad de la siguiente manera:
48
P-1
En este tipo de pregunta se dan los mismos problemas que en las anteriores, adems
del problema indicado en las escalas termomtricas. El criterio de subjetividad sera
paradjico. Supongamos dos individuos A y B, siendo A que fuma 40 cigarrillos/da pero est
en un grupo en el que cada individuo fuma 80 cigarrillos/da y el individuo B con 20
cigarrillos/da pero est en un grupo en el que cada individuo fuma 10 cigarrillos/da. En esta
hipottica situacin, el B podra situarse en la escala en el valor 8 mientras que el A podra
situarse en el 4. Siendo que el A fuma el doble que el B, la escala mostrara que el B tiene el
doble del valor de A. Probablemente este hecho no se producir, pero si fuese as, no se
podra controlar.
Por ltimo, la pregunta de tipo de razn sera:
P-1
P-1
49
que sus valores pertenecen a los nmeros reales que se definen de manera axiomtica como el
conjunto de nmeros que se encuentran en correspondencia biunvoca con los puntos de una
recta infinita (continuum): la recta numrica. Ejemplos: salario, edad, estatura, peso.
Una variable discreta sera la que entre cualesquiera dos valores contiguos no existen
posiciones intermedias y se corresponderan con los nmeros enteros, siendo que los nmeros
enteros se representan grficamente en la recta de nmeros enteros como puntos a un mismo
espacio entre s, desde menos infinito, ..., -3 , -2, -1, 0, 1, 2, 3,... hasta ms infinito. Ejemplos:
nmero de hijos, nmero de cigarros fumados, veces que se ha ido al cine, nmero de das
trabajados, edad.
En Sociologa sera ms apropiado hablar de nmeros naturales, puesto que las
variables utilizadas no pueden tener valores negativos. No se puede tener peso negativo,
nmero de hijos negativo, etc. La excepcin son las escalas construidas que pueden estar en el
mbito de los nmeros enteros negativos.
A veces las variables tienen la doble consideracin. Por ejemplo, la edad se trata
siempre como variable discreta cuando se dice los aos cumplidos, aunque en realidad es una
variable continua. Sean consideradas continuas o discretas las variables, cuando se aplican
funciones estadsticas (media [ X ], varianza [ S 2 ], desviacin tpica [ S ], etc.) stas se
consideran valores continuos y se presentarn con decimales.
LAS VARIABLES SEGUN SU RELACIN
En los procesos de anlisis las variables se consideran segn la relacin entre ellas.
Genricamente se consideran variables dependientes o independientes.
El concepto de dependencia de una variable tiene varias definiciones. En un estudio,
anlisis o modelo, una variable dependiente es el elemento social cuyas caractersticas o
variaciones sern explicadas por la referencia a la influencia de otra, anterior, llamada
variable independiente46 (ver nota 3).
En los mtodos de investigacin y estadsticos, es una variable que potencialmente
puede ser influida por una o ms variables independientes. El propsito de un experimento es
tpicamente determinar si una o ms variables independientes influyen en una o ms variables
dependientes de alguna manera47 (ver nota 3).
En la regresin mltiple, un grupo de variables independientes o predictoras se
combinan en un modelo lineal para proporcionar la mejor prediccin de una variable
dependiente que a veces se llama la variable criterio48 (ver nota 3).
Matemticamente si y es una funcin de x (y = f(x)), esto es, si la funcin asigna un
solo valor a y por cada valor de x, entonces y es la variable dependiente (McGraw-Hill, op.
cit.) (Ver nota 3).
La variable independiente (o explicativa) es la que en un estudio, anlisis o modelo,
(...) es el elemento social cuyas caractersticas o variaciones forman y determinan la variable
dependiente: En una situacin experimental, pueden manipularse las variables independientes
sistemticamente, para que se pueda observar el efecto producido en la variable dependiente.
46
"dependent variable" A Dictionary of Sociology. John Scott and Gordon Marshall. Oxford University Press 2005.
Oxford Reference Online. Oxford University Press. Universidad Complutense de Madrid. 11 July 2008
http://www.oxfordreference.com/views/ENTRY.html?subview=Main&entry=t88.e551.
47
"dependent variable n." A Dictionary of Psychology. Andrew M. Colman. Oxford University Press, 2006. Oxford
Reference Online. Oxford University Press. Universidad Complutense de Madrid. 11 July 2008
http://www.oxfordreference.com/views/ENTRY.html?subview=Main&entry=t87.e2193.
48
Ibd.
50
El que una variable sea tratada como dependiente o independiente esta determinado por el
marco terico y el enfoque del estudio, pero las variables independientes deben preceder a la
variable dependiente, y debe ser la causa49 (ver nota 3).
En un diseo experimental la variable independiente es una variable que es
controlada/manipulada por el experimentador, independientemente de las variables extraas,
para examinar sus efectos en la variable dependiente50 (ver nota 3).
Matemticamente la variable independiente es en una ecuacin y = f(x), la variable de
entrada x. Tambin conocido como el argumento51 (ver nota 3).
Definir la variable dependiente (variable no controlada), asume la definicin de la
variable independiente (variable controlada). Los nombres que pueden recibir segn los
procedimientos estadsticos que se utilizan se muestran en la Tabla 13.
Tabla 13 Relacin entre variables
Procedimiento
Estadstico
Variable
Dependiente
Variable
Independiente
49
Tabla de
Contingencia
Variable
Dependiente
Variable
Independiente
Diferencia de medias
Muestras
Independientes
Agrupada y
numrica
Agrupamiento y
categrica
Anlisis de
Varianza
Regresin
Muestras
Emparejadas
Agrupada y
No procede
numrica
relacin y son
Agrupamiento y
numricas
categrica
Explicada o Predicha
(Variable Criterio)
Explicativa o
Predictora
"independent variable" A Dictionary of Sociology. John Scott and Gordon Marshall. Oxford University Press 2005.
Oxford Reference Online. Oxford University Press. Universidad Complutense de Madrid. 11 July 2008
http://www.oxfordreference.com/views/ENTRY.html?subview=Main&entry=t88.e1083.
50
"independent variable n." A Dictionary of Psychology. Andrew M. Colman. Oxford University Press, 2006. Oxford
Reference Online. Oxford University Press. Universidad Complutense de Madrid. 11 July 2008
http://www.oxfordreference.com/views/ENTRY.html?subview=Main&entry=t87.e4110.
51
McGraw-Hill (2003). Dictionary of Scientific and Technical Terms.
6.2
51
Matriz de datos
Matriz de datos.
52
Ejemplo 2:
El E de gnero en cuanto a sexo tendr dos elementos:
E = (s1, s2)
De tal manera que el s1 = Varn y el s2 = Mujer. As que el E de sexo es:
E = (Varn, Mujer)
Los si de este E se consideran exhaustivos y excluyentes. Exhaustivos porque son todos los resultados posibles
y son conocidos, y excluyentes porque en cada ocasin slo se puede obtener uno de los resultados posibles.
Ejemplo 3:
El E de Estado Civil, se puede considerar que tiene 6 elementos:
E = (s1, s2, s3, s4, s5, s6)
De tal manera que el s1 = Soltero; el s2 = Casado; s3 = Pareja; s4 = Separado; s5 = Divorciado, y s6 = Viudo. As
que el E de estado civil es:
E = (Soltero, Casado, Pareja, Separado, Divorciado, Viudo)
Los si de este E se consideran exhaustivos y excluyentes. Exhaustivos porque son todos los resultados posibles
y son conocidos y excluyentes porque en cada ocasin slo se puede obtener uno de los resultados posibles.
53
"variable" A Dictionary of Statistics. Graham Upton and Ian Cook. Oxford University Press, 2006. Oxford Reference
Online.
Oxford
University
Press.
Universidad
Complutense
de
Madrid.
17
July
2008
http://www.oxfordreference.com/views/ENTRY.html?subview=Main&entry=t106.e1703.
54
"sample space" A Dictionary of Statistics. Graham Upton and Ian Cook. Oxford University Press, 2006. Oxford
Reference Online. Oxford University Press. Universidad Complutense de Madrid. 17 July 2008
http://www.oxfordreference.com/views/ENTRY.html?subview=Main&entry=t106.e1433.
53
6.2.1 La codificacin
Se denomina codificacin, a la asignacin de valores o cdigos numricos a las
categoras, caractersticas o atributos de las variables categricas (nominales y ordinales) y a
las escalares o de intervalo. Esta asignacin como no tiene ningn significado, es arbitraria y
aleatoria. En las variables ordinales que indican orden, y en las escalares que indican orden y
distancia, una vez establecido el origen, los cdigos deben mantener un orden y en las
escalares, adems, distancia.
Ejemplo 1:
La variable sexo tiene dos caractersticas o atributos: Varn y Mujer.
La asignacin de cdigos puede ser: Varn = 1; Mujer = 2.
Ejemplo 2:
La variable estado civil tiene seis caractersticas o atributos: Soltero, Casado, Pareja, Separado, Divorciado y Viudo.
La asignacin de cdigos puede ser: Soltero = 1, Casado = 2, Pareja = 3, Separado = 4, Divorciado = 5 y Viudo = 6.
Al grabar o escribir en la matriz de datos, los datos que se ponen en cada celda son las
caractersticas, atributos o valores de las variables que se corresponden con las respuestas a
las preguntas. Con la codificacin, todos los datos son estrictamente valores numricos o
cdigos.
En la Tabla 15 se presenta un modelo de cuestionario, aplicado a un grupo de jvenes,
que servir de ejemplo para la aplicacin de los estadsticos posteriores. Este grupo se utiliza
a modo de ejemplo y no tiene ninguna representatividad.
Tabla 15 Cuestionario.
54
Tabla 16
55
Mujer: = 14,58. Aunque esta asignacin puede ser vlida, no cumple algunas de las reglas de
la codificacin. Para cumplir las reglas y de forma razonable, ya que es aleatorio y arbitrario,
se codifica: Varn = 1 y Mujer = 2 Varn = 0 y Mujer = 1 Varn = 1 y Mujer = 3 Varn
= 2 y Mujer = 4.
Las reglas que presenta la codificacin son en parte obligatorias y en parte
convencionales por opcionales, pero se van a tratar todas como obligatorias. Estas reglas se
muestran en la Tabla 18.
Tabla 18
Reglas de la codificacin.
x Evitan algunos errores.
Explicacin:
Los atributos o caractersticas se pueden escribir de diferentes maneras: con maysculas,
minsculas, ambas, con acentos, sin acentos, etc. As que sera diferentes tipos de varn los
siguientes.
Varon z varon z Varn z varn z VARON z VARN.
Si se codifica con un valor, por ejemplo el 1, ste slo puede ser escrito de una manera.
x Ahorran tiempo en la grabacin.
Explicacin:
Esta regla se deriva de la anterior, ya que se tarda menos en escribir 1 que en poner Varn. El 1
tiene una nica pulsacin, mientras que Varn tiene 6 pulsaciones. En un celda el tiempo es
imperceptible, pero si consideramos que en Sociologa las matrices de datos pueden tener
millones de casos y miles de variables, puede suponer muchas horas de trabajo/persona. Los
lectores pueden hacer un clculo de ejemplo con un milln de casos.
x Ahorran espacio en el soporte magntico.
Explicacin:
El sistema binario de almacenamiento de la informacin en un ordenador precisa para cada carcter
un byte, pero con ese mismo byte se pueden representar hasta 256 valores distintos (255 ms el
0).
La categora Varn ocupara 5 byte, mientras que el cdigo 1 ocupara 1 byte. Sugerimos a los
lectores que realicen el mismo clculo de antes para comprobar la diferencia de espacio requerido
para el almacenamiento de un milln de casos.
NOTA: es diferente el nmero 1 que el carcter 1, de la misma manera que es diferente el cdigo o
nmero 255 que los caracteres 255. El nmero 1 ocupa un byte el carcter 1 ocupa un byte. El
nmero 255 ocupa 1 byte pero los caracteres 255 ocupan 3 byte.
x Ahorran tiempo de proceso.
Explicacin:
El procesador de un ordenador procesa ms deprisa la informacin numrica que la informacin de
caracteres. El programa estadstico (realmente es el microprocesador del ordenador) trata
matemticamente los valores numricos, pero los caracteres tienen un proceso distinto y ms
elaborado que supone ms tiempo.
x Algunos procedimientos estadsticos precisan que las variables categricas estn codificadas con
nmeros enteros y ms concretamente naturales.
Explicacin:
Los procedimientos de SPSS: T-test, Anlisis de Varianza, Regresin binomial, regresin polinomial,
tienen este requerimiento, y no es probable ni deseable que cambie en versiones futuras.
56
Dispersin
Forma
Apuntamiento (g2)
Otros
Grficos
Tabla de Frecuencias
Percentiles
Momentos
Diagrama de Barras
Histograma
Polgono de Frecuencias
Los estadsticos de tendencia central son: la moda, mediana y media. Se utilizan para
describir caractersticas de centralidad de las variables.
7.1.1 La moda
La moda es el valor o categora de la variable que se repiten ms veces o que tiene una
frecuencia mayor. Esta es la moda considerada absoluta. Puede haber otras modas que se
denominan relativas y su caracterstica es que es un valor de la variable que tiene una
frecuencia mayor que los valores anterior y posterior. Este estadstico se puede utilizar con las
variables de nivel de medida: nominal, ordinal, intervalo y razn. Como el clculo se realiza a
partir de la Tabla de Frecuencias, el resultado puede variar en funcin del agrupamiento de los
intervalos. En las variables categricas, el valor de la moda se calcula por observacin de la
57
Mo
Li 1
Perdidos
Total
32
19
95
4
99
En donde:
Mo: Moda.
Li-1: Lmite inferior del IC.
A1: ni - ni-1.
A2: ni - ni+1.
ai: Amplitud del IC.
ni: Frecuencia del IC.
ni+1: Frecuencia del intervalo posterior al IC.
ni-1: Frecuencia del intervalo anterior al IC.
A1
Li 1
u ai
A1 A2
Mo
65-75 kg
75-85 kg
Total
Sistema
ni 1
u ai
ni 1 ni 1
Ejemplo:
Mo
65
32 21
u 10
32 21 32 19
69,58 , M o
65
19
u 10
19 21
69,75
Histograma
Moda
35
Frecuencia
A1
30
25
32
A2
E
23
21
20
19
Q
T
15
10
5
0
50
60
Li-1
70
Li+1
Peso (kg)
80
58
M Li 1
PF
o
ST
A1
EP
RQ
Li1 M o
A2
Frmula 2
Entonces,
A2 M o Li 1
A1 Li 1 M o
Frmula 3
A2 M o A2 Li 1
A1 Li 1 A1M o
Frmula 4
A2 M o A1M o
A1 Li1 A2 Li 1
Frmula 5
M o A2 A1
Mo
A1 Li1 A2 Li1
A1 Li1 A2 Li1
A1 A2
Frmula 6
Frmula 7
Mo
A1 Li1 ai A2 Li 1
A1 A2
Frmula 8
Mo
A1 Li 1 A1ai A2 Li1
A1 A2
Frmula 9
Li 1 A1 A2 A1ai
A1 A2
Frmula 10
Li 1 A1 A2
Aa
1 i
A1 A2
A1 A2
Frmula 11
Mo
Mo
Mo
Li 1
A1
u ai
A1 A2
Frmula 12
59
7.1.2 La mediana
La mediana es el valor de la variable que deja por debajo el 50,0% de los casos. Por lo
que por encima de su valor est el otro 50,0%. La mediana se puede utilizar con variables que
al menos tengan el nivel de medida ordinal, pero su uso es ms adecuado con las de intervalo
y razn. Con las variables nominales no se puede utilizar ya que ni siquiera se pueden ordenar
los casos.
La frmula de la mediana es una derivacin de la frmula de los percentiles y se
desarrolla con una regla de tres simple.
Frmula 13 Mediana.
La tabla de frecuencias de la variable peso recodificada se ha obtenido a partir de la variable p4_1 (peso) de la
matriz de datos de la Tabla 16 y que se corresponde con la pregunta P4 del cuestionario de la Tabla 15. De las
99 entrevistas realizadas, 95 dieron respuesta vlida y 4 no contestaron.
Proceso de clculo:
Peso recodificada en 4 intervalos
1. Se ordena la tabla de frecuencias de menor a mayor.
Frecuencia
2. Se calculan las frecuencias absolutas acumuladas.
Frecuencia
acumulada
3. Se divide el nmero de casos por dos y el intervalo que los
Vlidos
45-55 kg
23
23
contiene se le denomina intervalo crtico (IC).
55-65 kg
21
44
4. Entonces se procede a calcular el valor exacto de la
65-75 kg
32
76
mediana.
75-85 kg
En la tabla de frecuencias, el intervalo que tiene la mitad de los
casos acumulados (95/2 = 47,5) es el intervalo de 65 a 45
Kg., y se le considera el IC.
Me
N
N i 1
2
Li 1
u ai
ni
Perdidos
Total
Total
Sistema
19
95
4
99
95
En donde:
Me: Mediana.
Li-1: Lmite inferior del IC.
N/2: La mitad de los casos.
Ni-1: Total de casos por debajo del IC.
ai: Amplitud del IC.
ni: Frecuencia del IC.
Ejemplo:
Me
95
44
47,5 44
2
65
u 10 65
u 10 65 0,11 u 10
32
32
65 1,09
66,09
Lectura: El valor de la variable de 66,09 Kg. deja por debajo de s el 50,0 % de los casos. No obstante, esta es
una definicin terica, porque si se contabilizan los casos, puede que no coincidan exactamente.
60
cua
, x
b
Me
10
x
c
ua , x
b
65 x
3,5
u 10 1,09
32
65 1,09
66,09
N
N i 1 , b
2
ni , a
ai , x
N
N i 1
2
u ai
ni
Me
Li 1 x , M e
N
Ni 1
Li 1 2
u ai
ni
7.1.3 La media
La media es el valor que tendran todos los casos, si todos los casos tuviesen el mismo
valor o tambin se puede considerar como el centro de gravedad de la variable o el punto de
apoyo que la mantiene en equilibrio, esto es, que la suma de los valores de los casos que hay a
la izquierda pesan lo mismo que la suma de los valores de los casos que hay a la derecha y
es la suma de los valores de todos los casos dividida por el nmero de casos. El nivel de
medida de las variables debe ser de intervalo o razn.
61
Frmula 14 Media.55
En donde:
n
X : Media.
xi
i 1
xi : Valor de la variable para el caso i-simo.
n
n:
Total de los casos.
En donde:
n
xi ni
X : Media.
i 1
xi : Valor de la variable en la categora i.
n
ni: Nmero de casos en la categora i.
n
i 1
Ejemplo T-I: Clculo de la media de la variable peso desde la matriz de datos de la Tabla 16
n
xi
i 1
x1 x2 x3 ... xn 1 xn
, X
n
63 63 68 ... 75 76
95
65,86
Lectura: La media de la variable peso, esto es, el valor que es el centro de gravedad de la variable o el valor que
tendran todos los casos si todos tuviesen el mismo valor es 65,86 Kg. (Datos Tipo I).
Ejemplo T-II: Clculo de la media de la variable p4_1 (peso) desde la
Peso (kg)
tabla de datos Tipo II, obtenida de la Tabla 16.
Frecuencia
Vlidos
20
xi ni
X
i 1
20
ni
i 1
45 u 3 50 u 2 52 u 7 ... 80 u 3 85 u 3
3 2 7 ... 3 3
6.257
95
65,86
Perdidos
Total
45
50
52
53
55
58
60
63
65
66
67
68
70
73
75
76
77
78
80
85
Total
Sistema
3
2
7
3
8
5
6
5
5
4
2
3
8
7
8
4
5
4
3
3
95
4
99
Lectura: La media de la variable p4_1, esto es, el valor que es el centro de gravedad de la variable o el valor que
tendran todos los casos si todos tuviesen el mismo valor es 65,86 Kg. (Datos Tipo II).
Ejemplo T-III: Clculo de la media de la variable p4_1 (peso) desde la
tabla de datos Tipo II obtenida a partir de la tabla de datos Tipo III que
se muestra en la Frmula 13.
Peso recodificada en 4 intervalos
xi'
u ni
Vlidos
i 1
ni
X
X
x1' n1
i 1
'
x2 n2 x3' n3
x4' n4
n1 n2 n3 n4
50 u 23 60 u 21 70 u 32 80 u 19
3 2 7 ... 3 3
6.257
95
Perdidos
Total
50 kg
60 kg
70 kg
80 kg
Total
Sistema
Frecuencia
23
21
32
19
95
4
99
64,95
Lectura: La media de la variable p4_1, esto es, el valor que es el centro de gravedad de la variable o el valor que
tendran todos los casos si todos tuviesen el mismo valor es 64,95 Kg. (Datos Tipo III).56
55
Los resultados de los estadsticos calculados sobre datos Tipo I y Tipo II coinciden, pero no coinciden los calculados
con los datos Tipo III, por la sustitucin que se hace de los intervalos por la Marca de Clase.
56
Los resultados de los estadsticos calculados sobre datos Tipo I y Tipo II coinciden, pero no coinciden los calculados
con los datos Tipo III, por la sustitucin que se hace de los intervalos por la Marca de Clase.
62
X A.
X
x1 + A
x2 + A
x3 + A
x4 + A
x5 + A
x6 + A
x7 + A
x8 + A
x9 + A
x10 + A
Y
y1
y2
y3
y4
y5
y6
y7
y8
y9
y10
=
=
=
=
=
=
=
=
=
=
Ejemplo
Sea la cte. = 2,
si sumamos a todos
los valores de X la
cte., la media de la
nueva
variable
obtenida es igual a
la media de X ms
la cte.
X
2+2
3+2
5+2
8+2
1+2
3+2
5+2
7+2
9+2
1+2
=
=
=
=
=
=
=
=
=
=
Y
4
5
7
10
3
5
7
9
11
3
Demostracin:
n
i 1
i 1
yi xi A
Y
( x1 A) ( x2 A) ( x3 A) ... ( xn 1 A) ( xn A)
n
( x1 x2 x3 ... xn 1 xn ) ( A A ... A)
n
( x1 x2 x3 ... xn 1 xn )
n
Y
( A A ... A)
n
xi
i 1
nu A
n
XA
XA
Ejemplo:
n
xi
X
i 1
x1 x2 x3 ... xn 1 xn
n
2 3 5 8 1 3 5 7 9 1
10
4,40
10
yi
Y
...
i 1
n
11 3
10
y1 y2 y3 y4 y5 y6 y7 y8 y9 y10
n
6,40
10
yi
xi A
i 1
4 5 7 10 3 5 7 9
...
10
i 1
( x1 A) ( x2 A) ( x3 A) ( x4 A) ( x5 A) ( x6 A)
...
n
...
...
...
( x7 A) ( x8 A) ( x9 A) ( x10 A)
(2 2) (3 2) (5 2) (8 2) (1 2)
...
10
(3 2) (5 2) (7 2) (9 2) (1 2)
2 2 2 2 2 2 2 2)
63
( 2 3 5 8 1 3 5 7 9 1) ( 2 2
...
10
(2 3 5 8 1 3 5 7 9 1) 10 u 2
10
10
4,40 2 6,40
X A 4,40 2 6,40
Propiedad 2 Media 2.
Si a los valores xi de
una
variable
X
le
restamos una constante
A (xi - A), obtenemos una
nueva variable Y, de tal
forma que
X A.
X
x1 - A
x2 - A
x3 - A
x4 - A
x5 - A
x6 - A
x7 - A
x8 - A
x9 - A
x10 - A
=
=
=
=
=
=
=
=
=
=
Y
Y1
Y2
Y3
Y4
Y5
Y6
Y7
Y8
Y9
y10
Ejemplo
Sea la cte. = 2, si
restamos a todos los
valores de X la cte.,
la media de la nueva
variable obtenida es
igual a la media de
X menos la cte.
X
2-2
3-2
5-2
8-2
1-2
3-2
5-2
7-2
9-2
1-2
=
=
=
=
=
=
=
=
=
=
Y
0
1
3
6
-1
1
3
5
7
-1
Demostracin:
n
yi
i 1
A
( x1 A) ( x2 A) ( x3 A) ... ( xn1 A) ( xn A)
n
i 1
( x1 x2 x3 ... xn1 xn )
...
n
...
( A A ... A)
xi
i 1
nu A
n
XA ,Y
XA
Ejemplo:
n
i 1
x1 x2 x3 ... xn1 xn
n
2 3 5 8 1 3 5 7 9 1
10
4,40
10
yi
Y
...
i 1
n
7 1
10
y1 y2 y3 y4 y5 y6 y7 y8 y9 y10
n
2,40
10
yi
xi A
i 1
0 1 3 6 1 1 3 5
...
10
i 1
( x1 A) ( x2 A) ( x3 A) ( x4 A) ( x5 A) ( x6 A)
...
n
64
...
...
...
( x7 A) ( x8 A) ( x9 A) ( x10 A)
(5 2) (7 2) (9 2) (1 2)
10
2 2 2 2 2)
X A 4,40 2
(2 2) (3 2) (5 2) (8 2) (1 2) (3 2)
...
10
( 2 3 5 8 1 3 5 7 9 1) ( 2 2 2 2 2
...
10
(2 3 5 8 1 3 5 7 9 1) 10 u 2
10
10
4,40 2
2,40
2,40
Propiedad 3 Media 3.
Si los valores xi de
una variable X se
multiplican
por
una
constante A (xi x A),
obtenemos una nueva
variable Y, de tal forma
que Y X u A .
X
x1 x A
x2 x A
x3 x A
x4 x A
x5 x A
x6 x A
x7 x A
x8 x A
x9 x A
x10 x A
Y
y1
y2
y3
y4
y5
y6
y7
y8
y9
y10
=
=
=
=
=
=
=
=
=
=
Ejemplo
Sea la cte. = 2,
si multiplicamos a
todos los valores de
X por la cte., la
media de la nueva
variable obtenida es
igual a la media de
X por la cte.
X
2x2
3x2
5x2
8x2
1x2
3x2
5x2
7x2
9x2
1x2
=
=
=
=
=
=
=
=
=
=
Y
4
6
10
16
2
6
10
14
18
2
Demostracin:
n
yi
x u A
i 1
i 1
( x1 u A) ( x2 u A) ( x3 u A) ... ( xn1 u A) ( xn u A)
n
n
A u ( x1 x2 x3 ... xn1 xn )
n
A u xi
i 1
Au
i 1
XuA
Ejemplo:
n
i 1
x1 x2 x3 ... xn1 xn
n
2 3 5 8 1 3 5 7 9 1
4,40
10
10
Y
...
i 1
n
18 2
10
Y
...
y1 y2 y3 y4 y5 y6 y7 y8 y9 y10
n
8,80
10
yi
x u A
i 1
4 6 10 16 2 6 10 14
...
10
i 1
( x1 u A) ( x2 u A) ( x3 u A) ( x4 u A) ( x5 u A) ( x6 u A)
...
n
( x7 u A) ( x8 u A) ( x9 u A) ( x10 u A)
2 u 2 3 u 2 5 u 2 8 u 2 1 u 2 3 u 2 ...
10
...
...
5 u 2 7 u 2 9 u 2 1 u 2
1 3 5 7 9 1
XuA
2 u 4,40
2 u (2 3 5 8 1 3 5 7 9 1)
10
2u
2358
...
10
8,80
4,40 u 2 8,80
Propiedad 4 Media 4.
Si los valores xi de una
variable X se dividen por
una constante A (xi / A),
obtenemos
una
nueva
variable Y, de tal forma que
X
Y
A
65
Xu
1
A
X
x1 : A
x2 : A
x3 : A
x4 : A
x5 : A
x6 : A
x7 : A
x8 : A
x9 : A
x10 : A
=
=
=
=
=
=
=
=
=
=
Y
y1
y2
y3
y4
y5
y6
y7
y8
y9
y10
Ejemplo
Sea la cte. = 2,
si dividimos a todos
los valores de X por
a cte., la media de la
nueva
variable
obtenida es igual a
la media de X
dividida por la cte.
[ntese que dividir
por A es igual que
multiplicar por el
inverso de A (1/A)].
X
2:2
3:2
5:2
8:2
1:2
3:2
5:2
7:2
9:2
1:2
=
=
=
=
=
=
=
=
=
=
Y
1,0
1,5
2,5
4,0
0,5
1,5
2,5
3,5
4,5
0,5
Demostracin:
n
xi
yi
i 1
i 1
x x
x1 x2 x3
... n1 n
A A A
A A
n
1
u ( x1 x2 x3 ... xn1 xn )
A
n
1 n
u xi
A i1
n
1
u i1
A
n
xi
Xu
1
A
Ejemplo:
n
i 1
x1 x2 x3 ... xn1 xn
n
2 3 5 8 1 3 5 7 9 1
10
4,40
10
Y
...
i 1
10
y1 y2 y3 y4 y5 y6 y7 y8 y9 y10
10
10
xi
yi
i 1
i 1
5 7 9 1
2
2 2 2
...
2,20
x1 x2 x3 x4 x5 x6 x7 x8 x9 x10
A A A A A A A A A A
n
1
u (2 3 5 8 1 3 5 7 9 1)
2
10
2 3 5 8 1 3
2 2 2 2 2 2 ...
10
1 2 3 5 8 1 3 5 7
...
u
2
10
66
...
9 1
1
u 4,40
2
Xu
1
A
2,20
4,40 u
1
2
2,20
Propiedad 5 Media 5.
El sumatorio de la
distancia de todos los
casos respecto de la media
es igual a cero.
Ejemplo
Si a todos les
restamos la media,
el sumatorio de los
resultados obtenidos
es iguala cero.
x X
i
i 1
X
2358135791Total
X
4,40
4,40
4,40
4,40
4,40
4,40
4,40
4,40
4,40
4,40
=
-2,40
-1,40
0,60
3,60
-3,40
-1,40
0,60
2,60
4,60
-3,40
0
Demostracin:
n
X
i 1
X
X x2 X x3 X ... xn1 X xn X
i 1
X X X ... X X ( x
x2 x3 ... xn1 xn )
n X xi
xi
ni
i 1
xi
i 1
i 1
xi xi
i 1
Ejemplo:
n
x
i 1
X
10
X
X x 2 X x3 X x 4 X x5 X x6 X x7 X ...
i 1
...x8 X x9 X x10 X
10
xi
i 1
10
10 u 4,40 xi 10 i
10
xi
i 1
10
10
i 1
i 1
xi xi
44 44
7.2
67
Estadsticos de Dispersin
Apeso
Aestatura
Aedad
VM Vm
85 45 40 kg
28 17 11 aos
7.2.2 La varianza
El concepto de dispersin es medir la distancia de todos los casos respecto a algn
estadstico de tendencia central, normalmente la media. La dispersin de un caso respecto de
la media se puede ver por la distancia que hay entre ellos a travs de la diferencia.
dispersin
xi X
Frmula 16
dispersin _ total
(x
X)
Frmula 17
i 1
(x X )
i
dispersin _ media
i 1
Frmula 18
68
n
xi : Valor de la variable X para el caso i-simo.
n
n:
Total de los casos.
2
S2
Tabla de datos Tipo I
i 1
X
n
n
S2
En donde:
S2: Varianza.
X : Media de X.
xi : Valor de la variable X en la categora i-sima.
ni: Nmero de casos en la categora i.
En donde:
S2: Varianza.
X : Media X.
x X u n
i 1
i 1
x X u n
2
'
i
S2
i 1
sima.
ni: Nmero de casos en la categora i.
Ejemplo T-I: Clculo de la varianza de la variable p4_1 (peso) desde la matriz de datos de la Tabla 16
i 1
95
x X
S2
1 X x 2 X ... x 95 X
95
2
i 1
95
9.651,22
95
Peso (kg)
Vlidos
20
x X u n
2
S2
i 1
20
i 1
9.651,22
95
101,59kg 2
Perdidos
Total
57
101,59kg 2
45
50
52
53
55
58
60
63
65
66
67
68
70
73
75
76
77
78
80
85
Total
Sistema
Frecuencia
3
2
7
3
8
5
6
5
5
4
2
3
8
7
8
4
5
4
3
3
95
4
99
Todos los clculos estadsticos se realizan con SPSS y EXCEL. Los resultados expuestos estn de acuerdo a las
frmulas expresadas. Si se comparan los resultados, se comprobar que en la varianza no coinciden. En la frmula de la
varianza, SPSS utiliza el concepto de cuasi-varianza, que en el denominador en vez de n utiliza (n-1). La cuasi-varianza es
un corrector para n pequeas, ya que a medida que la n se hace grande, la diferencia entre la varianza y la cuasi-varianza se
reduce, llegando incluso a anularse.
69
Frmula 19 Continuacin.
Ejemplo T-III: Clculo de la media de la variable p4_1 (peso) desde la tabla de
datos Tipo II obtenida de la tabla de datos Tipo III que se muestra en la Frmula
13.
4
x X u n
2
'
i
S2
i 1
n
x X u n x
i
i 1
'
X u n1 x2' X u n2
3
n1 n2 n3 n4
2
'
1
Perdidos
Total
X u n4
2
'
4
10.774,74
95
23 21 32 19
Frecuencia
23
21
32
19
95
4
99
50 kg
60 kg
70 kg
80 kg
Total
Sistema
113,42 kg 2
SY2
X
x1 + A
x2 + A
x3 + A
x4 + A
x5 + A
x6 + A
x7 + A
x8 + A
x9 + A
x10 + A
S X2 .
=
=
=
=
=
=
=
=
=
=
Y
y1
y2
y3
y4
y5
y6
y7
y8
y9
y10
Ejemplo
Sea la cte. = 2,
si sumamos a todos
los valores de X la
cte.,la varianza de la
nueva variable Y
obtenida es igual a
la varianza de X.
X
2+2
3+2
5+2
8+2
1+2
3+2
5+2
7+2
9+2
1+2
Y
4
5
7
10
3
5
7
9
11
3
=
=
=
=
=
=
=
=
=
=
Demostracin:
n
2
Y
Y
i 1
>x A X A@ >x X A A@ x X
2
i 1
i 1
i 1
S X2
Ejemplo:
n
2
Y
Y
yi Y
y Y y Y
2
i 1
74,40
10
x X x
... y10 Y
7,44
i 1
Y
10
10
3 6,40
2
X
...
i 1
10
SY2
y Y y Y ... y
X
x
2
X ... xn X
n
70
10
x X x
2
2
X
i 1
1 4,40
SY2
x
2
74,40
10
10
2
...
X
X ... x10 X
10
7,44
S X2 7,44 7,44
Propiedad 7 Varianza 2.
Si a los valores xi de
una
variable
X
le
restamos una constante
A (xi - A), obtenemos una
nueva variable Y, de tal
SY2
forma que
X
x1 - A
x2 A
x3 A
x4 A
x5 A
x6 A
x7 A
x8 A
X9 A
x10 A
S X2 .
=
=
=
=
=
=
=
=
=
=
Y
Y1
Y2
Y3
Y4
Y5
Y6
Y7
Y8
Y9
y10
Ejemplo
Sea la cte. = 2, si
restamos a todos los
valores de X la
cte.,la varianza de la
nueva variable Y
obtenida es igual a
la varianza de X.
X
2-2
3-2
5-2
8-2
1-2
3-2
5-2
7-2
9-2
1-2
Y
0
1
3
6
-1
1
3
5
7
-1
=
=
=
=
=
=
=
=
=
=
Demostracin:
n
2
Y
Y
i 1
>x A Y A@ >x X A A@ x X
2
i 1
i 1
i 1
S X2
Ejemplo:
n
2
Y
Y
Y
y Y y
2
74,40
10
x X x
2
i 1
10
2
X
X
x
2
x X x
2
10
1 4,40
SY2
74,40
10
S X2 7,44 7,44
7,44
i 1
...
X
Y
Y ... y10 Y
10
10
i 1
1 2,40
2
X
...
n
i
i 1
10
2
Y
y Y y Y ... y
7,44
X ... xn X
n
2
X ... x10 X
10
Propiedad 8 Varianza 3.
Si los valores xi de
una variable X se
multiplican
por
una
constante A (xi x A),
obtenemos una nueva
variable Y, de tal forma
que
SY2
X
x1 x A
x2 x A
x3 x A
x4 x A
x5 x A
x6 x A
x7 x A
x8 x A
x9 x A
x10 x A
S X2 u A2 .
Y
y1
y2
y3
y4
y5
y6
y7
y8
y9
y10
=
=
=
=
=
=
=
=
=
=
71
Ejemplo
Sea la cte. = 2,
si multiplicamos a
todos los valores de
X por la cte., la
varianza de la nueva
variable Y es igual a
la varianza de X por
la cte. elevada al
cuadrado.
X
2x2
3x2
5x2
8x2
1x2
3x2
5x2
7x2
9x2
1x2
Y
4
6
10
16
2
6
10
14
18
2
=
=
=
=
=
=
=
=
=
=
Demostracin:
n
SY2
y Y x u A X u A A u x X A u x X
2
i 1
i 1
i 1
i 1
>
297,60
10
29,76
A2 u x1 X A2 u x2 X
n
n
A u xi X
2
... A u x
2
X
A2 u x1 X x2 X
n
... x
2
X
@
2
S X2 u A2
i 1
n
Ejemplo:
n
10
y Y y Y y Y y
2
2
Y
i 1
i 1
10
10
n
10
x X x X x X x
2
2
X
i 1
i 1
Y y3 Y ... y10 Y
10
X
x
2
X
10
10
74,10
10
10
SY2
S X2 u A2
7,44 u 2 2
Propiedad 9 Varianza 4.
Si los valores xi de una
variable X se dividen por
una constante A (xi : A),
obtenemos una nueva
variable Y, de tal forma que
SY2
SY2
S X2
A
1
S X2 u
A
... x
2
10
X
7,44
29,76
X
x1 : A
x2 : A
x3 : A
x4 : A
x5 : A
x6 : A
x7 : A
x8 : A
x9 : A
x10 : A
=
=
=
=
=
=
=
=
=
=
Y
y1
y2
y3
y4
y5
y6
y7
y8
y9
y10
Ejemplo
Sea la cte. = 2, si
dividimos a todos los
valores de X por a cte. La
varianza de la nueva
variable obtenida es igual a
la varianza de X dividida por
la cte. [ntese que dividir
por A es igual que
multiplicar por el inverso de
A (1/A)].
X
2:2
3:2
5:2
8:2
1:2
3:2
5:2
7:2
9:2
1:2
=
=
=
=
=
=
=
=
=
=
Y
1,0
1,5
2,5
4,0
0,5
1,5
2,5
3,5
4,5
0,5
72
Demostracin:
n
SY2
1
1
xi u X u
A
A
i 1
n
Y
i 1
n
2
1
u x1 X
A
1A u x
2
u xi X
i 1 A
n
... 1A u x
2
2 X
n X
1
u xi X
i 1 A
n
>
1
u` x1 X
A
n
2
>... x X @
...
n
x
X
...@
2
...
n
1
u xi X
A i 1
n
1
S u
A
2
X
Ejemplo:
n
SY2
Y
i 1
10
y Y y Y y
2
i 1
Y y3 Y ... y10 Y
10
10
x X x X x X x
2
2
X
i 1
i 1
x
2
X
X
10
10
74,40
10
10
S
2
Y
1
S u
A
2
X
1
7,44 u
2
18,60
1,86
10
10
n
... x
2
10
X
7,44
1,86
En donde:
S:
Desviacin tpica.
2
S : Varianza.
S2
S2
101,59 kg 2
10,08 kg
73
SY
SX .
X
x1 + A
x2 + A
x3 + A
x4 + A
x5 + A
x6 + A
x7 + A
x8 + A
x9 + A
x10 + A
=
=
=
=
=
=
=
=
=
=
Y
y1
y2
y3
y4
y5
y6
y7
y8
y9
y10
Ejemplo
Sea la cte. = 2,
si sumamos a todos
los valores de X la
cte., la desviacin
tpica de la nueva
variable Y obtenida
es
igual
a
la
desviacin tpica de
X.
X
2+2
3+2
5+2
8+2
1+2
3+2
5+2
7+2
9+2
1+2
=
=
=
=
=
=
=
=
=
=
Y
4
5
7
10
3
5
7
9
11
3
X
2-2
3-2
5-2
8-2
1-2
3-2
5-2
7-2
9-2
1-2
=
=
=
=
=
=
=
=
=
=
Y
2
1
3
6
-1
1
3
5
7
-1
Demostracin:
2
Segn la demostracin de la Propiedad 6, SY
SY2 y S X
SY
S X2 entonces SY
S X2 , entonces:
SX
Ejemplo:
SY
SY2
SX
S X2
7,44
7,44
2,73
2,73
S X 2,73 2,73
SY
SY
SX .
X
x1 A
x2 A
x3 A
x4 A
x5 A
x6 A
x7 A
x8 A
x9 A
x10 A
=
=
=
=
=
=
=
=
=
=
Y
Y1
Y2
Y3
Y4
Y5
Y6
Y7
Y8
Y9
y10
Ejemplo
Sea la cte. = 2, si
restamos a todos los
valores de X la cte.,
la desviacin tpica
de la nueva variable
Y obtenida es igual
a
la
desviacin
tpica de X.
Demostracin:
Segn la demostracin de la Propiedad 7, SY2
SY2 y S X
si SY
S X2 entonces SY
Ejemplo:
SY
SY2
SX
S X2
SY
7,44
7,44
2,73
2,73
S X 2,73 2,73
SX
S X2 , entonces:
74
SX u A .
SY
X
x1 x A
x2 x A
x3 x A
x4 x A
x5 x A
x6 x A
x7 x A
x8 x A
x9 x A
x10 x A
Y
y1
y2
y3
y4
y5
y6
y7
y8
y9
y10
=
=
=
=
=
=
=
=
=
=
Ejemplo
Sea la cte. = 2,
si multiplicamos a
todos los valores de
X por la cte., la
desviacin tpica de
la nueva variable Y
es
igual
a
la
desviacin tpica de
X por la cte.
X
2x2
3x2
5x2
8x2
1x2
3x2
5x2
7x2
9x2
1x2
=
=
=
=
=
=
=
=
=
=
Y
4
6
10
16
2
6
10
14
18
2
Demostracin:
Segn la demostracin de la Propiedad 8, SY2
SY2 y S2Y
si SY
S X2 u A2 entonces SY
S X2 u A2 , entonces:
S X2 u A2 y SY
SX u A
Ejemplo:
SY
SY2
29,76
5,46
SX
S X2
7,44
2,73
SY
SX u A
2,73 u 2
5,46
SY
SX
A
SY
SX u
1
A
X
x1 : A
X2 : A
X3 : A
X4 : A
X5 : A
X6 : A
X7 : A
X8 : A
x9 : A
x10 : A
=
=
=
=
=
=
=
=
=
=
Y
y1
y2
y3
y4
y5
y6
y7
y8
y9
y10
Ejemplo
Sea la cte. = 2, si
dividimos a todos los
valores de X por la cte.,
la desviacin tpica de la
nueva variable obtenida
es igual a la desviacin
tpica de X dividida por
la cte. [ntese que
dividir por A es igual que
multiplicar por el inverso
de A (1/A)].
Demostracin:
2
SY2 y S2Y
si SY
1
S X2 u entonces SY
A
Ejemplo:
SY
SY2
SX
S X2
SY
SX u
1,86 1,36
7,44
1
A
2,73
1
2,73 u
1,36
2
SY2
S X2
1
u , entonces:
A
1
S X2 u y SY
A
SX u
1
A
X
2:2
3:2
5:2
8:2
1:2
3:2
5:2
7:2
9:2
1:2
=
=
=
=
=
=
=
=
=
=
Y
1,0
1,5
2,5
4,0
0,5
1,5
2,5
3,5
4,5
0,5
75
S2
101,59 kg 2
X
CV
SX
XX
10,08 kg
65,86 kg
10,08 kg
65,86 kg
Interpretacin:
Valores que puede tomar el coeficiente de variacin.
CV
SX
XX
SX ! X X
SX
XX
SX X X
76
XX
CV
65,86 kg
S X 10,08 kg
X X 65,86 kg
S X 10,08 kg 10.080 g
X X 65,86 kg 65.860 g
SX
10.080 g
CV
0,1530 u 100 15,30%
X X 65.860 g
Ejemplo general:
Dos distribuciones pueden tener la misma media y ser diferentes en otros aspectos. Por
ejemplo, supuestas las siguientes variables:
Tabla 21 Ejemplo de dispersin.
X
Y
Caso 1
0
18
Caso 2
10
19
Caso 3
20
20
Caso 4
30
21
Caso 5
40
22
5
xi
x1 x x3 x4 x5
i 1
i 1
i 1
y1 y y3 y4 y5
i 1
n
n
18 19 20 21 22
5
5
5
i 1
i 1
20
200
5
n
20 0 20 10 20 20 20 30 20 40
5
Y y Y y Y y Y y Y y Y y Y y
2
100
5
2
Y
20
X x X x X x X x X x X x X x
i
2
X
100
5
y y
0 10 20 30 40
5
i 1
i 1
20 18 20 19 20 20 20 21 20 22
2
5
SX
S X2
CVX
S X2
X
SY
SY2
CVY
SY2
Y
200 14,14
14,14
20
2 1,41
1,41
0,0707 u 100 7,1%
20
77
Tabla 22 Resumen.
Estadstico
X
Y
40
22
VM
0
18
Vm
20
20
X
S2
S
CV
200
14,14
0,71
1,41
0,07
La media de las dos variables es 20. No obstante, un examen detenido de los datos y
los dems estadsticos, muestran que las dos variables tienen caractersticas distintas. Este
ejemplo muestra que la Estadstica Descriptiva Univariable no consiste en aplicar un
estadstico (la media) a una variable, sino aplicar todos los estadsticos adecuados a cada
variable. La media de las dos variables tienen el mismo valor, pero la dispersin de la variable
X (CV = 0,71) es mayor que el de la variable Y (CV = 0,07).
7.3
Estadsticos de Forma
78
r
i
Frmula 22
i 1
ar
para r = 0, 1, 2, ...
x n
r
i i
i 1
n
ar
para r = 0, 1, 2, ...
Frmula 23
i 1
'r
i i
i 1
n
ar
para r = 0, 1, 2, ...
Frmula 24
i 1
0
i
Momento de orden r = 0
a0
i 1
1
i
Momento de orden r = 1
a1
i 1
media
n
n
2
i
Momento de orden r = 2
a2
i 1
n
n
3
i
Momento de orden r = 3
a3
i 1
X
i 1
mr
Frmula 25
para r = 0, 1, 2, ...
x X u n
r
mr
i 1
para r = 0, 1, 2, ...
i 1
Frmula 26
79
x X u n
r
'
i
i 1
mr
para r = 0, 1, 2, ...
Frmula 27
i 1
x X
Momento de orden r = 0
m0
i 1
n
n
x X
Momento de orden r = 1
m1
i 1
X
Momento de orden r = 2
m2
i 1
var ianza
n
n
x X
Momento de orden r = 3
m3
i 1
n
n
x
Momento de orden r = 4
m4
X
i 1
Mo = Me =
0,40
FRECUENCIAS
0,35
0,30
0,25
g1 = 0
g2 = 0
0,20
0,15
0,10
0,05
0,00
-5
-4
-3
-2
-1
VALORES X
80
Frmula 28 Asimetra o g1
Datos Tipo I
n
X
3
n
x X
i 1
g1
m3
S3
n
S3
i 1
n u S3
Datos Tipo II
n
g1
m3
S3
x X n
3
i 1
S u ni
3
i 1
g1
m3
S3
x X n
3
'
i
i 1
S 3 u ni
i 1
Interpretacin:
g1 = 0
no presenta asimetra
0,20
0,18
0,16
0,14
0,12
0,10
0,08
0,06
0,04
0,02
0,00
g1 > 0
presenta asimetra positiva u
oblicua a la derecha. La
asimetra se presenta hacia los
valores altos de la variable, por
lo tanto los casos se concentran
hacia los valores bajos de la
variable.
g1 < 0
presenta asimetra negativa u
oblicua a la izquierda. La
asimetra se presenta hacia los
valores bajos de la variable, por
lo tanto se concentran los casos
hacia los valores altos de la
variable.
10
11
12
13
14
15
16
17
18
19
20
21
10
11
12
13
14
15
16
17
18
19
20
21
10
11
12
13
14
15
16
17
18
19
20
21
0,24
0,22
0,20
0,18
0,16
0,14
0,12
0,10
0,08
0,06
0,04
0,02
0,00
0,24
0,22
0,20
0,18
0,16
0,14
0,12
0,10
0,08
0,06
0,04
0,02
0,00
81
( xi X )
( xi X ) 2
( xi X )3
-0,33
-0,33
-2,33
1,67
-3,33
-3,33
1,67
0,67
-1,33
2,67
0,67
1,67
1,67
2,67
0,11
0,11
5,44
2,78
11,11
11,11
2,78
0,44
1,78
7,11
0,44
2,78
2,78
7,11
-0,04
-0,04
-12,70
4,63
-37,04
-37,04
4,63
0,30
-2,37
18,96
0,30
4,63
4,63
18,96
3,67
-6,33
0,67
1,67
1,67
1,67
-0,33
-0,33
2,67
1,67
1,67
-0,33
0,67
0,67
-5,33
1,67
2,67
-7,33
-0,33
-0,33
-2,33
1,67
-3,33
-3,33
1,67
0,67
-1,33
2,67
0,67
1,67
1,67
2,67
13,44
40,11
0,44
2,78
2,78
2,78
0,11
0,11
7,11
2,78
2,78
0,11
0,44
0,44
28,44
2,78
7,11
53,78
0,11
0,11
5,44
2,78
11,11
11,11
2,78
0,44
1,78
7,11
0,44
2,78
2,78
7,11
49,30
-254,04
0,30
4,63
4,63
4,63
-0,04
-0,04
18,96
4,63
4,63
-0,04
0,30
0,30
-151,70
4,63
18,96
-394,37
-0,04
-0,04
-12,70
4,63
-37,04
-37,04
4,63
0,30
-2,37
18,96
0,30
4,63
4,63
18,96
3,67
-6,33
0,67
1,67
1,67
1,67
13,44
40,11
0,44
2,78
2,78
2,78
49,30
-254,04
0,30
4,63
4,63
4,63
Grfico 6
Caso
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
Edad
21
20
18
19
21
21
20
18
26
19
18
28
21
25
23
19
24
24
19
20
22
18
20
19
19
18
.
17
27
18
19
20
19
21
20
18
19
20
21
20
28
26
19
18
28
Suma
n
X
S2
S
S3
nu S3
g1
( xi X )
( xi X ) 2
0,11
0,44
7,11
2,78
0,11
0,11
0,44
7,11
28,44
2,78
7,11
53,78
0,11
18,78
5,44
2,78
11,11
11,11
2,78
0,44
1,78
7,11
0,44
2,78
2,78
7,11
-0,04
0,30
18,96
4,63
-0,04
-0,04
0,30
18,96
-151,70
4,63
18,96
-394,37
-0,04
-81,37
-12,70
4,63
-37,04
-37,04
4,63
0,30
-2,37
18,96
0,30
4,63
4,63
18,96
3,67
-6,33
2,67
1,67
0,67
1,67
-0,33
0,67
2,67
1,67
0,67
-0,33
0,67
-7,33
-5,33
1,67
2,67
-7,33
13,44
40,11
7,11
2,78
0,44
2,78
0,11
0,44
7,11
2,78
0,44
0,11
0,44
53,78
28,44
2,78
7,11
53,78
49,30
-254,04
18,96
4,63
0,30
4,63
-0,04
0,30
18,96
4,63
0,30
-0,04
0,30
-394,37
-151,70
4,63
18,96
-394,37
751,33
2.600,89
1.984
96
20,67
7,83
2,80
21,89
2.101,91
1,24
Histograma.
30
20
10
0
17,5
20
( xi X )3
-0,33
0,67
2,67
1,67
-0,33
-0,33
0,67
2,67
-5,33
1,67
2,67
-7,33
-0,33
-4,33
-2,33
1,67
-3,33
-3,33
1,67
0,67
-1,33
2,67
0,67
1,67
1,67
2,67
Frecuencia
Caso
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
22,5
Edad (aos)
25
27,5
30
82
Frmula 29 Apuntamiento g2
Datos Tipo I
n
x X
4
n
i 1
g2
m4
3
S4
n
S4
X
i 1
3
nu S4
3
Datos Tipo II
n
g2
x X n
4
m4
3
S4
i 1
3
S u ni
4
i 1
g2
m4
S4
x X n
4
'
i
i 1
3
S u ni
4
i 1
0,40
0,35
0,30
0,25
0,20
0,15
0,10
0,05
0,00
1,00
g2 > 0
presenta apuntamiento positivo
(leptocrtica). La curva es ms
apuntada que una supuesta
normal. Los casos tienden a
estar ms concentrados.
g2 < 0
presenta apuntamiento negativo
(platicrtica). La curva es ms
plana que una supuesta normal.
Los casos tienden a estar ms
dispersos.
527,00
1053,00 1579,00 2105,00 2631,00 3157,00 3683,00 4209,00 4735,00 5261,00 5787,00 6313,00 6839,00 7365,00 7891,00 8417,00 8943,00 9469,00 9995,00
527,00
1053,00 1579,00 2105,00 2631,00 3157,00 3683,00 4209,00 4735,00 5261,00 5787,00 6313,00 6839,00 7365,00 7891,00 8417,00 8943,00 9469,00 9995,00
527,00
1053,00 1579,00 2105,00 2631,00 3157,00 3683,00 4209,00 4735,00 5261,00 5787,00 6313,00 6839,00 7365,00 7891,00 8417,00 8943,00 9469,00 9995,00
0,45
0,40
0,35
0,30
0,25
0,20
0,15
0,10
0,05
0,00
1,00
0,45
0,40
0,35
0,30
0,25
0,20
0,15
0,10
0,05
0,00
1,00
83
( xi X )
( xi X ) 2
( xi X ) 4
-0,33
-0,33
-2,33
1,67
-3,33
-3,33
1,67
0,67
-1,33
2,67
0,67
1,67
1,67
2,67
0,11
0,11
5,44
2,78
11,11
11,11
2,78
0,44
1,78
7,11
0,44
2,78
2,78
7,11
0,01
0,01
29,64
7,72
123,46
123,46
7,72
0,20
3,16
50,57
0,20
7,72
7,72
50,57
3,67
-6,33
0,67
1,67
1,67
1,67
-0,33
-0,33
2,67
1,67
1,67
-0,33
0,67
0,67
-5,33
1,67
2,67
-7,33
-0,33
-0,33
-2,33
1,67
-3,33
-3,33
1,67
0,67
-1,33
2,67
0,67
1,67
1,67
2,67
13,44
40,11
0,44
2,78
2,78
2,78
0,11
0,11
7,11
2,78
2,78
0,11
0,44
0,44
28,44
2,78
7,11
53,78
0,11
0,11
5,44
2,78
11,11
11,11
2,78
0,44
1,78
7,11
0,44
2,78
2,78
7,11
180,75
1.608,90
0,20
7,72
7,72
7,72
0,01
0,01
50,57
7,72
7,72
0,01
0,20
0,20
809,09
7,72
50,57
2.892,05
0,01
0,01
29,64
7,72
123,46
123,46
7,72
0,20
3,16
50,57
0,20
7,72
7,72
50,57
3,67
-6,33
0,67
1,67
1,67
1,67
13,44
40,11
0,44
2,78
2,78
2,78
180,75
1.608,90
0,20
7,72
7,72
0,01
Grfico 7
Caso
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
Edad
21
20
18
19
21
21
20
18
26
19
18
28
21
25
23
19
24
24
19
20
22
18
20
19
19
18
.
17
27
18
19
20
19
21
20
18
19
20
21
20
28
26
19
18
28
Suma
n
X
S2
S
S4
nu S4
g2
( xi X )
( xi X ) 2
0,11
0,44
7,11
2,78
0,11
0,11
0,44
7,11
28,44
2,78
7,11
53,78
0,11
18,78
5,44
2,78
11,11
11,11
2,78
0,44
1,78
7,11
0,44
2,78
2,78
7,11
3,67
-6,33
2,67
1,67
0,67
1,67
-0,33
0,67
2,67
1,67
0,67
-0,33
0,67
-7,33
-5,33
1,67
2,67
-7,33
13,44
40,11
7,11
2,78
0,44
2,78
0,11
0,44
7,11
2,78
0,44
0,11
0,44
53,78
28,44
2,78
7,11
53,78
180,75
1.608,90
50,57
7,72
0,20
7,72
0,01
0,20
50,57
7,72
0,20
0,01
0,20
2.892,05
809,09
7,72
50,57
751,33
21.475,78
1.984
96
20,67
5.880,23
0,65
Histograma.
20
10
0
20
7,72
0,01
0,20
50,57
7,72
0,01
0,01
0,20
50,57
809,09
7,72
50,57
2.892,05
0,01
352,60
29,64
7,72
123,46
123,46
7,72
0,20
3,16
50,57
0,20
7,72
7,72
50,57
7,83
2,80
61,25
30
17,5
( xi X ) 4
-0,33
0,67
2,67
1,67
-0,33
-0,33
0,67
2,67
-5,33
1,67
2,67
-7,33
-0,33
-4,33
-2,33
1,67
-3,33
-3,33
1,67
0,67
-1,33
2,67
0,67
1,67
1,67
2,67
Frecuencia
Caso
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
22,5
Edad (aos)
25
27,5
30
84
Tabla 25
Estadstico
VM
Vm
X
S2
S
CV
g1
g2
Resumen.
Edad
28
17
20,67
7,83
2,80
0,14
1,24
0,65
Concepto estadstico:
Los individuos presentan baja dispersin (CV = 0,14) respecto de la media de edad (20,67 aos). Su distribucin
est sesgada a la derecha (g1 = 1,24) con un cierto apuntamiento (g2 = 0,65).
(Es un comentario que aporta informacin tcnica, por lo tanto slo sera til para personas tcnicas).
Nivel coloquial culto o aclaratorio para la mayora de las personas:
La edad media de los individuos es de 20,67 aos con un CV = 0,14, que por su proximidad a cero, es indicativo
de que los casos tienen poca dispersin. La concentracin de los casos tiende hacia los valores bajos de la
edad, como indica el coeficiente positivo de asimetra (1,24), con cierta concentracin, como indica el
apuntamiento positivo (0,65).
La estadstica descriptiva es nada ms, pero nada menos, que descriptiva, por lo que no se puede buscar una
estadstica de precisin.
58
Una lectura puede ser empezar por el CV que indica la dispersin, continuar con la media y despus hablar de la forma.
La lectura est fuera de contexto, quiere decir que en un informe hay que dar las referencias necesarias de tiempo, espacio y
poblacin de referencia.
7.4
85
Tabla de frecuencias.
X
x1
x2
x3
xn-1
xn
Total
ni
N
N1
N2
N3
Nn-1
Nn
n1
n2
n3
nn-1
nn
N
Ni
j 1
fi
fi
Fi
Fi
ni
N
ni
u 100
N
Ni
N
Ni
u 100
N
Ejemplo: Tabla de frecuencias de la variable p2 (estado civil) (Tabla 28), de la matriz de datos
de la Tabla 16. Esta variable tiene un espacio muestral de seis categoras, caractersticas o
sucesos elementales: Soltero/a, Casado/a, Pareja, Separado/a, Divorciado/a y Viudo/a.
Como las unidades de observacin que han participado son jvenes, el espacio muestral queda
reducido a: Soltero/a, Casado/a, y Pareja.
86
ni 1
ni
ni
13
Frecuencias relativas en % (
fi 1
fi
fi
n1
77
u 100
u 100 77,8%
N
99
n2
9
u 100
u 100 9,1%
N
99
n3
13
u 100
u 100 13,1%
N
99
Ni
nj
n1
77
j 1
Ni
nj
n1 n2
77 9 86
j 1
Ni
nj
n1 n2 n3
77 9 13 99
j 1
Fi
Fi
Fi
N1
77
u 100
u 100 77,8%
N
99
N2
86
u 100
u 100 86,9%
N
99
N3
99
u 100
u 100 100,0%
N
99
Tabla 29
i
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
ni 1
87
X
45
50
52
53
55
58
60
63
65
66
67
68
70
73
75
76
77
78
80
85
n
3
2
7
3
8
5
6
5
5
4
2
3
8
7
8
4
5
4
3
3
Total
95
N
3
5
12
15
23
28
34
39
44
48
50
53
61
68
76
80
85
89
92
95
f (%)
3,2
2,1
7,4
3,2
8,4
5,3
6,3
5,3
5,3
4,2
2,1
3,2
8,4
7,4
8,4
4,2
5,3
4,2
3,2
3,2
F (%)
3,2
5,3
12,6
15,8
24,2
29,5
35,8
41,1
46,3
50,5
52,6
55,8
64,2
71,6
80,0
84,2
89,5
93,7
96,8
100,0
100,0
Se obtiene por recuento de los casos que tienen el peso de 45 kg. en la matriz de datos de
la Tabla 16.
Se obtiene por recuento de los casos que tienen el peso de 50 kg.
ni 2 2
ni 3 7
Se obtiene por recuento de los casos que tienen el peso de 52 kg.
ni 19 3 , Se obtiene por recuento de los casos que tienen el peso de 80 kg.
ni 20 3 Se obtiene por recuento de los casos que tienen el peso de 85 kg.
1
Ni 1
nj
n1
Ni
j 1
n1 n2
3 2 5
j 1
Ni
n1 n2 n3
3 2 7 12
j 1
20
Ni
20
nj
n1 n2 ... n20
3 2 ... 3 95
j 1
fi 1
fi
Fi
Fi
n1
u 100
N
n3
u 100
N
N1
u 100
N
N3
u 100
N
3
u 100 3,2%
95
7
u 100 7,4%
95
3
u 100 3,2%
95
12
u 100 12,6%
95
fi
fi
20
Fi
Fi
20
n2
3
u 100
u 100 2,1%
N
95
n3
3
u 100
u 100 3,2%
N
95
N2
5
u 100
u 100 5,3%
N
95
N3
95
u 100
u 100 100,0%
N
95
88
ai
vMi vmi
en donde:
Amplitud del intervalo i-simo.
ai:
vMi: Lmite superior del intervalo i-simo.
vmi: Lmite inferior del intervalo i-simo.
xi'
vMi vmi
2
En donde:
xi:
Marca de clase del intervalo i-simo.
vMi: Lmite superior del intervalo i-simo.
vmi: Lmite inferior del intervalo i-simo.
Frmula 30
Frmula 31
Para crear una tabla de frecuencias por intervalos hay que definir el nmero de
intervalos y averiguar la amplitud del intervalo o definir la amplitud de los intervalos y hallar
el nmero de intervalos. Las posibilidades se muestran en la Tabla 30.
Tabla 30
Definicin de intervalos.
Conocida la amplitud, calcular el n de intervalos.
89
Ejemplo: Paso de la tabla de frecuencias (Tabla 31) de la variable p4_1 (peso), de la matriz de
datos de la Tabla 16, de datos Tipo II a datos Tipo III, en intervalos de igual amplitud de 10
kg. cada uno. Esta variable tiene un espacio muestral de 20 sucesos elementales: 45, 50, 52,
53, 55, 58, 60, 63, 65, 66, 67, 68, 70, 73, 75, 76, 77, 78, 80 y 85.
Tabla 31
V M Vm
Apeso
40kg
10kg
4 intervalos
45
50
45 + 10 = 55
Tipo II
i
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
85 45 40kg
55 + 10 = 65
65 + 10 = 75
75 + 10 = 85
85 kg.
Tipo III
X
45
50
52
53
55
58
60
63
65
66
67
68
70
73
75
76
77
78
80
85
n
3
2
7
3
8
5
6
5
5
4
2
3
8
7
8
4
5
4
3
3
Total
95
Tipo II
X
45-55
55-65
65-75
75-85
n
23
25
28
19
Total
95
x1'
x2'
x3'
x 4'
X
50
60
70
80
n
23
25
28
19
95
45 55
2
55 65
2
65 75
2
75 85
2
50
60
70
80
90
Ejemplo: Paso de la tabla de frecuencias (Tabla 32) de la variable p4_1 (peso), de la matriz de
datos de la Tabla 16, de datos Tipo II a datos Tipo III, en 3 intervalos de igual amplitud. Esta
variable tiene un espacio muestral de 20 sucesos elementales: 45, 50, 52, 53, 55, 58, 60, 63,
65, 66, 67, 68, 70, 73, 75, 76, 77, 78, 80 y 85.
Tabla 32
Lmite
Lmite
inferior
superior
40kg
44
44+14=58
13,3 kg amplitud del intervalo 14kg
58
58+14=72
3
72
72+14=86
Como la amplitud del intervalo no es un nmero entero, se procede a redondear por exceso al entero
superior: 14. Pero al multiplicar 14 por el nmero de intervalos, la amplitud de la variable se amplia a 42
kg. La diferencia entre la amplitud original y la actual se reparte entre los dos extremos de la variable. Si
los valores de lmite de intervalos de la nueva tabla de datos T-III no coincidiesen con los valores de
lmite de la T-II, se tendra que proceder desde la T-I para poder sumar los casos que hay en cada
intervalo. En la T-II, los valores 71 y 72 no se consideran porque no existen en el espacio muestral de la
variable peso (zona de las celdas 70 y 73, sombreadas).
45
50
55
60
65
70
75
80
85 kg.
Apeso
VM Vm
85 45 40kg
44 + 14 = 58
Tipo II
i
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
58 + 14 = 72
72 + 14 = 86
86 kg
Tipo III
X
45
50
52
53
55
58
60
63
65
66
67
68
70
73
75
76
77
78
80
85
n
3
2
7
3
8
5
6
5
5
4
2
3
8
7
8
4
5
4
3
3
Total
95
Tipo II
X
44-58
58-72
72-86
n
28
33
34
Total
95
x1'
x2'
x3'
X
51
65
79
n
28
33
34
95
44 58
2
58 72
2
72 86
2
51
65
79
91
Ejemplo: Paso de la tabla de frecuencias (Tabla 33) de la variable p4_1 (peso), de la matriz de
datos de la Tabla 16, de datos Tipo II a datos Tipo III, en intervalos de diferente amplitud,
considerando valores crticos. Al estar trabajando con la variable p4_1, se va a utilizar, como
ejemplo, los lmites del peso de las categoras de los boxeadores, sin diferenciar por sexo.
Esta variable tiene un espacio muestral de 20 sucesos elementales: 45, 50, 52, 53, 55, 58, 60,
63, 65, 66, 67, 68, 70, 73, 75, 76, 77, 78, 80 y 85.
Tabla 33
Paso de tabla de datos T-II a T-III en intervalos por valores crticos.
Los lmites considerados son:
Lmite inferior
Lmite superior
Peso Pluma: inferior a 57 kg.
45
57
Peso Ligero: inferior a 72 kg.
57
72
El resto superior a: 72 kg.
72
85
El lmite superior del primer intervalo se marca 55 kg en la tabla T-II, porque en el espacio muestral de la
variable no existen 56 kg y 57 kg, pero el valor se mantiene en la tabla T-III a efectos de clculos.
45
50
55
60
65
70
75
80
85 kg.
45 + 12 = 57
Tipo II
i
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
57 + 15 = 72
72 + 13 = 85
Tipo III
X
45
50
52
53
55
58
60
63
65
66
67
68
70
73
75
76
77
78
80
85
n
3
2
7
3
8
5
6
5
5
4
2
3
8
7
8
4
5
4
3
3
Total
95
X
45-57
57-72
72-85
n
23
38
34
Total
95
x1'
x2'
x3'
85 kg.
Tipo II
X
51,00
64,50
78,50
n
23
38
34
95
45 57
2
57 72
2
72 85
2
51,00
64,50
78,50
92
X
45(-46)
50(-51)
52(-53)
53(-54)
55(-56)
n
3
2
7
3
8
N
3
5
12
15
23
58(-59)
28
7
8
9
60(-61)
63(-64)
65(-66)
6
5
5
34
39
44
10
66(-67)
48
11
12
13
14
67(-68)
68(-69)
70(-71)
73(-74)
2
3
8
7
50
53
61
68
15
75(-76)
76
16
17
18
19
20
76(-77)
77(-78)
78(-79)
80(-81)
85(-86)
4
5
4
3
3
80
85
89
92
95
Total
95
Intervalo Crtico
Cuartil
Q1 = P25
IC 25
25 u
95
100
23,75
25 u
P25
58
95
23
23,75 23
100
u 1 58
u 1 58 0,15
5
5
58,15
Q2 = P50
IC50
50 u
95
100
47,50
50 u
P50
66
95
44
47,50 44
100
u 1 66
u 1 66 0,70
4
5
66,70
Q3 = P75
IC 75
75 u
95
100
71,25
75 u
P75
75
95
68
71,25 68
100
u 1 75
u 1 75 0,41 75,41
8
8
93
Por coherencia expositiva, se mantienen los valores obtenidos de los cuartiles, pero
como las unidades de observacin no tienen peso con fracciones de kg, se podra haber
truncado59 a los valores enteros: 58,15 58 , 66,70 66 y 75,41 75 .
Tabla 35
Los lmites son:
vm - Q1
Q 1 - Q2
Q 2 - Q3
Q3 - vM
58,15
66,70
75,41
Tipo III
X
45
50
52
53
55
58
60
63
65
66
67
68
70
73
75
76
77
78
80
85
n
3
2
7
3
8
5
6
5
5
4
2
3
8
7
8
4
5
4
3
3
Total
95
Tipo II
X
45,00-58,15
58,15-66,70
66,70-75,41
75,41-85,00
n
28
20
28
19
Total
95
x1'
x 2'
x3'
x4'
85,00 kg
X
51,58
62,43
71,06
80,21
n
28
20
28
19
95
45,00 58,15
51,58
2
58,15 66,70
62,43
2
66,70 75,41
71,06
2
75,41 85,00
80,21
2
Tericamente, cada uno de los estratos o categoras, debe tener 23,75 casos, segn los
cuartiles, que son el 25,0% del total de los casos. Pero al calcularlos a partir de la tabla de
datos Tipo II, la teora difiere de la realidad. Si el clculo se hubiese realizado sobre la tabla
de datos Tipo I, la situacin no habra mejorado mucho, porque las frecuencias absolutas en
cada uno de los estratos o categoras, respectivamente, hubiesen sido de: 25, 22, 25 y 27
casos. Otra dificultad para la coincidencia de los valores tericos y empricos es que las
unidades de observacin no se pueden dividir como es el caso del valor 23,75.
Un problema no tratado hasta ahora es el de los lmites de los intervalos, esto es, en
qu intervalo se deben considerar a aquellos casos que se encuentran justo en los lmites de
los intervalos. Cuando un caso coincide con el lmite de un intervalo y se asigna a ese
intervalo, entonces se considera que es un lmite cerrado, y cuando un caso que coincide con
el lmite de un intervalo no es asignado a ese intervalo, entonces se considera que es un lmite
abierto. Hasta ahora se ha considerado el criterio de SPSS, que consiste en asignar cada caso
59
Truncar es quitar la parte decimal y dejar la parte entera, mientras que redondear implica redondeo por defecto o por
exceso.
94
X
45-55
55-65
65-75
75-85
Tabla 37
Tipo II
i
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
X
45
50
52
53
55
58
60
63
65
66
67
68
70
73
75
76
77
78
80
85
n
3
2
7
3
8
5
6
5
5
4
2
3
8
7
8
4
5
4
3
3
Total
95
X
75-85
65-75
55-65
45-55
n
23
25
28
19
Total
95
X
75-85
65-75
55-65
45-55
n
27
29
24
15
Total
95
X
50
60
70
80
n
23
25
28
19
95
X
80
70
60
50
n
27
29
24
15
95
7.5
95
Percentiles
Me
N
N i 1
u ai , pero como N/2 es el 50% de N:
Li 1 2
ni
N
N
, entonces:
100 2
N
50 u
N i 1
100
u ai , y generalizando:
Li 1
ni
para k
Me
50 50 u
ku
Pk
Li 1
Total
Sistema
19
95
4
99
95
En donde:
Me: Mediana.
N/2: La mitad de los casos.
50 x N/100: La mitad de los casos.
k x N/100: El k% de los casos.
Pk: Percentil k.
Li-1: Lmite inferior del IC.
Ni-1: Total de casos por debajo del IC.
ai: Amplitud del IC.
ni: Frecuencia absoluta del IC.
N
N i 1
100
u ai
ni
Ejemplo: Calcular el P45 (Percentil 45). En la tabla de frecuencias el intervalo que tiene el 45% de los casos (45
x 95/100 = 42,75) acumulados, es el intervalo de 55 a 65 Kg. y es el intervalo crtico.
45
Pk
45
55
95
23
100
u 10
21
55
42,75 23
u 10
21
55 0,94 u 10
55 9,4
64,40kg
Lectura: El valor de la variable peso que deja por debajo de s el 45 % de los casos es 64,40 kg.
Los percentiles denominados tipo o tpicos son los cuartiles, deciles y centiles. Antes
de dar su definicin, diremos que un segmento se divide en tantas partes como puntos de corte
96
tiene ms uno. Por ejemplo si a un segmento le damos tres cortes, se divide en cuatro partes.
Si al segmento AB de la Tabla 38 le damos tres puntos de corte: P1, P2 y P3, entonces lo
dividimos en cuatro partes: a, b, c y d.
Tabla 38
Divisin de un segmento
P1
P2
P3
Entonces definimos a los percentiles cuartiles como los tres puntos de corte (Q1, Q2 y
Q3) que divide a la variable en cuatro partes iguales en cuanto al nmero de casos se refiere y
cada una de ellas tiene el 25% de los casos. Por debajo de Q1 quedan el 25% de los casos.
Entre el Q1 y el Q2 hay otro 25% de los casos. Entre el Q2 y el Q3 otro 25% de los casos. Y por
encima del Q3 se encuentran el restante 25% de los casos. Por lo tanto por debajo del Q2 estn
el 50% de los casos, que es la mediana. Por debajo del Q3 el 75% de los casos y por debajo
del valor mximo de la variable estaran el total de los casos (100%) (Grfico 8).
Grfico 8
0,45
0,40
0,35
0,30
0,25
0,20
0,10
25%
0,05
25%
25%
25%
Q
3
50%
Q
2
75%
0,15
25%
10
0
Q
1
0,00
Los percentiles deciles son los nueve puntos de corte (d1, d2, d3, d4, d5, d6, d7, d8 y d9)
que divide a la variable en diez partes iguales en cuanto al nmero de casos se refiere y cada
una de ellas tiene el 10% de los casos. Por debajo de d1 quedan el 10% de los casos. Entre el
d1 y el d2 hay otro 10% de los casos. Entre el d2 y el d3 el 10% de los casos, y as
sucesivamente. Y por encima del d9 se encuentran el ltimo 10% de los casos. Por lo tanto por
debajo del d2 estn el 20% de los casos, por debajo del d3 estn el 30% de los casos. As
sucesivamente hasta el d5 que son el 50%, que es la mediana. Por debajo del valor mximo de
la variable estaran el total de los casos (100%). El Grfico 9 es la representacin grfica de
los deciles.
Grfico 9
97
0,45
0,40
0,35
0,30
0,25
0,20
0,15
0,10
0,05
d8
d9
d2
d3
d4
d5
d6
d7
d1
0,00
Los percentiles centiles son los 99 puntos de corte (c1, c2, c3, c50, c97, c98 y c99) que
divide a la variable en 100 partes iguales en cuanto al nmero de casos se refiere y cada una
de ellas tiene el 1% de los casos. Por debajo de c1 queda el 1% de los casos. Entre el c1 y el c2
hay otro 1% de los casos. Entre el c2 y el c3 el 1% de los casos, y as sucesivamente. Y por
encima del c99 se encuentran el ltimo 1% de los casos. Por lo tanto por debajo del c2 estn el
2% de los casos, por debajo del c3 estn el 3% de los casos. As sucesivamente hasta el c50 que
son el 50%, que es la mediana. Por debajo del valor mximo de la variable estaran el total de
los casos (100%).
De la misma manera, la variable se podra dividir en: 5, 6, 7, 8, partes iguales.
7.6
Grficos
98
B (-5,4)
-15
-14
-13
-12
-11
-10
-9
-8
C (-8,-4)
x < 0 (-x)
y < 0 (-y)
Cuadrante III
-7
-6
-5
-4
-3
-2
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
0
-1
-1
0
-2
-3
-4
-5
-6
-7
-8
-9
-10
-11
-12
-13
-14
-15
Eje Y
Cuadrante I
x > 0 (+x)
y > 0 (+y)
A (4,5)
Eje X
1
10
11
12
13
14
15
D (5,-6)
x > 0 (+x)
y < 0 (-y)
Cuadrante IV
Desde el origen del sistema, coordenadas (0,0), a la derecha, el eje X tiene valores
positivos y hacia la izquierda valores negativos. El eje Y tiene valores positivos por encima
del eje X y negativos por debajo. Cualquier punto en el plano se puede representar por un par
de coordenadas (x,y). Cualquier punto en el cuadrante I tiene coordenadas x e y positivas; en
el II la x es negativa y la y positiva; en el cuadrante III x e y son negativas, y en el ltimo
cuadrante, la coordenada x es positiva y la y negativa. Cualquier punto en el eje X tiene
coordenada y = 0 y cualquier punto en el eje Y tiene coordenada x = 0.
En el Grfico 10, las coordenadas de los puntos A, B, C y D son: (4,5), (-5,4), (-8,-4) y
(5,-6), respectivamente.
El sistema de coordenadas cartesianas de tres dimensiones es un sistema de
coordenadas de tres ejes ortogonales (perpendiculares entre s) que dividen el espacio en ocho
partes que llamamos octantes: I, II, III, IV, V, VI, VII y VIII. El eje horizontal es el X, el eje
vertical es el Y y el eje que saldra hacia el exterior de este papel es el Z . El punto en el que se
cruzan se dice que tiene coordenadas (x,y,z) (0,0,0) y se le considera el origen del sistema. En
el Grfico 11 ese punto est representado por el punto donde se cruzan los dos ejes de color
rojo y es el centro del cubo formado por el sistema de tres ejes. Llamamos plano XY, al plano
definido por los ejes X-Y, el plano ZY, el formado por los ejes Z-Y, y el formado por los ejes
X-Z es el plano XZ.
99
Z
6
-2
-4
-6
-5
Derivado
de X
5
4
2
1
0
-1
Plano X
Y
Plano Z
-5
Derivado de Y
-2
-4
-5
D
Plano
-6 -5 -4 -3
-2 -1 0 1
2 3 4 5
6
-3
-6
-5
XZ
0
5
Deriv
e
ado d
Desde el origen del sistema, coordenadas (0,0,0), a la derecha, el eje X tiene valores
positivos y hacia la izquierda valores negativos; el eje Y tiene valores positivos por encima del
origen (0,0,0) y negativos por debajo, y el eje Z tiene valores positivos por delante del origen
(0,0,0) y negativos hacia atrs. Cualquier punto en el espacio se puede representar por las
coordenadas (x,y,z). En los octantes I, II, III y IV, las coordenadas x,y tienen los mismos
signos que en el Grfico 10 y la z es positiva, y en los octantes V, VI, VII y VIII, x e y tienen
los mismos signos que antes, pero z es negativa.
Se ha representado un punto en cada octante para clarificar el sistema de signos (todos
tienen el valor 5), y para dar sensacin de perspectiva se representa la traza desde el origen
(0,0,0) hasta el punto correspondiente. El punto A tiene coordenadas (5,5,5) y est en el
octante I. El punto B tiene coordenadas (-5,5,5) y est en el octante II. El punto C tiene
coordenadas (-5,-5,5) y est en el octante III. El punto D tiene coordenadas (5,-5,5) y est en
el octante IV. El punto E tiene coordenadas (5,5,-5) y est en el octante V. El punto F tiene
coordenadas (-5,5,-5) y est en el octante VI. El punto G tiene coordenadas (-5,-5,-5) y est en
el octante VII. Y el punto H tiene coordenadas (5,-5,-5) y est en el octante VIII. Los puntos A
y D son los que estn ms cerca de los ojos del lector y el F y G los ms alejados.
Cualquier punto en el eje X tiene coordenada cero en los ejes Y y Z. Los puntos del eje
Y el valor cero es en los ejes X y Z. Y los puntos del eje Z presentan valor cero en los ejes X e
Y. De la misma manera, cualquier punto en el plano XZ, tiene valor cero en el eje Y; los del
plano XY, tienen coordenada cero en el Z, y los del plano ZY, el valor cero es en el X.
Considerando que los ejes y los planos pasan por el punto de coordenadas (0,0,0).
100
Y
50
49
40
X
Varn
Mujer
Total
n
49
50
99
30
20
10
0
Varn
Mujer
X
80
Y
77
X
Soltero/a
Casado/a
Pareja
Total
n
77
9
13
99
60
40
20
13
9
0
Soltero/a
Casado/a
X
Pareja
Tabla 40
Tabla de frecuencias de la variable
sexo.
101
50,5
49,5
40
X
Varn
Mujer
Total
f (%)
49,5
50,5
100,0
30
20
10
0
Varn
Mujer
X
Y (%)
77,8
60
X
Soltero/a
Casado/a
Pareja
Total
f (%)
77,8
9,1
13,1
100,0
40
20
13,1
9,1
0
Soltero/a
Casado/a
Pareja
102
En realidad los casos que aparecen en cada valor de peso no tienen exactamente el peso indicado, sino
que se asume que esos casos tienen el peso comprendido entre el valor en el que aparecen y el valor a
continuacin. As los 3 individuos que aparecen en el valor de 45 kg. se considera que tienen entre 45 kg. y
46 kg., sin llegar a 46 kg., porque si fuese as, tendran el valor de 46 kg. Entonces, los 3 primeros
individuos estn en el intervalo de 45 a 46 kg. pero el lmite superior se considera abierto. La tabla de
frecuencias ha pasado a ser considerada por intervalos de igual amplitud.
Desde 0 kg. a 45 kg. no hay casos. En los histogramas se elimina la zona inicial que no tienen frecuencia
para mejorar la representacin grfica. Pero se deben mantener los valores intercalados que no tienen
frecuencia. Entonces los valores hasta 40 kg. no se representarn pero se mantienen los valores: 46, 47, 48
y 49 kg. as como el resto de valores que no tienen casos o que la frecuencia es cero.
Tabla de frecuencias de la
Histograma de la variable peso.
variable peso.
Y
10
9
8
8
7
X
45
50
52
53
55
58
60
63
65
66
67
68
70
73
75
76
77
78
80
85
Total
n
3
2
7
3
8
5
6
5
5
4
2
3
8
7
8
4
5
4
3
3
95
6
5
5 5
5
4 4
4
3
80
85
3
2
2
1
0
0
10
15
20
25
30
35
40
45
50
55
60
65
70
75
90
10
9
8
8
7
7
6
6
5
5 5
5
4
4 4
4
3
3
2
2
1
X
0
0
10
15
20
25
30
35
40
45
50
55
60
65
70
75
80
85
90
103
n
3
2
7
3
8
5
6
5
5
4
2
3
8
7
8
4
5
4
3
3
95
Y
10
9
8
8
7
7
6
6
5
5
4
4
3
80,5
85,5
3
2
2
1
0
40,5
45,5
50,5
55,5
60,5
65,5
70,5
75,5
90,5
Polgono de frecuencias
Observacin:
El polgono de frecuencias resulta de unir los puntos medios de la cara opuesta a la base, de cada intervalo, que
representamos con y sin las verticales. Si el intervalo anterior y/o el posterior no tienen frecuencia, se considera
cero y el polgono se cierra con el eje X. De la misma manera, la superficie por debajo del polgono de
frecuencias y por encima del eje de abscisas representa al total de los casos (n = 95). La equivalencia de la
superficie de los rectngulos con los tringulos, se debe a que de las superficies marcadas de gris a = a y b = b
al ser tringulos opuestos por el vrtice con lados y ngulos iguales. La superficie a que se deja fuera al trazar el
tringulo del polgono de frecuencias, es igual a a que se coge de fuera y lo mismo sucede con b y b (Grfico
12). La superficie del rectngulo y del tringulo son iguales (Grfico 13).
Grfico 12
9
Y
8
80,5
85,5
1
X
0
40,5
45,5
50,5
55,5
60,5
65,5
70,5
75,5
90,5
104
80,5
85,5
1
X
0
40,5
45,5
50,5
55,5
60,5
65,5
70,5
75,5
90,5
30
Y
28
25
23
20
19
10
X
0
40
50
60
70
80
90
Polgono de frecuencias**
30
Y
28
25
23
20
19
10
X
0
40
50
60
70
80
90
Notas:
*
Los grficos se han realizado a partir de la tabla de frecuencias de la Tabla 31.
**
El polgono de frecuencias se puede representar con la lnea suavizada, por esttica.
Tabla 43
105
100
95
Y
90
80
76
70
60
48
50
40
30
23
20
10
X
0
40
50
60
70
80
90
Y
90
80
76
70
60
48
50
40
30
23
20
10
X
0
40
50
60
70
80
90
Notas:
*
Los grficos se han realizado a partir de la tabla de frecuencias, acumuladas, de la Tabla 31.
106
Tabla 44
h1
S2
h2
S3
h3
n1
107
Combinacin
Estadsticos
Estadstica Bivariable.
Anlisis
(Contraste de
Estadsticos
Hiptesis).
Nomenclatura
Categrica
por
categrica
Tablas de
Contingencia.
F2
Chi cuadrado
Numrica por
categrica
Tabla de medias.
Diferencia de
medias y Anlisis
de Varianza
Numrica por
numrica
Covarianza y
correlacin
Asociacin lineal.
Z
t-Student
FS
SXY
rXY
Diferencia de medias.
Diferencia de medias.
ANOVA.
Covarianza.
Correlacin de Pearson
8.1
Tabla 45
Si se cruzan dos variables categricas: X e Y, cada una de ellas con tres sucesos
elementales: x1, x2 y x3 e y1, y2 e y3, se obtiene una tabla de X por Y, de tres por tres categoras.
Terceras y sucesivas variables se consideran variables intervinientes o de control, esto es, se
obtendra una tabla de X por Y por cada una de las categoras o combinacin de categoras de
las variables intervinientes o de control. En la Tabla 46 se muestra el esquema
correspondiente.
108
Tabla 46
x3
Nota:
*
El ttulo de las tablas se construye expresando primero la variable de filas, despus la variable
de columnas y a continuacin, si hay variables de control, se expresan las categoras a las que
corresponden la tabla.
8.2
109
y1
y2
y3
TC
X
x1
n11
n21
n31
TC1
x2
n12
n22
n32
TC2
x3
n13
n23
n33
TC3
TF
TF1
TF2
TF3
TT
110
Tabla 48
Ttulo de tabla
X
x1
y1 n11
f11TF1
Y
f11TC1
f11TT
y2 n21
f21TF2
f21TC1
f21TT
y3 n31
f31TF3
f31TC1
f31TT
TC
TC1
x2
n12
f12TF1
f12TC2
f12TT
n22
f22TF2
f22TC2
f22TT
n32
f32TF3
f32TC2
f32TT
TC2
nij
f ijTFi
nij
n. j
TFi
f ijTFi
j 1
nij
TC j
nij
nij
i 1
j 1
nij
TFi
nij
u 100
i.
n. j
nij
f ijTC j
u 100
nij
TC j
u 100
i.
i 1
f ijTT
u 100
j 1
nij
f ijTC j
nij
C
i 1
TT
f ijTT
nij
C
i 1
u 100
nij
nij
TT
u 100
j 1
Ejemplo de tabla de doble entrada (se ha utilizado la matriz de datos de la Tabla 16),
con las frecuencias absolutas y el clculo de las frecuencias relativas expresadas en
porcentajes. La frecuencia absoluta de la primera celda (36), es el nmero de casos que son
varones y que estn solteros, o el nmero de veces que se repite conjuntamente el suceso
elemental varn y soltero, o el nmero de casos que cumplen la condicin varn y
soltero (Tabla 49).
111
Tabla 49
n11
f11TF1
36
u 100
36 41
u 100
36
u 100
77
46,8%
1j
j 1
n11
f11TC1
u 100
36
u 100
36 6 7
36
u 100
49
73,5%
i1
i 1
n11
f11TT
i 1
j 1
36
u 100
36 41 6 3 7 6
u 100
36
u 100
99
36,4%
ij
TF1
fTF1TF1
u 100
77
u 100
36 41
77
u 100 100,0%
77
1j
j 1
TF1
fTF1TC
u 100
TF
77
u 100
77 9 13
77
u 100
99
77,8%
i 1
fTF1TT
TF1
3
i 1
j 1
u 100
77
u 100
36 41 6 3 7 6
77
u 100
99
77,8%
ij
TC1
fTC1TF
u 100
TC
49
u 100
49 50
49
u 100
99
49,5%
j 1
TC1
fTC1TC1
u 100
49
u 100
36 6 7
49
u 100 100,0%
49
i1
i 1
fTC1TT
TC1
3
i 1
j 1
u 100
ij
49
u 100
36 41 6 3 7 6
49
u 100
99
49,5%
112
Tabla 50
Continuacin.
Clculo de porcentaje para el total de tabla.
TF
fTFTF
u 100
TC j
99
u 100
49 50
99
u 100 100,0%
99
j 1
TC
fTCTC
u 100
TF
99
u 100
77 9 13
99
u 100 100,0%
99
i 1
TT
fTTTT
i 1
j 1
u 100
ij
Smbolos:
TF: Total de Fila.
TC. Total de columna.
TT: Total de tabla.
99
u 100
36 41 6 3 7 6
99
u 100 100,0%
99
113
LECTURA DE PORCENTAJES
Al haber tres porcentajes, son tres las lecturas posibles de porcentajes. La cuestin
entonces es qu informacin da cada uno ellos y si existe alguno porcentaje mejor que el otro.
A estas lecturas se aade la denominada Regla de Zeisel (Tabla 51).
Tabla 51
Lectura de porcentajes de la tabla de doble entrada: estado civil segn el sexo.
Estado civil segn el sexo
Sexo
Varn
Mujer
Total fila
36
41
77
Estado civil
Soltero/a
n
46,8%
53,2%
100,0%
%TF
73,5%
82,0%
77,8%
%TC
36,4%
41,4%
77,8%
%TT
6
3
9
Casado/a n
66,7%
33,3%
100,0%
%TF
12,2%
6,0%
9,1%
%TC
6,1%
3,0%
9,1%
%TT
7
6
13
Pareja
n
53,8%
46,2%
100,0%
%TF
14,3%
12,0%
13,1%
%TC
7,1%
6,1%
13,1%
%TT
49
50
99
Total
n
49,5%
50,5%
100,0%
columna
%TF
100,0%
100,0%
100,0%
%TC
49,5%
50,5%
100,0%
%TT
Lectura de frecuencias absolutas. Primera fila.*
De los 77 soltero/a de la primera fila, 36 dicen ser varones y 41 mujeres.
Lectura de frecuencias absolutas. Primera columna.
De los 49 varones, 36 dicen estar solteros, 6 casados y 7 viven en pareja.
Lectura de frecuencias absolutas. Total de tabla.
De las 99 unidades de observacin, 36 dicen ser varones y estar solteros; 41 mujeres y solteras; 6
varones y casados; 3 mujeres y casadas; 7 varones y vivir en pareja, y 6 mujeres y en pareja.
Lectura de porcentajes sobre el total de fila.
De los 77 solteros, el 46,8% dicen ser varones y el 53,2% mujeres.
Lectura de porcentajes sobre el total de columna.
De los 49 varones, el 73,5% dicen estar solteros, el 12,2% casados y el 14,3% vivir en pareja.
Lectura de porcentajes sobre el total de tabla.
De las 99 unidades de observacin, 36,4% dicen ser varones y estar solteros; 41,4% mujeres y
solteras; 6,1% varones y casados; 3,0% mujeres y casadas; 7,1% varones y vivir en pareja, y 6,1%
mujeres y en pareja.
Notas:
*
La distincin entre el ser, estar y decir no es trivial en el caso de la aplicacin de los cuestionarios y
depende de si el cuestionario es autoadministrado o mediante entrevista. Es una cuestin ontolgica y
epistemolgica fundamental. Por ejemplo, si el cuestionario es autoadministrado, el entrevistado dice lo
que es, pero el investigador no sabe lo que es, por lo tanto debe creer lo que dice, pero decir dice. Si
el cuestionario es mediante entrevista, en el caso del sexo, el entrevistador ve lo que es aunque la
realidad fisiolgica pueda ser distinta. En el caso del estado civil la realidad va a ser siempre lo que diga
el entrevistado, y por lo tanto decir dice. Exceptuando las circunstancias en las que el entrevistado
adjunte algn documento oficial en el que demuestre oficialmente su estado civil y entonces no es dice
sino est. Investigando la complejidad de la realidad humana, debido a que se trabaja con lo que dice,
la realidad es lo que dice sin cuestionar si es verdad o mentira, porque en asuntos generales de
opiniones, actitudes, aptitudes, valores, normas, etc. incluso el propio entrevistado puede desconocer (o
no ser completamente consciente) cual es su realidad real. Cuestionarse continuamente lo que se
dice no llevara a ningn lugar o a cerrar la investigacin. Se deben aceptar las cosas como las dicen
puesto que es el nico instrumento del que se dispone actualmente para saber algo, hasta que
aparezcan otros instrumentos. Con los procedimientos estadsticos se pueden detectar ciertas
incongruencias.
114
Estado civil
Soltero/a
Casado/a
Pareja
Total
columna
n
%TF
%TC
%TT
n
%TF
%TC
%TT
n
%TF
%TC
%TT
n
%TF
%TC
%TT
Sexo
Varn
36
46,8%
73,5%
36,4%
6
66,7%
12,2%
6,1%
7
53,8%
14,3%
7,1%
49
49,5%
100,0%
49,5%
Mujer
41
53,2%
82,0%
41,4%
3
33,3%
6,0%
3,0%
6
46,2%
12,0%
6,1%
50
50,5%
100,0%
50,5%
Total fila
77
100,0%
77,8%
77,8%
9
100,0%
9,1%
9,1%
13
100,0%
13,1%
13,1%
99
100,0%
100,0%
100,0%
Lectura de Zeisel.
Aplicacin de la regla de Zeisel a la fila de soltero/a.
Se calculan los porcentajes en el sentido de las columnas y son: el 73,5% de los varones y el
82,0% de las mujeres, dicen estar solteros. Entonces la lectura sera:
De los 49 varones, el 73,5% dicen estar solteros, y de las 50 mujeres el 82,0% dicen estar
solteras.
De forma abreviada: del total de varones, el 73,5% dice estar soltero, frente al 82,0% de las
mujeres.
Por lo tanto se puede decir que, de forma relativa, hay una diferencia de 9,5 puntos porcentuales.
Como es descriptivo, no se puede decir nada ms.
Para la segunda fila sera: del total de varones, el 12,2% dice estar casados, frente al 6,0% de las
mujeres.
Y para la tercera: del total de varones, el 14,3% dice vivir en pareja, frente al 12,0% de las
mujeres.
115
En la Tabla 53 se muestran algunos casos de las tablas de doble entrada que se pueden
presentar como raros. Para otras observaciones ver la Tabla 26.
Tabla 53
X
x1
Y
y1
%TF
%TC
y2
%TF
%TC
y3
TC
1
33,3%
10,0%
1
25,0%
10,0%
8
10
X
x1
Y
y1
%TF
%TC
y2
y3
TC
8
6,8%
80,0%
1
1
10
x2
100
84,7%
10,0%
100
800
1.000
x3
10
8,5%
10,0%
50
40
100
TF
118
151
841
1.110
116
W
1
1
1
1
1
1
1
1
2
2
2
2
2
2
2
2
Z
1
1
1
1
2
2
2
2
Y
1
1
2
2
1
1
2
2
X
1
2
1
2
1
2
1
2
nyxz
N111
N121
N211
N221
N112
N122
N212
N222
Z
1
1
1
1
2
2
2
2
1
1
1
1
2
2
2
2
Y
1
1
2
2
1
1
2
2
1
1
2
2
1
1
2
2
X
1
2
1
2
1
2
1
2
1
2
1
2
1
2
1
2
nyxwz
n1111
n1211
n2111
n2211
n1112
n1212
n2112
n2212
n1121
n1221
n2121
n2221
n1122
n1222
n2122
n2222
117
Antes de empezar con los contrastes de Hiptesis es necesario ver previamente los
conceptos de probabilidad, probabilidad condicionada y distribucin de densidad de
2
probabilidad de las variables z, t, F y F.
Para introducir el concepto de probabilidad se distingue entre espacio muestral
discreto y espacio muestral continuo. En el primero hay un enfoque interpretativo y otro
formal. En el enfoque interpretativo se intenta definir explcitamente qu es probabilidad y
ofrecer normas apropiadas que permitan atribuir probabilidades a diferentes sucesos. El
enfoque formal propone leyes formales que deben ser respetadas por ciertos valores
numricos para que puedan ser llamados probabilidades.
A su vez el enfoque interpretativo se clasifica en: punto de vista objetivo y el
subjetivo. Y a su vez el primero se clasifica en: punto de vista objetivo clsico (o a priori) y
punto de vista objetivo frecuencista (o a posteriori). Por el inters de los temas
desarrollados en este manual, en lo sucesivo se va a considerar slo el punto de vista
frecuencista o a posteriori (Tabla 55).
Tabla 55
Cuadro de las probabilidades.
Espacio
Enfoque
Punto de vista
muestral
Objetivo
Frecuencista (a posteriori)
Interpretativo
Discreto
Continuo
9.1
Subjetivo
Formal
Probabilidad
Clsico (a priori)
(No se trata).
(No se trata).
Z
T
F2
F
118
Tabla 56
Ejemplos de probabilidades a priori I.
Probabilidad de salir un 1
Probabilidad de salir un 2
Sea un dado de seis caras
que su espacio muestral E es
s1 = 1; s2 = 2; s3 = 3; s6 = 6.
Todos
con
la
misma
oportunidad de salir.
Sea un dado de seis caras
que su espacio muestral E es
s1 = 1; s2 = 2; s3 = 3; s6 = 6.
Todos
con
la
misma
oportunidad de salir. Se
realiza el experimento de tirar
dos veces el dado. El espacio
muestral E tiene 36 sucesos
elementales compuestos: 9 de
dos caras pares; 9 de dos
caras impares, y 18 con una
cara par y la otra impar.
1
6
P( S1 )
1
6
P( S2 )
Probabilidad de salir un 1 2
P( S1S2 )
P( S1 ) P( S2 )
P( S1 )
9
36
1 1
6 6
2
6
1
3
1
4
P( S2 )
9
36
1
4
P( S1S2 )
P( S1 ) P( S2 )
9
9
36 36
18
36
2
4
En general, sea un espacio muestral E, con n resultados posibles, todos ellos con la
misma oportunidad de aparecer y de los cuales na constituye el suceso o subconjunto a, nb
constituye el suceso o subconjunto b, ni constituye el suceso o subconjunto i, y na + nb + +
ni = N. Entonces, diremos que na/N, es la probabilidad del suceso a, que nb/N, es la
probabilidad del suceso b, ni/N, es la probabilidad del suceso i. Esto es, dado un
experimento aleatorio con un espacio muestral E, cuyos sucesos posibles tienen todos la
misma oportunidad de aparecer, la probabilidad de cualquier suceso s de E, es igual al
cociente entre el nmero de elementos de s (nmero de resultados favorables) y el nmero de
elementos de E (nmero total de resultados, los posibles).
Esta definicin dada se dice que es clsica, por ser una de las primeras que se
propusieron y se le atribuye a Laplace (1749-1827).
Siendo N el nmero de resultados posibles del espacio muestral E en un experimento
aleatorio, las probabilidades que se le atribuyen a los sucesos cumplen estas tres condiciones:
1. La probabilidad de la unin de dos sucesos mutuamente excluyentes (la aparicin de
uno implica la imposibilidad de la aparicin del otro) es igual a la suma de las dos
probabilidades (Tabla 56).
2. La probabilidad del suceso seguro (o sea obtener uno de los resultados del espacio
muestral E) vale 1. En efecto si E tiene seis sucesos elementales la probabilidad que
salga uno cualquiera de los seis es 6/6 = 1. Si se repite dos veces el experimento de
tirar el dado, la probabilidad de que las dos caras sean pares, impares o una par y otra
impar es 36/36 = 1.
3. La probabilidad de cualquier suceso s (compuesto de ni elementos de E) ser no
negativa. Dicha probabilidad vale ni/N y todos ellos son positivos.
La Tabla 57 muestra los ejemplos de la primera y la segunda condicin.
Tabla 57
Probabilidad de salir un 1
1
6
P( S1 )
Sea un dado de seis caras
que su espacio muestral E es
s1 = 1; s2 = 2; s3 = 3; s6 =
6. Todos con la misma
oportunidad de salir.
119
P( S2 )
Probabilidad de salir un 4
1
6
P( S4 )
Probabilidad de salir un 2
P( S3 )
Probabilidad de salir un 5
P( S5 )
9.2
1
6
Probabilidad de salir un 6
1
6
P( S6 )
1
6
Probabilidad de salir un 1 2 3 4 5 6
P( S1S2 S3 S4 S5 S6 )
P( S1 ) P( S2 ) P( S3 ) P( S4 ) P( S5 ) P( S6 )
1 1 1 1 1 1
6 6 6 6 6 6
Sean dados de seis caras
que su espacio muestral E es
s1 = 1; s2 = 2; s3 = 3; s6 =
6. Todos con la misma
oportunidad de salir. Se
realiza el experimento de tirar
dos dados. El espacio
muestral E tiene 36 sucesos
elementales compuestos: 9
de dos caras pares; 9 de dos
caras impares, y 18 con una
cara par y la otra impar.
Probabilidad de salir un 3
1
6
P( S1 )
9
36
1
4
6
6
Probabilidad de salir
dos caras impares.
P( S2 )
9
36
1
4
1
Probabilidad de salir una
cara par y otra impar
P( S3 )
18
36
2
4
Probabilidad de que salgan dos pares o dos impares o una par y la otra impar.
P( S1S2 S3 )
P( S1 ) P( S2 ) P( S3 )
9
9 18
36 36 36
1 1 2
4 4 4
4
4
Si se lanza un dado N veces consecutivas. Sean n1, n2, n6 el nmero de veces que
aparece la cara con un punto, la de dos puntos, la de seis puntos y adems n1+n2+ + n6
= N, diremos que la probabilidad de aparicin del suceso cara con i puntos siendo i = 1, 2,
6, es el lmite al que tiende ni/N cuando N tiende al infinito.
Generalizando el ejemplo del dado, si se realiza el experimento aleatorio de lanzarlo N
veces consecutivas. Sea na el nmero de veces que aparece el suceso a, nb el nmero de veces
que aparece el suceso b, ni el nmero de veces que aparece el suceso i, y na + nb + + ni = N.
Entonces, diremos que las probabilidades de los sucesos a, b, i son los lmites hacia los que
tienden, respectivamente, los cocientes na/N, nb/N, ni/N, cuando N tiende a infinito, es
decir, la probabilidad es definida como el lmite de una proporcin o frecuencia relativa y por
eso la denominacin de frecuencista. Cualquier ni son los hechos favorables y N son los
hechos posibles. Si se lanza un dado un nmero muy grande de veces, simulado con un
ordenador, con un espacio muestral E de seis sucesos elementales: s1 (cara con un punto), s2
(cara con dos puntos), s6 (cara con seis puntos), y sea n1 el nmero de veces que aparece el
suceso elemental s1 (cara con un punto), n2 el nmero de veces que aparece el suceso
elemental s2 (cara con dos puntos), n6 el nmero de veces que aparece el suceso elemental
s6 (cara con seis puntos), el resultado para sucesivas Ns se muestra en la Tabla 58
(Simulacin con ordenador).
Tabla 58
si
1
2
3
4
5
6
N
P( Si )
ni
N
0,1630
0,1610
0,1570
0,1690
0,1770
0,1730
1.000
P( Si )
ni
N
0,1668
0,1668
0,1664
0,1664
0,1667
0,1669
1.000.000
120
P( S1 )
n1
N
30
150
1
5
P( S3 )
n3
N
15
150
1
10
P( S5 )
n5
N
15
150
1
10
P( S2 )
n2
N
55
150
11
30
P( S4 )
n4
N
20
150
2
15
P( S6 )
n6
N
15
150
1
10
P( S1S2 S3 S4 S5 S6 )
P( S1 ) P( S2 ) P( S3 ) P( S4 ) P( S5 ) P( S6 )
1 11 1
2 1 1
5 30 10 15 10 10
6 11 3
4
3
3
30 30 30 30 30 30
30
1
30
121
Tirar un dado.
si
ni
P(si) f
si
Dado 1
Dado 2
ni
P(si) f
si
Dado 1
Dado 2
ni
P(si) f
1
2
3
4
5
6
N
6.549
6.556
6.387
6.628
6.666
6.457
39.243
0,167
0,167
0,163
0,169
0,170
0,165
1,000
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
1
1
1
1
1
1
2
2
2
2
2
2
3
3
3
3
3
3
1
2
3
4
5
6
1
2
3
4
5
6
1
2
3
4
5
6
650
678
621
664
636
628
641
643
648
654
626
680
622
661
646
686
711
662
0,0275
0,0286
0,0262
0,0280
0,0269
0,0265
0,0271
0,0272
0,0274
0,0276
0,0264
0,0287
0,0263
0,0279
0,0273
0,0290
0,0300
0,0280
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
4
4
4
4
4
4
5
5
5
5
5
5
6
6
6
6
6
6
1
2
3
4
5
6
1
2
3
4
5
6
1
2
3
4
5
6
672
696
664
645
704
637
629
668
685
646
637
653
663
670
682
633
656
682
0,0284
0,0294
0,0280
0,0272
0,0297
0,0269
0,0266
0,0282
0,0289
0,0273
0,0269
0,0276
0,0280
0,0283
0,0288
0,0267
0,0277
0,0288
23.679
1,0000
Siendo:
Suceso i-simo. Una
si
tirada o dos tiradas.
P(si) Probabilidad del
suceso i-simo.
fi
Frecuencia relativa
del suceso i-simo.
Hechos favorables o
ni
frecuencia del
suceso elemental i.
N
Hechos posibles o
frecuencia total.
Tabla 61
Ejemplos con dados II.
Prob. de salir un 1
P( S1 )
6.549
39.243
0,167
Prob. de salir un 2
6.556
39.243
P( S 2 )
0,167
P( S1 ) P( S2 )
P( S1S2 )
6.549
6.556
39.243 39.243
P( S10 )
654
23.679
0,0276
13.105
39.243
0,334
0,167 0,167
P( S3 )
621
23.679
0,0262
P( S10 S3 )
P( S10 ) P( S3 )
654
621
23.679 23.679
1.275
23.679
0,0538
0,0276 0,0262
2. La probabilidad del suceso seguro (o sea obtener uno de los resultados del espacio
muestral E) vale 1. En efecto si E tiene seis sucesos y realizamos 39.243 lanzamientos
del dado, la probabilidad que salga uno cualquiera de los resultados posibles es
39.243/39.243 = 1. Si se hace otro experimento de tirar 23.679 veces dos dados, la
probabilidad de que las dos caras sean pares, impares o una par y otra impar es
23.679/23.679 = 1. Segn la primera condicin,
122
Tabla 62
Probabilidad de salir un 1
P( S1 )
Probabilidad de salir un 5
6.628
39.243
Probabilidad de salir un 3
6.546
39.243
P( S2 )
Probabilidad de salir un 4
P( S4 )
Probabilidad de salir un 2
6.549
39.243
P( S3 )
Probabilidad de salir un 6
6.666
39.243
P( S5 )
6.387
39.243
P( S6 )
6.457
39.243
Probabilidad de salir un 1 2 3 4 5 6
P( S1S2 S3 S4 S5 S6 )
P( S1 ) P( S2 ) P( S3 ) P( S4 ) P( S5 ) P( S6 )
6.549
6.546
6.387
6.628
6.666
6.457
39.243 39.243 39.243 39.243 39.243 39.243
P( S1 )
5.940
23.679
P( S2 )
5.837
23.679
39.243
39.243
P( S3 )
11.902
23.679
Probabilidad de salir dos caras pares, dos impares o una par y otra impar.
P( S1S2 S3 )
P( S1 ) P( S2 ) P( S3 )
5.940
5.837 11.902
23.679 23.679 23.679
23.679
23.679
P( Ss )
P( Sc )
P( S p )
P( Sv )
P( Sm )
hechos posibles
hechos favorables
hechos posibles
hechos favorables
hechos posibles
hechos favorables
hechos posibles
hechos favorables
hechos posibles
0,7778
99
9
0,0909
99
13
0,1313
99
49
0,4949
99
50
0,5050
99
Tabla 63
P( Ss Sv )
P( Ss Sm )
P( Sc Sv )
P( Sc Sm )
P( S p Sv )
P( Ss Sm )
9.3
123
hechos favorables
hechos posibles
hechos favorables
hechos posibles
hechos favorables
hechos posibles
hechos favorables
hechos posibles
hechos favorables
hechos posibles
hechos favorables
hechos posibles
36
0,3636
99
41
0,4141
99
6
0,0606
99
3
0,0303
99
7
0,0707
99
6
0,0606
99
Probabilidad condicionada.
Este epgrafe es la base del anlisis de las tablas de contingencia. En estas tablas se
trata de ver la relacin, asociacin o dependencia entre variables a travs de la relacin,
asociacin o dependencia entre los sucesos elementales. Este anlisis consiste en ver la
independencia mejor que la dependencia y este aspecto es el que se desarrolla. El proceso se
desarrolla a partir de la Tabla 51 que se reproduce en la Tabla 64.
Tabla 64
Tabla de doble entrada.
Estado civil segn el sexo
Sexo
Varn
Mujer
T. fila
36
41
77
Estado civil
Soltero/a
6
3
9
Casado/a
7
6
13
Pareja
49
50
99
T. columna
77
99
0,7778
0,7347
Los 36 elementos cumplen la condicin ser soltero y varn, esto es, de la interseccin
de los sucesos ss sv, siendo ss el suceso estar soltero y sv el suceso ser varn, y que 49 son
los elementos del suceso sv ser varn. Si ahora proponemos los sucesos ss sv y sv como
subconjuntos del conjunto de los 99 estudiantes, tenemos que
P( S s S v )
Y que
36
99
0,3636
124
P( Sv )
49
99
0,4949
P( Ss Sv )
P( Sv )
36
49
P( A|B )
Frmula 33
P( B )
P( B| A)
P( B A)
P( AB )
P( A)
P( A)
Frmula 34
Entonces:
P( A|B )
P( AB )
, P( B ) u P( A|B )
P( AB )
Frmula 35
, P( A) u P( B| A)
P( AB )
Frmula 36
P( B )
P( B| A)
P( AB )
P( A)
P( B ) u P( A|B )
9.4
P( A) u P( B| A)
P( A B ) , entonces,
Frmula 37
Sucesos independientes.
P( A) u P( B )
Frmula 38
Teorema 1
125
P( A)
Frmula 39
P( B| A)
P( B )
Frmula 40
En efecto,
P( A|B )
P( AB )
P( A) u P( B )
P( B )
P( B )
P( A)
Frmula 41
P( B| A)
P( AB )
P( A) u P( B )
P( A)
P( A)
P( B )
Frmula 42
P( A|B ) u P( B )
P( A) u P( B )
Frmula 43
P( B | A) u P( A)
P( B ) u P( A)
Frmula 44
126
Entonces como:
1
2
40 60
u
,
120 120
20
2.400
1 1
reduciendo
120 14.400
6 6
P( Ss |Sv ) u P( Sv ) P( Ss Sv ) y P( Sv |Ss ) u P( Ss ) P( Ss Sv )
P( Ss Sv )
1 60
u
3 120
20
120
P( Ss ) u P( Sv ) ,
P( Ss |Sv ) u P( Sv )
Entonces se cumple la igualdad,
1
3
1 60
u
3 120
1 1 1
u ,
2 3 6
P( Sv |Ss ) u P( S s ) ,
1 40 1 1
u
, u
2 120 3 2
1 40
u
2 120
1
6
Se comprueba que los sucesos son independientes, pero no excluyentes (las celdas no estn vacas), como se
puede observar a simple vista en la tabla.
Entonces como:
P( S s Sv ) z P( S s ) u P( Sv ) ,
36 3.773
z
, 0,3636 z 0,3850
99 9.801
P( Ss |Sv ) u P( Sv ) P( Ss Sv ) y P( Sv |Ss ) u P( Ss )
P( Ss |Sv ) u P( Sv )
36 77 49
z
u
,
99 99 99
36 u 49
49 u 99
P( Sv |Ss ) u P( S s ) ,
36 u 77 36
,
77 u 99 99
36 49
u
49 99
P( Ss Sv )
36 77
u
77 99
36
99
Lo que se comprueba es que no se puede confirmar que los sucesos son independientes, ni se puede confirmar
que sean dependientes. Esta confirmacin queda pendiente al contraste de Hiptesis de la tabla de
contingencia.
9.5
127
Lanzar una moneda y observar el resultado: cara xito o cruz fracaso o viceversa.
Que al elegir una pieza fabricada no sea defectuosa xito o defectuosa fracaso.
Que la respuesta a una pregunta de examen sea correcta xito o incorrecta fracaso.
Que al seleccionar una persona de una poblacin vote a un partido poltico xito o
no fracaso.
Que al seleccionar una persona de una poblacin tenga cierta enfermedad xito o no
fracaso.
Se insiste que indistintamente se puede llamar xito o fracaso a uno de los resultados,
normalmente se llama xito a aquel que se quiere conocer.
Sobre este espacio muestral de dos sucesos elementales: xito fracaso , se define
una variable aleatoria X que les atribuye un valor o cdigo distinto a cada uno, que por
sencillez y tradicin y como se vio en la codificacin sern 1 xito y 0 fracaso. Sea,
adems, p la probabilidad de obtener xito en la prueba a la que se asigna el valor o cdigo
1 y q (=(1-p)) la probabilidad de obtener fracaso en la prueba a la que se asigna un 0 (Tabla
67).
Tabla 67
f( x)
P( X
Espacio muestral E
Variable X
xito
Fracaso
1
0
p x u (1 p) (1 x )
x)
Probabilidad
f(x) = P(X=x)
p
q
p x u q (1 x ) (x = 0, 1)
Frmula 45
f (1)
f ( 0)
P( X
P( X
1)
0)
p1 u q (11)
p 0 u q (1 0)
p1 u q 0
p 0 u q1
p
q
F( k )
P( X dk )
u q (1 x )
x 0
Para k = 1, tenemos,
Frmula 46
128
F(1)
P( X d1)
p x u q (1 x)
p 0 u q (1 0) p1 u q (11)
1u q p u1 q p 1
x 0
Este resultado era de esperar, ya que la suma de las probabilidades de los dos nicos
resultados posibles (xito / fracaso) en la prueba de Bernoulli tiene que ser 1.
Suponiendo ahora que se repite n veces la prueba independiente de Bernoulli tales que
la probabilidad de xito se mantiene constante en todas las pruebas. Es decir, suponiendo N
variables aleatorias (v.a.) de Bernoulli, X1, X2, X3, ... Xn, tales que p1 = p2 = p3 = ... = pn = p; y
q1 = q2 = q3, = qn = q, y con x1, x2, x3, ... xn = 0 1. Se considera la v.a. X = x1 + x2 + +
xn (Tabla 68).
Tabla 68
v.a. de Bernoulli
Resultado
(1 - p = q)
X1
X2
X3
...
XN
p
p
p
q
q
q
Valor de
v.a. X
0
1
2
p x u q ( n x )
Frmula 47
Los x xitos pueden aparecer en las n pruebas de maneras distintas. Esto es, dados n
elementos tomados de x en x se obtienen combinaciones que se llaman de orden x,
entendiendo que dos combinaciones son distintas si difieren, al menos, en uno de sus
elementos y vale,
Cn, x
n!
x!u(n x)!
Frmula 48
Cn, n = 1
n
n
0! = 1
Se acepta por convenio para poder mantener las igualdades anterior y posterior.
Cn, 0 = 1
Cn, 1 = n
n!
n!u(n n)!
C n ,n
n
0
n
1
Cn ,0
n!
0!u(n 0)!
C n,1
n!
1!u(n 1)!
n!
n!u(0)!
n!
n!u1
n!
1 u (n)!
n!
1
n!
(n 1)!un
(n 1)!
129
n!
1
n!
n!
x!u(n x)!
Cn, x
Frmula 49
Maneras distintas, los modos distintos segn los cuales pueden ser colocados los x
xitos en n posiciones distintas, que son las combinaciones de orden x a las que dan lugar n
elementos segn Frmula 48. Entonces, la probabilidad de x xitos en n pruebas vale:
f ( x)
P( X
n
u p x u q ( n x )
x
x)
n!
u p x u q ( n x ) , (q = 1-p)60
x!u(n x)!
Frmula 50
F (k )
x p x u q ( n x )
P( X dk )
x 0
Frmula 51
Y para k = n, tenemos
n
F ( n)
P( X dn )
x p x u q (nx)
x 0
n 0
n
n ( n1)
n
p u q ( n 0 ) p1 u q ( n 1)
p
u q ( n ( n 1)) p n u q ( n n )
n
0
1
1
n!
n!
n!
n!
u p 0 u q ( n 0 )
u p1 u q ( n 1)
u p ( n 1) u q ( n ( n 1))
u p n u q ( nn )
0!u(n 0)!
1!u(n 1)!
(n 1)!u(n (n 1))!
n!u(n n)!
130
obtener cara, por lo que se considera xito el obtener cara (c) y fracaso el obtener
cruz (z). Entonces, Cul es la probabilidad de no obtener ninguna cara? Cul es la
probabilidad de obtener una cara? Cul es la probabilidad de obtener dos caras? Cul es la
probabilidad de que las tres sean cara? y Cul es la probabilidad de obtener tres caras o
menos? Consideramos que la moneda no est trucada y por lo tanto la probabilidad p de
obtener cara es 0,50 (Tabla 69).
Tabla 69
Aplicacin de la binomial.
Probabilidad de obtener cero caras (Frmula 50).
Lanzamientos
0
3
z, z, z (p x q )
3
3!
u 0,5 0 u 0,5 (3 0)
u (0,5 0 u 0,5 (3 0) ) 1 u (0,5 0 u 0,53 ) 0,1250
0
3
0
0
!
u
(
3
0
)!
1 x (p x q )
Cuando ninguno de los tres lanzamientos es cara, los tres son cruz. La probabilidad de que no salga cara
(0,1250) es la misma que la de salir tres cruces.
c, z, z (p1 x q2)
Probabilidad de obtener una cara (Frmula 50).
z, c, z (p1 x q2)
1
2
3
3
!
z, z, c (p x q )
f (1) P X 1 u 0,51 u 0,5 (3 1)
u (0,51 u 0,5 (3 1) ) 3 u (0,51 u 0,5 2 ) 0,3750
1!u(3 1)!
1
3 x (p1 x q2)
La probabilidad de obtener en alguno de los lanzamientos cara es 0,3750, es la misma que la de obtener dos
cruces.
c, c, z (p2 x q1)
Probabilidad de obtener dos caras (Frmula 50).
z, c, c (p2 x q1)
2
1
3
3!
c, z, c (p x q )
f ( 2) P X 2 u 0,5 2 u 0,5 (3 2)
u (0,5 2 u 0,5 (3 2) ) 3 u (0,5 2 u 0,51 ) 0,3750
2!u(3 2)!
2
2
1
3 x (p x q )
La probabilidad de obtener dos caras en los tres lanzamientos es 0,3750, es la misma que la de obtener una
cruz. Cuando p = q, entonces, 3 x (p1 x q2) es igual que 3 x (p2 x q1).
Probabilidad de obtener tres caras (Frmula 50).
c, c, c (p3 x q0)
3
3
!
f (3) P X 3 u 0,53 u 0,5 (3 3)
u (0,53 u 0,5 (3 3) ) 1 u (0,53 u 0,5 0 ) 0,1250
1 x (p3 x q0)
3!u(3 3)!
3
f ( 0)
P X 0
Cuando los tres lanzamientos son cara, ninguno de los tres es cruz. La probabilidad de que salgan tres caras
(0,1250) es la misma que la de no salir cruz. Cuando p = q, entonces, 1 x (p0 x q3) es igual que 1 x (p3 x q0).
Probabilidad de obtener tres caras o menos (Frmula 51).
3
F (3)
P( X d3)
x p x u q (n x)
x 0
3
3 0
3
3
0,5 u 0,5 ( 30 ) 0,51 u 0,5 ( 31) 0,5 2 u 0,5 ( 3 2 ) 0,53 u 0,5 ( 33)
2
1
0
3
3!
3!
3!
3!
u 0,5 0 u 0,5 ( 30)
u 0,51 u 0,5 ( 31)
u 0,5 2 u 0,5 ( 3 2 )
u 0,53 u 0,5 ( 33)
0!u(3 0)!
1!u(3 1)!
2!u(3 2)!
3!u(3 3)!
0,1250 0,3750 0,3750 0,1250 1
La probabilidad de obtener tres o menos caras, es la probabilidad del suceso seguro y tiene que valer 1. Ya que
es la suma de la probabilidad de obtener 0 caras (0,1250), ms la de obtener 1 cara (0,3750) ms la de obtener 2
caras (0,3750) ms la probabilidad de obtener las 3 caras (0,1250).
131
P(X=x)
1,2
0,4
0,375
P(X<=x)
1
0,375
0,875
0,8
0,3
0,6
0,5
0,2
0,125
0,4
0,125
0,1
0,2
0,125
0
0
10
10
10
0,7361
0,9999
0,3874
0,9298
1,2
0,5
0,9984
P(X<=x)
0,9872
P(X=x)
0,3487
0,377
0,1719
0,4
0,0107
0,001
0,001
0,0098
0,0439
0,0439
0,0098
0,001
0,2
0,0547
0,4
0,6
0,1
0,05
0,999
0,1172
0,1172
0,15
0,623
0,8
0,2
0,9453
0,8281
0,2051
0,2051
0,25
1,2
0,9893
P(X<=x)
0,2461
P(X=x)
0,3
0,8
0,1937
0,3
0,6
0,0015
0,0001
10
0
0
0,2
0,0112
0,0574
0,4
0,1
0,3487
0,2
0
0
P(X=x)
P(X<=x)
1
0,6513
0,3487
0,3874
0,4
1,2
0,5
0,8
0,1937
0,3
0,6
0,2639
0,2
10
0,0702
0,0128
0,0112
0,0016
0,0015
0,0001
0,0001
0,2
0
0,0574
0,4
0,1
10
132
Media
nu p
Varianza
S2
nu puq
Desviacin tpica
nu puq
Coeficiente de sesgo
g1
Coeficiente de apuntamiento
g2
q p
nu puq
3
6u pu q
nu puq
10
133
Puntuacin
Smbolo
Directa
Diferencial
Tpica
zi
xi
63 kg.
80 kg.
( xi X )
63 65,86 = - 2,86 kg
80 65,86 = 14,14 kg
( xi X )
S
z1
(63 65,86)
10,08
2,86
10,08
0,2837
z4
(80 65,86)
10,08
14,04
10,08
1,3929
La diferencia entre los tres tipos de puntuacin es la informacin que da cada uno. La
puntuacin directa dice el peso de cada uno de los individuos y por experiencia se puede saber
si el peso es mucho o poco pero sin saber la estatura, por ejemplo, no se puede decir mucho
ms.
La puntuacin diferencial ampla la informacin al indicar la distancia que tiene cada
uno de los casos respecto a la media del grupo. As el individuo 1 est prximo y por debajo
de la media al ser negativa la puntuacin (-2,86), y que el individuo 4 tiene un peso superior a
la media (14,14). Aunque esta informacin es mayor, sigue siendo imprecisa porque no da
idea de la magnitud de la diferencia.
La puntuacin zi o tipificada dice si el individuo est por encima o por debajo de la
media y a que distancia de la media en unidades de desviacin tpica. Tambin permite
comparar valores del mismo individuo o distintos individuos en distintas variables. Otra
opcin es que a partir de la distribucin o funcin de densidad de probabilidad de zi se puede
saber el porcentaje o probabilidad de individuos por debajo, por encima o entre dos valores.
La Tabla 72 muestra el clculo e interpretacin de zi y posteriormente una aplicacin.
134
xi
63 kg
65,86 kg
10,08 kg
( xi X )
S
(63 kg 65,86 kg ) 2,86 k g
10,08 kg
10,08 k g
zi
z1
0,2837
Valores de zi y su significado.
xi
X , pd = 0 (zi = 0)
Caso
X
S
Rango
Examen A
8
5
2
0 y 10
Tabla 73 Aplicacin de z.
Examen B
ziA
20
(8 5) 3
50
z1 A
1,50
z1B
20
2
2
0 y 100
ziB
(20 50)
20
30
20
3
2
1,50
La nota de 8 en el examen A est a 1,5 veces la desviacin tpica ( 1,5 zs) por
encima de la media (por ser positiva), significa que la puntuacin diferencial 3 contiene a la
desviacin tpica 1,5 veces [3 = 2 + 1 (el 2 es 1 vez la S y el 1 es 0,5 veces la S)].
La nota de 20 en el examen B est a -1,5 veces la desviacin tpica ( 1,5 zs) por
debajo de la media (por ser negativa), significa que la puntuacin diferencial 30 contiene a la
desviacin tpica 1,5 veces [30 = 20 + 10 (el 20 es 1 vez la S y el 10 es 0,5 veces la S)].
El individuo est a la misma distancia de la media, pero en el examen A por encima y
en el B por debajo de la media. Entonces el 8 es mejor nota que el 20, dentro del grupo.
En la representacin grfica de las tres distribuciones (Tabla 74), que por el inters de
la exposicin se asumen normales, se muestra el concepto de unidades de desviacin tpica o
unidades z y la transformacin de la puntuacin directa en puntuacin tpica.
Y = f(x)
Y = f(x)
Tabla 74
135
1 S=2
1/2 S = 2
1/2 S =20
10
10
20
1 S = 20
30
40
Examen A
50
60
70
80
90
100
Examen B
0,45
0,40
0,35
Y = f(z)
0,30
0,25
0,20
0,15
0,10
0,05
1/2 z
1 z
1z
1/2 z
0,00
-5 -4,5 -4 -3,5 -3 -2,5 -2 -1,5 -1 -0,5
0,5
1,5
2,5
3,5
4,5
Y = f(x)
Al convertir las puntuaciones directas x en z, las unidades de desviacin tpica son zs y se representan en el
mismo eje y en la misma escala.
10
20
30
40
50
60
70
80
90
100
Examen A y B
Este grfico muestra la superposicin de la distribucin de los dos exmenes en el mismo eje del examen B de
escala 0 y 100.
136
Y = f(x)
Y = f(x)
Tabla 75
1 S=2
1/2 S = 2
1/2 S =20
10
10
20
1 S = 20
30
40
Examen A
50
60
70
80
90
100
Examen B
0,45
0,40
0,35
Y = f(z)
0,30
0,25
0,20
0,15
0,10
0,05
0,00
-5 -4,5 -4 -3,5 -3 -2,5 -2 -1,5 -1 -0,5
0,5
1,5
2,5
3,5
4,5
Al convertir el valor xi de cualquier variable a puntuacin tpica, pasa a un valor zi en un mismo eje de unidades.
Puntuacin
Puntuacin
Puntuacin Z
Puntuacin Z
examen A
examen B
(0 5) 5
(0 50) 50
z iA
2,50
z iB
2,50
Xi = 0
Xi = 0
2
2
20
20
(5 5) 0
(20 50) 30
z iA
0,00
z iB
1,50
Xi = 5
Xi = 20
2
2
20
20
(8 5) 3
(50 50)
0
z iA
1,50
z iB
0,00
Xi = 8
Xi = 50
2
2
20
20
(10 5) 5
(100 50) 50
z iA
2,50
z iB
2,50
Xi = 10
Xi = 100
2
2
20
20
Para una puntuacin xi igual a la media de X la zi siempre vale cero.
Aplicando el criterio de puntuacin zi a todos los casos, esto es, a todos los valores de
una variable, se obtiene una nueva variable que se denomina Z. La tipificacin de variables
slo se puede hacer con variables numricas o consideradas numricas. De la misma manera,
se puede transformar cualquier variable a variable Zs. La Tabla 76 muestra las variables
zp4_1, zp4_2 y zp4_3 de las variables p4_1, p4_2 y p4_3 que son el peso, la estatura y la
edad, respectivamente, de la matriz de datos de la Tabla 16.
Tabla 76
id
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
p4_1 p4_2
63
1,63
63
1,63
68
1,75
80
1,75
73
1,82
73
1,82
45
1,6
60
1,6
60
1,72
55
1,63
85
1,85
75
1,75
75
1,75
53
1,66
.
.
52
1,66
55
1,74
67
1,7
77
1,87
77
1,87
52
1,67
78
1,85
78
1,85
66
1,78
65
1,73
65
1,73
70
1,68
70
1,6
70
1,6
73
1,71
58
1,75
75
1,58
76
1,9
63
1,63
63
1,63
68
1,75
80
1,75
73
1,82
55
1,6
45
1,6
60
1,6
60
1,72
55
1,63
85
1,85
75
1,75
75
1,75
53
1,66
.
.
52
1,66
p4_3
21
21
23
19
24
24
19
20
22
18
20
19
19
18
.
17
27
20
19
19
19
21
21
18
19
19
21
20
20
26
19
18
28
21
21
23
19
24
24
19
20
22
18
20
19
19
18
.
17
zp4_1
-0,2841
-0,2841
0,2120
1,4026
0,7081
0,7081
-2,0699
-0,5817
-0,5817
-1,0778
1,8986
0,9065
0,9065
-1,2762
.
-1,3754
-1,0778
0,1128
1,1049
1,1049
-1,3754
1,2041
1,2041
0,0136
-0,0856
-0,0856
0,4104
0,4104
0,4104
0,7081
-0,7801
0,9065
1,0057
-0,2841
-0,2841
0,2120
1,4026
0,7081
-1,0778
-2,0699
-0,5817
-0,5817
-1,0778
1,8986
0,9065
0,9065
-1,2762
.
-1,3754
zp4_2
-0,0087
-0,0087
0,0032
0,0032
0,0102
0,0102
-0,0116
-0,0116
0,0003
-0,0087
0,0132
0,0032
0,0032
-0,0057
.
-0,0057
0,0022
-0,0017
0,0151
0,0151
-0,0047
0,0132
0,0132
0,0062
0,0013
0,0013
-0,0037
-0,0116
-0,0116
-0,0007
0,0032
-0,0136
0,0181
-0,0087
-0,0087
0,0032
0,0032
0,0102
-0,0116
-0,0116
-0,0116
0,0003
-0,0087
0,0132
0,0032
0,0032
-0,0057
.
-0,0057
137
zp4_1
-1,0778
0,1128
1,1049
1,1049
-1,3754
1,2041
-1,5738
0,0136
-0,0856
-0,7801
0,4104
0,4104
-0,0856
0,7081
-0,7801
0,9065
1,0057
-0,2841
-1,3754
0,2120
1,4026
0,7081
-1,0778
-2,0699
-0,5817
-0,5817
-1,0778
1,8986
0,9065
-0,7801
-1,2762
.
-1,3754
-1,0778
0,0136
1,1049
.
-1,3754
1,2041
-1,5738
0,0136
-0,0856
0,4104
0,4104
0,4104
1,0057
0,7081
-0,7801
0,9065
1,0057
zp4_2
0,0022
-0,0017
0,0151
0,0151
-0,0047
0,0132
-0,0047
0,0062
0,0013
-0,0087
-0,0037
-0,0116
0,0052
-0,0007
0,0032
-0,0136
0,0181
-0,0087
-0,0087
0,0032
0,0032
0,0102
-0,0116
-0,0116
-0,0116
0,0003
-0,0087
0,0132
0,0032
-0,0087
-0,0057
.
-0,0057
0,0022
0,0062
0,0151
-0,0067
-0,0047
0,0132
-0,0047
0,0062
0,0013
-0,0116
-0,0037
-0,0116
0,0181
-0,0007
0,0032
-0,0136
0,0181
zp4_3
0,6284
-0,0661
-0,1654
-0,1654
-0,1654
0,0331
-0,0661
-0,2646
-0,1654
0,0331
0,0331
-0,0661
-0,2646
0,5291
-0,1654
-0,2646
0,7276
0,0331
0,4299
0,2315
-0,1654
0,3307
0,3307
-0,1654
-0,0661
0,1323
-0,2646
-0,0661
-0,1654
-0,1654
-0,2646
.
-0,3638
0,6284
-0,2646
-0,1654
-0,0661
-0,1654
0,0331
-0,0661
-0,2646
-0,1654
-0,0661
0,0331
-0,0661
0,7276
0,5291
-0,1654
-0,2646
0,7276
El caso 4 tiene un peso de 80 kg, 1,75 m de estatura y 19 aos. Desde las puntuaciones
z se puede saber que en cuanto a peso est por encima de la media de grupo 1,4026 veces la
desviacin tpica. En la estatura est muy prximo a la media del grupo, ya que slo est a
0,0032 unidades z. Y en cuanto a la edad, est por debajo de la media del grupo (z = -0,1654).
Al estar todos los valores z en la misma unidad de medida, se han podido relacionar valores
de variables de diferente unidad de medida. En cuanto a peso est muy por encima de la
media, en estatura prximo a la media y en edad por debajo de la media.
10.1 Relacin entre la distribucin binomial y la normal
Si n es grande y p no es muy pequea, la distribucin binomial puede comportarse
como una normal y se puede utilizar el criterio de transformacin de z simblicamente,
zi
xi n u p
nu puq
En donde:
xi:
n:
p:
q:
n x p:
Nmero de xitos.
Nmero de pruebas.
Probabilidad de xito.
Probabilidad de fracaso.
Media de una distribucin binomial.
Frmula 52
138
11
10
20
30
40
50
60
70
80
90
100
110
Peso (kg)
120
130
Y = f(x)
Y = f(x)
Y = f(x)
Tabla 77
Grfico de la variable peso
X 70kg , S 20kg
0,2
0,4
0,6
0,8
1,2
1,4
1,6
1,8
10
15
20
Estatura (m)
25
30
35
40
45
50
55
60
65
70
75
80
85
90
95 1
Edad (aos)
0,45
0,40
0,35
Y = f(z)
0,30
0,25
0,20
0,15
0,10
0,05
0,00
-5 -4,5 -4 -3,5 -3 -2,5 -2 -1,5 -1 -0,5
0,5
1,5
2,5
3,5
4,5
Igual que en la Tabla 74, con la puntuacin de los exmenes A y B, al transformar las variables: peso, estatura y
edad a puntuaciones z, las tres variables pasan a la misma unidad de medida, puntuaciones z o unidades de
desviacin tpica. Y generalizando, cualquier variable que se transformen sus valores a puntuaciones z, se
convierte en una variable Z, en unidades z o unidades de desviacin tpica.
Las cuatro variables tienen una distribucin normal con su media y desviacin tpica
( N ( X ,S ) ), y estas distribuciones tienen su funcin f(x) definida, de tal manera que podemos
decir que la Y est en funcin de x, simblicamente, Y = f(x), y se puede generalizar a toda
variable con distribucin normal. Significa que para cualquier valor de la variable en el eje de
abscisas, aplicando la funcin, obtenemos un valor en el eje de ordenadas o vertical (Tabla
78).
Tabla 78
139
Grfico
f ( x)
1
2u
u e
f ( x)
S u 2uS
En donde:
S=
x X
S
0,25
f x f
3,141592654.
2,718281828.
Media de la variable.
Desviacin tpica de la variable.
Toma valores entre f e f .
e=
X
S=
x
0,20
Y = f(x)
0,15
0,10
0,05
0,00
0
Grfico: N(5,2) y f x f
10
10
Grfico
F (x)
F ( x)
S u 2uS
En donde:
S=
1
x 2u
e
f
x X
S
1,20
u dx
0,80
3,141592654.
2,718281828.
Media de la variable.
Desviacin tpica de la variable.
Toma valores entre f e f .
e=
X
S=
x
1,00
Y = F(x)
0,60
0,40
0,20
0,00
0
Grfico: N(5,2) y f x f
Grfico
f (z )
0,40
f ( z)
2uS
En donde:
S=
ue
1
uz2
2
f z f
0,30
Y = f(z)
3,141592654.
2,718281828.
e=
0,10
0.
1.
Toma valores entre f e f .
S=
z
0,20
0,00
-5 -4,5 -4 -3,5 -3 -2,5 -2 -1,5 -1 -0,5
0,5
1,5
2,5
3,5
4,5
0,5
1,5
2,5
3,5
4,5
Grfico: N(0,1) y f z f
La superficie bajo la curva; por encima del eje de
abscisas, y entre f z f , vale la unidad.
Funcin de distribucin de la normal tipificada
F ( z)
1,10
2uS
En donde:
S=
e=
z
Grfico
F (z )
u
f
1
uz2
2
dz , f z f
1,00
0,90
0,80
0,70
3,141592654.
2,718281828.
Toma valores entre f e f .
Y = F(z)
0,60
0,50
0,40
0,30
0,20
Grfico: N(0,1) y
f z f
0,10
0,00
140
0,45
0,40
0,35
0,30
Y = f(z) Frecuencia
Tabla 79
0,25
0,20
S3 = 0,5
0,15
S2
0,10
0,05
S1
0,00
-5
-4,5
-4
-3,5
-3
-2,5
-2
-1,5
-1
-0,5
0,5
1,5
2,5
3,5
4,5
141
Clculo de una superficie con lados curvos definida por la funcin de la normal tipificada.
El clculo de la superficie de un
rectngulo es:
bua
b
0,45
0,40
0,35
Y = f(z) Frecuencia
S21
0,30
0,25
S22
0,20
0,15
S23
0,10
0,05
0,00
0
Procedimiento de clculo:
Datos
de Base de los rectngulos:
partida:
b1 = 0,50 0,00 = 0,50
b2 = 1,00 0,50 = 0,50
z1 = 0,50
z2 = 1,00
b3 = 1,50 1,00 = 0,50
z3 = 1,50
La base es una diferencia
constante y se llama
diferencial de z (dz)
Superficies:
a1 = y1 = f(z1) = f(0,50)
a2 = y2 = f(z2) = f(1,00)
a3 = y3 = f(z3) = f(1,50)
La
altura
de
cada
rectngulo est dada por
el valor de y = f(z) (Tabla
78).
Entonces:
S2
S 21 S 22 S 23
b1 u a1 b2 u a2 b3 u a3
dz u f ( z1 ) dz u f ( z 2 ) dz u f ( z3 )
f ( zi ) u dz
i 1
y de forma genrica,
n
f ( zi ) u dz
i 1
61
142
Tabla 80
Clculo de una superficie con lados curvos definida por la funcin de la normal tipificada.
0,45
0,40
S21
Y = f(z) Frecuencia
0,35
S22
0,30
S23
0,25
S24
0,20
S25
0,15
S26
0,10
0,05
0,00
0
Entonces,
6
S2
f ( zi ) u dz
f ( zi ) u dz
f ( z1 ) u dz f ( z 2 ) u dz f ( z6 ) u dz
i 1
i 1
Para seguir reduciendo el error que se produce al operar con rectngulos, se incrementa el nmero de
rectngulos, hasta llegar a tener un rectngulo por cada punto de la curva normal. En este caso, la variable
nmero de rectngulos tratada como discreta, es tan grande, que se ha convertido en continua y el sumatorio de
variables discretas, se tiene que cambiar por el sumatorio de variables numricas consideradas continuas y
utilizar la integral definida,
f
i 1
1,50
f ( z ) u dz
Y = f(z) Frecuencia
0,05
0,00
0
4,25 4,5
4,75
Tabla 81
143
Y = f(z) Frecuencia
Tabla 82
Lectura del valor de las superficies de la curva normal tipificada del examen A.
Comentario
Examen A
La probabilidad de obtener menos de 8
(P(X d 8) P(x < 8) ya que P(X = 8) = 0, ver
0,45
Epgrafe 11.1) en el examen A, es igual
a la superficie que queda por debajo de
0,40
z = 1,50, que es la superficie de S2 ms
0,35
la superficie de S3 (0,4332 + 0,5000 =
0,30
0,9332). Por lo tanto la probabilidad
buscada es de 0,9332. Expresado en
0,25
porcentaje sera que el 93,3% (0,9332 x
0,20
100) han obtenido menos de un 8 en el
examen.
La probabilidad de obtener ms de 8 es
0,0668, que es el valor de la superficie
S1, que est dado por la diferencia
entre la superficie total de la mitad
derecha de la curva (0,5) menos la
superficie S2 (0,4332) (0,5 - 0,4332 =
0,0668). Expresado en porcentajes, el
6,7% han obtenido ms de 8.
Entonces,
0,10
0,05
1,5
S1
0,5
1,5
2,5
P X d8
S3
PZ d1,5
S2 = 0,4332
S3 = 0,5
0,00
F ( x 8)
S2
0,15
PZ d 0
P0 d Z d1,5
0
F z 1,5 PZ d1,5
0
f f ( z ) u dz
1,5
f ( z ) u dz
1,5
f f ( z ) u dz f f ( z ) u dz 0
S3 S 2
0,5
0,4332
f ( z ) u dz
3,5
4,5
144
Y = f(z) Frecuencia
Tabla 83
Lectura del valor de las superficies de la curva normal tipificada del examen B.
Comentario
Examen B
Como la distribucin es simtrica y la z
0,45
(-1,50) de la nota del examen B (20) es
0,40
igual que la z (1,50) del examen A, pero
con el signo cambiado, entonces la
0,35
probabilidad o el porcentaje de obtener
0,30
menos de 20 es la misma que la de
obtener ms de 8 (0,0668 6,7%) y la
0,25
de obtener ms de 20 es la misma que
0,20
la de obtener menos de 8 (0,9332
93,3%)
0,15
0,10
0,05
S1
S2 = 0,4332
S3 = 0,5
0,00
-5 -4,5 -4 -3,5 -3 -2,5 -2 -1,5 -1 -0,5
0,5
1,5
2,5
3,5
4,5
FZ
11.1
PZ d f
f f ( z )dz f f ( z )dz 0
f ( z )dz
0,5 0,5 1
0, para todo x
11.2
145
Cualquier variable que se le asuma que tiene una distribucin normal o cualquier valor
de una variable que se le asuma distribucin normal (N( X , S )), se le puede aplicar el criterio de
transformacin en puntuacin tpica o z (N(0,1)) y calcular probabilidades o porcentajes.
Adems de calcular la superficie por debajo o por encima de cierto valor de la variable, otra
posibilidad es la de calcular superficies entre dos valores que llamaremos intervalos.
Si una variable tiene la distribucin normal segn f(x) conocida (Tabla 78), se puede
calcular la superficie para determinados valores y tomar la superficie como una probabilidad o
porcentaje. Los resultados obtenidos a travs de la funcin de la normal y la funcin de la
normal tipificada son iguales. Se utiliza la f(z) por estar tabulada y su criterio de
estandarizacin se puede aplicar a otras variables numricas.
Para el clculo de intervalos se plantea cul es la probabilidad de que un caso est en
el intervalo de la media ms/menos n-veces la desviacin tpica, como aplicacin del Teorema
de Tchebycheff, simblicamente y el grfico se muestran en la Tabla 84.
Tabla 84
Intervalo
Grfico
Genricamente:
PX nuS X X nuS
50 1u 20 50 50 1u 20
Y = f(x)
10
20
30
40
50
60
70
80
70
80
90
100
((50-(1x20))<50<(50+(1x20)))
El intervalo para n = 2:
Y = f(x)
50 2u 20 50 50 2u 20
10
20
30
40
50
60
90
100
((50-(2x20))<50<(50+(2x20)))
Al transformar cualquier variable en puntuacin tpica se convierte en una variable Z, N(0,1). Al sustituir los valores
de la media de 50 por la media de z = 0 y de la desviacin tpica de 20 por el de z = 1, los intervalos de
probabilidad para diferentes valores de n, son:
146
Tabla 84
Intervalo
Grfico
n = 1,
1 0 1 y la probabilidad,
P101
0,40
0,6826
0,35
0,30
Y = f(z)
Llamamos:
0,25
Nc=0,6826
Zona de aceptacin
de Ho
0,20
0,15
0,10
Ns/2=0,3174/2=0,1587
Zona de rechazo
de Ho
Ns/2=0,3174/2=0,1587
Zona de rechazo
de Ho
0,05
P = 0,6826
0,00
-5 -4,5 -4 -3,5 -3 -2,5 -2 -1,5 -1 -0,5
P1 0 1
0,5
1,5
2,5
3,5
4,5
((-1)<0<(+1))
1
1
1 f ( z) u dz 1 f ( z) u dz 0 f ( z) u dz
0,3413 0,3413 0,6826
n = 1,96,
0,45
0,40
0,9500
0,35
0,30
Y = f(z)
0,25
0,20
Nc=0,9500
Zona de aceptacin
de Ho
0,15
0,10
0,05
P1,96 0 1,96
Ns/2=0,0500/2=0,0250
Zona de rechazo
de Ho
Ns/2=0,0500/2=0,0250
Zona de rechazo
de Ho
P = 0,9500
0,00
1,96
1,96
1,96 f ( z) u dz 1,96 f ( z) u dz 0
0,4750 0,4750
0,5
1,5
2,5
3,5
4,5
((-1,96)<0<(+1,96))
f ( z ) u dz
0,9500
n = 2,
2 0 2
P2 0 2
0,45
y la probabilidad,
0,40
0,9544
0,35
0,30
2
f ( z ) u dz
0,25
0,15
0,10
0,00
2
0,4772 0,4772
f ( z ) u dz
0,9544
2
f ( z ) u dz
Nc=0,9544
Zona de aceptacin
de Ho
0,20
0,05
P 2 0 2
2
Y = f(z)
Ns/2=0,0456/2=0,0228
Zona de rechazo
de Ho
Ns/2=0,0456/2=0,0228
Zona de rechazo
de Ho
P = 0,9544
0,5
((-2)<0<(+2))
1,5
2,5
3,5
4,5
Tabla 84
147
n = 3,
0,45
3 0 3
P303
y la probabilidad,
0,40
0,9974
0,35
0,30
Y = f(z)
0,25
Nc=0,9974
Zona de aceptacin
de Ho
0,20
0,15
Ns/2=0,0026/2=0,0013
Zona de rechazo
de Ho
0,10
Ns/2=0,0026/2=0,0013
Zona de rechazo
de Ho
0,05
P 3 0 3
P = 0,9974
0,00
3
0,5
1,5
2,5
3,5
4,5
((-3)<0<(+3))
3
3 f ( z) u dz 3 f ( z) u dz 0 f ( z) u dz
0,4987 0,4987
0,9974
P x1 x x2
P z1 z z 2
P40 x80
P 4050 z 8050 , P40 x 80
20
20
1,5
0,5 f ( z)dz
P 0,5 z 1,5
1,5
P 0,5 z 1,5
1,5
f ( z )dz
0,1915 0,4332
0,6247
P x1 x x2
P z1 z z2
P8 x 12
P810 z 1210 , P8 x 12
P1 z 1
1
1 f ( z)dz
P1 z 1
1 f ( z)dz
0
1
1 f ( z)dz 0 f ( z)dz
Grfico
148
Tabla 85
Otros ejemplos.
Sea una variable X N(30,2), calcular la probabilidad de que un
caso est por debajo de x1 = 25.
P X x1
PZ z1 , P X 25
P X 25
Pz 2,5
2,5
f
Pz 2,5
f ( z )dz
PZ 2530
2
0,0062
2,5 f ( z)dz
f ( z )dz
2,5
f
0
0,4938
0
f ( z )dz
P x! x1
P z ! z1 , P x!47
Px ! 47
Pz ! 0,7
Pz ! 0,7
0,7 f ( z)dz
Pz ! 47 40
10
0,2420
Proceso:
Se busca en la Tabla la superficie comprendida entre z = 0 y z
= 0,7 y se le resta a 0,5. La superficie buscada es 0,5 0,2580
= 0,2420
Pz ! 0,7
0,7
0 f ( z)dz 0
f ( z )dz
0,5 0,2580
0,2420
11.3
149
Tabla 86
0,4
0,4
0,3
0,3
0,3
0,2
0,2
0,1
0,1
-3
-1
-6
-4
-2
0
-6
-4
-2
-6
gl = 3
0,16
0,4
0,3
0,2
0
4
10
10
12
(X 1,E49)
4
0,6
0,4
0
3
12
16
20
Chi-2
0,4
0,6
0,4
0,2
0
0
0,08
16
0,2
0,2
12
0,6
Y = f(F)
Y = f(F)
0,8
0,8
0
0
Nota:
*
gln: gl numerador y gld: gl denominador.
Tabla 87
gl=10.000
gl=10 y 1.000
0,4
gl=1
0,3
Y = f(t)
0,2
0,1
0
-6
0,12
Chi-2
0
0
Chi-2
0,04
0
0
Chi-2
0,1
Y = f(F)
0,15
0,05
0,1
Y = f(Chi-2)
0,2
0,2
Y = f(Chi-2)
0,25
0,6
gl = 4
0,5
0,9
-2
0,6
1,2
-4
1,5
Y = f(Chi-2)
Y = f(Chi-2)
1,8
Y = f(F)
gl = 2
0,3
0,2
0,1
gl = 1
F2
0,2
0,1
-5
Y = f(t)
0,4
0,3
Y = f(t)
0,4
Y = f(t)
Y = f(t)
La distribucin t de Student se hace ms apuntada a medida que aumentan los gl y a partir de 10.000 se va aproximando a Z.
En 30.000 gl se puede decir que es Z. Estos valores son orientativos para indicar la relacin entre t y Z.
Los grados de libertad de la distribucin t se obtienen restando una unidad al tamao de la muestra (n-1). A medida que n
aumenta, la diferencia entre la distribucin Z y t desaparece.
gl = 1
gl = 10
gl = 1.000
gl = 10.000
-4
-2
150
Tabla 87
1,5
1,2
Y = f(Chi-2)
0,9
gl=2
0,6
gl=3
0,3
gl=4
0
0
12
16
20
Chi-2
gl=2
gl=10
0,8
Y = f(F)
gl=1
gl=3
0,6
0,4
0,2
0
0
12
151
Secuencia lgica
Lectura, haya o no
asociacin
Lectura, haya o no
asociacin
Determina la
existencia de
asociacin
Slo si se detecta
asociacin
Slo si se detecta
asociacin
Slo si se detecta
asociacin
Tabla 88
Estadsticos de la tabla de contingencia.
Proceso
Estadstica
Partes
Estadstico
de
lectura*
Frecuencias
2
Descriptiva
Recuento
absolutas
%TF
Frecuencias
%TC
2
Descriptiva
relativas
%TT
Regla de Zeisel
Asociacin
F2
1
Anlisis
entre las
variables
2
Coeficiente de cont. (cc)
Basados en F
V de Cramer
Fuerza de la
3
Anlisis
I (fi phi)
asociacin
RPE**
Lambda (O)
Gamma
Direccin de
d de Somers
4
Anlisis
la asociacin
tau-b de kendall
tau-c de kendall
Asociacin
Residuo
5
Anlisis
por celdas
Residuo tipificado (Zresiduo)
Nota:
*
El proceso de lectura es orientativo y secuencial, porque la lectura de la tabla es holstico, global. Tambin puede ocurrir que aunque
no haya asociacin se quiera ver la asociacin por celdas, porque como ya se tratar, puede ocurrir que la tabla presente asociacin
por el carcter acumulativo de la estandarizacin de los residuos, pero ninguna celda presente una asociacin significativa y
viceversa, puede que la tabla no presente asociacin, pero que alguna celda tenga asociacin significativa y el resto de las celdas la
neutralizan en el global.
**
12.1
152
Tabla 89
Contraste de hiptesis en una tabla de contingencia.
Estado civil segn el sexo
Sexo
Varn
Mujer
Total fila
36
41
77 En donde:
Estado civil
Soltero/a
fo
Frecuencia
38,1
38,9
77,0 fo:
fe
observada.
73,5%
82,0%
77,8%
%TC
fe:
frecuencia
-2,1
2,1
Residuo
esperada.
-0,3
0,3
ZResiduo
%TC: % total de
6
3
9
Casado/a fo
columna.
4,5
4,5
9,0
fe
12,2%
6,0%
9,1%
%TC
1,5
-1,5
Residuo
0,7
-0,7
Zresiduo
7
6
13
Pareja
fo
6,4
6,6
13,0
fe
14,3%
12,0%
13,1%
%TC
0,6
-0,6
Residuo
0,2
-0,2
Zresiduo
49
50
99
Total
fo
49,0
50,0
99,0
columna
fe
49,5%
50,5%
100,0%
%TF
100,0% 100,0%
100,0%
%TC
153
Tabla 90
Relacin H1 y H0.
Aceptar
H1
Rechazar
Aceptar
H0
Rechazar
12.2
154
P( S1 )
hechos _ favorables
Hechos _ posibles
Frmula 53
P( Sv )
49
99
0,495 , P( Ss )
77
99
0,778
Que multiplicado por 100 quedara expresado en porcentaje del total de columna o del
total de fila. Pero el inters no es la probabilidad de ocurrencia de los sucesos elementales,
sino la probabilidad de la interseccin de los sucesos elementales. Esto es, la probabilidad de
ocurrencia de la interseccin de los sucesos elementales de ser varn y soltero.
Simblicamente:
P( S v S s )
Frmula 54
P( Sv ) u P( Ss )
0,495 u 0,778
0,3851
Entonces, si la probabilidad de ser varn y estar soltero es 0,3851, asumiendo que los
sucesos son independientes, mutuamente no excluyentes, entonces el nmero de varones
solteros se espera que sea de 38,1. Simblicamente:
P( S v S s )
Hechos _ favorables
Hechos _ posibles
Hf
, entonces, 0,3851
99
Hf
y Hf
99
0,3851u 99 38,1
Entonces los Hechos favorables, que son el nmero de varones solteros esperados,
son 38,1 y se llama la frecuencia esperada (fe), y son los casos que debera haber si los
sucesos fuesen independientes mutuamente no excluyentes (la repeticin de esta caracterstica
es debido a que es la clave del proceso). Este valor se llama valor terico o modelo terico
porque es resultado de un modelo probabilstico. Los 36 varones solteros es la frecuencia
observada (fo) o el modelo emprico, aquello que ha ocurrido en la realidad, lo que se ha
observado, y los 38,1 los que deberan haber sido si los sucesos fuesen independientes
mutuamente no excluyentes. Entonces lo que se ha conseguido es un modelo probabilstico de
referencia con el que comparar el modelo emprico. La diferencia entre el valor emprico y el
terico se llama residuo o residual. Simblicamente,
Res
155
fo fe
Frmula 55
Interseccin
Varn
soltero
Mujer
soltera
Varn
casado
Mujer
casada
Varn
pareja
Mujer
pareja
Tabla 91
Clculo de las frecuencias esperadas y los residuos.
Probabilidad de la interseccin de los
Frecuencias
sucesos elementales
esperadas
P( Sv Ss )
P( Sv ) u P( S s )
0,495 u 0,778
P( S m S s )
P( S m ) u P( S s )
0,505 u 0,778
P( S v S c )
Residuos
0,3851
fe 0,3851 u 99 38,1
Res11
fo11 fe11
36 38,1 2,1
0,3929
fe 0,3929 u 99 38,9
Res12
fo12 fe12
41 38,9 2,1
P( S v ) u P( S c )
fe 0,0450 u 99 4,5
P( Sm Sc )
P( Sm ) u P( Sc )
fe 0,0460 u 99 4,5
Res 22
fo 22 fe 22
3 4,5 1,5
P( S v S p )
P( S v ) u P( S p )
fe 0,0648 u 99 6,4
Res 31
fo31 fe31
7 6,4 0,6
P( S m S p )
P( S m ) u P( S p )
fe 0,0662 u 99 6,6
fo32 fe 21
6 6,6
Res 21
Res 32
fo 21 fe 21
6 4,5 1,5
0,6
Las frecuencias observadas son el modelo emprico del cruce de las variables sexo y
estado civil, del que desconocemos si su relacin es dependencia o independencia. Las
frecuencias esperadas son el modelo probabilstico terico, del que sabemos que son las
frecuencias que deberan ser si los sucesos fuesen independientes, mutuamente no
excluyentes. La comparacin del modelo emprico con el terico es mediante resta simple de
las frecuencias observadas menos las frecuencias esperadas de cada celda y que se han
llamado residuos.
Si todos los residuos fuesen cero, entonces es que los dos modelos son iguales y lo que
era desconocido se hace conocido, las frecuencias observadas son como las esperadas,
independientes. Como este es el planteamiento de la H0, entonces nos llevara a aceptarla.
Significara que no tiene ninguna relacin el gnero en cuanto a sexo con el estado civil de las
personas. Significa que hay solteros, casados y en pareja tanto entre los varones como entre
las mujeres.
Pero si los residuos son distintos de cero, muy distintos, con una diferencia enorme,
entonces el modelo emprico es distinto del terico y si no son independientes, entonces son
dependientes. Este proceso nos lleva a rechazar la H0 y por lo tanto a aceptar la H1. La
conclusin sera que el estado civil de las personas est relacionado con el sexo.
Pero entre residuos igual a cero y los residuos enormes, hay una escala dentro de la
cual hay que determinar hasta que valor se acepta H0, o lo que es lo mismo a partir de que
valor se consideran grandes los residuos para rechazar la H0 y aceptar la H1. Tambin se
presenta el inconveniente de que una cosa es grande o pequea dependiendo de con qu se
compare. Por ejemplo, una diferencia de 5, entre 20 y 25, puede ser grande. Pero puede
resultar pequea si es entre 995 y 1.000. Incluso puede llegar a ser insignificante si las
cantidades son mayores.
Hay que resolver dos problemas, estandarizar los valores y establecer un criterio para
determinar cuando los residuos se pueden considerar grandes o pequeos o de forma ms
precisa cundo son significativamente grandes o significativamente pequeos. La
2
estandarizacin de los residuos se consigue aplicando el estadstico F de Pearson y el criterio
para determinar cundo son grandes o pequeos es aplicar los conceptos de probabilidad de la
2
distribucin de la variable estandarizada F . La estandarizacin de los residuos es:
156
F e2
foij feij 2
Frmula 56
feij
i 1 j 1
Que es el sumatorio para todas las celdas de la diferencia entre las frecuencias
observadas menos las frecuencias esperadas, elevado al cuadrado, dividido (relativizado o
estandarizado) por las frecuencias esperadas. Y es el estadstico chi-cuadrado estimado, y en
el caso de la Tabla 89 es:
F e2
i 1 j 1
foij feij 2
F 3C 2
foij feij 2
feij
i 1 j 1
feij
fo11 fe11 2 fo12 fe12 2 fo21 fe21 2 fo22 fe22 2 fo31 fe31 2 fo32 fe32 2
fe11
fe12
fe21
fe22
fe31
38,9
4,5
4,5
6,4
6,6
fe32
1,39
gl
( f 1) u (c 1)
En donde:
gl: Grados de libertad.
f:
Nmero de filas de la tabla.
c:
Nmero de columnas de la tabla.
Frmula 57
157
Clculo de F c2 :
gl = 2
F c2
= 5,9915
0,6
Ns = 0,05
0,5
F c2
0,4
Y = f(chi-2)
Nc = 0,95
Zona de aceptacin de Ho
0,3
F2 =5,99
c
0,2
Ns = 0,05
Zona de rechazo de H0
0,1
0
0
10
11
chi-2
Nc < 0,95
Nc de
Chi2 estimado
0,6
0,5
F c2 .
0,5
F2 =1,39
e
0,4
0,3
Ns > 0,05
Ns de
Chi2 estimado
0,2
con
0,6
Y = f(chi-2)
Y = f(chi-2)
F e2
0,1
0,4
Nc = 0,95
Nc de
Chi2 crtico
0,3
0,2
Ns = 0,05
Ns de
2
Chi crtico
F2 =5,99
c
0,1
0
0
chi-2
10
11
12
chi-2
10
11
12
158
El proceso completo (Tabla 88) de una tabla que presenta asociacin se realiza con
dos variables extradas de la Encuesta Social Europea.62 Se ha utilizado el criterio de
ponderacin y se ha aplicado a la muestra del Reino Unido por el inters de los resultados
(Tabla 93).
62
R. Jowell and the Central Co-ordinating Team, European Social Survey 2006/2007: Technical Report, London: Centre
for Comparative Social Surveys, City University (2007). El servicio de Datos de las Ciencias Sociales Noruego (NDS) ha
realizado la distribucin de los datos. Disponible en: http://www.europeansocialsurvey.org/.
159
Tabla 93
Contraste de hiptesis de una tabla con asociacin.
Pregunta B4:
Pregunta F4:
Por favor dgame en una escala de 0-10 cul es la Gnero de la persona entrevistada (seleccionada la
confianza que usted tiene en el Parlamento de su pas. persona por procedimientos aleatorios).
El 0 significa que usted no confa en absoluto, y el 10
significa que usted tiene plena confianza.
Esta pregunta genera la variable: sexo del
Esta pregunta genera la variable confianza en el entrevistado.
parlamento de su pas. Para reducir el nmero de
categoras se ha recodificado siguiendo el criterio
tradicional de nota semntica: 1-4: Suspenso. 5-6:
Aprobado. 7-8: Notable. 9-10: Sobresaliente.
Confianza en el Parlamento del pas segn el sexo, en Reino Unido.
Sexo
Varn
569
Confianza en el
Suspenso
fo
574,5
Parlamento del pas.
fe
50,6
%TC
24,3
%TT
-5,5
Residuo
-0,23
ZResiduo
313
Aprobado
fo
351,7
fe
27,85
%TC
13,3
%TT
-38,7
Residuo
-2,06
Zresiduo
213
Notable
fo
169,1
fe
19,0
%TC
9,1
%TT
43,9
Residuo
3,37
Zresiduo
29
Sobresaliente
fo
28,7
fe
2,6
%TC
1,2
%TT
0,3
Residuo
0,05
ZResiduo
1.124
Total columna
fo
1.124,0
fe
100,0
%TF
47,9
%TC
Mujer
630
624,5
51,6
26,9
5,5
0,22
421
382,3
34,45
17,9
38,7
1,98
140
183,9
11,5
6,0
-43,9
-3,24
31
31,3
2,5
1,3
-0,3
-0,05
1.222
1.222,0
100,0
52,1
Total fila
1.199
1.199,0
51,1
734
734
31,3
353
353
15,0
60
60
2,6
2.346
2.346,0
100,0
100,0
160
Tabla 94
Clculo de las frecuencias esperadas y los residuos.
Probabilidad de la interseccin de
Frecuencias
Residuos
los sucesos elementales
esperadas
Interseccin
Varn
suspenso
Mujer
suspenso
Varn
aprobado
Mujer
aprobado
Varn
notable
Mujer
notable
Varn
sobresaliente
Mujer
sobresaliente
P( Sv S s )
P( Sv ) u P( S s )
Re s11
fo11 fe11
P( S m S s )
P( S m ) u P( S s )
Re s12
fo12 fe12
P( Sv S a )
P( Sv ) u P( S a )
0,479 u 0,313
0,1499
Re s 21
fo 21 fe 21
P( S m S a )
P( Sm ) u P( S a )
0,521 u 0,313
0,1630
Re s 22
fo 22 fe 22
P( Sv S n )
P( S v ) u P( S n )
0,479 u 0,150
0,0721
Re s 31
fo31 fe31
P( S m S n )
P( S m ) u P( S n )
0,521 u 0,150
0,0784
P( Sv S s )
P( Sv ) u P( S s )
0,479 u 0,026
0,0123
fe 0,0123 u 2.346
28,7
Re s 41
fo 41 fe 41
29 28,7 0,3
P( S m S s )
P( S m ) u P( S s )
0,521 u 0,026
0,0133
Re s 42
fo 42 fe 41
31 31,3 0,3
Re s 32
fo32 fe 21
140 183,9
38,7
43,9
Para contrastar la hiptesis nula (H0) hay que calcular el chi-cuadrado estimado, y en
el caso de la Tabla 93 es:
F e2
foij feij 2
F 4C 2
foij feij 2
feij
i 1 j 1
feij
i 1 j 1
fo11 fe11 2 fo12 fe12 2 fo21 fe21 2 fo22 fe22 2 fo31 fe31 2
fe11
fe12
fe21
fe22
fe31
fe41
fe42
569 574,52 630 624,52 313 351,7 2 421 382,32 213 169,12
574,5
624,5
351,7
28,7
31,3
382,3
30,12
169,1
Tabla 95
Clculo de
161
F c2 :
gl = 3
F c2
= 7,8147
0,25
Ns = 0,05
El valor de F c2 7,8147 es el que
deja una superficie a su derecha,
2
por debajo de la curva de F y
por encima del eje de abscisas,
igual a 0,05, que se llama Ns y
para gl = 3.
Este valor se obtiene en la Tabla
2
de F del Anexo 2 (pg. 333). Los
gl = 3 son la entrada de filas y el
Ns = 0,05 es la entrada de
columnas. La celda en la que se
Y = f(chi-2)
0,2
Nc = 0,95
Zona de aceptacin de Ho
0,15
F2 =7,81
c
0,1
Ns = 0,05
Zona de rechazo de H0
0,05
0
0
10 11 12 13
14 15 16
chi-2
Grfico 17 Comparacin de
Fe2
0,25
Fc 2 .
0,25
Nc > 0,95
Nc de
Chi2 est.
Nc = 0,95
Nc de
Chi2 crit.
0,2
0,15
Ns < 0,05
Ns de
Chi2 est.
0,1
F2 =30,12
e
Y = f(chi-2)
0,2
Y = f(chi-2)
con
0,05
0,15
F2 =7,81
c
0,1
Ns = 0,05
Ns de
Chi2 crit.
0,05
0
0
10 12 14 16 18 20 22 24 26 28 30 32
chi-2
10 11 12 13
14 15 1
chi-2
162
(incluso al Ns = 0,01 ya que con gl = 3, F c2 11,35 ) existe asociacin entre las variables sexo
y confianza en el Parlamento del pas.
Al existir asociacin entre las variables, hay que ver: fuerza de la asociacin, direccin
de la asociacin (en esta ocasin no se trata porque no son de nivel de medida ordinal las dos
variables) y a qu celdas es debida la asociacin. La lectura de porcentajes ya se ha trabajado
y salvo excepcin, en esta tabla no se tratar.
Los estadsticos que indican la fuerza de la asociacin son: Coeficiente de
contingencia (cc), V de Cramer, I (fi phi) y Lambda (O) de Goodman y Kruskal.
cc
ccm
Fe2
Fe2 n
k 1
k
Frmula 58
Fe2
n u (k 1)
Fe2
n
Frmula 60
Si k = 2, V es igual a I
Frmula 61
O yx
P1 y P2 y
P1 y :
P1 y
P2 y :
Frmula 62
Oxy
P1x P2 x
P1x
P1x :
P2 x :
Frmula 63
La asociacin de cada una de las celdas se analiza con los residuos tipificados. Estos
residuos tienen la distribucin de una variable N(0,1), la puntuacin tipificada z, que permitir
saber a travs de los residuos que frecuencias observadas y esperadas son significativamente
distintas. Se puede repasar el Epgrafe 11.
163
foij feij
zres
Frmula 64
feij
cc
I
O yx
O xy
Fe2
30,12
30,12 2.346
Fe n
Fe2
30,11
2.346 u (2 1)
n u (k 1)
Fe2
n
P1 y P2 y
P1 y
P1x P2 x
P1x
0,11
30,11
2.346
0,11
0,11
0,479 0,448
0,479
0,489 0,488
0,489
0,031
0,479
0,00
0,06
Para una interpretacin de los valores de cc, V y I, hay que considerar dos cosas, la
escala o rango de valores en los que se mueven y la caracterstica de las variables que se estn
comparando o relacionando. El rango de valores que puede tomar cc es de 0 y <1, no alcanza
el valor de 1 y adems el valor mximo es desconocido (excepto en las tablas cuadradas, ver
Frmula 59), esta caracterstica hace que la interpretacin del valor resulte ms difusa. Los
otros dos estadsticos toman valores de 0 y 1 (Tabla 96). En los tres casos cuanto ms cerca
est el valor de cero, menor es la fuerza de la asociacin y segn se aproxima al valor mximo
mayor es la fuerza de la asociacin. Pero utilizando una metfora, los valores pocas veces van
a ser blanco, ni negro, sino que se van a mover en una escala de grises que es la que
hay que interpretar. Los estadsticos V (para k = 2) y I pueden llegar a valer ms de la unidad
si F e 2 ! n .
Tabla 96
Escala de cc, V y I.
cc
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
En una escala que tiene los lmites en el 0 y en el 1, la mitad es 0,5, que puede servir
de orientacin, pero sin decir mucho sobre su interpretacin. La escala del coeficiente de
contingencia, excepto cuando la tabla es cuadrada, no permite determinar el punto medio al
ser desconocido el punto mximo.
164
165
0,40
0,35
0,30
Se acepta Ho si:
| zres e || zres c |{ Nc e Ncc { Ns e ! Ns c
Y = F(z)
1
2
3
4
0,25
0,20
0,15
Se rechaza H0 si:
| zres e |t| zres c |{ Nce t Ncc { Ns e d Ns c
Nc = 0,95
Zona de aceptacin de H0
0,10
0,05
0,00
-5
-4,5
-4
-3,5
-3
-2,5
-2
-1,5
-1
-0,5
0,5
1,5
2,5
3,5
4,5
Varones
zres11
zres 21
zres31
zres 41
fo11 fe11
fe11
fo21 fe21
313 351,7
fe21
351,7
fo31 fe31
213 169,1
fe31
169,1
fo41 fe41
29 28,7
fe41
28,7
2,06
zres 22
3,37
zres32
0,05
zres 42
fo 22 fe22
421 382,3
fe22
382,3
fo32 fe32
140 183,9
fe32
183,9
fo 42 fe42
31 31,3
fe42
31,3
0,22
1,98
3,24
0,05
Para todos los residuos tipificados que su valor est comprendido en el intervalo 1,96
y 1,96, se acepta la H0, y los zres t 1,96 o zres d -1,96 o |zres| t |1,96| produce el rechazo de
la H0 y consecuentemente la aceptacin de la H1. Entonces las diferencias significativas entre
las fo y las fe se dan en las celdas de aprobado y notable con varn y mujer. No hay
asociacin en las celdas suspenso y sobresaliente con varn y mujer.
En las celdas que la diferencia entre las fo y las fe no es significativa, quiere decir que
lo observado es lo esperado y por lo tanto son sucesos independientes mutuamente no
excluyentes. En las celdas en las que la diferencia entre las fo y las fe es significativa, quiere
decir que lo observado es significativamente distinto a lo esperado, en este caso al nivel de
significacin de 0,05, y por lo tanto lo observado no es lo esperado. Cuando la diferencia es
negativa, lo observado es significativamente menor que lo esperado y cuando es positiva, lo
observado es significativamente mayor que lo esperado.
La interpretacin es: en la valoracin del Parlamento del Reino Unido por los
ciudadanos, no hay diferencias en la valoracin de suspenso y sobresaliente entre las fo y las
fe ni en los varones ni en las mujeres. Pero en la valoracin de aprobado hay menos varones
de los que debera haber y ms mujeres de las que debera haber si los sucesos fuesen
independientes, entonces se puede decir que hay significativamente menos varones de los que
debera haber que aprueban al Parlamento y ms mujeres de las que debera haber que
aprueban al Parlamento.
166
En la valoracin de notable son ms los varones que hay y menos las mujeres que hay
de los que debera haber si los sucesos fuesen independientes, mutuamente no excluyentes,
entonces se puede decir que hay significativamente ms varones de los que debera haber que
dan notable al Parlamento mientras que hay menos mujeres de las que debera haber que dan
notable al Parlamento.
Es un anlisis frecuencista, se ve si hay ms o menos casos. La lectura que no se
puede hacer es que las mujeres aprueban ms la actuacin del Parlamento que los varones,
pero lo valoran peor en notable. Esta lectura es falsa, el hecho de que sean ms o menos
individuos, no vara la calificacin, sino el nmero de personas que dan esa calificacin, por
lo tanto la calificacin es la misma. La diferencia es el nmero de casos.
12.5
En general, tiene la sensacin de que le falta tiempo En general, hace las cosas con prisa o
o de que tiene tiempo de sobra?
tranquilamente?
Categoras originales
Recodificacin para
mantener la ordinalidad.
1. Con prisa.
1. Falta.
1. Falta.
2. Con tranquilidad.
2. Sobra.
2. No falta ni sobra.
9. Ns/Nc
3. No falta ni sobra.
3. Sobra.
9. Ns/Nc
9. Ns/Nc
Esta pregunta genera la variable B1.
Esta pregunta genera la variable B2.
Forma de hacer las cosas y sensacin o sentimiento de falta o sobra del tiempo.
Sensacin de falta o sobra tiempo
No falta
Falta
Sobra
Total fila
ni sobra
336
104
65
505
Forma de hacer las
Con prisa
fo
219,0
128,4
157,6
505,0
cosas.
fe
65,9
34,8
17,7
42,9
%TC
28,6
8,8
5,5
42,9
%TT
117,0
-24,4
-92,6
Residuo
7,91
-2,15
-7,38
ZResiduo
174
195
302
671
Con
fo
291,0
170,6
209,4
671,0
tranquilidad
fe
34,1
65,2
82,3
57,1
%TC
14,8
16,6
25,7
57,1
%TT
-117,0
24,4
92,6
Residuo
-6,86
1,87
6,40
Zresiduo
510
299
367
1.176
Total columna
fo
510,0
299,0
367,0
1.176,0
fe
100,0
100,0
100,0
100,0
%TF
43,4
25,4
31,2
100,0
%TC
63
Realizado en enero de 1996 sobre Usos del tiempo. Este Centro, dirigido por Juan Dez Nicolas, estaba patrocinado
por la Fundacin BBVA, Caja Madrid y BILBAO-BIZKAIA-KUTXA.
167
Interseccin
Falta con
prisa
No f/s con
prisa
Sobra con
prisa
Falta con
tranquilidad
No f/s con
tranquilidad
Sobra con
tranquilidad
P( S f S p )
P( S f ) u P( S p )
fe 0,1862 u 1.176
219,0
Re s11
fo11 fe11
P( Sn S p )
P( Sn ) u P( S p )
Re s12
P( Ss S p )
P( Ss ) u P( S p )
Re s13
fo13 fe13
P( S f St )
P( S f ) u P( St )
fe 0,2474 u 1.176
P( Sn St )
P( Sn ) u P( St )
fe
P( S s St )
P( S s ) u P( St )
fe 0,1781 u 1.176
291,0
Re s21
65 157,6
92,6
Re s22
Re s23
fo23 fe23
Para contrastar la hiptesis nula (H0) hay que calcular el chi-cuadrado estimado, y en
el caso de la Tabla 98 es:
F c2
fo
i 1 j 1
ij
feij
feij
F 2C 3
fo
i 1 j 1
ij
feij
feij
fo11 fe11 2 fo12 fe12 2 fo13 fe13 2 fo21 fe21 2 fo22 fe22 2
fe11
fe12
fe13
fe21
fe22
fe23
170,6
219,0
209,4
128,4
213,02
157,6
291,0
168
Tabla 100
2
c
Clculo de F :
gl = 2
2
c
= 5,9915
0,6
Ns = 0,05
0,5
0,4
Y = f(chi-2)
El valor de F c 5,9915 es el
que deja una superficie a su
derecha, por debajo de la curva
2
de F y por encima del eje de
abscisas, igual a 0,05, que se
llama Ns y para gl = 2.
Este valor se obtiene en la Tabla
2
de F del Anexo 2 (pg. 333). Los
gl = 2 son la entrada de filas y el
Ns = 0,05 es la entrada de
columnas. La celda en la que se
Nc = 0,95
Zona de aceptacin de Ho
0,3
F2 =5,99
c
0,2
Ns = 0,05
Zona de rechazo de H0
0,1
0
0
10
11
12
chi-2
0,6
0,6
0,5
0,5
0,4
0,4
0,3
Ns < 0,05
Ns de
Chi est.
Nc > 0,95
Nc de
Chi est.
0,2
Y = f(chi-2)
Y = f(chi-2)
Ns = 0,05
Ns de
Chi crit.
0,2
F2 =5,99
c
F2 =213,02
e
0,1
Nc = 0,95
Nc de
Chi crit.
0,3
0,1
0
0
20
40
60
80
100
120
140
160
180
200
220
chi-2
20
40
60
80
100
120
140
160
180
200
220
chi-2
169
En este caso, se rechaza Ho porque el F e2 t F c2 , que equivale a decir que Nce t Ncc y
equivalente tambin a que Nse d Nsc . Por lo tanto se puede concluir que al Ns de 0,05
(incluso al Ns = 0,01 ya que con gl = 2, F c2 9,2104 ) existe asociacin entre las variables
sensacin de falta o sobra el tiempo y forma de hacer las cosas.
Al existir asociacin entre las variables, hay que ver: fuerza de la asociacin, direccin
de la asociacin (en esta ocasin s, porque las dos variables se consideran de nivel de medida
ordinal) y a qu celdas es debida la asociacin. La lectura de porcentajes ya se ha trabajado y
salvo excepcin, en esta tabla no se tratar.
Los estadsticos que indican la fuerza de la asociacin son: Coeficiente de
contingencia (cc), V de Cramer, I (fi phi) y Lambda (O).
La asociacin de cada una de las celdas se analiza con los residuos tipificados, que
tienen la distribucin de una variable N(0,1), la puntuacin tipificada z, que permitir saber a
travs de los residuos que frecuencias observadas y esperadas son significativamente distintas.
Se puede repasar el Epgrafe 11.
Los valores de los estadsticos cc, V, I y O, de la Tabla 98 son:
cc
O yx
Oxy
Fe2
2
Fe n
Fe2
n u (k 1)
Fe2
n
213,02
213,02 1.176
0,39
213,02
1.176 u (2 1)
0,43
213,02
1.176
P1 y P2 y
P1 y
P1x P2 x
P1x
0,43
0,429 0,291
0,32
0,429
0,566 0,457
0,566
0,109
0,566
0,19
170
comparacin de los valores de las dos variables para todos los casos posibles de la tabla
tomados por pares. Se consideran pares concordantes, discordantes o empatados. Un par de
casos se consideran concordantes cuando uno de ellos tiene los valores, en ambas variables de
la tabla, altos (o bajos) coincidiendo con los correspondientes valores del otro caso en ambas
variables.
El par es discordante si el valor de un caso en una de las variables es mayor que el
correspondiente valor del otro caso y la direccin en la segunda variable es inversa. Se dice
pares empatados cuando los individuos tienen idnticos valores en una o las dos variables.
As, para cualquier par de casos con valores en las variables X e Y pueden ser
concordantes, discordantes o estar empatados en X pero no en Y, empatados en Y pero no en X
o estar empatados en las dos.
Si hay mayor nmero de pares concordantes, la asociacin es positiva: cuando los
casos se incrementan (o decrementan) con los valores de la variable X, lo mismo ocurre en la
variable Y. Si la mayora de los pares son discordantes, la asociacin es negativa: cuando los
casos se incrementan con los valores de una variable, tienden a decrementar en la otra. Si los
pares concordantes y discordantes son igualmente probables, entonces no se puede decir que
haya asociacin.
Se debe tener precaucin al considerar nivel superior e inferior en una variable
categrica ordinal porque la codificacin, como ya se vio, es arbitraria y aleatoria, puede tener
codificacin inversa al orden de las categoras de la variable. Un ejemplo simple de una
variable ordinal con los sucesos elementales: bajo, medio y alto, puede estar codificada como:
1, 2 y 3 o como 3, 2 y 1. En el primer caso la codificacin se considera directa (bajo (1);
medio (2), y alto (3)) y en el segundo caso se considera inversa (bajo (3); medio (2), y alto
(1)). Cuando se habla de concordancia se considera la codificacin directa. La expresin
simblica del clculo de la concordancia es,
f
Pc
nij u
i 1 j 1
Pd
nij u
k i 1 l j 1
k i 1 l c 1
n u n
i.
k.
i 1
k i 1
n. j u
j 1
TXY
kl
TY
n
f
i 1 j c
TX
i 1 j 1
n.l
l j 1
nij u nij 1
2
kl
Frmula 65
Frmula 66
Frmula 67
Frmula 68
Frmula 69
N u ( N 1)
2
171
Frmula 70
ta
ta:
Pc:
Pd:
T:
Pc Pd
T
Tau-a.
Pares concordantes.
Pares discordantes.
Total de pares.
Frmula 71
El coeficiente Tau-a resulta de dividir los pares concordantes (Pc) menos los pares
discordantes (Pd) entre el nmero total de pares, Si no hay pares coincidentes, este coeficiente
est comprendido en el rango -1 y +1. Si hubiese pares coincidentes, el rango de valores
posibles es ms limitado; dependiendo del nmero de pares coincidentes.
Un coeficiente que intenta normalizar (Pc - Pd) considerando los pares coincidentes
para cada una de las variables en el par de casos separadamente, pero no los coincidentes en
ambas variables para el par de casos, es Tau-b.
Pc Pd
Pc Pd TX u Pc Pd TY
tb
tb: Tau-b.
Pc: Pares concordantes.
Pd: Pares discordantes.
TX: Pares coincidentes en X pero no en Y.
Frmula 72
tc
2 u k u Pc Pd
N 2 u (k 1)
tc:
Pc:
Pd:
N:
k.
Tau-c.
Pares concordantes.
Pares discordantes.
Nmero de casos.
El nmero menor de filas o columnas.
Frmula 73
Pc Pd
Pc Pd
Frmula 74
172
dX
dY
Pc Pd
Pc Pd TX
Frmula 75
Pc Pd
Pc Pd TY
Frmula 76
Pc Pd
Pc Pd T X Pc Pd TY
2
d: d de Somers. Simtrico.
Pc: Pares concordantes.
Pd: Pares discordantes.
TX: Pares coincidentes en X pero no en Y.
Frmula 77
Somers (1962) propone una extensin asimtrica de gamma que difiere slo en la
inclusin en el denominador del nmero de pares no coincidentes sobre la variable X pero que
coinciden en la variable Y (TY) o incluyendo el nmero de pares no coincidentes sobre la
variable Y pero que coinciden en la variable X (TX). El coeficiente dY indica la proporcin en
exceso de pares concordantes sobre los pares discordantes a travs de los pares no
coincidentes en la variable independiente. El coeficiente dX indica la proporcin en exceso de
pares concordantes sobre los pares discordantes a travs de los pares no coincidentes en la
variable dependiente. En la variante simtrica de la d de Somers, en el denominador se usa el
valor medio de los denominadores de los dos coeficientes asimtricos. Ver Manuel Garca
Ferrando (1982: 246). El clculo de los estadsticos de la Tabla 98 se muestra a continuacin
en la Tabla 101
64
Los criterios predictivos, en el sentido causa-efecto, se recomienda que cada lector siga la tradiccin del marco terico
en el que est inmerso. En nuestro caso consideramos que la prediccin sera a posteriori, esto es, decir lo que ha pasado
cuando ya ha pasado no consideramos la prediccin a priori, predecir lo que va a pasar. Este ltimo caso se aceptara
cuando incluyese un cierto nivel de probabilidad y considerando que podra no pasar.
173
Pc
n u n
ij
nij u
n13 u n22 n21 n12 u n21 65 u 195 174 104 u 174 42.081
kl
TY
k i 1 l c 1
i 1 j c
TX
n11 u n22 n23 n12 u n23 336 u 195 302 104 u 302 198.400
kl
k i 1 l j 1
i 1 j 1
Pd
ni. u
i 1
k i 1
n. j u
j 1
k.
n11 u n12 n13 n12 u n13 n21 u n22 n23 n22 u n23
n.l
l j 1
TXY
nij u nij 1
2
i 1 j 1
nij u nij 1
i 1 j 1
n21 u n21 1 n22 u n22 1 n23 u n23 1 336 u 336 1 104 u 104 1 65 u 65 1
2
2
2
2
2
2
174 u 174 1 195 u 195 1 302 u 302 1
2
2
2
56.280 5.356 2.080 15.051 18.915 45.451 143.133
N u ( N 1) 1.176 u (1.176 1)
T
690.900
2
2
T Pc Pd TX TY TXY 198.400 42.081 98.374 208.912 143.133 690.900
Pc Pd
T
ta
198.400 42.081
690.900
156.319
690.900
Pc Pd
Pc Pd TX u Pc Pd TY
tb
156.319
338.855 u 449.393
tc
2 u k u Pc Pd
156.319
390.230
0,23
198.400 42.081
2 u 2 u 198.400 42.081
N u (k 1)
1.176 u (2 1)
Pc Pd 198.400 42.081 156.319
0,65
Pc Pd 198.400 42.081 240.481
625.276
1.382.976
0,45
dX
Pc Pd
Pc Pd TX
198.400 42.081
198.400 42.081 98.374
156.319
338.855
0,46
dY
Pc Pd
Pc Pd TY
198.400 42.081
198.400 42.081 208.912
156.319
449.393
0,35
Pc Pd
Pc Pd TX Pc Pd TY
198.400 42.081
198.400 42.08198.374 198.400 42.081 208.912
156.319
788.248
2
156.319
394.124
0,40
174
0,40
0,35
0,30
Se acepta Ho si:
| zres e || zres c |{ Nc e Ncc { Ns e ! Ns c
Y = F(z)
1
2
3
4
0,25
0,20
0,15
Se rechaza H0 si:
| zres e |t| zres c |{ Nce t Ncc { Ns e d Ns c
Nc = 0,95
Zona de aceptacin de H0
0,10
0,05
0,00
-5
-4,5
-4
-3,5
-3
-2,5
-2
-1,5
-1
-0,5
0,5
1,5
2,5
3,5
4,5
fo12 fe12
104 128,4
fe12
128,4
fo13 fe13
65 157,6
fe13
157,6
zres 22
zres 23
fo22 fe22
195 170,6
fe22
170,6
fo23 fe23
302 209,4
fe23
209,4
1,87
6,40
Para todos los residuos tipificados que su valor est comprendido en el intervalo de
1,96 y 1,96, se acepta la H0, y los zres t 1,96 o zres d -1,96 o |zres| t |1,96| produce el
rechazo de la H0 y consecuentemente la aceptacin de la H1. Entonces las diferencias
significativas entre las fo y las fe se da en todas las celdas, excepto en el cruce hace las cosas
con tranquilidad y ni le sobra ni falta tiempo.
En las celdas que la diferencia entre las fo y las fe no es significativa, quiere decir que
lo observado es lo esperado y por lo tanto son sucesos independientes mutuamente no
excluyentes. En las celdas en las que la diferencia entre las fo y las fe es significativa,
significa que lo observado es significativamente distinto a lo esperado, en este caso al nivel de
significacin de 0,05, y por lo tanto lo observado no es lo esperado. Cuando la diferencia es
negativa, lo observado es menor que lo esperado y cuando es positiva, lo observado es mayor
que lo esperado.
En las celdas hace las cosas con prisa, sensacin de falta de tiempo y hace las cosas
con tranquilidad, sensacin de que le sobra el tiempo, la fo es significativamente mayor que
la fe. Entonces tiende a haber ms individuos cuando la sensacin es de que les falta el tiempo
y hacen las cosas con prisa y cuando la sensacin es de que les sobra el tiempo y hacen las
cosas con tranquilidad.
Se produce el efecto contrario, esto es la fo es significativamente menor que la fe,
cuando las cosas se hacen con tranquilidad, sensacin de falta el tiempo y se hacen con
prisa, sobra el tiempo. Entonces tiende a haber menos individuos cuando hacen las cosas
tranquilamente y la sensacin es de que les falta el tiempo, y hacen las cosas con prisa y la
sensacin es de que les sobra el tiempo.
La interpretacin puede ser que cuando los individuos hacen las cosas con prisa,
tiende a haber ms individuos que tienen sensacin de que les falta el tiempo y menos que
175
sienten que les sobre e inversamente, cuando las cosas se hacen con tranquilidad hay ms
individuos que sienten que les sobra el tiempo y menos que sienten que les falte el tiempo. En
este sentido, los estadsticos de direccin indican que hay concentracin de casos hacia la
diagonal positiva (ta = 0,23; tb = 0,40; tc = 0,45; J = 0,65).
Se recomienda a los lectores que como ejercicio trabajen con una tabla de
contingencia que la variable independiente y la dependiente sea la misma, porque en este caso
puede resultar clarificador el significado de los estadsticos para facilitar su lectura e
interpretacin (Tabla 103). La pregunta seleccionada es de un estudio de CIRES (Centro de
Investigaciones de la Realidad Social) (Ver nota 63). Se ha ponderado la muestra segn el
criterio de CIRES.
Tabla 103
Pregunta P.15:
En general, tiene la sensacin de que le falta tiempo En general, tiene la sensacin de que le falta
o de que tiene tiempo de sobra?
tiempo o de que tiene tiempo de sobra?
Categoras originales
Recodificacin
para Categoras originales
Recodificacin
para
mantener ordinalidad.
mantener ordinalidad.
1. Falta.
1. Falta.
1. Falta.
1. Falta.
2. Sobra.
2. No falta ni sobra.
2. Sobra.
2. No falta ni sobra.
3. No falta ni sobra.
3. Sobra.
3. No falta ni sobra.
3. Sobra.
9. Ns/Nc
9. Ns/Nc
9. Ns/Nc
9. Ns/Nc
Esta pregunta genera la variable B1.
Esta pregunta genera la variable B1.
Sensacin o sentimiento de falta o sobra del tiempo y sensacin o sentimiento de falta o sobra del tiempo.
Falta o sobra tiempo
No falta
Falta
Sobra
Total fila
ni sobra
518
0
0
518
Falta o sobra tiempo Falta
fo
223,8
133,1
161,1
518,0
fe
100,0
0,0
0,0
43,2
%TC
43,2
0,0
0,0
43,2
%TT
294,2
-133,1
-161,1
Residuo
19,67
-11,54
-12,69
ZResiduo
0
308
0
308
No falta ni
fo
133,1
79,1
95,8
308,0
sobra
fe
0,0
100,0
0,0
25,7
%TC
0,0
25,7
0,0
25,7
%TT
-133,1
228,9
-95,8
Residuo
-11,54
25,73
-9,79
Zresiduo
0
0
373
373
Sobra
fo
161,1
95,8
116,0
373,0
fe
0,0
0,0
100,0
31,1
%TC
0,0
0,0
31,1
31,1
%TT
-161,1
-95,8
257,0
Residuo
-12,69
-9,79
23,85
Zresiduo
518
308
373
1.199
Total columna
fo
518,0
308,0
373,0
1.199,0
fe
100,0
100,0
100,0
100,0
%TF
43,2
25,7
31,1
100,0
%TC
176
2
e
i 1 j 1
fo
ij
feij
feij
F 2C 3
i 1 j 1
fo
ij
feij
feij
2.398
2
mximo
F2
mximo
F c2
Restricciones de chi-cuadrado
1. En las tablas de contingencia puede ocurrir que haya frecuencias esperadas menores
de 5. Hay dos lneas a seguir en esta circunstancia. Que no se aplique F 2 , o que se
aplique si son pocas las celdas con frecuencias esperadas menores de 5. Entonces hay
que decidir cuando son pocas. Esta caracterstica suele ocurrir cuando la tabla tiene
muchas filas y/o muchas columnas. Una posible solucin es reducir las filas y/o las
columnas por recodificacin.
177
F e2
i 1 j 1
fo
ij
feij 0,5
feij
Frmula 78
3. Si adems tiene menos de 20 casos, se aplica el test exacto de Fisher. En los dos casos,
la correccin de Yates o el exacto de Fisher, el contraste de hiptesis se realiza con los
mismos criterios vistos para F 2 .
4. El aumento de las frecuencias observadas de las celdas puede hacer que una tabla que
no tena asociacin, se vuelva significativa. Se dice que F 2 es sensible al nmero de
casos.
5. Para poder aplicar chi-cuadrado, la muestra tiene que estar obtenida aleatoriamente
desde una distribucin multinomial.
178
13
Tabla de medias
Submuestras
Submuestra x1
Y 1 , S12 , S1 , n1
Y t , S t2 , St , nt
Submuestra x2
Y 2 , S 22 , S 2 , n2
Y
y1
Y2
Y3
Y4
Y5
Y6
Y7
Y8
Y9
y10
y11
y12
y13
y14
y15
y16
y17
y18
y19
y20
X
x1
x1
x1
x1
x1
x1
x1
x1
x1
x1
x2
x2
x2
x2
x2
x2
x2
x2
x2
x2
Sea una variable numrica Y y dos variables categricas X y Z con dos categoras cada
una x1 y x2, y z1 y z2 el cruce de la variable numrica por la dos variables categricas produce
el esquema de la Tabla 105.
179
Submuestras
Submuestra x1 z1
Y 1 , S12 , S1 , n1
Submuestra x1 z2
Y 2 , S 22 , S 2 , n2
Y t , S t2 , S t , nt
Submuestra x2 z1
Y 3 , S 32 , S 3 , n3
Submuestra x2 z2
Y 4 , S 42 , S 4 , n4
Y
y1
y2
y3
y4
y5
y6
y7
y8
y9
y10
y11
y12
y13
y14
y15
y16
y17
y18
y19
y20
X
x1
x1
x1
x1
x1
x1
x1
x1
x1
x1
x2
x2
x2
x2
x2
x2
x2
x2
x2
x2
Z
z1
z1
z1
z1
z1
z2
z2
z2
z2
z2
z1
z1
z1
z1
z1
z2
z2
z2
z2
z2
180
14
Este captulo de muestreo no es exhaustivo, ni pretende ser completo. La pretensin es introducir el muestreo a nivel
conceptual, trata de mostrar a los lectores la idea y poder disear muestras sencillas. Posteriormente, el lector tiene que
acceder a los libros especficos de la materia (Cochram, 1974; Mirs, 1985; Snchez-Crespo, 1986; Fernndez Garca, 1995).
66
sampling A Dictionary of Sociology. John Scott and Gordon Marshall. Oxford University Press 2005. Oxford
Reference Online. Oxford University Press. Universidad Complutense de Madrid. 17 September 2008
http://www.oxfordreference.com/views/ENTRY.html?subview=Main&entry=t88.e1995. Traduccin propia.
67
"sample noun" The Oxford Dictionary of English (revised edition). Ed. Catherine Soanes and Angus Stevenson. Oxford
University Press, 2005. Oxford Reference Online. Oxford University Press. Universidad Complutense de Madrid. 17
September 2008 http://www.oxfordreference.com/views/ENTRY.html?subview=Main&entry=t140.e68058. Traduccin
propia.
181
representativa de una poblacin tenemos que aplicar la Teora y las Tcnicas de muestreo.
Para conseguir que una muestra sea representativa de una poblacin hay que aplicar
Tcnicas de Muestreo y Tcnicas de Clculo de Tamao de Muestra. Con las Tcnicas de
Clculo de Tamao de Muestra sabemos a cuntas personas hay que seleccionar y con las
Tcnicas de Muestreo, a cules y cmo seleccionarlas o buscarlas.
La Teora y Tcnicas de muestreo se aplican porque no se dispone de los recursos
econmicos y materiales suficientes para trabajar con toda la poblacin o censo.68 Tambin se
producen menos errores porque el trabajo se controla mejor y se emplea a personal ms
especializado cuando se trabaja con un nmero pequeo de observaciones (muestra) que
cuando se trabaja con un nmero grande (poblacin). En realidad la muestra puede producir
datos ms exactos que trabajar con la poblacin o el censo (Cochram, 1974: 19-31).
Las Tcnicas de Muestreo pueden ser probabilsticas y no probabilsticas. En las
primeras la probabilidad de seleccin de una de las mltiples muestras que pueden ser
extradas de la poblacin puede ser distinta y entonces debe ser conocida esta probabilidad o
consideramos que es igual para todas las muestras. Por comodidad para los procesos de
clculo se asume que es igual para todas las muestras. De la misma manera, la probabilidad de
seleccin de los individuos que componen cada muestra puede ser distinta y entonces debe ser
conocida esta probabilidad o consideramos que esta probabilidad es igual para todos los
individuos. Por comodidad para los procesos de clculo se asume que es igual para todos los
individuos. En las no probabilsticas esta probabilidad es desconocida. Esta caracterstica hace
que con las primeras Tcnicas de Muestreo obtengamos muestras representativas,
numricamente hablando, y las segundas no producen muestras representativas o su
representatividad es estructural, y la informacin que facilitan asumimos que puede ser
generalizable.69 Las primeras tcnicas de muestreo se usan en las Tcnicas de Investigacin
del Paradigma Tcnico Cuantitativo y las segundas en las Tcnicas de Investigacin del
Paradigma Tcnico Cualitativo. La Tabla 106 muestra las Tcnicas de Muestreo, y la Tabla
107 algunas definiciones previas.
Tcnicas
de Muestreo
No probabilsticas
Muestreo Intencional
Muestreo Accidental
Muestreo de Bola de Nieve
Muestreo por Cuotas
68
Se consideran distintos censo y poblacin. La poblacin puede ser un conjunto de indiviuos del censo que cumplen
ciertos requisitos y sobre los cuales se quiere obtener una muestra. El censo es el conjunto total de los individuos de una zona
geogrfica delimitada administrativamente: municipio, provincia, Comunidad, Nacin, etc. La poblacin siempre ser menor
o igual al censo.
69
Por ejemplo, si se pregunta a un grupo de personas cuntos vasos de agua han bebido la ltimo semana, van a dar una
informacin numrica, el nmero de vasos que han bebido y nos permite calcular la media de vasos de agua bebidos la ltima
semana. La cuestin es Este estadstico es representativo de alguna poblacin? Si la muestra es representativa, entonces la
media se puede inferir a esa poblacin. Pero tenemos otra informacin, y es que salvo muy raras excepciones, es que todos
habrn bebido agua. Por lo tanto podemos generalizar que todos los humanos beben agua. Aunque para hacer esta
generalizacin necesitamos otra informacin de tipo fisiolgica, y es que toda forma de vida conocida, necesita agua para
sobrevivir y por lo tanto se puede aplicar tambin a los humanos.
182
Tabla 107
Censo
Elemento, objeto o
unidad de observacin
Error exacto
Error de muestreo o
muestral
Error no muestral
Estadstico
Estimador
Inferencia estadstica
Intervalo de confianza
Ley de los Grandes
Nmeros
Marco muestral
Tcnica de muestreo
Muestra
Muestreo
Nivel de confianza
Parmetro
Poblacin
Sesgo
Teorema del Lmite
Central
Unidad muestral
Glosario de trminos.
183
71
Si se asumen las Teoras e Hiptesis de la Evolucin, se puede considerar que los instintos (asociados al Mesencfalo o
cerebro medio) se originan en el Perodo Carbonfero (hace 360 a 290 Millones de aos). Las emociones (asociadas al
Sistema Lmbico o Diencfalo) en el Trisico (hace 250 a 199 Ma. aos). Lo social de manada se puede atribuir a la
corticalizacin de los neomamferos, hace 65 a 55 Ma. (poca Paleoceno). Y la Cultura, si se asocia con el rea de
neocorticalizacin fuerte, su origen tiene una antigedad de 3,5 y 2 Ma. (Perodo Terciario), por lo que el comportamiento
asociado a esta parte del cerebro tiene un perodo de maduracin menor y al estar menos consolidado, su estudio y prediccin
debe resultar ms complejo (Confrontar De la Puente 2007 a). No obstante, aunque este esquema se muestra simple y
sencillo, la Evolucin del cerebro es compleja y llena de lagunas (Para ampliar ver Aboitiz et al., 2007).
184
14.1
Conceptos previos
S2
V2
V
S
p
P
Es la misma
ce
fm
N
n
n
fm
N
Frmula 79
n
u 100
N
Frmula 80
hechos _ favorables
hechos _ posibles
P( S1 )
185
n
N
PS
PS
hechos _ favorables
Hechos _ posibles
1
CN , n
1
N
n
1 muestra
total de muestras
n!u N n !
N!
1
N!
n!u N n !
1
CN , n
1
N
n
1
N!
n!u N n !
n!u N n !
N!
Frmula 81
72
La distribucin de las medias muestrales es normal aunque la distribucin de la poblacin sea uniforme (Norusis, 1986:
B-119).
73
Una distribucin normal (N) con media igual a la media de la poblacin (P) y desviacin tpica igual a la desviacin
tpica de la variable de las medias muestrales ( S ).
X
186
XX
n1 -
x1
x2
x3
xm
x1
n2 - x 2
Poblacin
n3 -
x3
XX
nm -
xm
S2X
SX
P
V2
mX
V2
mX
S X2
nX
XX
Frmula 82
S X2
V2
mX
Frmula 83
Y por lo tanto
SX
V2
mX
Frmula 84
SX
187
S X2
nX
Frmula 85
SX
S X2
u 1 fm
nX
cpf
N n
N
N n
N N
1 fm
Frmula 86
ERROR EXACTO
El error exacto (ee) es la diferencia entre el parmetro de la poblacin y el estadstico
de la muestra, simblicamente en el caso de la media y de la proporcin,
ee X
PX
Frmula 87
eeP
P p
Frmula 88
Podemos conocer el error por diferencia entre el parmetro y el estadstico, pero como
normalmente no se conoce el parmetro, no se puede conocer el error exacto cometido.
Entonces la estimacin del parmetro desconocido se puede hacer por estimacin
puntual o estimacin por intervalo. La estimacin puntual es asignar al parmetro de la
poblacin el valor del estadstico de la muestra, simblicamente,
188
Frmula 89
Frmula 90
ERROR MUESTRAL
Segn se ha visto en el teorema del lmite central, excepto por azar, los valores de los
estadsticos no coinciden con los valores de los parmetros, por lo que hacer asignaciones
directas lleva tener errores y adems no conocer la magnitud del error.
Entonces, la estimacin de parmetros se hace mediante la estimacin de intervalos a
partir del estadstico de la muestra. La estimacin del intervalo se hace a partir del error
muestral. El error muestral es el error tpico multiplicado por Z, estando esta definida por el
Nc que define el intervalo de confianza. El error tpico, que es la desviacin tpica de las
medias muestrales, segn el Teorema del Lmite Central, y segn la Frmula 85, para las
medias es,
S X2
nX
Sx
Frmula 91
puq
nX
Sp
Frmula 92
S X2
zu
nX
ex
Frmula 93
Frmula 94
Y para proporciones,
em p
zu
puq
nX
La estimacin por intervalo tampoco permite saber el valor exacto del parmetro
desconocido pero define un intervalo de confianza dentro del cual se encuentra y a un cierto
nivel de confianza (Nc) o lo que es lo mismo cual es la probabilidad de que el parmetro se
encuentre dentro de ese intervalo o que de 100 muestras cuntas contendran en su intervalo
de confianza el parmetro desconocido.
189
La estimacin por intervalo, supone conocer los lmites dentro de los cuales se
encuentra el parmetro desconocido de la poblacin, pero siempre existir la probabilidad de
que el intervalo no contenga este parmetro. Las probabilidades supone asumir este nivel de
incertidumbre.
Para la estimacin por intervalo se aplican los conceptos de intervalo de confianza,
teorema de Tchebycheff y probabilidades (ver epgrafe 11.2). Conocida la media, el nmero
de casos y la desviacin tpica de una variable y asumiendo que su distribucin es normal,
marcadamente normal o supuestamente normal, se puede calcular la probabilidad y el
intervalo dentro del cual estar un caso. La probabilidad se llama nivel de confianza (Nc) y el
intervalo, intervalo de confianza, simblicamente,
PX nu S X X nu S
Nc
Frmula 95
Y se puede leer como: la probabilidad (es una superficie) definida por el intervalo (es
un segmento) comprendido entre la media menos n veces la desviacin tpica que es menor
que la media y menor que la media ms n veces la desviacin tpica y esta probabilidad se
llama nivel de confianza (Nc).
Y en el caso de la distribucin de las medias muestrales, tenemos que,
P X nu S P X nu S
X
X
Nc
Frmula 96
X n u S X
PX 1,96uS P X 1,96uS
X
X
0,9500
Nc
PX 2,00uS P X 2, 00uS
X
X
0,9544
74
En la tabla de probabilidad de Z obtenida por el autor, as como otras tablas, el valor del Nc para Z = 2, es 95,44%,
aunque habitualmente en algunos manuales y estudios aparece 99,45% y se redondea a 95,5%.
190
0,9974
PX 3,00uS P X 3, 00uS
X
X
Aplicndolo al estudio de CIRES de enero de 1996, Usos del tiempo, para estimar la
media de edad de la poblacin espaola de ambos sexos y de 18 aos o ms en enero de 1996,
se calcula la media y la desviacin tpica de la variable edad y se procede,
Tabla 111 Estadsticos de la variable edad.
Encuesta CIRES: Usos del tiempo. Enero de 1996.
mbito nacional. Poblacin espaola de ambos sexos
de 18 aos o ms
XX
SX
44,95 aos
S X2
335,97
nX
1.200
18,33 aos
S X2
aos
nX
SX
S X (cpf)75
S X2
u 1 fm aos
nX
SX
335,97
1.200
0,53 aos
P43,91 P 45,99
0,9500
P43,89P 46,01
0,9544
43,89
Limite
inferior
0,9544
superior
P43,36P 46,54
0,9974
0,9974
43,36
75
Limite
inferior
El cpf (corrector por poblaciones finitas) se aplica cuando la poblacin se considera finita (N < 100.000).
191
En la Tabla 112 el caso A significa que con la probabilidad de 0,95 (Nc = 0,95 95,0
%), la media de edad de la poblacin espaola en enero de 1996 de 18 aos o ms, est
comprendida en el intervalo (de confianza) de 43,91 aos y 45,99 aos, o lo que es lo mismo,
que si se extraen 100 muestras de esa poblacin, 95 tendran en su intervalo el parmetro
desconocido de la poblacin. Como se coment anteriormente, al existir la probabilidad de
0,05 o 5,0 % de que la muestra no contenga el parmetro desconocido de la poblacin, puede
ser que la muestra extrada sea una de esas cinco. Este comentario es obligado decirlo, pero en
la investigacin se asume que la muestra lo contiene.
En el caso B, con la probabilidad de 0,9544 (Nc = 0,9544 95,44%) la media de edad
de la poblacin espaola est comprendida en el intervalo (de confianza) de 43,89 aos y
46,01 aos, o lo que es lo mismo, que si se extraen 100 muestras de esa poblacin, 95,44
tendran en su intervalo el parmetro desconocido de la poblacin.
Y en el caso C, para un Nc = 0,9974 el intervalo de confianza es entre 43,36 aos y
46,54 aos.
14.3
P p 1,96u S p P p 1,96u S p
P p 2,00u S p P p 2,00u S p
P p 3,00u S p P p 3,00u S p
0,9500
0,9974
192
Aplicndolo al estudio de CIRES de enero de 1996, Usos del tiempo, para estimar la
proporcin o porcentaje de varones de la poblacin espaola de ambos sexos y de 18 aos o
ms en enero de 1996, se calcula la proporcin de varones de la variable sexo y se procede,
Tabla 114 Estadsticos de la variable sexo.
Encuesta CIRES: Usos del tiempo. Enero de 1996.
mbito nacional. Poblacin espaola de ambos sexos
de 18 aos o ms
p
48,2% (varones)
nX
1.200
p u 1 p
nX
Sp
p u 1 p
u 1 fm
nX
S p (cpf)76
aos
Sp
1,44
aos
P45,38 P 51,02
P45,32 P 51,08
P43,88 P 52,52
0,9974
0,9544
0,9974
0,9544
0,9500
0,9500
Nc
En la Tabla 112 el caso A significa que con la probabilidad de 0,95 (Nc = 0,95 95,0
%), el porcentaje de varones en la poblacin espaola est comprendido en el intervalo (de
confianza) de 45,4% y 51,0%, o lo que es lo mismo, que si se extraen 100 muestras de esa
poblacin, 95 tendran en su intervalo el parmetro desconocido de la poblacin. Como se
coment anteriormente, al existir la probabilidad de 0,05 o 5,0 % de que la muestra no
contenga el parmetro desconocido de la poblacin, puede ser que la muestra extrada sea una
de esas cinco. Este comentario es obligado decirlo, pero en la investigacin se asume que la
muestra lo contiene.
En el caso B, con la probabilidad de 0,9544 (Nc = 0,9544 95,44% 95,5 %), el
porcentaje de varones en la poblacin espaola est comprendida en el intervalo (de
confianza) de 45,3% y 51,1%, o lo que es lo mismo, que si se extraen 100 muestras de esa
poblacin, 95,44 tendran en su intervalo el parmetro desconocido de la poblacin.
Y en el caso C, para un Nc = 0,9974 el intervalo de confianza es entre 43,9% y 52,5%.
76
El cpf (corrector por poblaciones finitas) se aplica cuando la poblacin se considera finita (N < 100.000).
14.4
193
Las tcnicas de muestreo probabilsticas (Tabla 106) son: muestreo aleatorio simple;
muestreo aleatorio sistemtico; muestreo aleatorio estratificado, y muestreo por
conglomerados.
77
Para ver ejemplos de este tipo de muestreo confrontar: A. Davis (1941); St. C. Drake (1945); L. W. Warner (1949).
Citados en G. Gobo (2004: 449). Un ejemplos ms reciente es J. W. Harris (2001).
78
Ejemplos de este tipo de muestreo son: R. S. Lynd and H. M. Lynd (1937); A. G. Gouldner (1954); M. Dalton (1959);
R. M. Kanter (1977). Citados en G. Gobo (2004: 449).
79
W. F. Whyte (1943); W. D. TenHouten (1971). Pueden ser ejemplos. Citados en G. Gobo (2004: 449).
194
195
Muestra
Poblacin
21
22
23
24
25
26
27
28
29
30
10+1=11
31
32
33
34
35
36
37
38
39
40
Muestra
23+1=24
26+1=27
28+1=29
30+1=31
32+1=33
Poblacin
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
Muestra
41+1=42
43+1=44
51+1=52
53+1=54
56+1=57
Poblacin
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
Muestra Poblacin
60+1=61
81
82
62+1=63
83
84
85
86
66+1=67
87
67+1=68
88
89
90
91
71+1=72
92
93
94
95
96
97
98
99
100
Muestra
80+1=81
81+1=82
92+1=93
97+1=98
196
100
20
Se calcula el ce. ce
Se extrae un nmero entre 1 y 5 aleatoriamente utilizando la Tabla de Nmeros Aleatorios del Anexo 5.
Sumamos sucesivamente 5 a cada nmero obtenido. Los nmeros seleccionados son los marcados en la
columna de Muestra.
Este ejemplo se hace por criterio didctico y pedaggico. El mejor procedimiento es un programa estadstico.
Poblacin
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Muestra
Poblacin
21
22
23
4+5=9
24
25
26
27
28
9+5=14
29
30
31
32
33
14+5=19
34
35
36
37
38
19+5=24
39
40
Muestra
24+5=29
29+5=34
34+5=39
39+5=44
Poblacin
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
Muestra
44+5=49
49+5=54
54+5=59
59+5=64
Poblacin
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
Muestra
64+5=69
69+5=74
74+5=79
79+5=84
Poblacin
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
Muestra
84+5=89
89+5=94
94+5=99
99
197
Supuesta una poblacin de 10.000 individuos de la que interesa que en la muestra estn representados todos segn el criterio
de estatus socio-econmico. Se asume que en la poblacin existen los estratos. Muy alto, Alto, Medio, Bajo y Muy bajo. Se
asume una muestra de n = 1.000. Se procede a la afijacin o asignacin de los individuos de la muestra a los estratos de la
poblacin de forma no proporcional, proporcional y mixta. El ejemplo que se muestra pretende facilitar la introduccin de los
conceptos de afijacin y ponderacin.
Afijacin Mixta
Ponderacin
Total
Estratos de la
Afijacin no
Afijacin
Asignacin
Afijacin
Total Total 2 Alfa
N
fm
fm
Ponderado
Poblacin
Proporcional
Proporcional Directa
Proporcional
(1)
(2)
(3)
(4)
(5)
(6)
(7)
(8)
(9)
(10)
Muy alto (n1)
10
200
0,10
1
5
0,0975
0,98
5,98
6 0,167
1
Alto (n2)
1.000
200
0,10
100
5
0,0975
97,50 102,50
102 0,980
100
Medio (n3)
6.000
200
0,10
600
5
0,0975
585,00 590,00
590 1,017
600
Bajo (n4)
2.000
200
0,10
200
5
0,0975
195,00 200,00
200 1,000
200
Muy bajo (n5)
990
200
0,10
99
5
0,0975
96,53 101,53
102 0,971
99
Poblacin (N) 10.000
Muestra (n)
1.000
1.000
1.000
25
975,00 1.000,00
1.000
1.000
975
Tabla 119
Consiste en dividir los individuos de la muestra entre el nmero de estratos definidos en la poblacin,
n
5
ni
1.000
5
200 , en cada estrato definido por la poblacin, la muestra tendr 200 individuos.
El inconveniente de este procedimiento es que se da el mismo peso a todos los estratos de la poblacin y puede ocurrir que
haya ms individuos en alguno de los estratos de la muestra que en el de la poblacin. Como es el caso del estrato Muy alto.
Tabla 120
Se reparte proporcionalmente los individuos de la muestra al tamao de los estratos de la poblacin mediante una regla de tres
simple, que despus resulta ser la multiplicacin de la fraccin de muestreo por el tamao de cada estrato de la poblacin.
N on
N i o xi
n
N
xi
Ni u
xi
N i u fm
10.000 o 1.000
___ 10 o x1
x1
x1
10 u
1.000
10.000
10 u 0,10
x1
10.000 o 1.000
_ 1.000 o x2
x2
x2
1.000 u
1.000
10.000
1.000 u 0,10
x2
100
10.000 o 1.000
_ 6.000 o x3
x3
x3
6.000 u
1.000
10.000
6.000 u 0,10
x3
600
10.000 o 1.000
_ 2.000 o x4
x4
x4
2.000 u
1.000
10.000
2.000 u 0,10
x4
200
10.000 o 1.000
__ 990 o x5
x5
x51
990 u
1.000
10.000
990 u 0,10
x5
99
El inconveniente de este sistema es que en los estratos de la poblacin con pocos individuos, puede ocurrir que en la muestra
slo les corresponda uno o pocos. Si son personas y la seleccionada es varn, Quiere decir que todos los de ese estrato son
varones? Si fuese mujer Querra decir que todos son mujeres? Si fuesen empresas y la seleccionada fuese de alta tecnologa
Quiere decir que todas las empresas de ese estrato son de alta tecnologa?
198
Tabla 121
Cuando en uno de los estratos de la poblacin, a la muestra le corresponden pocos individuos, se puede proceder por un
sistema de afijacin mixto que consistira en hacer una asignacin directa de parte de la muestra y el resto por afijacin
proporcional.
En este caso la asignacin directa puede ser de 5 individuos. Columna (4).
Del total de 1.000 individuos de la muestra quedan 975 (1.000 25) por distribuir, con los que se procede por afijacin
proporcional.
La columna (7) es el total de los casos o unidades de observacin que hay en cada estrato de la muestra, que es la suma de las
columnas (4) y (6). Cuando el resultado de las operaciones no son nmeros enteros, hay que proceder al redondeo de tal
manera que la suma total coincida con la n de la muestra. Columna (8).
N on
N i o xi
xi
xi
n
N
N i u fm
Ni u
10.000 o 975
___ 10 o x1
975
10.000
10 u 0,0975
10 u
x1
x1
x1
10.000 o 975
_ 6.000 o x3
10.000 o 975
_ 1.000 o x 2
975
10.000
1.000 u 0,0975
1.000 u
x1
x2
x2
0,98
975
10.000
6.000 u 0,0975
6.000 u
x1
x3
x3
97,50
10.000 o 975
__ 990 o x5
10.000 o 975
_ 2.000 o x 4
975
10.000
2.000 u 0,0975
2.000 u
x1
x4
x4
585
975
10.000
990 u 0,0975
990 u
x1
x51
x5
195
96,53
El inconveniente de este sistema es que algunos estratos van a estar sobredimensionados, como es el estrato de estatus socioeconmico Muy alto, que le corresponda un caso y se van a seleccionar a 6. Otros estratos pueden quedar infradimensionados,
como puede ser Medio que de 600, ha pasado a 590.
El siguiente paso es equilibrar el nmero de individuos que tiene que haber en cada estrato de la muestra. Este paso se
denomina ponderacin.
Tabla 122
Ponderar es asignar a cada estrato de la muestra el nmero de unidades que le corresponden segn la afijacin proporcional a
los estratos de la poblacin.
Una vez realizado el trabajo de campo, debido a variaciones de campo, por el procedimiento de afijacin utilizado u otras
e
causas, puede ocurrir que la ni (ni emprica) obtenida difiera de la ni (ni terica) que es la que debera haber sido segn la
e
ponderar, equilibrar, reequilibrar, etc. O lo que es lo mismo, darle a cada individuo de la muestra el peso que le corresponde o
que representa de la poblacin.
Di
nit
n1e u D1
nit
D1
nie
D1
1
6
n1t
nie
n2e u D 2
n1t
D2
n1e
0,167
nit
D2
100
102
n2t
n3e u D 3
n 2t
D3
n2e
0,980
D3
n3t
n4e u D 4
n3t
D4
n3e
600
1,017
590
D4
200
200
n4t
n5e u D 5
n 4t
D5
n4e
1,000
D5
99
102
n5t
n5t
n5e
0,971
Los coeficientes de ponderacin se muestran en la Columna (9). Para devolver a la muestra el peso que le corresponde en
e
cada estrato, se multiplica la ni (columna 8) por el coeficiente de ponderacin y se obtiene la Columna (10).
Tabla 123
t
En el estrato Muy alto ni
1 y la
199
nie
6 para hacer que los seis individuos valgan por uno, los multiplicamos por 0,167,
Las seis unidades estn multiplicadas por 0,167 o lo que es lo mismo, cada individuo vale por 0,167 de individuo.
Efecto de la aplicacin de la ponderacin.
Asumiendo que de los 10 individuos de la poblacin de estatus socio-econmico Muy alto, 6 son varones y 4 mujeres ocurre
que el 60% son varones y el 40% mujeres.
Si se opera con un solo individuo que define la muestra terica, entonces el 100% son varones o mujeres. Si se opera con
seis individuos de la muestra sin ponderar, el estrato estara sobre representado, pero al aplicar la ponderacin y cada
individuo valer por 0,167, si asumimos que, por cuotas, de los seis individuos de la muestra, cuatro son varones y dos
mujeres, entonces,
1(v) u 0,167
1(v) u 0,167
1(v) u 0,167
1(v) u 0,167
1(m) u 0,167
1(m) u 0,167
0,167 de varn
0,167 de varn
0,167 de varn
0,167 de varn
0,167 de mujer
0,167 de mujer
(0,167+0,167+0,167+0,167=0,668)
66,8% (varones)
(0,167+0,167=0,334)
33,4% (mujeres)
El resultado obtenido despus de la ponderacin se acerca ms a la realidad que el 100% varones o el 100% mujeres.
El coeficiente de ponderacin se aplica a todas las variables en el proceso de tabulacin o anlisis estadstico.
Tabla 124
Asumiendo que conocemos los ingresos de las seis personas y que son los que se muestran entre parntesis, el efecto del
coeficiente de ponderacin es,
1 u (1.000,00) u 0,167
1 u (100,00) u 0,167
1 u (10,00) u 0,167
1 u (1.000,00) u 0,167
1 u (100,00) u 0,167
1 u (10,00) u 0,167
167,00
16,70
1,67
167,00
16,70
1,67
En la Tabla 125, Tabla 126, Tabla 127, Tabla 128, Tabla 129, Tabla 130, Tabla 131 y
Tabla 132 se muestra el clculo del coeficiente de ponderacin del Estudio de CIRES de
enero de 1996 (ver epgrafe 12.5.1).
Tabla 125 Tabla de la poblacin espaola por sexo y edad de 18 aos o ms.
18 a 29
30 a 49
50 a 64
ms de 64
Total
Varn
4.114.621
5.279.137
3.234.765
2.329.031
14.957.554
Mujer
3.985.231
5.279.137
3.467.668
3.364.156
16.096.192
Total
8.099.852
10.558.274
6.702.433
5.693.187
31.053.746
Fuente:
Datos estimados a partir del total de poblacin del CIS para varones y mujeres de 18 aos y ms
(enero de 1991).
fm
Varn
nv,18a 29
18 a 29
4.114.621 u fm
Mujer
nm,18a 29
3.985.231 u fm
Fuente:
n
N
1.200
31.053.746
0,00003864
nm,30 a 49
5.279.137 u fm
nm,50 a 64
3.467.668 u fm
Calculado a partir de la Tabla 125. Produce la Tabla 127. Se eliminan los decimales por redondeo.
ms de 64
nv,ms 64 2.329.031 u fm
nm,ms 64
3.364.156 u fm
200
Varn
Mujer
Total
Fuente:
Tabla 128 Tabla por sexo y edad a enero de 1996 (CIRES) (Emprico).
18 a 29
30 a 49
50 a 64
ms de 64
Total
Varn
161
201
124
88
574
Mujer
152
207
138
129
626
Total
313
408
262
217
1200
Fuente:
D ij
Varn
Mujer
Fuente:
Varn
Mujer
Fuente:
nijt
nije
ms de 64
90
D v,ms 64
88
130
D m,ms 64
129
nijp
nijt
nije u D ij
Varn
Mujer
Fuente:
Varn
Mujer
Fuente:
ms de 64
88 u 1,022727
129 u 1,007752
Tabla 132
18 a 29
159
154
313
Total
578
622
1200
201
Unidad muestral
Heterogeneidad
Homogeneidad
80
Divisin geogrfica espaola formada por un conjunto de habitantes de un mismo trmino jurisdiccional, regido por un
ayuntamiento (Real Academia Espaola, 2008).
202
14.6
mbito:
Tabla 134
Nacional.
Comentario: Define los lmites geogrficos, que normalmente son administrativos o polticos, del territorio que
comprende a la Poblacin objeto de estudio.
Universo:
Comentario: Define las caractersticas que delimitan a las unidades de observacin que van a ser objeto de
estudio.
Tamao de la muestra:
Diseada: 2.500 entrevistas.
Realizada: 2.468 entrevistas.
Comentario: Es el tamao de la muestra. A veces se puede diferenciar entre la muestra diseada, que es la
que se calcula siguiendo los procedimientos que se indican ms adelante y la realizada que se
indica cuando por diferentes motivos no se han podido realizar todas las entrevistas diseadas o
que al volver del trabajo de campo se han invalidado algunas. Se debe tener en consideracin
que cada unidad de la muestra representa a un nmero de individuos de la poblacin igual al ce
(coeficiente de elevacin).
Afijacin: Proporcional.
Comentario: Reparto o distribucin de las unidades de la muestra entre los estratos de la poblacin, en este
caso de forma proporcional.
Ponderacin: No procede.
Comentario: Cuando el tamao de los estratos de la muestra no se corresponde proporcionalmente con el
tamao de los estratos de la poblacin, se procede a ponderar. Cuando se consideran iguales,
no es necesario ponderar.
Puntos de Muestreo: 238 municipios y 48 provincias.
Comentario: Los puntos de muestreo (municipios) se obtienen al distribuir los cuestionarios dentro de los
estratos segn el criterio que se indica ms adelante.
Procedimiento de muestreo:
Polietpico, estratificado por conglomerados, con seleccin de las unidades primarias de muestreo (municipios)
y de las unidades secundarias (secciones) de forma aleatoria proporcional, y de las unidades ltimas
(individuos) por rutas aleatorias y cuotas de sexo y edad. Los estratos se han formado por el cruce de las 17
comunidades autnomas con el tamao de hbitat, dividido en 7 categoras: menor o igual a 2.000 habitantes;
de 2.001 a 10.000; de 10.001 a 50.000; de 50.001 a 100.000; de 100.001 a 400.000; de 400.001 a 1.000.000, y
ms de 1.000.000 de habitantes.
Los cuestionarios se han aplicado mediante entrevista personal en los domicilios.
Error muestral:
Para un nivel de confianza del 95,5% (dos sigmas), y P = Q, el error real es de 2,0% para el conjunto de la
muestra y en el supuesto de muestreo aleatorio simple.
Fecha de realizacin:
Del 7 al 13 de julio de 2008.
203
<=
2.000
320
680
28
18
8
61
2.126
752
645
325
278
80
88
6
220
152
156
5.943
204
Tabla 136
Comunidad
<= 2.000
Andaluca
238.497
Aragn
213.683
Asturias
25.165
Baleares
16.455
Canarias
9.603
Cantabria
51.497
Castilla-Len
641.486
Castilla-La Mancha
290.823
Catalua
324.550
Valenciana
195.444
Extremadura
184.913
Galicia
100.424
Madrid
51.751
Murcia
5.893
Navarra
84.263
Pas Vasco
93.798
La Rioja
41.040
Total
2.569.286
Tabla 137
Comunidad
Andaluca
Aragn
Asturias
Baleares
Canarias
Cantabria
Castilla-Len
Castilla-La Mancha
Catalua
Valenciana
Extremadura
Galicia
Madrid
Murcia
Navarra
Pas Vasco
La Rioja
Total
Conocido el nmero de cuestionarios que hay que realizar en cada estrato, se procede
como se indica en la Tabla 138, para extraer el nmero de puntos de muestreo total, que son
municipios (conglomerados).
Tabla 138 Ejemplo de criterio de seleccin del nmero de municipios.
Tamao de hbitat
Criterio de seleccin de municipios
<= 2.000
1 municipio por cada 4 cuestionarios o fraccin
2.001 a 10.000
1 municipio por cada 9 cuestionarios o fraccin
10.001 a 50.000
1 municipio por cada 14 cuestionarios o fraccin
50.001 a 100.000
1 municipio por cada 19 cuestionarios o fraccin
100.001 a 400.000
1 municipio por cada 24 cuestionarios o fraccin
400.001 a 1.000.000 Reparto proporcional entre los municipios
+ de 1.000.000
Reparto proporcional entre los municipios
205
Tabla 139
Comunidad
Andaluca
Aragn
Asturias
Baleares
Canarias
Cantabria
Castilla-Len
Castilla-La Mancha
Catalua
Valenciana
Extremadura
Galicia
Madrid
Murcia
Navarra
Pas Vasco
La Rioja
Total
<=
2.000
5
4
1
1
1
1
12
6
6
4
4
2
1
1
2
2
1
54
2.001 a
10.000
10
1
1
2
2
1
3
4
7
5
3
6
2
1
2
2
1
53
>1.000.000
Total
32
7
7
6
9
5
21
14
28
21
10
16
12
7
6
10
4
215
A partir del listado de municipios del INE y sabiendo cuantos hay que seleccionar en
cada estrato, se extraen por muestreo aleatorio simple o sistemtico. De los 320 municipios
que hay en Andaluca (Tabla 135) de 2.000 habitantes o menos, hay que extraer 5. De los 680
municipios que hay en Aragn (Tabla 135) de 2.000 habitantes o menos, hay que extraer 4, y
as sucesivamente se procede con todos los estratos hasta conseguir la lista de municipios
final.
Con la lista de municipios se obtienen las provincias y se disean las rutas, para
optimizar tiempos y costes del personal de campo. El profesional en su gabinete de trabajo
establecer otros criterios que faciliten y optimicen el proceso de trabajo de campo en base a
sus conocimientos y experiencia acadmica y profesional.
Las cuotas por edad y sexo se extraen de las frecuencias absolutas de la poblacin
espaola de 18 aos o ms y segn el sexo (Tabla 140) y se calculan los porcentajes respecto
del total de la tabla (Tabla 141).
Tabla 140
Varn
Mujer
Total
18 a 29
3.923.474
3.748.633
7.672.107
30 a 49
6.189.136
6.130.861
12.319.997
50 a 64
3.179.748
3.333.165
6.512.913
+ de 64
2.948.965
4.050.715
6.999.680
Total
16.241.323
17.263.374
33.504.697
Tabla 141
Varn
Mujer
Total
18 a 29
11,7%
11,2%
22,9%
30 a 49
18,5%
18,3%
36,8%
50 a 64
9,5%
9,9%
19,4%
+ de 64
8,8%
12,1%
20,9%
Total
48,5%
51,5%
100,0%
El proceso contina en campo, se tiene que seleccionar los hogares donde se van a
entrevistar a las unidades de observacin. Se pueden establecer diferentes procedimientos. Por
ejemplo, al llegar a un municipio, censar todas las viviendas y seleccionar, por muestreo
aleatorio simple o sistemtico, tantas como entrevistas hay que realizar. Este es un ejemplo,
pero no es til por el tiempo que le llevara al encuestador preparar el censo.
206
Por la ley de los grandes nmeros, a medida que n tiende a N los estadsticos de la
muestra tienden a ser los parmetros de la poblacin, y la diferencia entre el parmetro y el
estadstico, el error exacto, tiende a cero. Pero a partir de un momento determinado, el
incremento de n eleva mucho el coste econmico y material del trabajo de campo y no se
obtienen reducciones de consideracin en el error exacto. Las frmulas para el clculo del
tamao de la muestra permiten obtener tamaos reducidos o ajustados de n controlando el
tamao del error.
Para el clculo del tamao de la muestra se asume que el muestreo es aleatorio simple.
La poblacin puede ser considerada finita o infinita y el parmetro a estimar va a ser una
proporcin o una media. Una poblacin se considera finita si su tamao (N) es inferior a
100.000 unidades de observacin y se considera infinita si es mayor de esta cantidad o es
desconocida.
Tabla 142 Clculo del tamao de muestras asumiendo muestreo aleatorio simple.
Definicin de elementos:
Para estimacin de %
Poblacin Finita.
Poblacin Infinita.
Z 2 u puqu N
e u ( N 1) Z u p u q
Error muestral
e
puq
Zu
u 1 fm
n
Z2 u puq
e
Error muestral
e
Zu
puq
n
Para estimacin de X
Poblacin finita.
Poblacin Infinita.
2
2
Z uV u N
Z2 uV 2
n
n
e2
e2 u N Z 2 u V 2
Error muestral
Error muestral
e
Zu
V2
n
u 1 fm
e Zu
V2
n:
Tamao de la muestra.
N:
Tamao de la poblacin.
e:
Z:
p:
q:
puq
n
fm:
Varianza de la poblacin.
Varianza de la distribucin binomial.
82
Fraccin de muestreo.
N n
N N
1 fm
207
econmico esta condicionado por esta n debido a que suele ser el apartado ms oneroso de
una investigacin.
La calidad de la investigacin no est influida por el nmero de observaciones. El
nmero de observaciones afecta al error muestral y por consiguiente al intervalo de confianza
dentro del cual estar el parmetro desconocido de la poblacin. Si la n es pequea, el error es
grande y por lo tanto el intervalo es grande, pero si la n es grande, el error es pequeo y el
intervalo pequeo. En ambos casos la investigacin puede estar bien o mal hecha. La
diferencia es el tamao del intervalo para estimar el parmetro de la poblacin. Por ejemplo,
no es lo mismo decir que la demanda de agua de una poblacin estar en el intervalo de 150
l/habitante a 200 l/habitante que decir un intervalo de 10 l/habitante a 1.000 l/habitante. En el
primer caso el resultado puede ser til para decidir polticas de consumo de agua, en el
segundo es un intervalo tan amplio que el resultado puede ser correcto, pero la informacin no
ser til. El resultado puede estar bien obtenido, pero no ser til.
Pequeas variaciones en los trminos de las frmulas, pueden producir variaciones
importantes en la n. Conocer el significado de cada uno de los trminos puede permitir
alcanzar el tamao ms adecuado conforme al presupuesto y el error deseado. En ltima
instancia, hay que considerar que se pueden introducir variaciones en todos, algunos o uno de
los trminos, pero no se pueden dejar todos constantes. Por ejemplo, no se puede obtener una
muestra grande que tenga un error pequeo con un bajo presupuesto.
Las frmulas se interpretan de forma global pero interpretando los trminos de uno en
uno. Utilizando una metfora, la frmula se debe comprender como cuando se ha ledo un
libro, se sabe la historia, pero hay que contarlo y leerlo secuencialmente. Siguiendo el orden
de la Tabla 142:
x
208
puq
n
q
x
x
x
x
x
x
x
x
x
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
= 0,09
= 0,16
= 0,21
= 0,24
= 0,25
= 0,24
= 0,21
= 0,16
= 0,09
puq
n
2u
0,5 u 0,5
2.500
e
e
50 u 50
2.500
2u1
0,02
puq
n
2u 1
2u 0,01
e
2u
2u 0,0001
e
Zu
Z2 u puq
e2
2 2 u 0,5 u 0,5
0,02 2
1
0,0004
2.500
209
Z2 u puq
e2
2 2 u 50 u 50
22
10.000
4
2.500
14.8
Ejemplo 1:
Tabla 144
Afijacin mixta
Ponderacin
Asignacin
Afijacin
Muestra
Total
fm
directa
proporcional
ponderada
A
500
0,0249
12
50
0,0234
12
62
0,194
12
B
40.000
0,0249
995
50
0,0234
935
985
1,010
995
C
60.000
0,0249
1.493
50
0,0234
1.403
1.453
1,027
1.493
Total
100.500
2.500
150
2.350
2.500
2.500
Asumimos poblacin infinita (n > 100.000). Como no facilitan datos, se toma Nc = 95,44 %; p = q, y e = 2,0%.
Municipio
fm
ni
Poblacin
Z2 u puq ;
n
e2
fm
2 2 u 0,5 u 0,5 ;
n
0,02 2
Afijacin
proporcional
1
0,0004
n
2.500
; fm
0,0249
N
100.500
fm u N i ; n A 0,0249 u 500 12 ; n B
2.500
Si se estima que n = 12 en el municipio A puede ser insuficiente, se puede proceder con la afijacin mixta.
Asignacin directa = 50.
fm
ni
2.350
n
; fm
0,0234
100.500
N
fm u N i ; n A 0,0234 u 500 12 ; n B
Factor de ponderacin
nie u D i
Di
nit
nit
; DA
nie
12
62
0,194 ; D B
995
1,010 ; D C
985
1.493
1,027
1.453
nip
D i u nie ; n Ap
0,2016 u 62 12 ; n Bp
Ejemplo 2:
210
Tabla 145
Municipio
Poblacin
A
B
C
Total
500
40.000
60.000
100.500
417
2.353
2.400
5.170
n
n
Z2 u puqu N
2
e u ( N 1) Z 2 u p u q
Z2 u puqu N
e u ( N 1) Z 2 u p u q
Z2 u puqu N
2
e u ( N 1) Z 2 u p u q
Z2 u puqu N
2
e u ( N 1) Z 2 u p u q
2
Muestra (n)
A
500
B
40.000
C
60.000
Total
100.500
El error de la muestra total sera:
Zu
puq
, e
n
2u
417
2.353
2.400
5.170
0,5 u 0,5
5.170
Afijacin
proporcional
0,0514
26
0,0514
2.058
0,0514
3.086
5.170
fm
0,062
0,875
1,286
Muestra
ponderada
26
2.058
3.086
5.170
0,0139
211
1.000
p
Z
e
0,5
0,4
0,3
0,2
0,1
2,0
0,020
714
706
678
616
474
2,0
0,025
616
606
574
506
366
2,0
0,030
527
516
483
416
286
2,0
0,035
450
440
407
343
227
2,0
0,040
385
375
344
286
184
Si N y Z se mantienen y p (q) y e varan. La muestra disminuye si
disminuye p y disminuye si aumenta e.
N
1.000
p
Z
e
0,5
0,4
0,3
0,2
0,1
2,0
0,020
714
706
678
616
474
2,5
0,025
714
706
678
616
474
3,0
0,030
714
706
678
616
474
3,5
0,035
714
706
678
616
474
4,0
0,040
714
706
678
616
474
Si N se mantiene y p (q), Z y e varan. La muestra disminuye si
disminuye p y se mantiene con incrementos de Z y e.
NOTA:
Si Z y e mantienen la relacin 100/1 (e en proporciones) o 1/1 (e en
porcentajes), el tamao de la muestra no vara si no se varan N y p. La
explicacin es que Z est en el numerador y en uno de los sumandos del
denominador y e est en el otro sumando del denominador.
212
Tabla 148
e
1,00
1,10
1,20
1,30
1,40
1,50
1,60
1,70
1,80
1,90
2,00
2,10
2,20
2,30
2,40
2,50
2,60
2,70
2,80
2,90
3,00
3,10
3,20
3,30
3,40
3,50
3,60
3,70
3,80
3,90
4,00
0,50
10.000
8.264
6.944
5.917
5.102
4.444
3.906
3.460
3.086
2.770
2.500
2.268
2.066
1.890
1.736
1.600
1.479
1.372
1.276
1.189
1.111
1.041
977
918
865
816
772
730
693
657
625
0,45
9.900
8.182
6.875
5.858
5.051
4.400
3.867
3.426
3.056
2.742
2.475
2.245
2.045
1.871
1.719
1.584
1.464
1.358
1.263
1.177
1.100
1.030
967
909
856
808
764
723
686
651
619
Tabla 149
e
1,00
1,10
1,20
1,30
1,40
1,50
1,60
1,70
1,80
1,90
2,00
2,10
2,20
2,30
2,40
2,50
2,60
2,70
2,80
2,90
3,00
3,10
3,20
3,30
3,40
3,50
3,60
3,70
3,80
3,90
4,00
0,50
22.500
18.595
15.625
13.314
11.480
10.000
8.789
7.785
6.944
6.233
5.625
5.102
4.649
4.253
3.906
3.600
3.328
3.086
2.870
2.675
2.500
2.341
2.197
2.066
1.946
1.837
1.736
1.644
1.558
1.479
1.406
0,45
22.275
18.409
15.469
13.180
11.365
9.900
8.701
7.708
6.875
6.170
5.569
5.051
4.602
4.211
3.867
3.564
3.295
3.056
2.841
2.649
2.475
2.318
2.175
2.045
1.927
1.818
1.719
1.627
1.543
1.464
1.392
0,10
3.600
2.975
2.500
2.130
1.837
1.600
1.406
1.246
1.111
997
900
816
744
681
625
576
533
494
459
428
400
375
352
331
311
294
278
263
249
237
225
0,10
8.100
6.694
5.625
4.793
4.133
3.600
3.164
2.803
2.500
2.244
2.025
1.837
1.674
1.531
1.406
1.296
1.198
1.111
1.033
963
900
843
791
744
701
661
625
592
561
533
506
0,05
1.900
1.570
1.319
1.124
969
844
742
657
586
526
475
431
393
359
330
304
281
261
242
226
211
198
186
174
164
155
147
139
132
125
119
0,05
4.275
3.533
2.969
2.530
2.181
1.900
1.670
1.479
1.319
1.184
1.069
969
883
808
742
684
632
586
545
508
475
445
417
393
370
349
330
312
296
281
267
15
213
Estadstica Paramtrica
Una proporcin
Dos
Diferencia de proporciones
proporciones independientes
Dos
proporciones
emparejadas
Una muestra
Diferencia de
Dos muestras
medias
independientes
85
100.
Esquema de datos
Una proporcin
Dos proporciones
Dos proporciones
Zyt
Zyt
Dos muestras
emparejas
Zyt
Una va
FS
Anova
FS
Anlisis de
varianza
84
Operacin
Compara una proporcin muestral
con el parmetro de la poblacin
El acrnimo por el que se conoce Anlisis de Varianza de Una Va es el trmino en ingls ONEWAY.
Cuando se habla de proporciones es equivalente a porcentajes slo que los valores se especificaran multiplicados por
214
zp
Frmula
pP
SP
SP
Frmulas
de apoyo
pP
PuQ
n
PuQ
n
1 P
En donde:
p Es la proporcin en la muestra o grupo.
n Nmero de casos de la muestra o grupo.
P Es la proporcin en la poblacin.
SP Error tpico de la distribucin muestral de p.
Esquema:
La proporcin es de una variable de la muestra o grupo
de una variable de la muestra y se compara con la P de
la poblacin. Requiere que el parmetro P de la
poblacin sea conocido.
Tabla 152 Comparacin de dos proporciones. Muestras independientes (Ver nota 86).
Frmula
p1 p2
SP
zP
SP
Frmulas
de apoyo
P'
p1 p2
P' u Q' P' u Q'
n1
n2
P' u Q' P' u Q'
n1
n2
En donde:
p1
Proporcin grupo 1.
p2
Proporcin grupo 2.
n1
Nmero de casos del grupo 1.
n2
Nmero de cassos del grupo 2.
SP Error tpico de la distribucin muestral de (p1 - p2).
P
Estimador de la proporcin en la poblacin.
Esquema:
Las proporciones comparadas son de dos submuestras
o grupos.
p1 u n1 p 2 u n2
n1 n2
Q'
1 P'
Tabla 153 Comparacin de dos proporciones. Muestras emparejadas (Ver nota 86).
En donde:
Frmula
ze
Frmulas
de apoyo
p _ 1 p1 _
p _ 2 p2 _
b d
b d
n2
n2
zX
Frmula
tX
X P
S X'
X P
S X''
S X'
Frmulas
de apoyo
S X''
86
X P
S X2
nX
X P
S X2
nX 1
S X2
nX
S X2
nX 1
En donde:
nX
S X2 Varianza de la variable.
Esquema:
La media es de una variable numrica de la muestra o
grupo de una variable de la muestra y se compara con
la media de la poblacin ( P ). Requiere que el
parmetro
Cuando se habla de proporciones es equivalente a porcentajes slo que los valores se especificaran multiplicados por
100.
87
William S. Gosset dise la t considerando la cuasi-varianza (a la n del denominador se le resta la unidad) y la Z acta con la varianza
(a la n del denominador no se le resta la unidad). Por cuestiones pedaggicas y por claridad expositiva, se opta por usar la varianza y restar la
unidad a la n en la frmula de la t, para diferenciarla de la Z y justificar el uso de grados de libertad (gl). Por ejemplo, en los manuales de
SPSS no restan una unidad a la n porque SPSS utiliza la cuasi-varianza (Norusis, 1986: B-121, B-124). Se pueden consultar otros manuales
para ver ms ejemplos.
215
X1 X 2
S X'
zX
X1 X 2
2
1
X1 X 2
S X''
X1 X 2
S12
S2
2
n1 1 n2 1
2
2
2
1
S
S
n1 n2
S X'
Frmulas
de apoyo
S
S
n1 n2
Frmula
tX
2
2
n1
n2
SX
medias muestrales.
Esquema:
Las medias que se comparan son de dos grupos o
subgrupos de una variable numrica, definidos por las
categoras de otra variable categrica.
S12
S2
2
n1 1 n2 1
S X''
X dif
S X'
Z dif
X dif
nX
X dif
S X''
Frmulas
de apoyo
''
SX
X dif
S dif2
nX 1
S X'
S dif2
Frmula
t dif
En donde:
2
dif
nX
S dif2
nX 1
nX
SX
medias muestrales.
Esquema:
Las medias que se comparan son las de dos variables
emparejadas.
216
Tabla 157 Comparacin de grupos a travs de las medias por descomposicin de la varianza.
En donde:
Fs:
F de Fisher- Snedecor o slo F.
MCE Media de cuadrados entre-grupos. Variabilidad
media del sistema debida a la dispersin que
hay entre los grupos.
MCI Media de cuadrados intra-grupos. Variabilidad
media del sistema debida a la dispersin que
hay dentro de los grupos.
SCE Suma de cuadrados entre-grupos.
SCI Suma de cuadrados intra-grupos.
k
Nmero de grupos.
N
Nmero total de casos de la muestra.
k-1
Grados de libertad del numerador (MCE).
N-k
Grados de libertad del denominador (MCI).
MCE
MCI
SCE
MCE
k 1
SCI
MCI
N k
FS
Frmula
SCE
Frmulas
de apoyo
2
2
X j X T . n j X j X T
j 1i 1
j 1
SCI
nj
xi X j .
2
Esquema:
Se comparan los grupos formados en una variable
numrica por una variable categrica o de
agrupamiento. La comparacin se hace relacionando la
dispersin media entre los grupos (MCE) con la media
de la dispersin dentro de los grupos (MCI). Se utiliza
cuando hay ms de dos grupos.
j 1i 1
15.1
217
Diferencia de proporciones
zi
xi X X
SX
218
si
x
, entonces x
p
nu P
nu PuQ
ze
el
ze
n u p n u P
nu PuQ
1
u n u p n u P
n
1
u nu PuQ
n
Entonces,
p
n
P
SP
x n u P
nu PuQ
ze
Y sustituyendo x
dividimos
el
numerador
denominador por n
nu p
ze
nu p nu P
n n
nu PuQ
n2
pP
PuQ
n
pP
PuQ
n
pP
Sp
ze
pP
PuQ
n
Frmula 97
219
3. Estadstico: z
4. Criterio de aceptacin/rechazo de H0, Ns = 0,05, zc = 1,96.
ze
pP
PuQ
n
36,5 38,5
38,5 u 100 38,5
2.500
2,0
2.367,75
2.500
2,0
0,97
2,06
0,99 , P
p 2,57 u P uQ
P uQ
P p 2,57 u
0,99
0,99
220
0,95 , P
p 1,96u P uQ
P uQ
P p 1,96u
0,95
0,95
p2
3. Estadstico: z
4. Criterio de aceptacin/rechazo de H0, Ns = 0,05
Para determinar si la diferencia es grande o pequea, o mejor, significativamente
grande o pequea se procede a estandarizar la diferencia como en el epgrafe anterior
transformando la diferencia a un valor de variable estandarizada conocida, como es el caso de
Z y sobre esta distribucin y a travs de las probabilidades se puede determinar si aceptar o
rechazar la H0. Se aplica el criterio Z (ver Epgrafe 10.1). Entonces,
Tabla 159
x1
n1 u p1
x2
n2 u p 2
La media de p1 es,
X p1
n1 u p1
La media de p2 es,
X p2
n2 u p 2
ze
S p1
n1 u p1 u q1
S p2
n2 u p 2 u q 2
p1 p2
p1 p2
1 1
P u Q u
n1 n2
P
PuQ PuQ
n
n
2
1
n1 u p1 n2 u p2
n1 n2
221
ze
p1 p2
PuQ PuQ
n2
n1
Frmula 98
Ejemplo: Sean dos grupos (A y B) de 200 pacientes cada uno, aquejados de cierta enfermedad.
Se suministra un medicamento al A pero no al B (grupo control), controlando todas las dems
posibles variables en los dos grupos. Al final del tratamiento, 85 pacientes del A y 70 del B se
recuperan de la enfermedad. Se puede decir que el medicamento ha influido en la curacin al
Ns = 0,05?
Protocolo de contraste de hiptesis:
1. Propuesta de H1 p1 z p2 (Se producen diferencias significativas entre la proporcin de
pacientes curados en el grupo que ha recibido el medicamento y la proporcin de
pacientes del grupo que no lo ha recibido).
2. Propuesta de H0 p1 p2 (No se producen diferencias significativas entre la
proporcin de pacientes curados en el grupo que ha recibido el medicamento y la
proporcin de pacientes del grupo que no lo ha recibido).
3. Estadstico: Z
4. Criterio de aceptacin/rechazo de H0, Ns = 0,05, zc = 1,96.
P
ze
n u p n
1
u p2
85 u 42,5 70 u 35,0
n1 n2
200 200
38,8
p1 p2
42,5 35,0
PuQ PuQ
n2
n1
200
200
1,54
222
Pro
A+B
Anti
D+C
A+D
A D
P_ 1
N
B+C
BC
P_ 2
N
Frecuencia
Proporcin
Proporcin
A B
P1 _
N
DC
P2 _
N
Toma 1
a
a
a
a
a
b
b
b
b
b
c
c
c
c
c
d
d
d
d
d
Efecto
Documental
Toma 2
a
b
c
.
d
a
b
c
.
d
a
b
c
.
d
a
b
c
.
d
223
Pro
a+b
Anti
d+c
b+c
Frecuencia
Proporcin
a+d
ad
n
bc
n
p_1
Proporcin
ab
n
d c
n
p1 _
p2 _
p_ 2
Entonces, las personas que han cambiado de actitud despus del efecto, son las que
han pasado de pro a anti (b) y las que han pasado de anti a pro (d). Estas personas b+d han
tenido que ser extradas de B+D que son las que han cambiado de actitud en la poblacin. Si
consideramos que de la poblacin B+D se han extrado aleatoriamente y con reposicin, las
b+d personas de la muestra. Si arbitrariamente llamamos xito a las personas que han pasado
de pro a anti. Entonces b es el nmero de xitos en b+d pruebas independientes.
Por otra parte, si proponemos en la poblacin la H0 de proporcin pro central nuclear
despus igual a pro central nuclear antes, viene dada por,
H0 :
A D
N
A B
N
AN BN
AN AN DN
DN
D
D
BN
BN
N
B
Por lo que
A D
N
Es equivalente a
A B
N
BN
224
B
BB
0,50
b d u 0,50
b d u 0,50 u 1 0,50 b d u 0,25
X
S2
nu puq
nu p
Que es equivalente a
ad ab
z
n
n
Y por lo tanto
p_ 1 z p1 _
Por considerarse la muestra representativa, se plantea que H1
DzB
Que es equivalente a
A D A B
z
N
N
Y por lo tanto
P_ 1 z P1 _
Que se asume que hay diferencias entre el nmero o proporcin de individuos pro
central nuclear antes del efecto y el nmero o proporcin de individuos pro central
nuclear despus del efecto en la muestra y se infiere a la poblacin.
225
2. Propuesta de Ho
d
Que es equivalente a
ad
n
ab
n
Y por lo tanto
p_ 1
p1 _
Que es equivalente a
A D
N
A B
N
Y por lo tanto
P_ 1
P1 _
Que se asume que no hay diferencias entre el nmero o proporcin de individuos pro
central nuclear antes del efecto y el nmero o proporcin de individuos pro central
nuclear despus del efecto en la muestra y se infiere a la poblacin.
3. Estadstico: Z
4. Criterio de aceptacin/rechazo de H0, Ns = 0,05, zc = 1,96.
Segn McNemar (1947), llamando ze al ratio crtico, tenemos que,
ze
b d
b d
ze
a b a d
n
b d
n2
a b a d
n
b d
n
p_1 p1_
b d
n2
226
ze
p_ 1 p1 _
b d
n
Frmula 99
Si en vez de seleccionar arbitrariamente como xito a las personas que han pasado de
pro a anti se selecciona como xito las personas que han pasado de anti a pro, entonces d es el
nmero de xitos en b+d pruebas independientes.
Por otra parte, si se propone la H0 de proporcin anti central nuclear despus igual a
anti central nuclear antes, est dada por,
BC
N
CD
N
CN DN
BN CN CN
DN
DN
BN
BN
N
D
D
Por lo que
BC
N
CD
N
Es equivalente a
D
D
DD
0,50
227
b d u 0,50
b d u 0,50 u 1 0,50 b d u 0,25
X
S2
nu puq
nu p
Que es equivalente a
bc cd
z
n
n
Y por lo tanto
p _ 2 z p2 _
Por considerarse la muestra representativa, se plantea que H1
DzB
Que es equivalente a
BC C D
z
N
N
Y por lo tanto
P_ 2 z P2 _
Que se asume que hay diferencias entre el nmero o proporcin de individuos anti
central nuclear antes del efecto y el nmero o proporcin de individuos anti central
nuclear despus del efecto en la muestra y se infiere a la poblacin.
2. Propuesta de Ho
d
Que es equivalente a
bc
n
cd
n
Y por lo tanto
p_ 2
p2 _
228
Que es equivalente a
BC
N
CD
N
Y por lo tanto
P_ 2
P2 _
Que se asume que no hay diferencias entre el nmero o proporcin de individuos anti
central nuclear antes del efecto y el nmero o proporcin de individuos anti central
nuclear despus del efecto en la muestra y se infiere a la poblacin.
3. Estadstico: Z.
4. Criterio de aceptacin/rechazo de H0, Ns = 0,05, zc = 1,96.
Segn McNemar (1947), llamando ze al ratio crtico, tenemos que,
ze
d b
b d
ze
c d c b
n
b d
n2
c d c b
n
b d
n
p2 _ p _ 2
b d
n2
Para mantener el mismo criterio que al considerar b los aciertos, se compara anti de
despus del efecto con anti de antes del efecto, entonces el estadstico de contraste buscado
es,
p _ 2 p2 _
ze
b d
n
Frmula 100
Como,
1_
p2 _ 100
_1
p_ 2 100
229
Entonces,
1_
p2 _
_1
p_ 2
Por lo tanto,
| p
_1
p1 _ |
| p
_2
p 2 _ |
Frmula 101
Como la suma de las proporciones o porcentajes de las filas es igual que la suma de
las proporciones o porcentajes de columnas, entonces el contraste de diferencias entre los pro
de antes y despus del efecto y el contraste de los anti de antes y despus del efecto, es igual
pero con distinto signo. Por lo que en valor absoluto son iguales.
ze
p_ 1 p1 _
p _ 2 p2 _
b d
b d
n2
n2
Frmula 102
En general, y pensando en todas las cosas que son para Vd. ms importantes, y
utilizando una escala de 0 a 10 puntos, en la que el 0 significa que la vida le va
muy mal, y el 10 significa que la vida le va muy bien, cmo cree Vd. que le van las
cosas actualmente? Y como dira Vd. que le iban hace un ao? Y como piensa
Vd. que le irn dentro de un ao? (TARJETA 2)
Mal
Bien
Total
Proporcin
Mal
281
63
344
0,36
Bien
146
475
621
0,64
Total Proporcin
427
0,44
538
0,56
965
Este mismo ejemplo se har ms adelante por diferencia de medias de muestras emparejadas y tiene la misma
interpretacin.
230
1. H1: Hay diferencias significativas entre la proporcin de los que piensan que les va a ir
mal en el futuro con la proporcin de los que piensan que les iba mal en el pasado.
Simblicamente,
p_ 1 z p1 _
2. H0: No hay diferencias significativas entre la proporcin de los que piensan que les va
a ir mal en el futuro con la proporcin de los que piensan que les iba mal en el pasado.
Simblicamente,
p_ 1
p1 _
3. Estadstico: Z
4. Criterio de aceptacin/rechazo de H0, Ns = 0,05, zc = 1,96.
Aplicando la Frmula 99,
ze
p_1 p1_
n21 n12
n2
0,36 0,44
63 146
9652
0,08
0,01
8,00
A un Ns = 0,05, como |ze| > |zc| se puede asumir que hay diferencias significativas
entre el pensamiento o sentimiento de que las cosas les vayan mal dentro de un ao a que las
cosas les haya ido mal hace un ao y como es negativo, significa que la proporcin de mal de
despus (futuro) es significativamente menor que antes (pasado).
Si el protocolo se hace con el sentimiento de bien, el contraste de hiptesis es,
1. H1: Hay diferencias significativas entre la proporcin de los que piensan que les va a ir
bien en el futuro con la proporcin de los que piensan que les iba bien en el pasado.
Simblicamente,
p _ 2 z p2 _
2. H0: No hay diferencias significativas entre la proporcin de los que piensan que les va
a ir bien en el futuro con la proporcin de los que piensan que les iba bien en el
pasado. Simblicamente,
p_ 2
p2 _
3. Estadstico: Z
4. Criterio de aceptacin/rechazo de H0, Ns = 0,05, zc = 1,96.
Aplicando la Frmula 100,
ze
p _ 2 p2 _
21
n12
n2
0,64 0,56
63 146
9652
231
0,08
8,00
0,01
A un Ns = 0,05, como |ze| > |zc| se puede asumir que hay diferencias significativas
entre el pensamiento o sentimiento de que las cosas les vaya bien dentro de un ao a que las
cosas les fue bien hace un ao y como es positivo, significa que la proporcin de bien de
despus (futuro) es significativamente mayor que antes (pasado).
Segn la Frmula 102, se comprueba que,
ze
p_ 1 p1 _
p _ 2 p2 _
b d
b d
n2
n2
8,00
8,00
232
15.2
Diferencia de medias
X
n
S
2
S
X P
Si la diferencia es cero, significa que las dos medias son iguales,89 entonces se puede
concluir que no hay diferencias entre las medias y por lo tanto asumimos que la muestra ha
sido extrada de esa poblacin.
Si la diferencia es muy grande, significa que las dos medias son distintas y por lo tanto
que esa muestra no pertenece a esa poblacin y no ha sido extrada de ella. La cuestin ahora
es que entre la diferencia igual a cero y la diferencia muy grande, cuando una diferencia que
no es cero pero es pequea Tambin se puede considerar que son iguales? Entonces Hasta
qu valor la diferencia se puede considerar pequea? o Desde que valor la diferencia se
puede considerar grande como para que sean distintas? La pregunta entonces es que cul es el
lmite en el que la diferencia deja de ser pequea y empieza a ser grande.
89
No se cuestiona la posibilidad del error o azar. Lo nico que se pretende es seguir el razonamiento del contraste de
hiptesis de diferencia de medias de una muestra respecto del parmetro de una poblacin.
233
0,10 Kg
Para expresar con un nmero mayor la diferencia, slo hay que cambiar la unidad de
medida y convertirla en g.
xi X X
SX
zi
Xx
Sx
P
S x2
nx
ze
X P
S x2
nx
Frmula 103
234
te
X P
S x2
nx 1
Frmula 104
3. Estadstico: t
4. Criterio de aceptacin/rechazo de H0, Ns = 0,05, gl = n - 1 tc = en funcin de Ns y gl.
La distribucin t presenta una distribucin variable en funcin del valor que toma gl,
hasta que n se hace lo suficientemente grande (ver Anexo 3 y Tabla 86) y se comporta como
Z, entonces la distribucin t se estabiliza.
235
Ejemplo: Utilizando la muestra de CIRES de enero de 1996 sobre usos del tiempo, determinar
si la muestra pertenece a la poblacin espaola de 18 aos y ms en cuanto a la edad se refiere
considerando que la media de edad de la poblacin es de 45,05 aos. Operar al Ns = 0,05. Los
estadsticos de la variable edad se muestran en la Tabla 164
Tabla 164 Estadsticos de la variable edad.
Encuesta CIRES: Usos del tiempo. Enero de 1996.
mbito nacional. Poblacin espaola de ambos sexos
de 18 aos o ms
P
45,05 aos
XX
SX
44,95 aos
S X2
nX
335,97
18,33 aos
1.200
S X2
aos
nX
SX
S X (cpf)90
S X2
u 1 fm aos
nX
SX
335,97
1.200
0,53 aos
3. Estadstico: t
4. Criterio de aceptacin/rechazo de H0, Ns = 0,05, gl = 1.200-1 tc = 1,9623.
Aplicando el estadstico de contraste t,
te
X P
S x2
nx 1
y sustituyendo,
90
El cpf (corrector por poblaciones finitas) se aplica cuando la poblacin se considera finita (N < 100.000).
236
44,95 45,05
te
335,97
1.200 1
0,19
3. Estadstico Z
4. Criterio de aceptacin/rechazo de H0, Ns = 0,05, zc = 1,96.
Por redondeo, para una n de 1.200 y un grupo (una variable o lo que es lo mismo una
media), el valor de la tc, es igual al valor de la zc = 1,96.
Aplicando el estadstico de contraste Z,
ze
X P
S x2
nx
y sustituyendo,
ze
44,95 45,05
335,97
1.200
0,19
237
Submuestras
Submuestra v1
X 1 , S12 , S1 , n1
X t , St 2 , St , nt
Submuestra v2
X 2 , S 22 , S 2 , n2
X
x11
x21
x31
x41
x51
x61
x71
x81
x91
x101
x12
x22
x32
x42
x52
x62
x72
x82
x92
x102
V
v1
v1
v1
v1
v1
v1
v1
v1
v1
v1
v2
v2
v2
v2
v2
v2
v2
v2
v2
v2
Para comparar los dos grupos que se han formado en la variable X al cruzarla con la
variable V, como los subgrupos o submuestras de la variable X tienen valores numricos, se
puede hacer a travs de la comparacin de las medias y con el estadstico Z o t. Se procede
slo con la t considerando que con la Z se obtendran los mismos resultados para ns grandes,
y adems tiene la misma interpretacin.
238
Para comparar si dos cosas son iguales o distintas se procede por diferencia simple,
X1 X 2
te
X P
S x2
nx 1
Pero ahora se considera el teorema del lmite central aplicado a dos distribuciones de
medias muestrales.
Sean dos poblaciones de las que extraemos m muestras, asumimos que se extraen el
mismo nmero de cada una de ellas. Sean las muestras,
x1 , x 2 , x 3 , x m
y de tamao,
y de tamao,
Xx
Yy
x1
y1
x2
y2
x3
y3
xm
ym
239
Segn el teorema del lmite central (ver epgrafe 14) para una distribucin de medias
muestrales, la media y desviacin tpica de las variables X x e Yy , son,
Tabla 167
Media
Desviacin tpica
de las medias
muestrales
Yy
Xx
Estadsticos
Xx
Sx
Px
S x2
nx
Yy
Sy
Py
S y2
ny
Si se crea una nueva variable que sea la unin de las dos variables de las
distribuciones de medias muestrales (n = nx + ny), la variable de las medias muestrales de X
( X x ) y la variable de las medias muestrales de Y ( Yy ), la desviacin tpica de la nueva
variable se asume es,
SXY
V x2 V y2
n
n
Y
X
Frmula 105
SXY
S12 S 22
n1 n2
Frmula 106
Es la raz cuadrada de la varianza del grupo 1 dividido por el nmero de casos del
grupo 1, ms la varianza del grupo 2 dividido por el nmero de casos del grupo 2.
Para comparar las medias de dos submuestras, que se propone que pertenecen a dos
subdistribuciones de medias muestrales, se puede hacer comparando la diferencia entre ellas
con la diferencia entre las medias de las poblaciones, y sustituyendo en el estadstico t,
entonces,
240
te
Y y P x P y
S x2
S y2
n 1 n 1
y
x
Frmula 107
Asumiendo que son dos submuestras de una misma variable, entonces se hace el
cambio,
te
X 2 P1 P 2
S12
S2
2
n1 1 n2 1
Frmula 108
te
X 2 0
S12
S2
2
n1 1 n2 1
Frmula 109
Por lo que el estadstico t para contrastar, a travs de sus medias, si dos muestras
independientes son iguales o lo que es lo mismo, si pertenecen a la misma poblacin por lo
que las dos poblaciones seran la misma, es,
te
X1 X 2
S12
S2
2
n1 1 n2 1
Frmula 110
Ejemplo: Se quiere construir una central nuclear en una zona geogrfica determinada, entre
dos municipios. Se pretende hacer en el trmino municipal que est ms a favor de la
construccin. Se disea una muestra representativa a los dos municipios y una de las
preguntas del cuestionario pretende medir la actitud de los habitantes de los municipios con
una escala de intensidad de 0 (est en contra de la construccin de la central nuclear) a 10
(est a favor de la construccin de la central nuclear). Operando con un Ns = 0,05 determinar
si se puede asumir que un municipio estuviese a favor de construir la central nuclear y cul
sera. Los datos son,
241
Tabla 168
Media
X1
Varianza
S12
Nmero de casos
Desviacin tpica de
las medias muestrales
S X1
7,20
X2
6,61
3,49
S 22
3,85
n1 = 300
X dif
n2 = 300
0,11
SX2
0,59
nt = 600
0,11
SXY
0,16
X dif
S dif
X1 X 2
S12 S 22
n1 n2
0,16
SX1
S12
n1
3,49
300
0,11
SX 2
S 22
n2
3,85
300
0,11
P1 z P 2
2. Relacin entre las variables: Municipio: la de agrupamiento y supuesta independiente.
Valoracin: la agrupada y supuesta dependiente.
3. Nivel de medida de las variables: Municipio: categrica (2 categoras). Valoracin:
supuestamente numrica.
242
X2
P1
P2
te
X1 X 2
2
1
2
2
S
S
n1 1 n2 1
7,20 6,61
3,49
3,85
300 1 300 1
0,59
0,16
3,69
243
puede operar con dos variables. El caso de ms de dos variables emparejadas se trata con
Anlisis de Varianza Mltiple (MANOVA) o Medidas Repetidas, que no se ven en este
manual.
Supuesto un grupo o muestra de individuos de los que se quiere saber su actitud ante
la construccin de una central nuclear, se les administra una escala de intensidad de 0 a 10 en
la que el cero es en contra y el 10 es a favor de la construccin de la central, considerando
sta la toma 1. Despus se les muestra un documental sobre la contaminacin que producen
las centrales nucleares. Este acto se considera el efecto. Despus del efecto se realiza la toma
2. El esquema sera,
Tabla 169
Caso
Toma 1
X11
X12
X21
X22
X31
X 1 , S12 , n1
Efecto
X32
Documental
Toma 2
n-1
Xn-11
Xn-12
Xn1
Xn2
X 2 , S 22 , n2
Para cada una de las variables se tiene la media, varianza y tamao de la muestra, y
este es el mismo en las dos variables. Esta es una caracterstica que siempre se cumple en las
muestras emparejadas porque si algn caso falla en una de las tomas, automticamente se
pierde el otro valor por falta del elemento de comparacin.
Para comparar las dos variables que han producido las dos mediciones o tomas, como
las dos variables tienen valores numricos, se puede hacer a travs de la comparacin de las
medias y el estadstico sera Z o t. Se procede slo con la t considerando que con la Z se
obtendran los mismos resultados para muestras grandes y con la misma interpretacin.
Para comparar si dos cosas son iguales se procede por diferencia simple,
X1 X 2
El estadstico es t, simblicamente,
te
X P
S x2
nx 1
Frmula 111
Pero ahora en vez del teorema del lmite central para una sola distribucin de medias
muestrales, es el teorema del lmite central aplicado a dos distribuciones de medias
muestrales.
Sean dos poblaciones de las que se extraen m muestras, el mismo nmero de cada una
de ellas. Sean las muestras,
244
y de tamao,
ny1, ny2, ny3 nym
Asumiendo que existe emparejamiento, si se representan dos variables X e Y tal que
sus valores sean las medias de las m muestras, se obtienen dos variables, la variable X de las
medias muestrales de X ( X x ) y la variable Y de las medias muestrales de Y ( Yy ). Si se calcula
una tercera variable que sea la diferencia de las dos variables anteriores, caso a caso, se
obtiene la distribucin de la variable Wdif que es la diferencia de las variables de las medias
muestrales. Esquemticamente.
Tabla 170 Variable diferencia
de dos variables de medias
muestrales
Xx
Yy
X x Yy
Wdif
x1
y1
x1 y1
w1
x2
y2
x2 y 2
w2
x3
y3
x3 y 3
ym
xm y m
w3
xm
wm
Segn el teorema del lmite central (ver epgrafe 14) para una distribucin de medias
muestrales, la media y desviacin tpica de las variables X x e Yy , y aplicado a Wdif , la
diferencia de las dos variables, es
Tabla 171
Media
Desviacin tpica
de las medias
muestrales
Yy
Xx
Estadsticos
Xx
Sx
Px
S x2
nx
Yy
Sy
Wdif
Py
S y2
ny
W dif
S dif
Y y
S dif2
ndif
Py
245
te
Y y P x P y
S dif2
ndif 1
Frmula 112
Que es la diferencia entre las medias de las variables, menos la diferencia de las
medias correspondientes a las poblaciones, dividido por la desviacin tpica. Si se asume la
H0, de que las medias de las poblaciones son iguales, la diferencia de las medias de la
poblaciones es cero, y por la propiedad 1 de la media (ver epgrafe 7.1.3.1) al restar la media
de la variable Y a la media de la variable X, como la media sera el valor que tienen todos los
casos si todos tuviesen el mismo valor, es como si a todos los valores de X se les resta la
media de Y. La nueva variable obtenida tiene la media de X menos la constante media de Y.
Entonces la media de una variable que es la diferencia de otras dos, es igual a la diferencia de
las medias de las dos variables originales, entonces,
te
W dif 0
S dif2
ndif 1
Frmula 113
Por lo que el estadstico t para contrastar, a travs de sus medias, si dos muestras
emparejadas son iguales o lo que es lo mismo, si pertenecen a la misma poblacin por lo que
las dos poblaciones seran la misma es,
te
W dif
S dif2
ndif 1
Frmula 114
246
x22
x11-x12
x31
x32
x11-x12
xn1
xn2
xn1-xn2
toma1 toma 2
S dif
S dif2
ndif
6,30 6,72
6,78
100
0,42
0,26
P1 z P 2
2. Nivel de medida de las variables: Numricas.
3. Relacin entre las variables: No procede, son muestras emparejadas o relacionadas.
4. Hiptesis nula, H0: El documental presentado no influye en la actitud ante la
construccin de una central nuclear. Simblicamente,
toma1 toma 2 X 1
X2
P1
5. Estadstico: t de muestras emparejadas.
P2
247
W dif
S dif2
ndif 1
0,42
6,78
100 1
0,42
0,26
1,62
248
0,45
0,45
0,40
0,40
0,40
0,35
0,35
0,35
0,30
0,30
0,30
0,25
0,25
0,20
Nc = 0,95
Rechazo
0,15
0,10
Y = F(z)
0,45
Y = F(z)
Y = F(z)
Rechazo
0,20
Ns = 0,05
0,15
Nc = 0,95
0,00
-4,5
-4
-3,5
-3
-2,5
-2
-1,5
-1
-0,5
0,5
1,5
2,5
3,5
4,5
Zc = 1,64
H1: fo t fe
H0: fo fe
Rechazo
0,25
0,20
Nc = 0,95
Aceptacin
0,05
0,00
-5
-4,5
-4
-3,5
-3
-2,5
-2
-1,5
-1
-0,5
Zc = -1,64
0,5
1,5
2,5
3,5
4,5
-5
-4,5
-4
-3,5
-3
-2,5
-2
-1,5
-1
-0,5
Zc = -1,96
0,5
1,5
H1: fo z fe
H0: fo fe
H1: X 1 t X 2
H1: X 1 d X 2
H1: X 1 z X 2
H0: X 1
H0: X 1
H0: X 1
X2
2,5
3,5
4,5
Zc = 1,96
H1: fo d fe
H0: fo fe
X2
0,025
Rechazo
0,10
Aceptacin
0,05
0,00
-5
0,05
2
Ns
2
0,025
0,15
0,10
Ns = 0,05
Aceptacin
0,05
0,05
2
Ns
2
X2
En donde: En el caso de tablas de contingencia: fo: frecuencia observada, fe: frecuencia esperada.
Se acepta H0 si:
z e z c { Nce Ncc { Ns e ! Ns c
Se rechaza H0 si:
z e t z c { Nce t Ncc { Ns e d Ns c
15.4
Se acepta H0 si:
z e ! z c { Nce Ncc { Ns e ! Ns c
Se rechaza H0 si:
z e d z c { Nc e t Nc c { Ns e d Ns c
Anlisis de varianza
249
Submuestras
Submuestra v1
X 1 , S12 , S1 , n1
Submuestra v2
X T , ST 2 , ST , nT
X 2 , S 22 , S 2 , n2
Submuestra v3
X 3 , S 32 , S 3 , n3
X
x11
x21
x31
x41
x51
x61
x71
x81
x91
x101
x12
x22
x32
x42
x52
x62
x72
x82
x92
x102
x13
x23
x33
x43
x53
x63
x73
x83
x93
x103
V
v1
v1
v1
v1
v1
v1
v1
v1
v1
v1
v2
v2
v2
v2
v2
v2
v2
v2
v2
v2
V3
v3
v3
v3
v3
v3
v3
v3
v3
v3
Cada grupo tiene su media, varianza, tamao, as como la media, varianza y tamao de
la muestra total que es la suma de los tamaos de los subgrupos. Para comparar los grupos
entre s, se procede mediante el planteamiento de las hiptesis estadsticas, la H1 (hiptesis
alternativa) y la H0 (hiptesis nula). El protocolo sera,
1. Hiptesis alternativa, H1: La variable considerada independiente, influye en la
variable considerada dependiente. Que es lo mismo que decir que, simblicamente,
X1 z X 2 z X3
P1 z P 2 z P3
2. Relacin entre las variables: Una supuesta independiente y otra supuesta dependiente.
3. Nivel de medida de las variables: la variable propuesta como independiente es
categrica de ms de dos categoras, y la propuesta como dependiente es considerada
numrica.
4. Hiptesis nula, H0: La variable considerada independiente, no influye en la variable
considerada dependiente. Que es lo mismo que decir que, simblicamente,
X1
X2
X3
P1
P2
P3
250
XT
X2
X3
Y = f(x)
X1
x1
VIG
VEG
VT
En donde:
x1: Valor del caso 1 en la variable numrica X.
X 1 : Media del grupo 1.
X 2 : Media del grupo 2.
X 3 : Media del grupo 3.
X T : Media de la variable X.
VIG: Variacin dentro del grupo.
VEG:Variacin entre los grupos.
VT: Variacin total.
251
x X
S2
i 1
x X
S2
i 1
VT
VT
XT
x X
X X
VIG
VEG
Sustituyendo,
XT
X 1 X 1 X T
nj
x X x X X
i
i 1
XT
j 1 i 1
252
x X x X X
T
i 1
nj
XT
j 1 i 1
x X x X X
N
nj
i 1
XT
2x X X
XT
2x X X
XT
j 1 i 1
nj
nj
x X x X X
2
j 1 i 1
i 1
j 1 i 1
nj
XT
j 1 i 1
Pero como el tercer sumando no est elevado al cuadrado, su suma es cero. As es que
se puede expresar,
2
nj
nj
x X x X X
T
i 1
j 1 i 1
XT
j 1 i 1
En donde llamamos,
2
SCT
x X
T
Frmula 115
Frmula 116
Frmula 117
i 1
SCE
nj
XT
j 1 i 1
SCI
nj
x X
j 1 i 1
n j u X j X T
SCE
253
Frmula 118
j 1
SCT
Frmula 119
Tambin se puede expresar como que la dispersin total del sistema es igual a la
dispersin debida a la que hay dentro de los grupos ms la dispersin debida a la que hay
entregrupos. La divisin de cada uno de los trminos por sus grados de libertad (gl), se llama
media de cuadrados, simblicamente,
MCE
SCE
k 1
Frmula 120
La media de cuadrados entre grupos (MCE) es la divisin de la SCE entre sus grados
de libertad, nmero de grupos menos 1 (k-1), y
MCI
SCI
N k
Frmula 121
MCE
MCI
Frmula 122
Y este estadstico se dice que sigue una distribucin de tipo F (Ver Anexo 4) con los
grados de libertad (gl) del numerador (k-1) y gl del denominador (N-k). Razonando intuitiva y
genricamente, para su aplicacin estadstico-matemtica posterior, si F es grande, es porque
MCE es mayor que MCI, entonces podemos asumir que la variabilidad del sistema se debe
ms a la dispersin que hay entre los grupos y por lo tanto que se puede podemos asumir que
existen diferencias significativas entre los grupos. Pero si el valor de F es pequeo, es porque
254
MCE es pequeo respecto de MCI, entonces podemos asumir que la variabilidad del sistema
se debe ms a la dispersin que hay dentro de los grupos y por lo tanto que se puede asumir
que no hay diferencias significativas entre los grupos. Cmo se aplica F, qu es grande y a
partir de cunto se ver con un ejemplo.
Varianza
4,71
6,60
6,60
6,40
P1 z P 2 z P3
2. Relacin entre las variables: Mtodo de enseanza considerada independiente y
valoracin considerada dependiente.
3. Nivel de medida de las variables: El mtodo de enseanza es categrica de ms de dos
categoras, y la valoracin es considerada numrica.
4. Hiptesis nula, H0: El mtodo de enseanza no influye en el aprendizaje. Que es lo
mismo que decir que, simblicamente,
X1
X2
X3
P1
P2
P3
255
Con gl del numerador = k-1 (3-1 = 2), y gl del denominador = N-k (600-3=597) y el Ns
= 0,05, la F crtica es 3,01 (Fc = 3,01).
El proceso de clculo de la F estimada (Fe) es,
(Aplicando Frmula 118)
k
n u X
SCE
XT
n1 u X 1 X T n2 u X 2 X T n3 u X 3 X T
j 1
272,44
2
2
2
2
2
2
xi X j x1 X 1 x2 X 1 x3 X 1 xn1 X 1 xn X 1
SCI
j 1 i 1
x X x
x
x
x
2
x1 X 2 x2 X 2 x3 X 2 xn1 X 2 xn X 2
2
X3
X3
n 1
X3
X3
3.570,56
SCE
k 1
272,44
3 1
272,44
136,22
2
SCI
N k
3.570,56
600 3
3.570,56
597
5,98
MCE
MCI
136,22
5,98
22,78
F
22,78
256
Nuevas Tecnologas
Internet
Control
Internet
Control
Nuevas Tecnologas
-1,12*
-1,60*
1,12*
-0,49
1,60*
0,49
0,24
0,24
0,24
0,24
0,24
0,24
Nse
0,00
0,00
0,00
0,14
0,00
0,14
Para aplicar los test que utilizan medias de grupos, es necesario que cumplan ciertos
requisitos. Si las comparaciones se hacen con las medias es necesario que sean representativas
de las muestras, submuestras o subpoblaciones y es necesario comprobar que se cumple que,
1. Las subdistribuciones de los grupos son normales, supuestamente normales o
significativamente normales.
2. Las varianzas de las subdistribuciones son homogneas.
3. Que las ns de los grupos sean iguales.
4. Que las ns de los grupos sean mayores de 30
El primer requisito se comprueba con estadsticos no paramtricos mediante un
protocolo de contraste de hiptesis. Estos estadsticos son: Kolmogorov-Smirnov, Chi-
257
258
16
La asociacin lineal se aplica cuando las variables son numricas y se cruzan de dos
en dos. Se puede considerar en el grupo de la Estadstica Descriptiva Bivariable para variables
numricas (Ver Tabla 45), aunque incluye contraste de hiptesis y es la antesala del Anlisis
de Regresin Lineal y otras tcnicas multivariable.
Al ser las variables numricas, primero procede ver su relacin a travs de un grfico
de dispersin o X-Y. Despus se calcula la covarianza (Sxy) de las variables y su
estandarizacin es el coeficiente de correlacin de Pearson (r rxy). La interpretacin del
coeficiente r implica un contraste de hiptesis por lo que se puede considerar anlisis adems
de descripcin. La interpretacin de r se debe hacer acompaada del grfico de dispersin
puesto que la relacin debe ser considerada lineal. Indica o mide la asociacin o dispersin
lineal de los puntos respecto de una lnea imaginaria (la recta de regresin lineal o la recta
ajustada por mnimos cuadrados ordinarios (MCO)).
La asociacin en este caso es lineal en el sentido que se acaba de mencionar, mientras
que la asociacin de Chi-cuadrado es una asociacin de frecuencias o frecuencista, cmo
estn distribuidos los casos entre las celdas, o sea, las frecuencias absolutas.
Entonces el proceso ser,
x
16.1
Para relacionar dos variables numricas se puede empezar por obtener el grfico de
dispersin o grfico X-Y, para representar las dos variables en un sistema de coordenadas
cartesianas de dos dimensiones (Ver epgrafe 7.6).
La covarianza y la correlacin, al no implicar causalidad, no es necesario definir la
relacin de dependencia e independencia entre las variables. No obstante, una alta asociacin
entre las variables puede ser indicativo de la existencia de relacin entre las variables,
mientras que la falta de asociacin puede suponer la no existencia de relacin. Siempre se
contemplar la posibilidad del azar, tanto en un caso como en otro y en el segundo supuesto,
puede ocurrir que la influencia de terceras variables oculte la correlacin de otras dos.92 El
anlisis de asociacin se debe realizar cuando la relacin entre las variables sea lineal o
considerada lineal aunque sea dispersa, y no se puede realizar en cualquier otro caso. La
relacin entre las variables, aunque sea dispersa y no funcional, debe responder a la ecuacin,
a bx
Frmula 123
92
A veces se ha detectado y puede ser generalizado, que la Tasa de Natalidad (TN) tenga una correlacin alta con el
Incremento de la Poblacin (IP), y que la Tasa de Mortalidad (TM) tenga una correlacin nula con el IP, pero cuando se
correlacionan IP y TM, eliminando el efecto de la TN, se encuentra la verdadera relacin entre el IP y la TM.
259
independiente.
80
Peso (kg)
70
60
50
40
1,50
1,60
1,70
1,80
1,90
Estatura (m)
Cada punto puede representar a uno o varios casos. El Grfico 21 muestra el cdigo de
los casos representados en cada punto.
Grfico 21 Grfico X-Y de peso y estatura, con identificador
de caso.
90
44 11
77
52
70 37
80
88 23
4
32 98
92 29
70
30
Peso (kg)
58 91
74
41
72
26
76
43
10
62
75
31 97
17 83
14
47
68
21
16
50
57 24
9 42
79 59
8
39
99
84
34
60
95
69 36
51 18
2
66
38
61
35
19
53
6 71 5
45
96
60 93
20
55
46 13
63
22
56
89
7 40
73
40
1,50
1,60
1,70
Estatura (m)
1,80
1,90
260
80
Peso (kg)
70
60
50
40
1,50
1,60
1,70
1,80
1,90
Estatura (m)
80
Peso (kg)
70
60
50
40
1,50
1,60
1,70
Estatura (m)
1,80
1,90
16.2
261
Clculo de la covarianza
100,00
100,00
80,00
80,00
80,00
60,00
60,00
60,00
40,00
40,00
40,00
20,00
20,00
20,00
0,00
0,00
0,00
20,00
40,00
60,00
80,00
100,00
0,00
0,00
20,00
40,00
60,00
80,00
100,00
0,00
20,00
40,00
60,00
80,00
100,00
S2
xi X
i 1
Frmula 124
262
xi X u xi X
Frmula 125
i 1
El sumatorio de la distancia del valor de x del caso i-simo respecto a la media por la
distancia del mismo valor de x otra vez a la media. Como el Grfico 20 tiene dos variables, se
puede aplicar considerando para el caso i-simo las distancias de los valores en x e y respecto
de sus correspondientes medias y la Frmula 125 tomara la forma,
n
xi X u yi Y
S xy
Frmula 126
i 1
Y recibe el nombre de covarianza. El numerador es el producto cruzado (crossproduct) de la distancia, para cada caso, de x respecto a su media por el valor de y a la suya,
dividido por el total de casos. Si se representan las medias de X e Y con vectores en el Grfico
20, se obtiene el Grfico 25,
Grfico 25 Grfico X-Y de peso y estatura, con lneas de
referencia por las medias.
90
1.7174
II
80
Peso (kg)
70
65.86
60
50
40
III
1,50
IV
1,60
1,70
1,80
1,90
Estatura (m)
263
1.7174
II
80
x X
i
y Y
i
Peso (kg)
70
x X
i
y Y
i
65.86
y Y
i
60
y Y
i
x X
i
x X
i
50
40
III
IV
1,50
1,60
1,70
1,80
1,90
Estatura (m)
Si se aplica la Frmula 126 segn el Grfico 26 y se asume la relacin del tipo del
Grfico 24 a, pero sin ser funcional, los casos tendern a caer en los cuadrantes I y III, aunque
habr alguno en los cuadrantes II y IV. Entonces el producto cruzado del numerador es
muchos positivo x positivo y muchos negativo x negativo que ambos dan un resultado
positivo. La suma de todos ellos dar un positivo grande. Por lo tanto, cuando la relacin de
las dos variables es del tipo Grfico 24 a, la covarianza es grande y positiva.93
Simblicamente,
C I o .... ..... u ..... ......
C III o . ..... u ..... ......
n
xi X u yi Y
S xy
i 1
Grande
Si la relacin es lineal inversa (Grfico 24 c), pero sin ser funcional, los casos
tendern a caer en los cuadrantes II y IV, aunque habr alguno en los cuadrantes I y III.
Entonces el producto cruzado del numerador es muchos negativo x positivo y muchos positivo
x negativo que ambos dan un resultado negativo. La suma de todos ellos dar un negativo
grande. Por lo tanto, cuando la relacin de las dos variables es del tipo Grfico 24 c, la
covarianza es grande y negativa (Ver nota 93). Simblicamente,
n
xi X u yi Y
i 1
Grande
n
C II o ... ..... u ..... ......
C IV o .. ..... u ..... ......
S xy
93
264
Si la relacin es lineal dispersa (Grfico 24 b), que no es funcional, los casos tendern
a caer en los cuadrantes I, II, III y IV. Entonces el producto cruzado del numerador es muchos
positivo x positivo y muchos negativo x negativo que ambos dan un sumatorio positivo y
muchos negativo x positivo y muchos positivo x negativo que ambos dan un sumatorio
negativo. La suma de todos ellos ser r0. Por intuicin, si de la relacin lineal directa que es
grande y positivo hasta la relacin lineal inversa que es grande y negativo, hay solucin de
continuidad, entonces tiene que pasar por el cero, que es el punto intermedio entre los dos
extremos anteriores. Por lo tanto, cuando la relacin de las dos variables es del tipo Grfico
24 b, la covarianza es r0. Simblicamente,
C I o .... ..... u ..... ......
C III o . ..... u ..... ......
n
xi X u yi Y
i 1
r0
n
C II o ... ..... u ..... ......
C IV o .. ..... u ..... ......
S xy
Los valores que toma la covarianza en las relaciones tipo del Grfico 24 se muestran
en el Grfico 27,
Grfico 27 Valores de la covarianza en los modelos de asociacin lineal.
100,00
100,00
100,00
80,00
80,00
80,00
60,00
60,00
60,00
40,00
40,00
40,00
20,00
20,00
20,00
0,00
0,00
0,00
20,00
40,00
60,00
80,00
100,00
0,00
0,00
20,00
40,00
60,00
80,00
100,00
0,00
20,00
40,00
60,00
80,00
100,00
zi
xi X x
Sx
Frmula 127
265
Para aplicarlo a la covarianza, se divide cada factor del numerador por su desviacin
tpica y se obtiene el denominado coeficiente de correlacin de Pearson, simblicamente,
n
rxy
x X u y Y
x
Sx
i 1
Sy
rxy
i 1
xi X x u yi Y y x1 X x u y1 Y y x2 X x u y2 Y y xn X x u yn Y y
Sx
Sy
Sx
Sy
Sx
Sy
Sx
Sy
>
1 1
u
Sx S y
x1 X x u y1 Y y
i 1
1 1
u S xy
Sx S y
S xy
SxS y
S xy
SxS y
Frmula 128
Hay otros procesos de clculo del coeficiente r pero este parece ms breve y sencillo.
266
Si una relacin lineal directa es una relacin funcional y por lo tanto y = a + bx.
Siendo a = 0 y b = 1, entonces la funcin anterior queda que y = x. Entonces r,
S xy
rxy
SxS y
rxx
S x2
S x2
S xx
SxSx
1 ( S xx
Frmula 129
rxy
SxS y
S xy
rxx
S xx
SxSx
S x2
S x2
1
Frmula 130
2
x
S si y
La correlacin de una variable con otra igual pero inversa o la correlacin de dos
variables que tienen una relacin lineal funcional inversa es igual a -1 y es el valor mximo
negativo que puede tomar r (Grfico 28 c).
Si entre dos variables hay una relacin lineal dispersa con una ecuacin del tipo y = a
+ bx, de tal manera que a | Y y b | 0, entonces la covarianza est prxima a cero y r es
tambin prxima a cero (Grfico 28 b).
Grfico 28 Valores de la covarianza en los modelos de asociacin lineal.
100,00
100,00
100,00
80,00
80,00
80,00
60,00
60,00
60,00
40,00
40,00
40,00
20,00
20,00
20,00
0,00
0,00
0,00
20,00
40,00
60,00
80,00
100,00
0,00
0,00
20,00
40,00
60,00
80,00
100,00
0,00
20,00
40,00
60,00
80,00
100,00
267
Asociacin alta
Asociacin media
Asociacin baja
H0: r = 0
Asociacin baja
Asociacin media
-1
Asociacin alta
Para saber si r tiene un valor de cero o significativamente cero, se puede hacer una
transformacin de r en una distribucin t y hacer el contraste de hiptesis. Si es
significativamente distinta de cero, entonces puede ser que tenga una asociacin baja, media o
alta, bien positiva (asociacin lineal directa) o negativa (asociacin lineal inversa). La
interpretacin de una asociacin baja, media o alta, depende de la experiencia del investigador
con el estadstico, de la informacin a mano y del conocimiento de la materia en estudio.
Igual que otros estadsticos (coeficiente de contingencia, V de Cramer, fi, lambda,
etc.) la interpretacin de r est sujeta tambin a las variables que estamos correlacionando. Si
la relacin de las variables es funcional, la correlacin debe ser muy alta y pequeas
variaciones pueden indicar la ocurrencia de algn evento ajeno al proceso. Pero en el caso de
variables sociales, correlaciones moderadas, pueden ser indicativo de que algo pasa en la
relacin entre las variables. Por ejemplo, en el supuesto de que dos variables como salario y
sexo tengan una correlacin significativa, aunque sea considerada baja, est indicando que
entre el salario y sexo hay alguna relacin cuando no debera existir relacin, salvo que haya
otras variables intervinientes (categora profesional, estudios, etc.).
268
r
1
n 1
Frmula 131
269
dicotmicas, al tener un rango restringido imprimen poca inercia al sistema por lo que la
correlacin tender a ser baja.
Caracterstica 2
El coeficiente de correlacin r de Pearson se debe calcular cuando las variables tienen
una relacin lineal o considerada lineal, o por lo menos que su relacin sea considerada del
tipo y = a + bx. La correlacin entre dos variables no lineales puede ser alta, lo que indica
poca dispersin, pero el grfico muestra que la dispersin se distribuye desigualmente a lo
largo de la curva. El Grfico 29 es una relacin no lineal del tipo y = a + x2 y la correlacin es
de 0,969.
Grfico 29 Relacin no-lineal.
10000,00
8000,00
6000,00
4000,00
2000,00
0,00
20
40
60
80
100
Caracterstica 3
Por el proceso de clculo de la covarianza y r, los valores de las variables que tienen
valores altos respecto de sus medias (distribuciones con asimetra positiva) confieren mucha
inercia (equivalente a la ley de la palanca, cuanto ms largo es el brazo ms grande resulta la
misma fuerza) y tiende a dar coeficientes altos, ocultando la verdadera asociacin. Ejemplo:
sean dos variables aleatorias uniformemente distribuidas en el rango 1 y 100, generadas con la
funcin especfica de SPSS. Los estadsticos descriptivos univariables, la correlacin y el
grfico de dispersin entre las dos variables se muestran en la Tabla 181.
Tabla 181
N
Rango
Mnimo
Mximo
Media
Desviacin
Tpica
Varianza
Sesgo
Apuntamiento
r
29,52
781,55
-0,18
-1,06
-0,07
871,16
-0,16
-1,27
Aleatoria 1
270
60,00
40,00
20,00
0,00
0,00
20,00
40,00
60,00
80,00
100,00
Aleatoria 2
Sean esas dos mismas variables aadiendo un caso con valor 1.000 en cada una de las
variables. Los estadsticos descriptivos univariables, la correlacin y el grfico de dispersin
entre las dos variables se muestran en la Tabla 182.
n
Rango
Mnimo
Mximo
Media
Desviacin
Tpica
Varianza
Sesgo
Apuntamiento
r
99,01
9729,26
8,80
84,28
0,91
9802,22
8,68
82,68
Aleatoria 1
Tabla 182
600,00
400,00
200,00
0,00
0,00
200,00
400,00
600,00
800,00
1000,00
Aleatoria 2
271
Caracterstica 5
La correlacin entre dos variables sin estandarizar es igual que la correlacin entre dos
variables estandarizadas.
Sean dos variables zx y zy estandarizadas segn el criterio Z. La correlacin entre estas
dos variables es,
Szx z y
rz x z y
Szx u Sz y
Szx z y
z xi Z x u z yi Z y
Szx z y
i 1
z xi u z yi
Szx z y
i 1
z xi
Y sustituyendo,
xi X x
, z yi
Sx
yi Y y
Sy
272
xi X x yi Y y
u
S x S y
1
Szx z y
rxy
rxy
rxy
Caracterstica 6
La covarianza de una variable consigo misma es igual a la varianza de la variable. Si
calculamos la covarianza de una variable consigo misma, la distancia de y respecto de su
media es la distancia de x respecto de su media. Simblicamente,
n
x X u y Y
i
S xy
i 1
x X u x X x X
i
S xx
i 1
i 1
S x2 S 2
Frmula 132
273
son las covarianzas y la mitad superior tiene los mismos valores que la mitad inferior por ser
la matriz simtrica.
Ejemplo:
Desde los valores de la Tabla 183 se puede calcular los coeficientes de correlacin de
la Tabla 184,
La correlacin de una variable consigo misma es la unidad (ver Frmula 129).
Correlacin entre la variable peso y estatura,
S xy
SxS y
0,58
102,67 u 0,01
0,57
SxS y
4,40
102,67 u 7,91
0,15
S xy
SxS y
0,08
0,01 u 7,91
0,29
Correlacin significativa
274
La transformacin de r en t, es
te
r
1
n 1
0,57
1
95 1
0,57
0,10
5,7
te
r
1
n 1
0,15
1
95 1
0,15
1,5
0,10
275
te
r
1
n 1
0,28
1
95 1
0,28
0,10
2,8
276
17
Con el Anlisis de Regresin Lineal Simple (ARLS) se puede considerar que se inicia
la Estadstica Multivariable o las Tcnicas de Anlisis Multivariable. El ARLS es una tcnica
considerada de dependencia y exploratoria partiendo de la asuncin de la ecuacin de la lnea
recta, a la que se denomina modelo explicativo-predictivo (Frmula 133).
y
a bx
Frmula 133
Recibe el nombre de Regresin por el experimento que Francis Galton realiz con
guisantes dulces. Comprob que el tamao de las plantas pareca revertir al tamao medio
y la llam ley de reversin. Despus sustituyo el nombre por regresin que ya haba utilizado
anteriormente. El nombre de regresin no es apropiado para la tcnica estadstica, aunque es
el que prevalece y el que se utilizar. El nombre apropiado debe ser el de recta por Mnimos
Cuadrados Ordinarios (MCO) por ser el criterio estadstico que se utilizar despus para
construir el modelo.
Se denomina Simple porque slo tiene una variable independiente (x). La otra opcin
es Mltiple, cuando tiene ms de una variable independiente (x1, x2, ..., xn) (Frmula 134).
y
a b1 x1 b2 x2 bn xn
Frmula 134
17.1
277
Conceptos previos
Antes de introducir los fundamentos del ARLS es preciso exponer el significado de las
constantes a y b de la Frmula 133, segn cuatro modelos diferentes (Tabla 185, Tabla 186,
Tabla 187 y Tabla 188).
Tabla 185 Modelo de regresin 1.
Si asumimos que a =0 y b = 1, la ecuacin de la Frmula 133 se expresa,
y 0 1x y simplificando,
x
0
1
2
3
4
y=f(x)
y
0
1
2
3
4
0
0
y 1 1x
Asignando valores a x obtenemos valores para y
8
x
0
1
2
3
4
y=f(x)
y
1
2
3
4
5
0
0
278
0 2x
y
Asignando valores a x obtenemos valores para y
8
x
0
1
2
3
4
y=f(x)
y
0
2
4
6
8
0
0
6 1x
x
0
1
2
3
4
y=f(x)
y
6
5
4
3
2
0
0
279
Modelo 2
Modelo 3
7
y=f(x)
Modelo 1
Modelo 4
1
0
0
280
25
20
15
10
0
0
10
15
20
Para explicar o predecir los valores de la variable Y a partir de la variable X, una forma
rpida puede ser hacer la prediccin de Y a partir de su propia media. Asumiendo que la
relacin entre las dos variables es lineal, el modelo seleccionado para hacer la explicacinprediccin sera el de la lnea recta, simblicamente (Aplicando Frmula 133),
a bx
281
25
20
15
14.81
10
0
0
10
15
20
El modelo se ha construido muy rpido. Ahora cada vez que se quiera predecir un
valor de y para cualquier valor de x, slo hay que aplicar el modelo que multiplica a x por cero
y la anula, por lo que para cualquier x la variable Y toma siempre el mismo valor, que es su
propia media.
Este modelo se ajusta a los valores de y en la zona donde coinciden los vectores de las
medias de las dos variables, pero tiene el inconveniente de que el error se incrementa a
medida que se separa de los valores medios (Grfico 33).
Grfico 33 Error al hacer la prediccin de y por la media de Y.
30
25
20
error
15
10
14.81
error
0
-5
10
15
20
25
282
25
20
15
14.81
10
0
-5
10
15
20
25
25
20
15
14.81
10
0
-5
10
15
20
25
17.2
283
Ajuste de una recta a una nube de puntos por mnimos cuadrados ordinarios
Frmula 135
Del Grfico 36. Como en Ciencias Sociales la relacin entre x e y no es funcional, el resultado
de la ecuacin no coincide con los valores empricos de y en todos los casos, entonces a los
valores obtenidos a travs de la ecuacin se consideran valores tericos y se denominarn
como y.
Grfico 36 Ajuste de la recta a los puntos.
30
25
20
15
10
a
y'=
x
+b
0
-5
10
15
20
25
Para obtener la ecuacin que proporciona la recta que mejor se ajusta a la nube de
puntos, es necesario calcular los valores de las constantes a y b y proporcionan la recta. Para
obtener las constantes se utiliza el mtodo considerado de mnimos cuadrados ordinarios, que
es el que tiende a hacer mnimo el sumatorio de la distancia de los valores empricos
(obsevados o reales) (yi) a los tericos (estimados) (yi) elevada al cuadrado, simblicamente,
n
yi yi'
i 1
284
yi a bxi
i 1
yi a bxi
i 1
G yi a bxi 2
i 1
Ga
2 yi a bxi 0
i 1
G yi a bxi 2
i 1
Gb
2 yi a bxi xi
i 1
Como las dos igualdades son cero, entonces son iguales entre s y por lo tanto
eliminando el -2, la igualdad se mantiene y se puede desarrollar,
n
i 1
i 1
i 1
i 1
yi a bxi yi a bxi
0 yi
i 1
i 1
i 1
i 1
yi xi
i 1
i 1
i 1
i 1
a bxi yi
i 1
0 yi xi
i 1
i 1
i 1
na b xi
i 1
i 1
i 1
axi bxi2
a xi b xi2
yi
na b xi
i 1
yi xi
i 1
Frmula 136
i 1
i 1
i 1
a xi b xi2
Frmula 137
yi
i 1
285
na
n
b xi
i 1
Se observa que la recta ajustada por mnimos cuadrados ordinarios siempre pasa por
el punto donde se cruzan las medias de las variables (Frmula 138),
a bX
Frmula 138
a Y bX
Frmula 139
n
2
n
a xi b xi2 an X bn X
i 1
i 1
yi xi nY X
i 1
n
2
n
n
a xi an X b xi2 bn X
i 1
i 1
yi xi nY X
i 1
yi xi nY X
i 1
a xi n X
i 1
2
n
n
a xi n X b xi2 n X
i 1
i 1
n
xi
a xi n i 1
i 1
n
yi xi nY X
i 1
n
n
a xi xi
i 1
i 1
2
n
b xi2 n X
i 1
yi xi nY X
b
i 1
n
Frmula 140
xi2
nX
i 1
286
S xy
Frmula 141
S x2
Sustituyendo en la Frmula 141,
*
xi yi
i 1
i 1
n
n
x X y Y
xi2
i 1
i 1
X
i 1
XY
x X
xi yi
i 1
2 xi X
xi2
i 1
i 1
XY
nX
2X
n
xi
i 1
xi yi
xi yi
i 1
i 1
XY
XY
xi2
i 1
X 2X
xi2
i 1
X
xi yi
ni
nXY
n
n
ni
i 1
n
xi2
xi yi n X Y
nX
xi2 n X
i 1
S xy
S x2
xi yi n X Y
i 1
n
xi2 n X
i 1
287
x X y Y x y x Y X y X Y x y x Y X y X Y
i
i i
i 1
i i
i 1
i 1
i 1
i 1
i 1
i 1
i 1
i 1
xi yi Y xi X yi n X Y
xi yi Y
i 1
i 1
i 1
i 1
xi yi Y xi X yi n X
xi X
yi X
i 1
i 1
yi
1 1
xi yi Y
i 1
1 1
yi
xi
i 1
i 1
i 1
xi yi Y xi xi yi
i 1
xi xi yi
Y
i 1
i 1
Y X
Segn el caso considerado, el cuadro de la Tabla 189 muestra los valores de los
estadsticos necesarios para calcular las constantes a y b de la recta de regresin.
Tabla 189 Estadsticos para el
clculo de las constantes a y b.
X
Y
media
9,84
14,82
Varianza
29,06
29,63
Covarianza
28,83
n
1.120
b
a
0,99
5,08
S xy
S x2
a Y bX
28,83
29,06
0,99
5,08 0,99 u x
Esta recta es la que hace mnimo el sumatorio de la distancia de todos los puntos a la
recta elevados al cuadrado y adems es nica y para cualquier x podemos saber su y. Sea un
288
(x=18, y=25,61
y=25,61
25
EnR
y=22,90
ET
20
ER
15
14.81
10
0
-5
10
15
X=18 20
25
En este grfico, para este caso, el error total es igual a la diferencia y Y que es igual
a 25,61-14,81=10,80. Al ajustar la recta de regresin, el error total tambin llamado variacin
total se descompone (concepto de anlisis de varianza) en el error reducido (error explicado o
variacin entregrupos) ms el error no reducido (error no explicado o variacin intragrupos).
El error reducido es y 'Y , que es 22,90-14,81=8,09, y el error no reducido es y y ' , que es
25,61-22,90=2,71. Entonces el error total es igual al error reducido ms el error no reducido,
al hacer la regresin de y sobre x, simblicamente,
ET
ER EnR
y Y y Y y y
'
'
SCE SCI
289
Y sustituyendo,
( yi Y )
i 1
k nj
yi y ' j
j 1i i
n j y ' j Y
j 1
Se debe considerar que yj, es equivalente a la media del grupo. En el caso del ejemplo
propuesto, los valores seran,
N
ET
SCT
( yi Y ) 2
33.150,23
i 1
ER
SCE
n j y 'j Y
32.041,09
j 1
k
EnR
SCI
nj
yi y 'j
1.109,14
j 1 i i
290
17.3
La calidad del ajuste de la recta a los puntos se mide por la distancia de estos a la
recta. El estadstico que lo mide es r2 o coeficiente de determinacin, que es el coeficiente de
correlacin de Pearson elevado al cuadrado y mide la proporcin de la variacin explicada o
el error reducido sobre el error total o variacin total al hacer la regresin de la variable Y
sobre la variable X, representada en sombreado en el Grfico 38, simblicamente.
S XY
S X u SY
28,83
29,06 u 29,63
r2
r 2 0,982
n j y' j Y
0,98
j 1
N
yi Y
32.041,09
33.150,23
i 1
1. El nmero de casos con el que es recomendable operar. Existen dos puntos de vista. El
geomtrico y el sociolgico. En el primero se puede calcular una recta de regresin
con dos puntos; dos casos o dos unidades de observacin permiten definir una recta en
el plano. Sociolgicamente, se pretende que los resultados sean representativos y se
puedan inferir a la poblacin. Entonces, por los criterios expuestos en el Epgrafe 15.5
y los puntos a continuacin, se debera tener, al menos, 30 casos por cada valor o
categora de la variable independiente (X). Existen otras opciones (J. F. Hair, 1999:
160; M. A. Cea, 2002: 15). No obstante, aunque en los estudios sociolgicos las
muestras tienen tamaos grandes y permiten garantizar este requisito, se pueden
realizar con muestras menores, asumiendo el riesgo que comporta y dependiendo del
tema investigado.
2. Las variables deben ser numricas o supuestamente numricas. En el caso de la
variable Y considerada dependiente debe ser numrica supuestamente continua. La
variable independiente X numrica y no necesariamente continua. Esta caracterstica
permite que la variable X pueda ser escalar, ordinal o dicotmica. Estas ltimas
cumplen requisitos para ser consideradas numricas. En los manuales de SPSS utilizan
variables dicotmicas codificadas como 1 y 0 (binarias o pseudobinarias, que llaman
indicadores) como variables independientes en el anlisis de regresin lineal mltiple
(Norusis, 1986: B-217). No obstante, se puede codificar de diferente manera ya que el
resultado no vara, aunque los coeficientes de regresin obtienen un valor distinto. Las
variables de nivel de medida ordinal, cumplen requisitos de ser no aleatorias, son
discretas y aunque no tienen distancia entre sus valores, si tienen orden y se pueden
considerar en el ARL.
291
zresiduo
z y'
residuo 0
S residuo
y 'Y '
S y'
292
Residuoa estandarizados
2,00
1,00
0,00
-1,00
-2,00
Representada en el Grfico 40
-3,00
-2,00
-1,00
0,00
1,00
2,00
Frecuencia
0
-3,00
-2,00
-1,00
0,00
1,00
2,00
3,00
Residuos estandarizados
95
293
Frecuencia
80
60
40
20
0
-3,00
-2,00
-1,00
0,00
1,00
2,00
3,00
Residuos estandarizados
17.5
Residuos estandarizados
-2
-2
-1
Violacin de homogeneidad de
varianza. Dispersin en Y en
los valores centrales de X.
Residuos estandarizados
-2
-4
-2
-1
Violacin de homogeneidad de
varianza. Dispersin en Y en
los valores altos de X.
Residuos estandarizados
5,0
2,5
0,0
-2,5
-5,0
-2
-1
Violacin de homogeneidad de
varianza. Dispersin en Y en
los valores bajos de X.
Residuos estandarizados
-2
-4
-2
-1
Residuos estandarizados
294
-2
-4
-2
-1
17.6
295
y 're
y ' a bx
y
(a bx) r e
Y como el error (los residuos) tienen una distribucin N(0,S), se puede definir un
intervalo de confianza para un determinado Nc, dentro del cual estar comprendido el valor de
e,
0 z u S residuos 0 0 z u S residuos
Y sustituyendo,
y
(a bx) r z u S residuos
Frmula 142
Frmula 143
En el ejemplo de la Tabla 189, el intervalo dentro del cual estar un valor estimado de
y, para x = 19 y Nc = 0,9544 (z = 2) o el intervalo dentro del cual estarn el 95,44% de los
casos, est definido por (Sresiduos = 1,00),
y
23,87 r 2,00
296
17.7
El ejemplo es de Anlisis de Regresin Lineal Simple, por ser el tema tratado en este
manual. Lo ms adecuado sera un Anlisis de Regresin Lineal Mltiple porque se utilizara
ms de una variable independiente para explicar o predecir la variable dependiente. Una vez
vistos los supuestos bsicos se puede seguir el Anlisis de Regresin Lineal Mltiple por C.
De la Puente (1995), J. F. Hair (1999) y M. A. Cea (2002).
Supuesto. Un cervecero espaol quiere introducir la cerveza que fabrica en Espaa, en
el mercado de los EEUU de Norteamrica.
Problema. El cervecero necesita saber cul es el precio de mercado de su cerveza y se
puede hacer el siguiente planteamiento,
x
Fabricar la cerveza y llevarla a los EE. UU. para venderla. Para calcular el precio de
venta de la cerveza, debe considerar los gastos de produccin, gastos financieros,
gastos de distribucin y posibles aranceles. Si el precio al que debe vender la cerveza
para cubrir todos los gastos ms los beneficios es elevado, tiene el riesgo de no
venderlas y tener que traerlas a Espaa otra vez, lo que le supone un gasto mayor. Pero
no puede bajar mucho el precio porque debe cubrir gastos.
Si el precio al que debe vender es suficiente para obtener beneficios entonces puede
llevar a cabo la operacin. Pero si el precio no le reporta beneficios y considerando
que el precio de la distribucin puede ser el ms elevado, entonces puede plantearse el
instalar una fbrica de cervezas en los EE. UU. o en un pas prximo que tenga
relacin comercial.
El punto de partida puede ser solicitar un estudio del mercado de las cervezas en los
EE. UU. para que en base al precio de las cervezas que se venden, hacer una primera
aproximacin al precio que puede vender la cerveza y tomar decisiones.
Resolucin: Entonces, se quiere calcular el precio que se va a recomendar al cervecero
espaol que le debe poner a su unidad de producto, si quiere tener una cierta probabilidad de
xito en el mercado en el que quiere entrar. Se va a llamar al precio la variable y o variable
dependiente y se va a calcular en base a la caracterstica (variable x) que mejor permita
explicar y predecir ese precio. Se opta entonces por un modelo generado segn mnimos
cuadrados ordinarios (recta de regresin) que segn la Frmula 133 es.
y
a bx
a bx
a b u caracterstica de la cerveza
297
Para conocer el modelo hay que seleccionar primero cul es la caracterstica que
mejor permite explicar y predecir el precio unitario de la cerveza y despus hallar los valores
de los coeficientes a (punto de origen o punto donde la recta de regresin corta al eje Y) y b
(coeficiente de regresin o pendiente de la recta).
El problema requiere conocer algo, que es el mercado de las cervezas de los EE.
UU., y a con este conocimiento elaborar el modelo que permita estimar el precio unitario de la
cerveza. Entonces se aplica el Mtodo Cientfico (ver Epgrafe 1).
1.
Diseo Terico
1.1.
1.2.
1.3
Objetivos: Elaborar un modelo lineal para estimar el precio unitario de la cerveza, por
intervalo. Hiptesis: No hay.
1.4.
Las variables: Se van a utilizar Datos Secundarios de un estudio sobre cervezas de los
EE UU de Norteamrica obtenido de los manuales de SPSS (Norusis, 1986: B-1),
entonces las variables son (son palabras clave y se omiten reglas ortogrficas):
calidad, nombre, origen, area, pre6, pre1, calorias, sodio, alcohol, clase y fuerza (Ver
Tabla 190, Tabla 191 y Tabla 192).
1.5.
2.
Diseo Tcnico
2.1.
El Universo es el Censo de las cervezas (N = 35) que se venden en los EE. UU. de
Norteamrica. La unidad de observacin es la cerveza.
2.2.
2.3.
2.4.
2.5.
298
Variable
calidad
Etiqueta
Calidad de la cerveza
Cdigos
1
2
3
nombre
origen
Nombre de la Cerveza
Lugar donde se fabric la cerveza
area
pre6
pre1
calorias
sodio
alcohol
clase
fuerza
Etiquetas de cdigos
Muy Buena
Buena
Regular
1
2
3
4
5
6
7
1
2
USA
Canad
Francia
Holanda
Mxico
Alemania
Japn
Nacional
Regional
0
1
2
3
0
1
Sin Clase
Super-Premium
Premium
Popular
Regular
Light
La matriz de datos se presenta completa en la Tabla 191 por ser un ejemplo de N = 35.
Se considera censo porque se supone que contiene todas las marcas de cervezas que se
comercializaban en los EE. UU. en el momento de realizar el estudio.
Tabla 191
calidad
1
1
1
1
1
1
1
1
1
1
1
2
2
2
2
2
2
2
2
2
2
2
2
2
2
3
3
3
3
3
3
3
3
3
3
nombre
Miller High Life
Budweiser
Schlitz
Lowenbrau
Michelob
Labatts
Molson
Henry Weinhard
Kronenbourg
Heineken
Anchor Steam
Old Milwaukee
Schmidts
Pabst Blue Ribbon
Augsberger
Strohs Bohemian Style
Miller Light
Budweiser Light
Coors
Olympia
Coors Light
Michelob Light
Dos Equis
Becks
Kirin
Scotch Buy (Safeway)
Blatz
Rolling Rock
Pabst Extra Light
Hamms
Heilemans Old Style
Tuborg
Olympia Gold Light
Schlitz Light
St Pauli Girl
origen
1
1
1
1
1
2
2
1
3
4
1
1
1
1
1
1
1
1
1
1
1
1
5
6
7
1
1
1
1
1
1
1
1
1
6
Pre6
2,49
2,59
2,59
2,89
2,99
3,15
3,35
3,65
4,39
4,59
7,19
1,69
1,79
2,29
2,39
2,49
2,55
2,63
2,65
2,65
2,73
2,99
4,22
4,55
4,75
1,59
1,79
2,15
2,29
2,59
2,59
2,59
2,75
2,79
4,59
pre1
0,42
0,43
0,43
0,48
0,50
0,53
0,56
0,61
0,73
0,77
1,20
0,28
0,30
0,38
0,40
0,42
0,43
0,44
0,44
0,44
0,46
0,50
0,70
0,76
0,79
0,27
0,30
0,36
0,38
0,43
0,43
0,43
0,46
0,47
0,77
Calorias
149
144
151
157
162
147
154
149
170
152
154
145
147
152
175
149
99
113
140
153
102
135
145
150
149
145
144
144
68
136
144
155
72
97
144
sodio
17
15
19
15
10
17
17
7
7
11
17
23
7
8
24
27
10
8
18
27
15
11
14
19
6
18
13
8
15
19
24
13
6
7
21
alcohol
4,7
4,7
4,9
4,9
5,0
5,0
5,1
4,7
5,2
5,0
4,7
4,6
4,7
4,9
5,5
4,7
4,3
3,7
4,6
4,6
4,1
4,2
4,5
4,7
5,0
4,5
4,6
4,7
2,3
4,4
4,9
5,0
2,9
4,2
4,7
clase
2
2
2
1
1
0
0
1
0
0
1
3
3
2
1
2
0
0
2
2
0
0
0
0
0
0
3
2
0
2
2
2
0
0
0
fuerza
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
1
0
0
1
1
0
0
0
0
0
0
1
0
0
0
1
1
0
origen_R
0
0
0
0
0
1
1
0
1
1
0
0
0
0
0
0
0
0
0
0
0
0
1
1
1
0
0
0
0
0
0
0
0
0
1
Tabla 192
calidad
Muy buena
Muy buena
Muy buena
Muy buena
Muy buena
Muy buena
Muy buena
Muy buena
Muy buena
Muy buena
Muy buena
Buena
Buena
Buena
Buena
Buena
Buena
Buena
Buena
Buena
Buena
Buena
Buena
Buena
Buena
Regular
Regular
Regular
Regular
Regular
Regular
Regular
Regular
Regular
Regular
nombre
Miller High Life
Budweiser
Schlitz
Lowenbrau
Michelob
Labatts
Molson
Henry Weinhard
Kronenbourg
Heineken
Anchor Steam
Old Milwaukee
Schmidts
Pabst Blue Ribbon
Augsberger
Strohs Bohemian Style
Miller Light
Budweiser Light
Coors
Olympia
Coors Light
Michelob Light
Dos Equis
Becks
Kirin
Scotch Buy (Safeway)
Blatz
Rolling Rock
Pabst Extra Light
Hamms
Heilemans Old Style
Tuborg
Olympia Gold Light
Schlitz Light
St Pauli Girl
299
origen
USA
USA
USA
USA
USA
Canad
Canad
USA
Francia
Holanda
USA
USA
USA
USA
USA
USA
USA
USA
USA
USA
USA
USA
Mxico
Alemania
Japn
USA
USA
USA
USA
USA
USA
USA
USA
USA
Alemania
area
pre6
Nacional
Nacional
Nacional
Nacional
Nacional
Regional
Regional
Regional
Regional
Nacional
Regional
Regional
Regional
Nacional
Regional
Regional
Nacional
Nacional
Regional
Regional
Regional
Nacional
Regional
Regional
Regional
Regional
Regional
Regional
Nacional
Regional
Regional
Regional
Regional
Nacional
Regional
2,49
2,59
2,59
2,89
2,99
3,15
3,35
3,65
4,39
4,59
7,19
1,69
1,79
2,29
2,39
2,49
2,55
2,63
2,65
2,65
2,73
2,99
4,22
4,55
4,75
1,59
1,79
2,15
2,29
2,59
2,59
2,59
2,75
2,79
4,59
pre1
,42
,43
,43
,48
,50
,53
,56
,61
,73
,77
1,20
,28
,30
,38
,40
,42
,43
,44
,44
,44
,46
,50
,70
,76
,79
,27
,30
,36
,38
,43
,43
,43
,46
,47
,77
17
15
19
15
10
17
17
7
7
11
17
23
7
8
24
27
10
8
18
27
15
11
14
19
6
18
13
8
15
19
24
13
6
7
21
4,7
4,7
4,9
4,9
5,0
5,0
5,1
4,7
5,2
5,0
4,7
4,6
4,7
4,9
5,5
4,7
4,3
3,7
4,6
4,6
4,1
4,2
4,5
4,7
5,0
4,5
4,6
4,7
2,3
4,4
4,9
5,0
2,9
4,2
4,7
clase
fuerza
Premium
Premium
Premium
Super-premium
Super-premium
Sinclase
Sinclase
Super-premium
Sinclase
Sinclase
Super-premium
Popular
Popular
Premium
Super-premium
Premium
Sinclase
Sinclase
Premium
Premium
Sinclase
Sinclase
Sinclase
Sinclase
Sinclase
Sinclase
Popular
Premium
Sinclase
Premium
Premium
Premium
Sinclase
Sinclase
Sinclase
Regular
Regular
Regular
Regular
Regular
Regular
Regular
Regular
Regular
Regular
Regular
Regular
Regular
Regular
Regular
Regular
Light
Light
Regular
Regular
Light
Light
Regular
Regular
Regular
Regular
Regular
Regular
Light
Regular
Regular
Regular
Light
Light
Regular
origen_R
USA
USA
USA
USA
USA
No USA
No USA
USA
No USA
No USA
USA
USA
USA
USA
USA
USA
USA
USA
USA
USA
USA
USA
No USA
No USA
No USA
USA
USA
USA
USA
USA
USA
USA
USA
USA
No USA
300
pribus, esto es, que se considera todo lo dems constante o que no influye. Otra opcin para
incorporar variables categricas de ms de dos categoras en el anlisis de Regresin Lineal,
como variable independiente, es crear tantas variables binarias como categoras tiene menos
una, la cual es constante y considerada la categora de referencia para las dems (ver el
procedimiento de Regresin Logstica Binaria de SPSS, el subcomando Variable Categrica
y el manual de ayuda).
La opcin seleccionada para hacer el ejemplo es dicotomizar la variable origen como
cervezas producidas en los EE. UU. y cervezas no producidas en los EE. UU..
La variable area se considera por ser dicotmica. Las variables calorias, sodio y
alcohol se consideran numricas. La variable clase no se considera porque la categora sin
clase rompe la posible ordinalidad de la variable y fuerza se considera por ser binaria.
Entonces la matriz de correlaciones es (Tabla 193),
pre1
pre1
1,00
calidad
-0,37*
origen_R 0,58**
area
0,14
calorias 0,21
sodio
-0,09
alcohol
0,20
fuerza
-0,15
Alcohol
0,20
-0,44**
0,30
0,22
0,91**
0,20
1,00
-0,76**
fuerza
-0,15
0,30
-0,27
-0,39*
-0,87**
-0,36*
-0,76**
1,00
Notas:
*: La correlacin es significativa al Ns de 0,05 (bilateral).
**: La correlacin es significativa al Ns de 0,01 (bilateral).
a b u origen _ R
1,00
0,80
0,60
0,40
0,20
0
0,2
0,4
0,6
0,8
301
Como el origen de las cervezas puede ser de los EE. UU. o de fuera de los mismos, la
variable presenta dos categoras, codificadas como 0 y 1, por lo que slo hay dos
subdistribuciones. Al haber slo dos subdistribuciones se puede asumir que la relacin es
lineal. Por supuesto tambin se podran asumir otras relaciones, pero no interesan en este
caso. Los estadsticos descriptivos son,
Variables
pre1 (Y)
origen_R (X)
Covarianza
0,04
S x2
a Y bX
0,04
0,18
0,25
0,70$
El precio terico al que se debe vender la cerveza espaola, asumiendo que las dems
variables son constantes o que no varan (cteris pribus), es de 0,70 $. Pero como el precio
real puede estar por encima o por debajo de este valor, el intervalo de confianza, para un Nc =
0,9544, dentro del cual estar el precio buscado, segn la Frmula 142 y con la variable
residuales N(0;0,15) es,
y
0,70 r 0,30
0,40$ y 1,00$
302
Residual estandarizado
-2
-1,0
-0,5
0,0
0,5
1,0
1,5
2,0
0,70$
Por lo tanto el precio terico con el nuevo modelo no vara y la variable de residuales
es N(0;0,08). El nuevo coeficiente de correlacin de Pearson r = 0,84 y r2 = 0,70. Se ha mejorado
el modelo reduciendo la desviacin tpica de los residuales y la calidad del modelo, es obvio,
al haber eliminado un caso que estaba introduciendo mucha dispersin, y el nuevo intervalo
de confianza es,
303
0,70 r 0,16
0,54$ y 0,86$
0,70
0,60
0,50
0,40
0,30
0,20
0
0,2
0,4
0,6
0,8
Residual estandarizado
-1
-2
-3
-1,0
-0,5
0,0
0,5
1,0
1,5
2,0
304
18
305
Nmeros ndice
Simples
Sin ponderar
Compuestos
Media aritmtica
Agregativo simple
Media aritmtica
Ponderados
Agregativo compuesto
Laspeyres
Paache
Fisher
It
Xt
X0
It
Xt
u 100
X0
En donde:
It: ndice en el perodo t.
Xt: Valor de la variable en el perodo t.
Frmula 144
V( t1t 2 )
It 2
1 u 100
I t1
En donde:
It2:
ndice en el perodo t2.
It1:
Frmula 145
306
Tabla 196
Frmula
Variacin (I0 It)
Tasa de
variacin a
ao base (%)
Ao
Total
3
(x 10 )
2008
44.468
I 2008
X 2008
u 100
X 2008
44.468
* 100
44.468
100,00
2009
44.906
I 2009
X 2009
u 100
X 2008
44.906
* 100
44.468
100,98
V20082009
I 2009
1 u 100
I
2008
0,98
2010
45.311
I 2010
X 2010
u 100
X 2008
45.311
* 100
44.468
101,90
V20082010
I 2010
1 u 100
I
2008
1,90
2011
45.686
I 2011
X 2011
u 100
X 2008
45.686
* 100
44.468
102,74
V20082011
I 2011
1 u 100
I
2008
2,74
2012
46.055
I 2012
X 2012
u 100
X 2008
46.055
* 100
44.468
103,57
V20082012
I 2012
1 u 100
I
2008
3,57
2013
46.418
I 2013
X 2013
u 100
X 2008
46.418
* 100
44.468
104,39
V20082013
I 2013
1 u 100
I
2008
4,39
2014
46.772
I 2014
X 2014
u 100
X 2008
46.772
* 100
44.468
105,18
V20082014
I 2014
1 u 100
I
2008
5,18
2015
47.118
I 2015
X 2015
u 100
X 2008
47.118
*100
44.468
105,96
V20082015
I 2015
1 u 100
I
2008
5,96
18.2
Frmula
Ao
2000
2001
2002
2003
Total
1.322
1.347
1.365
1.388
Nota:
*
En millones de euros.
Ao
2000
2001
2002
2003
Total
100,00
101,89
103,25
104,99
307
at
1
u I1t I 2t I 3t I nt
n
Frmula 146
I2t:
Componente segundo en el ao t.
I3t:
Componente tercero en el ao t.
Int:
n:
t:
Componente n-simo en el ao t.
Nmero de componentes.
Perodo de tiempo al que se refiere el ndice.
a2000
1
u 100,00 100,00 100,00 100,00
4
400,00
100,00
4
1
u 101,27 103,69 103,45 100,60
4
409,00
102,25
4
1
u 102,85 105,53 105,86 101,00
4
415,24
103,81
4
1
u 104,11 107,83 108,62 102,20
4
422,77
105,69
4
ao 2001
a2001
ao 2002
a2002
ao 2003
a2001
Tabla 200
Ao
2000
2001
2002
2003
Primario
100,00
101,27
102,85
104,11
Terciario
100,00
103,45
105,86
108,62
Cuaternario
100,00
100,60
101,00
102,20
Total
100,00
101,89
103,25
104,99
at
100,00
102,25
103,81
105,69
308
At
Simplificando,
n
At
xit
i 1
n
u 100
i0
i 1
u 100
x1t:
x2t:
x3t:
Xnt:
x10:
x20:
x30:
Xn0:
n:
t:
Frmula 147
A2000
it
i 1
n
u 100
u 100
u 100
u 100
i0
i 1
Ao 2001,
n
A2001
it
i 1
n
u 100
i0
i 1
Ao 2002,
n
A2002
it
i 1
n
x
i 1
i0
u 100
309
Ao 2003,
n
A2003
it
i 1
n
u 100
u 100
i0
i 1
18.3
Wi
xi0
, , i 1 n
i0
i 1
En donde:
Wi: Factor de ponderacin del componente i-simo.
xi0:
t:
W1
x12000
n
xi2000
316
1.322
0,239
217
1.322
0,164
290
1.322
0,219
499
1.322
0,377
i 1
Sector Secundario
W2
x22000
n
i2000
i 1
Sector Terciario
W3
x32000
n
i2000
i 1
Sector Cuaternario
W4
x42000
n
i2000
i 1
Frmula 148
310
a 't
1
n
u I1t u W1 I 2t u W2 I nt u Wn
i 1
a 't
it
u Wi
i 1
Wi
i 1
En donde:
at:
ndice media aritmtica ponderado (Total produccin) en el perodo t.
I1t:
I2t:
I3t:
n:
t:
W 1:
W2:
Wn:
Frmula 149
a' 2000
1
u 100,00 100,00
1
i 1
Ao 2001,
a' 2001
1
u 101,89 101,89
1
i 1
Ao 2002,
a' 2002
i 1
1
u 103,25 103,25
1
311
Ao 2003,
1
a' 2003
1
u 104,99 104,99
1
i 1
100,00
101,89
103,25
104,99
100,00
102,25
103,81
105,69
100,00
101,89
103,25
104,99
100,00
101,89
103,25
104,99
A' t
x1t u W1 x 2 t u W 2 x nt u W n
x10 u W1 x 2 0 u W 2 x n0 u W n
u 100
Simplificando,
n
u Wi
u Wi
it
A't
i 1
n
i0
u 100
i 1
En donde:
ndice agregativo compuesto ponderado en el perodo t.
At:
x1t:
x2t:
xnt:
x10:
x20:
xn0:
Wi:
n:
t:
Frmula 150
312
i2000
A'2000
u Wi
i 1
n
u 100
xi2000 u Wi
u 100
i 1
363,12
u 100 100,00
363,12
Para el ao 2001,
n
A'2001
i2001
u Wi
i 1
n
u 100
i2000
u Wi
u 100
i 1
368,72
u 100 101,54
363,12
Para el ao 2002,
n
A'2002
i2002
u Wi
i 1
n
u 100
i2000
u Wi
u 100
i 1
372,86
u 100 102,68
363,12
Para el ao 2003,
n
i2003
A'2003
u Wi
i 1
n
i2000
u 100
u Wi
x12003 u W1 x22003 u W2 xn 3 u Wn
x12000 u W1 x22000 u W2 xn2000 u Wn
u 100
i 1
378,66
u 100 104,28
363,12
313
100,00
101,89
103,25
104,99
100,00
102,25
103,81
105,69
100,00
101,89
103,25
104,99
100,00
101,89
103,25
104,99
100,00
101,54
102,68
104,28
Los ndice agregado simple (At) y la media aritmtica ponderada (at, son iguales
porque segn la Frmula 147,
At
u 100
xi
i 1
u 100
a 't
1
n
u I1t u W1 I 2t u W2 I nt u Wn
i 1
It
Xt
, y que Wi
X0
xi0
n
xi
i 1
a't
x1
x1
x2
x2
xn
xn
1
u t u n 0 t u n 0 t u n 0
n
x
x
xn 0
Wi 10 xi0 2 0 xi0
xi0
i 1
i 1
i 1
i 1
314
a 't
x1
x2
xn
1u n t n t n t
xi0 xi0
xi0
i 1
i 1
i 1
I jt
Pt j
u 100
P0j
En donde:
Ijt: ndice en el perodo t del local j.
Pjt: Precio en el perodo t y en el local j.
Frmula 151
It
1
u I1 I 2 I j I n
n
En donde:
Ijt: ndice en el perodo t del local j.
simplificando,
It
Frmula 152
1 n
uIj
n j1 t
Denominado ndice de Sarbeck.
Si se aplica la frmula del ndice agregativo simple (At Frmula 147), entonces,
n
It
Pt 1 Pt 2 Pt j Pt n
u 100
P01 P02 P0 j P0n
jt
j 1
n
j0
j 1
315
316
El propsito es obtener una sola serie de precios reduciendo las cuatro a una sola. Esta
reduccin se puede realizar obteniendo la media aritmtica de las cantidades de los productos
por cada ao o bien obteniendo el sumatorio de las cantidades por ao (Tabla 211).
Tabla 211 Sumatorios y medias de precios y
cantidades y nmeros ndice agregados simples.
Suma de
Suma de
ndice de ndice de
Ao
precios cantidades
precios cantidades
2000
4,22
133
100,00
100,00
2001
4,26
142
100,95
106,77
2002
4,41
151,5
104,50
113,91
2003
4,62
151,5
109,48
113,91
Media de Media de
ndice de ndice de
Ao
precios cantidades
precios cantidades
2000
1,06
33,25
100,00
100,00
2001
1,07
35,5
100,95
106,77
2002
1,10
37,88
104,50
113,91
2003
1,16
37,88
109,48
113,91
En la tabla anterior (Tabla 211) se puede observar en las columnas de los ndice que se
obtienen los mismos resultados a partir de los sumatorios de las cantidades por ao, que de las
medias. Entonces el mtodo se simplifica trabajando con los sumatorios. Pero los ndice
agregados simples se han obtenido sin considerar el peso relativo de cada uno de los
productos en el ndice obtenido y adems se han sumado productos expresados en una unidad
de medida diferente (/kg, /l y /12). Estos aspectos hacen que el ndice agregativo simple
no sea de los ms utilizados, simblicamente,
Para precios:
n
t
0
it
u 100
i 1
n
i0
i 1
Para cantidades:
n
I 0t
En donde:
It0: Es el ndice del ao t con base en el ao 0.
n: Nmero de elementos agregados.
Pit: Precio del producto i-simo en el periodo t.
Qit: Cantidad del producto i-simo en el periodo t.
Frmula 153
it
i 1
n
u 100
i0
i 1
Para precios:
n
I 0t
En donde:
t
I 0: Es el ndice del ao t con base en el ao 0.
n: Nmero de elementos agregados.
Pit: Precio del producto i-simo en el periodo t.
Pit
P
i 1
i0
u 100
Para cantidades:
n
I 0t
i 1
i0
Frmula 154
Qit
317
u 100
Frmula 155
PuQ
Si para cada producto tenemos los precios P0, P1, P2 y P3 y las cantidades Q0, Q1, Q2 y
Q3 entonces la serie de valores ser
V0
P0 u Q0
V1
P1 u Q1
Vt
Pt u Qt
318
P0 u Q0
P u Q0
P0 u Q
P1 u Q1
P u Q1
P1 u Q
Pt u Qt
P u Qt
Pt u Q
yQ
kg
kg
kg
u
, entonces P u Q es
kg mes
mes
mes
yQ
l
l
, entonces P u Q es u
mes
l mes
mes
yQ
doc.
doc.
doc.
, entonces P u Q es
u
mes
doc. mes
mes
P uQ
P uQ
0
PuQ
PuQ
P uQ
P uQ
Pt u Qt
P u Qt
P uQ
t
319
La Tabla 213 y Tabla 214 tienen el mismo significado. La primera es para un producto y
la segunda para n productos y esta puede convertirse en nmeros ndice aplicando el criterio
de nmero ndice simple y es,
En donde:
Pit: Es el precio del producto i en el perodo t.
P uQ
Vt
i 1
n
it
P
i 1
i0
it
u 100
u Qi0
P uQ
i
i 1
n
it
Pi u Qi0
En donde:
Pi: Es el precio constante del producto i.
u 100
i 1
n
P
i 1
u Qi
i0
Frmula 157
En donde:
Pit: Es el precio del producto i en el perodo t.
Pt
i 1
Pit u Qi
Frmula 156
Qt
u 100
Frmula 158
320
Tabla 215
ndice
LASPEYRES
Pi0 u Qit
QL
i 1
n
P
i 1
i0
u 100
u Qi0
P uQ
PL
PAASCHE
QP
i 1
n
Pit u Qi0
u 100
QL u QP
QF
u Qi0
i0
u 100
it
P uQ
PP
i 1
n
it
it
Pi0 u Qit
i 1
FISHER
i0
i 1
P uQ
it
it
i 1
n
u 100
i 1
PF
PL u PP
PL
Pit
P
i 1
u Pi0 u Qi0
i0
Pi0 u Qi0
u 100
i 1
PP
Pit
P
i 1
u Pi0 u Qit
i0
Pi0 u Qit
u 100
i 1
PF u QF
321
PL u QP
PP u QL
P uQ
it
it
u Qit
i 1
n
i 1
i0
u Qit
P uQ
u Qi0
i 1
n
i 1
i0
i0
it
i 1
n
i0
i 1
it
u Qi0
Ao
2000
2001
2002
2003
Pi0 x Qi0
Pit x Qi0
66,50
P1t x Q10
65,60
P2t x Q20
6,00
P3t x Q30
6,00
P4t x Q40
Ao
Pan
Gasolina
Huevos
Patatas
66,50
68,25
68,25
70,00
65,60
64,80
64,80
65,60
6,00
6,00
6,60
7,20
6,00
6,00
6,60
7,20
2000
2001
2002
2003
Suma
ao = t
144,10
145,05
146,25
150,00
Suma
ao = 0
144,10
144,10
144,10
144,10
PL
100,00
100,66
101,49
104,09
Ao 2000,
4
PL 2000
u Qi2000
u Qi2000
i 1
4
i 1
i2000
i2000
u 100
P
P
144,10
u 100 100,00
144,10
322
Ao 2001,
4
PL 2001
u Qi2000
u Qi2000
i2001
i 1
4
i2000
i 1
u 100
P
P
145,05
u 100 100,66
144,10
Ao 2002,
4
Pi
i 1
4
PL 2002
u Qi2000
P
P
u 100
Pi
i 1
2002
2000
u Qi2000
P
P
P
12002
12000
u Q12000
2 2000
u Q2 2000
3 2000
u Q3 2000
4 2000
u Q4 2000
101,49
Ao 2003,
4
PL 2003
u Qi2000
u Qi2000
i 1
4
i 1
i2003
i2000
u 100
P
P
Precios
Gasolina Huevos
(/l)
(/doc.)
0,82
1,00
0,81
1,00
0,81
1,10
0,82
1,20
Pan
(/kg)
1,90
1,95
1,95
2,00
Pan
104,09
Gasolina
Cantidades
Pan
Gasolina
Huevos
Patatas
(kg./mes) (l/mes) (doc./mes) (kg./mes)
35
80
6,00
12
34
90
6,00
12
32
100
6,50
13
32
100
6,50
13
Huevos
Patatas
Ao
P1t x Q1t
P10 x Q1t
P2t x Q2t
P20 x Q2t
P3t x Q3t
P30 x Q3t
P4t x Q4t
P40 x Q4t
2000
2001
2002
2003
66,50
66,30
62,40
64,00
66,50
64,60
60,80
60,80
65,60
72,90
81,00
82,00
65,60
73,80
82,00
82,00
6,00
6,00
7,15
7,80
6,00
6,00
6,50
6,50
6,00
6,00
7,15
7,80
6,00
6,00
6,50
6,50
Suma
num.
144,10
151,20
157,70
161,60
Suma
den.
144,10
150,40
155,80
155,80
PP
100,00
100,53
101,22
103,72
u100
323
Ao 2000,
4
Pi
PP 2000
i 1
4
2000
u Qi2000
u 100
Pi
i 1
2000
u Qi2000
P
P
P
P
P
12000
12000
u Q12000
2 2000
u Q2 2000
3 2000
u Q3 2000
4 2000
u Q4 2000
u100
144,10
u 100 100,00
144,10
Ao 2001,
4
Pi
PP 2001
2001
i 1
4
Pi
i 1
u Qi2001
u 100
2000
u Qi2001
P
P
P
P
P
12001
12000
u Q12001
2 2000
u Q2 2001
3 2000
u Q3 2001
4 2000
u Q4 2001
u100
151,20
u 100 100,53
150,40
Ao 2002,
4
Pi
PP 2002
i 1
4
u Qi2002
u 100
Pi
i 1
2002
2000
u Qi2002
P
P
P
P
P
12002
12000
u Q12002
2 2000
u Q2 2002
3 2000
u Q3 2002
4 2000
u Q4 2002
u100
157,70
u 100 101,22
155,80
Ao 2003,
4
Pi
PP 2003
i 1
4
Pi
i 1
2003
u Qi2003
u 100
2000
u Qi2003
P
P
P
P
P
12003
12000
u Q12003
2 2000
u Q2 2003
3 2000
u Q3 2003
4 2000
u Q4 2003
u100
324
161,60
u 100 103,72
155,80
100,00
100,66
101,49
104,09
100,00
100,53
101,22
103,72
Para el ao 2000,
PF 2000
PL 2000 u PP 2000
Para el ao 2001,
PF 2001
PL 2001 u PP 2001
Para el ao 2002,
PF 2002
PL 2002 u PP 2002
Para el ao 2003,
PF 2003
PL 2003 u PP 2003
100,00
100,60
101,36
103,91
19
325
Bibliografa
Aboitiz, F. and Montiel, J. (2007). Origin and Evolution of the Vertebrate Telencephalon,
with Special Reference to the Mammalian Neocortex. Berlin: Springer.
Alvira, F. (2004). La encuesta: una perspectiva general metodolgica. Madrid: CIS.
Ander-Egg, E. (1982). Tcnicas de Investigacin Social. Buenos Aires: Humanitas.
Asouti, E. (2006). Beyond the Pre-Pottery Neolithic B interaction sphere. J. World Prehist.,
Vol. 20, Nos. 2-4, pp. 87-126.
Atmanspacher, H. (2004). Quantum approaches to consciousness. En Stanford
Encyclopedia of Philosophy.
Babbie, E. (1999). Funadamentos de la investigacin social. Mxico: Thomson.
Bacon, F. (1620/1984). Advancement of learning; Novum organum; New atlantis. Chicago:
Enciclopaedia Britannica, Inc.
Baker, T. L. (1988/1999). Doing social research. New York: McGraw-Hill.
Barbancho, A. G. (1964/1992). Estadstica elemental moderna. Barcelona: Ariel.
Bar-Yosef, O. (2002). The Upper Paleolithic Revolution. Annu. Rev. Anthropology, 31, pp.
363-393.
Disponible
en:
http://www.cameronmsmith.com/courses/EuropeanPrehistory2007/TheUpperPalaeolithicR
evolution.pdf.
Bateson, G. (1971). Interaccin familiar: aportes fundamentales sobre teora y tcnica.
Buenos Aires: Tiempo Contemporneo.
Bateson, G. (1977). Doble vnculo y esquizofrenia: el sndrome y sus factores patognicos
interpersonales. Buenos Aires: Carlos Lolh.
Bateson, G. y Ruesch, J. (1984). Comunicacin: La matriz social de la psiquiatra. Barcelona:
Paids.
Bear, M. F. et al. (1998). Neurociencia, Explorando el cerebro. Barcelona: Masson.
Bednarik, R. G. (2008). The Mythical Moderns. J. World Prehist., Vol. 21, No 2, pp. 85-102.
Bennet, W. J. (1998). Neuroscience and the human spirit. En National Review, dec 31.
Bingham, W. D. y Moore, B. V. (1973). Cmo entrevistar. Madrid: Rialp.
Blalock, H. N. (1966/1994). Estadstica Social. Mxico: FCE.
Botella, J. et al, (1993). Anlisis de datos en psicologa I. Madrid: Pirmide.
Boulding, K. E. (1993). Teora General de los Sistemas. El esqueleto de la Ciencia. En C.
Rami. Teora de la organizacin. vol.1, La evolucin histrica del pensamiento
organizativo. Los principales paradigmas tericos. Madrid: Ministerio para las
Administraciones Pblicas.
Bunge, M. (1981). La Investigacin Cientfica. Barcelona: Ariel.
Canavos, G. C. (1984/1988). Probabilidad y estadstica. Mxico: McGraw-Hill.
Cea DAncona, M. A. (1996). Metodologa cuantitativa: estrategias y tcnicas de
investigacin. Madrid: Sntesis.
326
327
328
329
330
approach
to
the
first
comprehensive
world-view.
http://www.arcl.ed.ac.uk/arch/watkins/humanity_paper.pdf.
331
Disponible
en:
Watkins, T. (Trans.) (2000 b). The Birth of the Gods and the origins of agriculture.
Cambridge: Cambridge University Press.
Wegener, A (1983). El origen de los continentes y ocanos. Madrid: Pirmide.
Whyte, W. F. (1943) Street corner society. Chicago: University of Chicago Press.
(Traduccin espaola: Whyte, W. F. (1971) La sociedad de las esquinas. Mxico: Diana).
Williams, P. L. et al. (1998). Anatoma de Gray:bases anatmicas de la medicina y la ciruga.
Madrid: Harcourt Brace. 2 vol.
Williams, P. L. et al. (eds.) (2001). Anatoma de Gray: bases anatmicas de la medicina y la
ciruga. Madrid: Harcourt, D. L.
Wittgenstein, L. (1984). Tractatus Logico-Philosophicus. Madrid: Alianza Universidad.
332
1.
0,3413
0,3643
0,3849
0,4032
0,4192
0,4332
0,4452
0,4554
0,4641
0,4713
0,3438
0,3665
0,3869
0,4049
0,4207
0,4345
0,4463
0,4564
0,4649
0,4719
0,3461
0,3686
0,3888
0,4066
0,4222
0,4357
0,4474
0,4573
0,4656
0,4726
0,3485
0,3708
0,3907
0,4082
0,4236
0,4370
0,4484
0,4582
0,4664
0,4732
0,3508
0,3729
0,3925
0,4099
0,4251
0,4382
0,4495
0,4591
0,4671
0,4738
0,3531
0,3749
0,3944
0,4115
0,4265
0,4394
0,4505
0,4599
0,4678
0,4744
0,3554
0,3770
0,3962
0,4131
0,4279
0,4406
0,4515
0,4608
0,4686
0,4750
0,3577
0,3790
0,3980
0,4147
0,4292
0,4418
0,4525
0,4616
0,4693
0,4756
0,3599
0,3810
0,3997
0,4162
0,4306
0,4429
0,4535
0,4625
0,4699
0,4761
0,3621
0,3830
0,4015
0,4177
0,4319
0,4441
0,4545
0,4633
0,4706
0,4767
2,0
2,1
2,2
2,3
2,4
2,5
2,6
2,7
2,8
2,9
0,4772
0,4821
0,4861
0,4893
0,4918
0,4938
0,4953
0,4965
0,4974
0,4981
0,4778
0,4826
0,4864
0,4896
0,4920
0,4940
0,4955
0,4966
0,4975
0,4982
0,4783
0,4830
0,4868
0,4898
0,4922
0,4941
0,4956
0,4967
0,4976
0,4982
0,4788
0,4834
0,4871
0,4901
0,4925
0,4943
0,4957
0,4968
0,4977
0,4983
0,4793
0,4838
0,4875
0,4904
0,4927
0,4945
0,4959
0,4969
0,4977
0,4984
0,4798
0,4842
0,4878
0,4906
0,4929
0,4946
0,4960
0,4970
0,4978
0,4984
0,4803
0,4846
0,4881
0,4909
0,4931
0,4948
0,4961
0,4971
0,4979
0,4985
0,4808
0,4850
0,4884
0,4911
0,4932
0,4949
0,4962
0,4972
0,4979
0,4985
0,4812
0,4854
0,4887
0,4913
0,4934
0,4951
0,4963
0,4973
0,4980
0,4986
0,4817
0,4857
0,4890
0,4916
0,4936
0,4952
0,4964
0,4974
0,4981
0,4986
3,0
3,1
3,2
3,3
3,4
3,5
3,6
3,7
3,8
3,9
4,0
0,4987
0,4990
0,4993
0,4995
0,4997
0,4998
0,4998
0,4999
0,4999
0,5000
0,5000
0,4987
0,4991
0,4993
0,4995
0,4997
0,4998
0,4998
0,4999
0,4999
0,5000
0,5000
0,4987
0,4991
0,4994
0,4995
0,4997
0,4998
0,4999
0,4999
0,4999
0,5000
0,5000
0,4988
0,4991
0,4994
0,4996
0,4997
0,4998
0,4999
0,4999
0,4999
0,5000
0,5000
0,4988
0,4992
0,4994
0,4996
0,4997
0,4998
0,4999
0,4999
0,4999
0,5000
0,5000
0,4989
0,4992
0,4994
0,4996
0,4997
0,4998
0,4999
0,4999
0,4999
0,5000
0,5000
0,4989
0,4992
0,4994
0,4996
0,4997
0,4998
0,4999
0,4999
0,4999
0,5000
0,5000
0,4989
0,4992
0,4995
0,4996
0,4997
0,4998
0,4999
0,4999
0,4999
0,5000
0,5000
0,4990
0,4993
0,4995
0,4996
0,4997
0,4998
0,4999
0,4999
0,4999
0,5000
0,5000
0,4990
0,4993
0,4995
0,4997
0,4998
0,4998
0,4999
0,4999
0,4999
0,5000
0,5000
2.
333
Area bajo la curva de Chi cuadrado, por encima de un valor de Chi cuadrado y gl grados de libertad. (Elaboracin propia)
gl
Ns
1
2
3
4
5
6
7
8
9
10
0,09
2,8744
4,8159
6,4915
8,0434
9,5211
10,9479
12,3372
13,6975
15,0342
16,3516
0,08
3,0649
5,0515
6,7587
8,3365
9,8366
11,2835
12,6912
14,0684
15,4211
16,7535
0,07
3,2830
5,3185
7,0603
8,6664
10,1910
11,6599
13,0877
14,4836
15,8537
17,2026
0,06
3,5374
5,6268
7,4069
9,0444
10,5962
12,0896
13,5397
14,9563
16,3459
17,7131
0,05
3,8415
5,9915
7,8147
9,4877
11,0705
12,5916
14,0671
15,5073
16,9190
18,3070
0,04
4,2179
6,4377
8,3112
10,0255
11,6443
13,1978
14,7030
16,1708
17,6083
19,0208
0,03
4,7093
7,0131
8,9473
10,7119
12,3746
13,9676
15,5091
17,0105
18,4796
19,9219
0,02
5,4119
7,8241
9,8374
11,6678
13,3882
15,0332
16,6224
18,1682
19,6790
21,1608
0,01
6,6349
9,2104
11,3449
13,2767
15,0863
16,8119
18,4753
20,0902
21,6660
23,2093
0,001
10,8274
13,8150
16,2660
18,4662
20,5147
22,4575
24,3213
26,1239
27,8767
29,5879
11
12
13
14
15
16
17
18
19
20
17,6526
18,9395
20,2140
21,4778
22,7319
23,9774
25,2150
26,4455
27,6695
28,8874
18,0687
19,3692
20,6568
21,9331
23,1992
24,4564
25,7053
26,9467
28,1813
29,4097
18,5334
19,8488
21,1507
22,4408
23,7202
24,9901
26,2514
27,5049
28,7512
29,9910
19,0614
20,3934
21,7113
23,0166
24,3108
25,5950
26,8701
28,1370
29,3964
30,6488
19,6752
21,0261
22,3620
23,6848
24,9958
26,2962
27,5871
28,8693
30,1435
31,4104
20,4120
21,7851
23,1423
24,4854
25,8161
27,1356
28,4449
29,7450
31,0367
32,3206
21,3416
22,7418
24,1249
25,4931
26,8480
28,1908
29,5227
30,8447
32,1577
33,4623
22,6179
24,0539
25,4715
26,8727
28,2595
29,6332
30,9950
32,3462
33,6874
35,0196
24,7250
26,2170
27,6882
29,1412
30,5780
31,9999
33,4087
34,8052
36,1908
37,5663
31,2635
32,9092
34,5274
36,1239
37,6978
39,2518
40,7911
42,3119
43,8194
45,3142
21
22
23
24
25
26
27
28
29
30
30,0998
31,3071
32,5096
33,7077
34,9015
36,0914
37,2777
38,4604
39,6398
40,8161
30,6322
31,8494
33,0616
34,2690
35,4721
36,6711
37,8662
39,0577
40,2456
41,4303
31,2246
32,4526
33,6754
34,8932
36,1065
37,3154
38,5202
39,7213
40,9187
42,1126
31,8949
33,1350
34,3696
35,5989
36,8235
38,0435
39,2593
40,4710
41,6789
42,8831
32,6706
33,9245
35,1725
36,4150
37,6525
38,8851
40,1133
41,3372
42,5569
43,7730
33,5972
34,8672
36,1310
37,3891
38,6417
39,8891
41,1318
42,3699
43,6038
44,8335
34,7593
36,0491
37,3323
38,6093
39,8804
41,1461
42,4066
43,6622
44,9132
46,1600
36,3434
37,6595
38,9683
40,2703
41,5660
42,8558
44,1399
45,4188
46,6926
47,9618
38,9322
40,2894
41,6383
42,9798
44,3140
45,6416
46,9628
48,2782
49,5878
50,8922
46,7963
48,2676
49,7276
51,1790
52,6187
54,0511
55,4751
56,8918
58,3006
59,7022
31
32
33
34
35
36
37
38
39
40
41
41,9895
43,1600
44,3278
45,4930
46,6558
47,8163
48,9744
50,1305
51,2845
52,4364
53,5865
42,6120
43,7906
44,9664
46,1395
47,3101
48,4782
49,6440
50,8074
51,9688
53,1280
54,2852
43,3033
44,4909
45,6755
46,8573
48,0364
49,2129
50,3869
51,5586
52,7280
53,8952
55,0603
44,0840
45,2815
46,4759
47,6674
48,8560
50,0420
51,2253
52,4060
53,5845
54,7606
55,9345
44,9853
46,1942
47,3999
48,6024
49,8018
50,9985
52,1923
53,3835
54,5722
55,7585
56,9424
46,0595
47,2817
48,5005
49,7159
50,9281
52,1372
53,3435
54,5470
55,7477
56,9459
58,1415
47,4024
48,6410
49,8759
51,1073
52,3350
53,5596
54,7811
55,9995
57,2151
58,4278
59,6379
49,2263
50,4867
51,7429
52,9953
54,2439
55,4889
56,7304
57,9689
59,2040
60,4361
61,6654
52,1914
53,4857
54,7754
56,0609
57,3420
58,6192
59,8926
61,1620
62,4281
63,6908
64,9500
61,0980
62,4873
63,8694
65,2471
66,6192
67,9850
69,3476
70,7039
72,0550
73,4029
74,7441
334
3.
Anexo. t-Student.
Area bajo la curva t-Student, por encima de un valor de t y gl grados de libertad (bilateral). (Elaboracin propia)
Ns
gl
0,09
0,08
0,07
0,06
0,05
0,04
0,03
0,02
0,01
0,001
1
7,0264 7,9158 9,0579 10,5789 12,7062
15,8945 21,2051 31,8210 63,6559
636,5776
2
3,1040 3,3198 3,5782
3,8964
4,3027
4,8487
5,6428
6,9645
9,9250
31,5998
3
2,4708 2,6054 2,7626
2,9505
3,1824
3,4819
3,8961
4,5407
5,8408
12,9244
4
2,2261 2,3329 2,4559
2,6008
2,7765
2,9985
3,2976
3,7469
4,6041
8,6101
5
2,0978 2,1910 2,2974
2,4216
2,5706
2,7565
3,0029
3,3649
4,0321
6,8685
6
2,0192 2,1043 2,2011
2,3133
2,4469
2,6122
2,8289
3,1427
3,7074
5,9587
7
1,9662 2,0460 2,1365
2,2409
2,3646
2,5168
2,7146
2,9979
3,4995
5,4081
8
1,9280 2,0042 2,0902
2,1892
2,3060
2,4490
2,6338
2,8965
3,3554
5,0414
9
1,8992 1,9727 2,0554
2,1504
2,2622
2,3984
2,5738
2,8214
3,2498
4,7809
10
1,8768 1,9481 2,0283
2,1202
2,2281
2,3593
2,5275
2,7638
3,1693
4,5868
11
12
13
14
15
16
17
18
19
20
1,8588
1,8440
1,8317
1,8213
1,8123
1,8046
1,7978
1,7918
1,7864
1,7816
1,9284
1,9123
1,8989
1,8875
1,8777
1,8693
1,8619
1,8553
1,8495
1,8443
2,0067
1,9889
1,9742
1,9617
1,9509
1,9417
1,9335
1,9264
1,9200
1,9143
2,0961
2,0764
2,0600
2,0462
2,0343
2,0240
2,0150
2,0071
2,0000
1,9937
2,2010
2,1788
2,1604
2,1448
2,1315
2,1199
2,1098
2,1009
2,0930
2,0860
2,3281
2,3027
2,2816
2,2638
2,2485
2,2354
2,2238
2,2137
2,2047
2,1967
2,4907
2,4607
2,4358
2,4149
2,3970
2,3815
2,3681
2,3562
2,3457
2,3362
2,7181
2,6810
2,6503
2,6245
2,6025
2,5835
2,5669
2,5524
2,5395
2,5280
3,1058
3,0545
3,0123
2,9768
2,9467
2,9208
2,8982
2,8784
2,8609
2,8453
4,4369
4,3178
4,2209
4,1403
4,0728
4,0149
3,9651
3,9217
3,8833
3,8496
21
22
23
24
25
26
27
28
29
30
1,7773
1,7734
1,7699
1,7667
1,7637
1,7610
1,7585
1,7561
1,7540
1,7520
1,8397
1,8354
1,8316
1,8281
1,8248
1,8219
1,8191
1,8166
1,8142
1,8120
1,9092
1,9045
1,9003
1,8965
1,8929
1,8897
1,8867
1,8839
1,8813
1,8789
1,9880
1,9829
1,9783
1,9740
1,9701
1,9665
1,9632
1,9601
1,9573
1,9546
2,0796
2,0739
2,0687
2,0639
2,0595
2,0555
2,0518
2,0484
2,0452
2,0423
2,1894
2,1829
2,1770
2,1715
2,1666
2,1620
2,1578
2,1539
2,1503
2,1470
2,3278
2,3202
2,3132
2,3069
2,3011
2,2958
2,2909
2,2864
2,2822
2,2783
2,5176
2,5083
2,4999
2,4922
2,4851
2,4786
2,4727
2,4671
2,4620
2,4573
2,8314
2,8188
2,8073
2,7970
2,7874
2,7787
2,7707
2,7633
2,7564
2,7500
3,8193
3,7922
3,7676
3,7454
3,7251
3,7067
3,6895
3,6739
3,6595
3,6460
40
50
60
70
80
90
100
110
120
130
1,7375
1,7289
1,7232
1,7192
1,7162
1,7138
1,7120
1,7105
1,7092
1,7081
1,7963
1,7870
1,7808
1,7765
1,7732
1,7707
1,7687
1,7670
1,7656
1,7645
1,8617
1,8516
1,8448
1,8401
1,8365
1,8337
1,8315
1,8297
1,8282
1,8270
1,9357
1,9244
1,9170
1,9118
1,9078
1,9048
1,9024
1,9004
1,8987
1,8973
2,0211
2,0086
2,0003
1,9944
1,9901
1,9867
1,9840
1,9818
1,9799
1,9784
2,1229
2,1087
2,0994
2,0927
2,0878
2,0839
2,0809
2,0784
2,0763
2,0746
2,2503
2,2338
2,2229
2,2152
2,2095
2,2050
2,2015
2,1986
2,1962
2,1942
2,4233
2,4033
2,3901
2,3808
2,3739
2,3685
2,3642
2,3607
2,3578
2,3554
2,7045
2,6778
2,6603
2,6479
2,6387
2,6316
2,6259
2,6213
2,6174
2,6142
3,5510
3,4960
3,4602
3,4350
3,4164
3,4019
3,3905
3,3811
3,3734
3,3670
200
300
400
500
600
700
800
900
1000
1,7036
1,7009
1,6995
1,6987
1,6981
1,6977
1,6975
1,6972
1,6970
1,7596
1,7566
1,7551
1,7543
1,7537
1,7532
1,7529
1,7527
1,7525
1,8217
1,8184
1,8168
1,8158
1,8152
1,8147
1,8143
1,8141
1,8139
1,8915
1,8879
1,8861
1,8851
1,8844
1,8838
1,8835
1,8832
1,8829
1,9719
1,9679
1,9659
1,9647
1,9639
1,9634
1,9629
1,9626
1,9623
2,0672
2,0627
2,0605
2,0591
2,0582
2,0576
2,0571
2,0567
2,0564
2,1857
2,1805
2,1779
2,1763
2,1753
2,1745
2,1740
2,1735
2,1732
2,3451
2,3388
2,3357
2,3338
2,3326
2,3317
2,3310
2,3305
2,3301
2,6006
2,5923
2,5882
2,5857
2,5841
2,5829
2,5820
2,5813
2,5807
3,3398
3,3232
3,3151
3,3101
3,3068
3,3044
3,3027
3,3014
3,3002
10000
20000
30000
40000
1,6956
1,6955
1,6955
1,6954
1,7509
1,7508
1,7507
1,7507
1,8121
1,8120
1,8120
1,8120
1,8810
1,8809
1,8809
1,8808
1,9602
1,9601
1,9600
1,9600
2,0540
2,0539
2,0538
2,0538
2,1704
2,1702
2,1702
2,1702
2,3267
2,3265
2,3265
2,3264
2,5763
2,5761
2,5760
2,5759
3,2915
3,2911
3,2908
3,2908
4.
335
N-k
100
200
300
400
500
600
700
800
900
1000
2000
3000
4000
5000
6000
7000
8000
9000
10000
11000
Ns
0,01
0,05
0,10
0,01
0,05
0,10
0,01
0,05
0,10
0,01
0,05
0,10
0,01
0,05
0,10
0,01
0,05
0,10
0,01
0,05
0,10
0,01
0,05
0,10
0,01
0,05
0,10
0,01
0,05
0,10
0,01
0,05
0,10
0,01
0,05
0,10
0,01
0,05
0,10
0,01
0,05
0,10
0,01
0,05
0,10
0,01
0,05
0,10
0,01
0,05
0,10
0,01
0,05
0,10
0,01
0,05
0,10
0,01
0,05
0,10
Area bajo la curva de F, por encima de un valor de F y K-1 gl (columnas) y N-K gl (filas). (Elaboracin propia)
k-1
1
2
3
4
5
6
7
8
9
10
11
6,8953
4,8239
3,9837
3,5127
3,2059
2,9877
2,8233
2,6943
2,5898
2,5033
2,4302
3,9362
3,0873
2,6955
2,4626
2,3053
2,1906
2,1025
2,0323
1,9748
1,9267
1,8857
2,7564
2,3564
2,1394
2,0019
1,9057
1,8339
1,7778
1,7324
1,6949
1,6632
1,6360
6,7633
4,7128
3,8810
3,4143
3,1100
2,8933
2,7298
2,6012
2,4971
2,4106
2,3375
3,8884
3,0411
2,6498
2,4168
2,2592
2,1441
2,0556
1,9849
1,9269
1,8783
1,8368
2,7308
2,3293
2,1114
1,9732
1,8763
1,8038
1,7470
1,7011
1,6630
1,6308
1,6031
6,7201
4,6766
3,8475
3,3822
3,0787
2,8625
2,6993
2,5709
2,4668
2,3804
2,3073
3,8726
3,0258
2,6347
2,4017
2,2441
2,1288
2,0402
1,9693
1,9112
1,8623
1,8206
2,7223
2,3203
2,1021
1,9637
1,8666
1,7938
1,7369
1,6908
1,6525
1,6201
1,5922
6,6987
4,6586
3,8309
3,3664
3,0632
2,8472
2,6842
2,5559
2,4518
2,3654
2,2923
3,8648
3,0183
2,6272
2,3943
2,2366
2,1212
2,0325
1,9616
1,9033
1,8544
1,8126
2,7181
2,3159
2,0975
1,9590
1,8617
1,7889
1,7318
1,6856
1,6472
1,6147
1,5867
6,6858
4,6479
3,8210
3,3569
3,0540
2,8381
2,6751
2,5469
2,4429
2,3565
2,2833
3,8601
3,0138
2,6227
2,3898
2,2320
2,1167
2,0279
1,9569
1,8986
1,8496
1,8078
2,7156
2,3132
2,0948
1,9561
1,8588
1,7859
1,7288
1,6825
1,6441
1,6115
1,5835
6,6773
4,6407
3,8144
3,3506
3,0478
2,8321
2,6691
2,5409
2,4369
2,3505
2,2773
3,8570
3,0107
2,6198
2,3868
2,2290
2,1137
2,0248
1,9538
1,8955
1,8465
1,8046
2,7139
2,3114
2,0929
1,9543
1,8569
1,7840
1,7268
1,6805
1,6420
1,6094
1,5813
6,6713
4,6356
3,8097
3,3460
3,0434
2,8278
2,6648
2,5367
2,4327
2,3463
2,2731
3,8548
3,0086
2,6176
2,3847
2,2269
2,1115
2,0226
1,9516
1,8932
1,8442
1,8023
2,7127
2,3102
2,0916
1,9529
1,8555
1,7825
1,7253
1,6790
1,6405
1,6079
1,5797
6,6667
4,6318
3,8062
3,3427
3,0402
2,8245
2,6617
2,5335
2,4295
2,3431
2,2699
3,8531
3,0070
2,6160
2,3831
2,2253
2,1099
2,0210
1,9500
1,8916
1,8425
1,8006
2,7118
2,3092
2,0906
1,9519
1,8545
1,7815
1,7243
1,6779
1,6394
1,6067
1,5786
6,6631
4,6288
3,8034
3,3401
3,0376
2,8220
2,6592
2,5310
2,4270
2,3406
2,2674
3,8518
3,0057
2,6148
2,3818
2,2240
2,1086
2,0197
1,9487
1,8903
1,8412
1,7993
2,7111
2,3085
2,0899
1,9511
1,8537
1,7807
1,7234
1,6770
1,6385
1,6058
1,5777
6,6603
4,6264
3,8012
3,3380
3,0356
2,8200
2,6572
2,5290
2,4250
2,3386
2,2655
3,8508
3,0047
2,6138
2,3808
2,2231
2,1076
2,0187
1,9476
1,8892
1,8402
1,7982
2,7106
2,3079
2,0893
1,9505
1,8530
1,7800
1,7227
1,6764
1,6378
1,6051
1,5770
6,6476
4,6158
3,7914
3,3286
3,0264
2,8110
2,6482
2,5201
2,4162
2,3298
2,2566
3,8461
3,0002
2,6094
2,3764
2,2186
2,1031
2,0142
1,9430
1,8846
1,8354
1,7934
2,7080
2,3052
2,0865
1,9477
1,8502
1,7771
1,7197
1,6733
1,6347
1,6019
1,5737
6,6433
4,6123
3,7882
3,3254
3,0233
2,8080
2,6453
2,5172
2,4132
2,3268
2,2536
3,8446
2,9987
2,6079
2,3749
2,2171
2,1016
2,0126
1,9415
1,8830
1,8339
1,7918
2,7072
2,3044
2,0856
1,9467
1,8492
1,7761
1,7187
1,6722
1,6336
1,6008
1,5726
6,6412
4,6105
3,7865
3,3239
3,0218
2,8065
2,6438
2,5157
2,4118
2,3253
2,2522
3,8438
2,9980
2,6071
2,3742
2,2163
2,1009
2,0119
1,9407
1,8822
1,8331
1,7910
2,7068
2,3039
2,0852
1,9463
1,8487
1,7756
1,7182
1,6717
1,6331
1,6003
1,5721
6,6400
4,6094
3,7855
3,3229
3,0209
2,8056
2,6429
2,5148
2,4109
2,3245
2,2513
3,8433
2,9975
2,6067
2,3737
2,2159
2,1004
2,0114
1,9403
1,8818
1,8326
1,7906
2,7065
2,3036
2,0849
1,9460
1,8484
1,7753
1,7179
1,6714
1,6328
1,6000
1,5718
6,6391
4,6087
3,7849
3,3223
3,0203
2,8050
2,6423
2,5142
2,4103
2,3239
2,2507
3,8430
2,9972
2,6064
2,3734
2,2156
2,1001
2,0111
1,9400
1,8814
1,8323
1,7902
2,7064
2,3035
2,0847
1,9458
1,8482
1,7751
1,7177
1,6712
1,6326
1,5998
1,5715
6,6385
4,6082
3,7844
3,3218
3,0199
2,8045
2,6419
2,5138
2,4098
2,3234
2,2502
3,8428
2,9970
2,6062
2,3732
2,2154
2,0999
2,0109
1,9397
1,8812
1,8321
1,7900
2,7063
2,3033
2,0846
1,9457
1,8481
1,7749
1,7176
1,6711
1,6324
1,5996
1,5714
6,6381
4,6078
3,7841
3,3215
3,0195
2,8042
2,6415
2,5135
2,4095
2,3231
2,2499
3,8426
2,9969
2,6060
2,3730
2,2152
2,0997
2,0107
1,9396
1,8811
1,8319
1,7898
2,7062
2,3032
2,0845
1,9456
1,8480
1,7748
1,7175
1,6710
1,6323
1,5995
1,5713
6,6377
4,6075
3,7838
3,3212
3,0193
2,8040
2,6413
2,5132
2,4093
2,3229
2,2497
3,8425
2,9967
2,6059
2,3729
2,2151
2,0996
2,0106
1,9394
1,8809
1,8318
1,7897
2,7061
2,3032
2,0844
1,9455
1,8479
1,7748
1,7174
1,6709
1,6322
1,5994
1,5712
6,6374
4,6073
3,7836
3,3210
3,0191
2,8038
2,6411
2,5130
2,4091
2,3227
2,2495
3,8424
2,9966
2,6058
2,3728
2,2150
2,0995
2,0105
1,9393
1,8808
1,8316
1,7896
2,7060
2,3031
2,0843
1,9454
1,8478
1,7747
1,7173
1,6708
1,6321
1,5994
1,5711
6,6372
4,6071
3,7834
3,3209
3,0189
2,8036
2,6409
2,5129
2,4089
2,3225
2,2493
3,8423
2,9965
2,6057
2,3727
2,2149
2,0994
2,0104
1,9393
1,8807
1,8316
1,7895
2,7060
2,3031
2,0843
1,9454
1,8478
1,7746
1,7173
1,6708
1,6321
1,5993
1,5710
12
2,3676
1,8503
1,6124
2,2747
1,8008
1,5789
2,2444
1,7845
1,5679
2,2294
1,7764
1,5623
2,2204
1,7716
1,5590
2,2144
1,7683
1,5568
2,2102
1,7660
1,5552
2,2070
1,7643
1,5540
2,2045
1,7629
1,5531
2,2025
1,7618
1,5524
2,1936
1,7570
1,5491
2,1907
1,7554
1,5480
2,1892
1,7546
1,5474
2,1883
1,7541
1,5471
2,1877
1,7538
1,5469
2,1873
1,7536
1,5467
2,1870
1,7534
1,5466
2,1867
1,7532
1,5465
2,1865
1,7531
1,5464
2,1864
1,7531
1,5464
336
5.
55
92
16
29
27
55
58
45
50
51
89
19
11
29
02
37
92
46
35
42
38
49
35
53
42
50
48
53
31
39
18
59
90
22
96
80
97
05
70
59
74
17
04
21
71
01
07
26
33
47
73
86
60
62
35
20
06
56
28
54
55
92
16
29
27
55
58
45
50
51
81
30
51
66
92
67
41
53
80
23
54
80
38
88
12
93
34
95
83
17
89
94
22
18
67
03
29
43
14
53
96
70
41
74
51
56
08
36
03
59
74
16
65
94
01
67
88
21
87
90
89
19
34
39
26
60
50
68
66
50
67
11
12
84
47
03
56
68
40
34
13
82
80
09
94
08
09
60
39
35
21
58
98
17
13
30
13
02
41
22
31
04
08
40
44
61
53
72
83
78
24
43
50
05
66
08
16
24
20
46
80
65
80
36
70
49
70
86
32
37
64
17
50
69
78
51
38
91
32
20
06
67
10
46
16
04
73
36
64
23
76
48
52
06
51
46
10
09
13
34
49
21
82
58
60
32
16
28
17
72
26
20
75
24
55
85
18
79
08
22
76
24
87
44
91
17
98
12
14
76
64
17
50
69
78
51
38
91
32
20
06
67
10
46
16
04
73
36
64
23
76
48
52
06
51
46
10
09
13
34
49
21
82
58
60
32
16
28
17
72
26
20
75
24
55
85
18
79
08
22
76
24
87
44
91
17
98
12
14
76
80
53
56
97
80
58
38
12
99
37
78
03
63
75
51
99
82
79
63
45
34
37
73
71
90
87
32
24
64
32
10
06
50
29
41
38
80
12
28
57
71
92
42
97
77
40
50
97
80
89
61
93
03
73
10
69
85
15
33
77
59
70
37
96
19
48
60
04
57
04
27
19
31
84
61
69
52
65
17
07
23
58
03
44
74
07
87
29
50
74
27
16
45
22
19
76
09
37
78
54
39
43
44
13
66
90
33
51
75
08
40
20
45
98
36
65
63
73
14
61
52
42
39
21
67
40
76
69
31
18
81
21
86
81
16
48
86
22
57
45
02
10
87
96
43
99
31
88
73
24
96
51
27
15
37
81
03
62
33
30
11
25
67
31
96
62
90
52
56
23
69
15
50
48
03
53
36
63
30
20
52
42
39
21
67
40
76
69
31
18
81
21
86
81
16
48
86
22
57
45
02
10
87
96
43
99
31
88
73
24
96
51
27
15
37
81
03
62
33
30
11
25
67
31
96
62
90
52
56
23
69
15
50
48
03
53
36
63
30
20
68
41
54
65
61
49
85
32
93
23
91
64
06
32
85
05
43
45
12
79
58
36
38
34
29
27
10
86
54
69
55
69
18
19
47
21
92
01
41
14
12
37
99
31
04
61
34
53
13
10
80
94
83
50
84
33
82
20
12
91
21
96
41
25
36
61
77
81
05
12
68
25
11
95
69
88
30
15
14
97
63
73
39
47
68
26
82
33
96
07
11
46
22
82
31
99
28
80
12
81
47
80
09
64
67
88
69
25
15
77
71
45
50
26
42
60
05
38
39
04
41
92
84
60
58
80
33
23
69
51
83
66
72
15
40
96
93
68
16
73
38
46
52
38
13
98
13
73
34
84
82
95
05
86
27
45
59
57
07
31
07
26
67
20
62
29
64
78
04
54
13
57
01
51
92
38
09
06
98
57
41
92
84
60
58
80
33
23
69
51
83
66
72
15
40
96
93
68
16
73
38
46
52
38
13
98
13
73
34
84
82
95
05
86
27
45
59
57
07
31
07
26
67
20
62
29
64
78
04
54
13
57
01
51
92
38
09
06
98
57
68
41
54
65
61
49
85
32
93
23
91
64
06
32
85
05
43
45
12
79
58
36
38
34
29
27
10
86
54
69
55
69
18
19
47
21
92
01
41
14
12
37
99
31
04
61
34
53
13
10
80
94
83
50
84
33
82
20
12
91
21
96
41
25
36
61
77
81
05
12
68
25
11
95
69
88
30
15
14
97
63
73
39
47
68
26
82
33
96
07
11
46
22
82
31
99
28
80
12
81
47
80
09
64
67
88
69
25
15
77
71
45
50
26
42
60
05
38
39
04
41
92
84
60
58
80
33
23
69
51
83
66
72
15
40
96
93
68
16
73
38
46
52
38
13
98
13
73
34
84
82
95
05
86
27
45
59
57
07
31
07
26
67
20
62
29
64
78
04
54
13
57
01
51
92
38
09
06
98
57
41
92
84
60
58
80
33
23
69
51
83
66
72
15
40
96
93
68
16
73
38
46
52
38
13
98
13
73
34
84
82
95
05
86
27
45
59
57
07
31
07
26
67
20
62
29
64
78
04
54
13
57
01
51
92
38
09
06
98
57
ERRNVPHGLFRVRUJ
337