Documentos de Académico
Documentos de Profesional
Documentos de Cultura
matemática de la curva de probabilidad integral. Laplace y Gauss demostraron el valor práctico de la curva
típica de la distribución de errores cometidos en las observaciones. Quetelet aplicó esta curva a datos de
tipo social y biológico originando la Antropometría. Galton, precursor de la Psicometría en psicología,
extendió la estadística a datos de tipo genético para el estudio de la herencia de los caracteres somáticos y
sus diferencias individuales. De él procede la escuela inglesa de estadísticos y biometristas: Pearson, Yule,
Spearman, Student, Thurstone. La otra tendencia es la demográfica con Süssmilch y sus leyes de
movimiento de la población.
c. Divisiones de la estadística: estadística descriptiva e inferencial.
La Estadística proporciona los medios para reunir, analizar e interpretar grandes cantidades de datos que, la
mayoría de las empresas y reparticiones gubernamentales, deben procesar en esta era científica. Existen
dos tipos de Estadísticas:
❖ Estadística descriptiva o paramétrica: Es la rama de la estadística que partiendo de un conjunto de
datos, obtiene conclusiones que no rebasan el conjunto de conocimientos que nos proporcionan estos
datos. La estadística descriptiva sirve para reducir una gran cantidad de datos hasta un punto en que
pueda verse claramente la información. Para esto se emplean tabulaciones, porcentajes, medidas
descriptivas, gráficos, etc.
Tratan de abarcar el análisis de toda la población. Los datos que se obtienen del estudio de dicha
población, se denominan “parámetros”.
❖ Estadística inferencial o muestral o inductiva o no paramétrica: Es la rama de la estadística que
utilizamos cuando las conclusiones rebasan los límites del conjunto de datos aportados y nos
permiten inferir, en términos de probabilidad, valores para la población de donde provienen los datos.
La estadística inferencial se utiliza cuando, por razones de índole práctico, no se puede acceder a los
datos de la población. Estas razones pueden ser el factor tiempo-costo o que la población sea infinita o
difícil de definir. En éstos casos, lo más adecuado es, a partir de los datos de una muestra
probabilística, elaborar conclusiones que valgan para la población con un cierto grado de probabilidad,
determinado por herramientas específicas.
Cuando no es posible trabajar con toda la población, obtenemos una muestra representativa de la
misma y a partir de ella, inferimos datos que deben ser aplicables a toda la población. Los datos que se
obtienen de las muestras se denominan “estadísticos”.
La diferencia, entonces, entre un dato estadístico y un parámetro, es que el primero abarca una muestra de
la población; mientras que el segundo, a una población en su totalidad.
Otra explicación: La Estadística Descriptiva describe valores que se hallan, considerando todas las
observaciones del grupo definido que se llama población, para una determinada variable. Pero casi nunca
se puede medir a todos los integrantes de la población, generalmente se extrae una muestra representativa
y calculamos en ella los valores que la describen. Cuando se puede trabajar con toda la población de
observaciones, los valores descriptivos hallados se llaman “parámetros”; cuando se trabaja con muestra,
los valores descriptivos hallados se llaman “estadísticos”. Los estadísticos son estimadores de los
parámetros.
d. La estadística y la investigación en las ciencias sociales y de la conducta.
La estadística permite conocer y medir individuos u observaciones bajo 2 puntos de vista:
1) En función a características del grupo y no a cualidades particulares, dando:
a) Conocimiento preciso de la composición del grupo por relevamiento de la característica medida. Esto nos
permite saber en un grupo determinado qué cantidad de sujetos poseen las características particular o
cómo se distribuyen los individuos en el grupo, de acuerdo a la intensidad de la característica medida. b)
Conocimiento de cualidades abstractas ligadas al grupo mediante el cálculo resumido en:
1. La media o valor central típico del grupo.
3
▪ Cuantitativas: Son expresiones numéricas de algunas propiedades de los fenómenos que pueden
medirse con número. Por ejemplo: edad, peso, estatura, distancia.
▪ Cualitativas: Son atributos que expresan propiedades de los fenómenos que se pueden describir
cualitativamente, no están representados por números. Por ejemplo: nacionalidad, cargo que ocupa.
▪ Discretas: Son aquellas que sólo toman ciertos valores y no admiten valores intermedios. Se trabaja con
números enteros. Por ejemplo: cantidad de hijos. Se pueden contar pero no medir.
▪ Continua: Puede tomar cualquier valor en el intervalo considerado, cuando entre 2 valores sucesivos de
la variable, tan cercanos como se quiera, existen infinitos valores intermedios. La variable continua
puede asumir un valor en cualquier punto o fracción de un intervalo ya especificado. Por ejemplo:
medidas (1,60 - 1,65 - 1,80). Se pueden medir pero no contar.
Se pueden combinar las variables determinando:
Cuantitativa discreta: cantidad de hijos
Cualitativa discreta: materia preferida
Cuantitativa continua: peso-estatura
Cualitativa continua: calificaciones escolares
f. Medición: Escalas. Tipos de escalas.
Es importante señalar que toda variable, ya sea cuantitativa o no, debe medirse de alguna manera. Es por
esto que se amplía el concepto de medición para incluir en él ciertos procedimientos menos precisos, de
empleo corriente en las ciencias sociales y humanas. Estos procedimientos se basan en instrumentos
denominados escalas.
Una escala es un instrumento que sirve para establecer una cantidad de un fenómeno, objeto o
característica. Las escalas tendrán diferentes tipos de precisión y el grado de ésta precisión dependerá de
las características del fenómeno a medir. Cada escala está formada por clases o categorías, cuya forma
dependerá de la naturaleza de la variable que se está tratando de medir, teniendo en cuenta que las
variables pueden ser cuantitativas, cualitativas, discretas o continuas.
De acuerdo a la naturaleza de la variable existen diferentes escalas que permitirán la medición de cada tipo.
Dentro de las ciencias sociales y en el ámbito educativo es relevante tener en cuenta 3 tipos de escalas:
• Escala nominal: es la escala cuyas características simplemente nombran. Es un instrumento que
consiste en aplicar números u otros símbolos para clasificar los objetos, personas o características. Se
dan a las características nombres arbitrarios a manera de etiqueta. Por ejemplo: “Exámenes que deben
tomarse en el turno de febrero”
Áreas de 7º grado f
Lengua 10
Matemática 12
Cs. Sociales 11
Cs. Naturales 10
• Escala ordinal: es la escala, cuyas categorías, además de nombrar presentan un orden entre sí. Estas
categorías pueden ser numéricas o cualitativas. Es un instrumento que sirve para establecer la cantidad
de un fenómeno, objeto o características, basándose en la aplicación de números u otros símbolos,
para clasificar de acuerdo a un criterio de orden de sucesión. Éste orden establece relaciones que
pueden formularse con el signo “mayor que”. En cuanto escalas particulares, el signo “mayor que”
puede usarse para designar “es preferible a”, “es más alto que”, “es más difícil que”, etc. Su significado
específico depende de la naturaleza de la relación que define la escala. Por ejemplo:
5
Cuando hay que distinguir si usamos escala ordinal o intervalar hay dos criterios a considerar:
1 Gran cantidad de datos
2 Amplitud entre el dato mayor y el dato menor
Para utilizar la escala intervalar se tienen que dar las dos condiciones juntas, si alguna no se da, es escala
ordinal. Para confeccionarlas, es conveniente utilizar entre 10 y 20 intervalos, el mínimo es 10 y el máximo
es 20. El límite superior de cada intervalo debe coincidir con el límite inferior del intervalo siguiente. Todos
los intervalos deben tener la misma amplitud. Si un dato coincide con el límite superior de un intervalo se
ubica en el intervalo de abajo.
Cuando los datos son menos de 50, no conviene agruparlos.
g. Posibilidades de medición en la psicología: Psicoestadística. Observaciones cuantitativas en psicología
y en ciencias sociales.
Cortada de Kohan afirma que la medición es posible, justificando esta afirmación con los conceptos de
medición e isomorfismo. Afirma que la medición es posible diciendo que: “Todo lo que existe, existe en
alguna cantidad”. La comparación es la base del conocimiento y los juicios cuantitativos son inseparables de
la comparación, por lo tanto, absolutamente necesarios para la ciencia. La medida es el arma esencial de la
investigación científica, ya que con el progreso de la ciencia, los problemas se presentan cada vez más
complejos y no es posible resolverlos con la mera inspección y observación de los hechos. Las relaciones
entre los fenómenos son a menudo tan disimuladas por los diversos factores, que es necesario iluminarlos
con una medición delicada de los mismos.
La estadística trata, de manera elaborada y precisa, problemas de la realidad, cuando es posible realizar
numerosas observaciones y cuando se sospecha que la variación, entre las frecuencias de las
observaciones, es significativa e influida por el azar. Por lo tanto, investiga fenómenos que se presentan en
gran número, en condiciones complejas y que presentan entre sí, pequeñas variaciones influidas por el
azar.
La medición es un proceso básico de la ciencia que consiste en comparar un patrón seleccionado con el
objeto o fenómeno, cuya magnitud física se desea medir, para ver cuántas veces el patrón está contenido
en esa magnitud. El concepto matemático de isomorfismo (del griego iso-morfos: igual forma) pretende
captar la idea de tener la misma estructura. El descubrimiento de un isomorfismo entre dos estructuras,
significa esencialmente que el estudio de cada una puede reducirse al de la otra, lo que nos da dos puntos
de vistas diferentes sobre cada cuestión y suele ser esencial, en su adecuada comprensión. También
significa una analogía, como una forma de inferencia lógica, basada en la asunción de que dos cosas son la
misma en algunos aspectos, aquel sobre los que está hecha la comparación. En ciencias sociales, un
isomorfismo consiste en la aplicación de una ley análoga, por no existir una específica. Es, por ejemplo, la
comparación de un sistema biológico con un sistema social, cuando se trata de definir la palabra “sistema”;
lo es igualmente, la imitación o copia de una estructura tribal en un hábitat con estructura urbana. En
conclusión si “Todo lo que existe, existe en cierta cantidad” en la investigación científica es esencial la
medición de fenómenos, porque permite ver si hay variaciones, si son concomitantes, si se
relacionan. Cuando un físico mide, asigna números a las observaciones, los números pueden
analizarse por manipulaciones como contar o medir, según ciertas reglas. El psicólogo intenta hacer lo
mismo midiendo variables de comportamiento, pero para operar con los números que asigna a las
observaciones, la estructura de asignar números debe ser isomórfica. Para eso hay que entender la
naturaleza de la matemática.
Toda rama de las matemáticas comienza con un conjunto de postulados. Un postulado es un juicio que
establece relaciones entre objetos. Un postulado es útil por las conclusiones que podemos sacar de él. En
un sistema de postulados no debe haber dos que se contradigan y no deben repetirse. Las deducciones
lógicas que se sacan de los postulados son los teoremas.
Postulados y teoremas están en el reino de las ideas, no refieren al mundo real. La función de las
matemáticas es proveer modelos convenientes para describir la naturaleza, pero esta no puede ser
7
descripta exactamente por modelos matemáticos, toda descripción es una aproximación. La naturaleza no
obedece a leyes matemáticas pero su estructura posee propiedades que son similares, paralelas a la
estructura de los sistemas lógicos matemáticos. Existe un isomorfismo o equivalencia de estructuras.
Etapas de una investigación estadística
1. Elaboración del Diseño de Investigación: Será distinta si es de tipo descriptiva o explicativa.
Hay que planear que instrumentos se utilizarán (encuestas, censos, test); como se utilizarán los resultados,
sistema de codificación, tipo de tabulación (manual o mecanizada)
2. Compilación de los datos: Relevamiento de la población o muestra. Datos primarios y secundarios.
Listado de la población y selección de la muestra. Enumeración de los datos.
3. Sistematización de los datos: Tabulación, preparación de cuadros y gráficos, presentación general.
4. Análisis estadístico: Hallar los estadísticos relativos a la tendencia central, variabilidad asimetría,
error estándar; inferencias para la población respectiva, estimaciones, decisiones respecto al margen de
error aceptable etc.
Unidad II: TEORIA DEL MUESTREO
a. Fundamentos teóricos del muestreo.
La muestra en Estadística es una parte o un subconjunto de elementos representativos de la población que
se ha seleccionado para el análisis. Su tamaño se denota por “N”. El proceso de obtener una muestra se
denomina “muestreo”. La selección y el estudio de una muestra tienen por objeto la extracción de
conclusiones, que sean válidas para la población de la cual se obtuvo esa muestra.
El muestreo se basa en la Teoría de las Muestras. En esencia, consiste en obtener información acerca de un
amplio grupo o universo, valiéndose de una parte representativa del mismo. A partir de los valores que se
obtienen en las muestras, inferimos los valores más probables para las poblaciones de las cuales provienen
dichas muestras. El muestreo es uno de los componentes más importantes en la Estadística porque
proporciona los medios para reunir, analizar e interpretar grandes cantidades de datos.
Utilidad del muestreo.
Se muestrea para obtener información detallada en un lapso de tiempo más breve. También permite
reducir costos y personal, con información de importancia básica. Además, consigna datos que quizás no
podrían lograrse de otro modo y que esos datos sean completos y precisos. Las conclusiones obtenidas en
la muestra permiten:
A. Probar hipótesis válidas para la población, con la información de la muestra.
B. Estimar características de la población a partir de datos estadísticos.
Las ventajas del muestreo son:
✔ Costos reducidos: Si los datos se obtienen únicamente de una pequeña fracción, los gastos son menores
que los que se realizarían si se llevara a cabo con una enumeración completa.
✔ Mayor rapidez para obtener resultados: Por la misma razón, los datos pueden ser recolectados y
reunidos más rápidamente. Esta es una consideración vital cuando se necesita la información con
urgencia.
✔ Mayor exactitud o mejor calidad de la información: Al reducir el volumen de trabajo, se empleará
menos personal y más capacitado.
Precisión.
Diferencia entre “precisión” y “exactitud” en el cálculo.
Exactitud Precisión
8
5) Investigar la eficiencia relativa de distintos tipos de muestras, según el grado de precisión especificado,
considerando los temas de costo, de tiempo, administrativos.
6) Preparar los cuestionarios o formularios de antemano para que se obtengan respuestas correctas para
las preguntas que se formulan. Lo más conveniente es realizar un ensayo preliminar con los formularios,
cuestionarios e instrucciones de las tabulaciones.
7) Realizar la encuesta programada, seleccionar las unidades de muestreo, recoger los datos, tabularlos,
analizarlos, interpretarlos e informar a las superioridades que correspondan.
d. Tipos de muestreos aleatorios (probabilístico): Muestreo por azar simple, muestreo sistemático,
muestreo estratificado y muestreo por conglomerados. Muestreo plurietápico.
Azar simple: Requiere que todos los elementos tenga la misma oportunidad de ser seleccionados en una
muestra. Ejemplo: Un club de barrio decide sortear por su aniversario, 10 conjuntos deportivos entre sus
socios. Para que la elección sea transparente, se utiliza el registro total de los miembros con su número de
socio. Son colocados en una urna, de la que se extraerá al azar los 10 números, sin poder observar a
quiénes pertenecen. Los ganadores de los conjuntos deportivos serán los números extraídos.
Azar sistemático: Requiere que los elementos de la población, sobre la que se realiza el muestreo, estén
ordenados y luego sean posibles de ser elegidos, a partir de ciertos intervalos preestablecidos por el
investigador. Ejemplo: El director de una empresa necesita seleccionar entre sus 700 empleados, a 70 de
ellos como muestra para responder a un cuestionario de mejora de trabajo. Utiliza la lista completa de los
700 empleados, dividiéndola en el número de muestras que necesita, es decir, 70; esto le da como
resultado el intervalo que tendrá entre los empleados elegidos, que es de 10. Como primer paso elegirá al
azar un número entre los 10 primeros empleados, y a partir de allí se contará un intervalo de 10 empleados
sucesivamente: 1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9 – 10 – 11 – 12 – 13 – 14 – 15 – 16 – 17 – 18 – 19 – 20 – 21 –
22 – 23 – 24 – 25 – 26 – 27 – 28 – 29 – 30 – 31 – 32 – 33 – 34 – 35 – 36 – 37 – 38 – 39 – 40 – 41 – 42 – 43 –
44 – 45 – 46 – 47 – 48 – 49 – 50 – 51
Estratificado: Se obtiene ordenando el universo por estratos, cuya característica fundamental es que las
entidades sean lo más homogéneas posibles entre sí; y los más heterogéneas posibles entre los distintos
estratos. Ejemplo: En un criadero de perros, que cuenta con distintas razas, se necesita saber cuánto come
de alimento balanceado un perro adulto, por día. Para lo mismo, se agrupó las distintas variedades en
grupos homogéneos. Esto debe realizarse porque las razas tienen distinto tamaño, peso y actividades.
Luego, dentro de cada estrato, se seleccionan las muestras de forma aleatoria.
Por conglomerado: El objeto del método por conglomerados consiste en dividir la población en sectores
llamados conglomerados, cuya característica fundamental es que las entidades sean lo más heterogéneas
posibles entre sí, dentro de cada conglomerado; y lo más homogéneas posibles, entre conglomerados.
Ejemplo: Se desea obtener una muestra de 4.000 viviendas para estudiar sus características en una ciudad
de 100.000 viviendas. Por tanto se puede dividir en manzanas definidas dentro del plano de la ciudad y
seleccionar aleatoriamente entre las manzanas. Las viviendas incluidas en ellas formarán parte de la
muestra. En este caso los conglomerados son las manzanas.
Plurietápico: Se caracteriza porque la selección aleatoria se realiza en cada una de varias etapas. Por esto,
las unidades de muestreo son diferentes en cada una de ellas. Se utiliza cuando no se dispone de una lista
de los elementos que son objeto de estudio, pero pueden localizarse mediante otras unidades de
muestreo. Por ejemplo: alumnos de tercer grado de las escuelas públicas, en donde las unidades de las que
se dispone información, o sea una lista, son las escuelas públicas. e. Errores del muestreo.
El error de muestreo o error muestral es la diferencia que existe entre los datos de la muestra y los datos
de la población. Siempre que calculamos algo a partir de una muestra, es muy improbable que el cálculo
sea exactamente igual a la cifra que se obtiene realizando la investigación en el 100% de los sujetos
involucrados. Esta diferencia es el error de muestreo.
Los tipos de errores de muestreo más importantes son:
10
A. Errores de información y procesamiento: Los datos básicos pueden presentarse mal proporcionados,
asentados, copiados, codificados u omitidos. Por ejemplo: la paradoja estadística bien conocida que la
edad media de las mujeres mayores de 40 años, es menor de 40 años.
B. Errores por falta de respuestas: Son los que se dan por utilizar datos provistos por algunas personas,
suponiendo que los ausentes tienen las mismas características. Por ejemplo: opiniones de personas que
no están en sus casas porque trabajan.
C. Errores en la selección de las muestras: Se vincula con la selección incorrecta y anticipada de las
unidades de muestreo. Esta categoría comprende las muestras parciales, dirigidas y por cuotas, elegidas
por razones de conveniencia y no de la selección al azar.
Los errores son más frecuentes en muestras no probabilísticas por la imposibilidad de controlarlos; en
cambio en las probabilísticas, los errores se controlan satisfactoriamente si las unidades del universo
estadístico tienen las mismas posibilidades de ser seleccionadas.
También puede darse que el error de muestreo sea más grande de lo esperable, si la muestra no se
planifica o se realiza mal. Se llama muestra “anómala” cuando arroja resultados falsos. f.
Situaciones para la utilización de muestreos.
Las limitaciones que presenta el muestreo, según Slonim son las siguientes:
1. El muestreo no es posible cuando se requiere conocimiento acerca de cada una de las unidades de un
universo estadístico.
2. Además, en muchas situaciones, las unidades a medir son tan raras y su variabilidad es tan grande, que
hacer una muestra sería un derroche de dinero.
OTRAS PREGUNTAS DE TRABAJOS PRÁCTICOS Y PARCIALES
¿Se puede obtener una muestra representativa que no sea probabilística? ¿Por qué?
No se puede obtener una muestra representativa que no sea probabilística. Esto es porque para que sea
representativa de la población, debe poseer sus mismas características, y el procedimiento que la garantiza,
es su conformación al azar. La muestra no probabilística, como supone una selección cuidadosa y
controlada, no resulta representativa, ni sus datos generalizables.
¿Qué implica el supuesto de independencia dentro de una muestra aleatoria? Comente un caso donde
dicho supuesto se viole.
Dentro de una muestra aleatoria, el “supuesto de independencia” es el requisito de dar a cada elemento
de la población, la misma probabilidad de ser elegido para la muestra. La elección de un elemento no
condiciona la elección de los restantes. Un caso donde se viole este supuesto sería el caso del investigador
que desea realizar un estudio sobre el consumo de un producto de limpieza y como muestra sólo tendrá a
mujeres amas de casa que concurren con frecuencia a un supermercado. El investigador no tendrá en
cuenta otras características de las mujeres estudiadas, salvo la condición de ama de casa.
¿Cuáles son las ventajas y desventajas del muestreo por conglomerados?
Ventajas: En el caso de que sea necesario trasladarse muy lejos desde un entrevistado a otro entrevistado,
si disponemos de un muestreo por conglomerado, los entrevistados estarán muy cerca entre sí. Por eso
resulta más económica en tiempo, dinero y recursos humanos.
Desventajas: Están relacionadas a los errores que surgen cuanto más grande es el tamaño del
conglomerado.
¿Cómo debe ser la homogeneidad y cómo la heterogeneidad en los muestreos estratificados y por
conglomerados?
Muestreo Homogeneidad Heterogeneidad
Estratificado Interna: Las entidades del estrato deben ser Externa: Los estratos deben ser los más
lo más homogéneas posibles dentro de sí. heterogéneos posibles entre uno y otro.
11
Conglomerado Externa: Los conglomerados deben ser lo Interna: Las entidades del conglomerado
más homogéneos posibles entre uno y otro. deben ser lo más heterogéneas posibles
dentro de sí.
¿En qué consiste el programa Stats, según Hernández Sampieri?
Es un programa para generar números aleatorios que evita el uso de la tabla. El programa nos pide que se
le indiquemos ¿cuántos números aleatorios? (requerimos), entonces tecleamos el tamaño de muestras.
Nos solicita el límite inferior, que siempre será 1; y el límite superior, que es el último número de la
población. Nos genera números al azar, que serían los casos que pasarían a integrar la muestra. Así, se logra
tener una muestra probabilística.
¿En qué casos no es tan importante efectuar el reemplazo en el muestreo al azar simple? Brinde un
ejemplo.
En el muestreo al azar simple, la cantidad de unidades del universo estadístico pueden ser finitas; sin
embargo, éste puede consistir en una cantidad de unidades infinitas. Cuando se realiza muestra de
universo finito se trabaja con muestras “con reemplazo”; en cambio, cuando investigamos un universo
infinito, el proceso se denomina “muestreo sin reemplazo”.
Entonces, el reemplazo no es tan importante hacerlo, cuando es grande la diferencia entre el número de
los elementos de la población y el número de elementos de la muestra.
Por ejemplo: si tenemos un bolillero con papelitos numerados del 1 al 100, la probabilidad de extraer un
papelito para cada uno sería 1/100 o el 1%. Cuando el reemplazo no se efectúa, la probabilidad sería, para
el segundo de 1/99; para el tercero, 1/98; para el cuarto, 1/97 y así sucesivamente. En este caso, no es
necesario efectuar el reemplazo, ya que los datos tomados de los papelitos extraídos, serían de una
anotación por paloteos y no sería correcto introducir el papelito que ya salió, porque tendíamos datos
incorrectos.
¿De qué factores depende la magnitud de una muestra?
La magnitud de la muestra depende de los siguientes factores:
✔ Del grado de precisión que se requiera.
✔ Del método de muestreo que se utilice, teniendo en cuenta que sea administrativamente factible, con
el grado deseado de precisión y a menor costo.
✔ Del tipo de procedimiento de estimación que se use.
¿Qué son las unidades primarias de muestreo y qué son las unidades elementales de muestreo?
Las “unidades primarias” son las muestras de grupos y las “unidades elementales” son las submuestras de
cada grupo. En la práctica no es muy frecuente que se haga el muestreo de grupos completos. Lo más usual
es seleccionar el universo encuestado en 2 o más etapas. En una muestra de 2 etapas, los grupos se
seleccionan al azar y se toma una submuestra al azar de cada grupo. Los grupos de este plan de muestreo
se denominan unidades primarias; mientras que los elementos de la submuestra se denominan unidades
elementales. Por ejemplo: si se quiere conocer la opinión de las maestras con respecto al paro docente, las
escuelas constituyen las unidades primarias y las docentes, las unidades elementales.
¿Qué es el esquema y con qué otro nombre lo denominan los autores?
La primera etapa de cualquier muestreo reside en la definición precisa de las entidades que componen el
universo, de las cuales se seleccionará una pequeña cantidad que formará la muestra. Para esta selección
es importante contar con un conjunto de información escrita que permita identificar los elementos de la
población, así como la posibilidad de enumerarlos y seleccionar los elementos muestrales. Esta información
12
escrita se denomina esquema para Slonim; marco de referencia para Grasso o listado para Sampieri. Esta
información puede ser presentada de forma variada: listas, mapas, registros, etc.
¿Qué es el marco de referencia, desde Grasso?
Marco de referencia es el registro o listado de las unidades de referencia que sirve como base para
determinar cuáles unidades integrarán la muestra. No es corriente ni fácil contar con el listado de todos los
elementos que componen una población. Para disponer de la muestra necesaria se puede comenzar a
seleccionar las unidades de muestreo para luego conocer los elementos de la población. Por ejemplo: para
conocer los alumnos de primaria del barrio Tres Cerritos (elementos de la población), se puede comenzar
por conocer las escuelas del barrio (unidades de muestreo).
¿Cómo se puede cometer un bias en la utilización del marco de referencia dentro del muestreo? Se
comete un bias o error sistemático cuando el marco de referencia de las unidades de muestreo no
comprende a todas las unidades de la población. Esto sucede en el estudio real, cuando las diferencias
entre los datos del marco de referencia y los datos del universo no son insignificantes.
Teorema de límite central. Diferenciación.
Señala que una muestra de más de 100 casos será una muestra con una distribución normal en sus
características, lo cual sirve para el propósito de hacer estadística inferencial. Cuando la distribución es
normal, logra la forma de campana o curva de Gauss.
Unidad III: ORGANIZACION DE LOS DATOS
a. Formas de presentación de los datos: su finalidad.
Para realizar el Análisis estadístico, es necesario conocer la frecuencia que corresponde a cada categoría de
la variable, para ello se compilan y ordenan las observaciones. Determinada la frecuencia es necesaria su
presentación en algún sistema simbólico: tabular, gráfico, o fórmulas matemáticas. Esto se puede realizar
por programas como Excel.
Dentro de la Estadística existen, entonces, estas 3 formas de presentar los datos: A.
En tablas de distribución de frecuencias o tabulaciones.
B. En gráficos estadísticos.
C. En fórmulas o medidas descriptivas.
Después de organizar los datos los podemos resumir en tablas y en gráficos. Para el análisis posterior
vamos a trabajar con ciertas medidas que caracterizan a una población o muestra. Esas medidas
denominadas descriptivas son valores representativos de una distribución que se utiliza para describir
ciertas características de los datos, permitiendo una comprensión más precisa. A partir de esas
características se pueden realizar inferencias y pronósticos. Tenemos:
☞ Medidas de Posición MTC
Medidas de Orden
☞ Medidas de Forma Medidas de Simetría
Medidas de Apuntalamiento o Curtosis
☞ Medidas de Dispersión
b. La matriz de datos.
Cuando en el curso de una investigación concluye la recolección de los datos es conveniente reunirlos y
registrarlo en lo que se denomina matriz de datos. Se trata de una tabla, cuyas hileras corresponden a los
sujetos estudiados, a cada sujeto le corresponde una hilera; y cuyas columnas corresponden a las variables
estudiadas, a cada variable le corresponde una columna. Esta manera de presentar los datos es sumamente
práctica para efectuar posteriormente los análisis estadísticos deseados y los cómputos necesarios, ya se
haga esto en forma manual o con la ayuda de la computadora. En este último caso la matriz de datos se
13
ingresa a la computadora como un archivo que puede leerse desde cualquier programa de análisis
estadístico, por ejemplo el SPSS, también es posible escribir la matriz como una planilla para el cálculo de
programas como el Excel y luego realizar el análisis con ayuda de las funciones estadísticas de ese
programa.
c. Construcción de tablas de distribución de frecuencias o Tabulación.
Una vez que los datos han sido obtenidos, ordenados y clasificados, están listos para ser organizados en
forma tabular. La forma exacta de la tabla dependerá del propósito que se persiga como también de la
complejidad de la información que se presenta.
Normas generales para la tabulación de datos
A. La tabla debe ser lo más simple posible. Serán preferibles dos o tres tablas pequeñas a una única
tabla grande que contenga muchos detalles o variables. B. La tabla debe explicarse por sí misma.
Para tal fin:
1) Si se usan claves, abreviaturas o símbolos, deberán explicarse detalladamente en nota al pie de
página.
2) Cada fila y cada columna deben ser tituladas concisa y claramente.
3) Deben ser incluidas las unidades específicas de medida que corresponden a los datos.
4) Deberán consignarse los totales.
C. Comúnmente el título está separado del cuerpo de la tabla por líneas o espacios.
D. Si los datos no son originales, debe mencionarse la fuente de los mismos en una nota al pie de la página.
La forma más simple de tabla es una tabla de frecuencias de dos columnas. La primera columna presenta
las clases o categorías de la escala en que se agrupan los datos y la segunda columna indica las
frecuencias asociadas a cada clase.
d. Elementos para el análisis de la distribución de frecuencias: frecuencias absolutas y relativas; Una
distribución de frecuencia es una tabla donde los datos se agregan en clases o categorías con sus
respectivas funciones absolutas.
• frecuencia de clases (f): Es la cantidad de observaciones que se incluyen en cada intervalo o categoría y
se denominan frecuencias absolutas simples.
La distribución de frecuencias puede completarse con otros elementos que permiten un mejor y más
completo análisis de los datos. Estos elementos son:
• frecuencias relativas (fr): Son los porcentajes de casos correspondientes a cada categoría. Se obtiene de
dividir la frecuencia de cada clase por el total y a ese resultado se lo multiplica por 100. La sumatoria de
la columna de porcentajes debe ser de 100.
• frecuencias acumuladas (fa): Son el resultado de la acumulación gradual de las frecuencias. Puede
calcularse la “frecuencia acumulada más que” o “la frecuencia acumulada menos que”. La primera es la
más utilizada y es la que se produce al sumar. La segunda se calcula partiendo del total y restando
gradualmente el valor de cada de las frecuencias, de cada una de las categorías, hasta llegar a la última
clase con 0.
Porcentajes o Proporciones: Relación de dos cantidades, en la cual el numerador es una parte de la
registrada en el denominador y este constituye el total de las observaciones en consideración. El resultado
se agranda por un factor de amplificación que generalmente es 100. Es f x 100 / la sumatoria de f También
puede calcularse “el porcentaje acumulado más que” y “el porcentaje acumulado menos que”. En el
redondeo vamos a trabajar con dos decimales. El valor tope es 5, si es menos que 5, se eliminan el resto
de números decimales; si el valor es mayor a 5, se coloca el valor superior y si el valor es igual a 5, definen
los términos restantes.
e. La representación gráfica de una distribución de frecuencias. Utilidad de la presentación de datos
en gráficos.
14
Una vez que los datos han sido tabulados es conveniente su presentación en gráficos estadísticos. Esta
forma de presentación es útil, ya que permite que el lector capte la información y las diferencias a simple
vista.
f. Gráficos estadísticos: Gráfico sectorial o de pastel, gráfico de barras, histograma de Pearson,
polígono de frecuencias; Curva de Gauss.
Sectorial o de pastel. Se presenta en forma de círculo, dividido en sectores, la totalidad es de 360°. Se
utiliza en escalas nominales con un máximo de 5 categorías.
Gráfico de barras. En el eje de las X se marcan las categorías de la variable y en el eje de las Y, las
frecuencias relativas. Las barras deben ser todas del mismo ancho y el espacio entre ellas debe ser
uniforme. Este gráfico es adecuado cuando tenemos una escala ordinal o nominal cuando tenemos más de
5 categorías. En el caso de escala nominal u ordinal cualitativa, los ejes se invierten ubicando las categorías
de la variable en el eje de las Y y las frecuencias relativas en el eje de las X para facilitar la representación.
Histograma de Pearson. Se diferencia del gráfico de barras porque los rectángulos forman un bloque sin
dejar espacio entre las barras correspondientes a cada clase. Las categorías se representan en el eje de las
X y los límites de cada clase se marcan una sola vez. Siendo el límite superior de una clase, el límite inferior
de la clase siguiente. Las frecuencias relativas o % se marcan en el eje vertical determinando la altura de
cada rectángulo. Cada rectángulo representa a una clase distinta y la base corresponde a la amplitud de
clase. Se utiliza en escala intervalar.
Polígono de frecuencias. El polígono se forma uniendo los puntos medios de cada clase. Es adecuado para
escala intervalar para establecer comparaciones entre 2 o más muestras. Se trabaja con los %.
15
Curva de Gauss. La curva de Gauss tiene como característica una distribución normal, la cual es simétrica.
Es aplicable a grandes poblaciones con aperturas de clases muy pequeñas. La curva de Gauss o curva
normal, se designa a una distribución que presenta una forma muy especial y que es de importancia
especial en estadística. Cuando se refiere a normal, sirve para designar la forma de esta distribución y no
deben asignársele otras connotaciones vinculadas con una normatividad o con el concepto de normalidad,
desde un punto de vista psicopatológico. La curva normal puede emplearse para describir la forma de la
distribución de ciertas variables y hace posible calcular la probabilidad de observar o presentar
concepciones de la normalidad, entendida en términos de frecuencia o probabilidad.
Ojiva de Galton: Representación gráfica en forma de S estilizada, que lleva en el eje de las ordenadas,
frecuencias acumuladas relativas. Facilita la comparación entre distintas distribuciones si tienen altura
común.
Curva de Lorenz: Representación gráfica que demuestra que cuanto más repartidas están las entradas, más
se acercará la curva a la recta.
⮚ Gráfico de barra: adecuado para escalas nominales con más de 5 categorías y escalas ordinales.
❖ Medidas de dispersión
18
• Su utilización como MTC, en diferentes grupos de observaciones, permite encontrar una MTC del
conjunto total del grupo de observaciones.
• Una vez calculada la Media, la distancia entre cualquier observación y la Media, se denomina, el desvío
de la observación respecto a la Media.
• Si la media es representativa de la tendencia central de la distribución, es una medida de resumen más
poderosa que las anteriores, porque tiene en cuenta las distancias que existen entre las diferentes
observaciones. Sólo se pueden usar en escala intervalar o de razones.
• La media aritmética viene expresada en las mismas unidades que la variable. En su cálculo intervienen
todos los valores de la distribución.
• Es el centro de gravedad de toda la distribución, representando a todos los valores observados.
• Es única.
Desventajas:
• Su principal inconveniente es que se ve afectada por los valores extremadamente grandes o pequeños
de la distribución.
e. Cálculo de medidas de tendencia central con datos cualitativos no agrupados.
Mediana: para datos no agrupados de naturaleza ordinal
Con N impar = ordenar de mayor a menor o de menor a mayor. La mediana es la categoría de la
observación que ocupa el orden medio.
Con N par = se toma la observación cuya categoría es mayor como mediana.
Modo: Debe buscarse la clase que tiene el mayor número de frecuencia.
f. Cálculo de medidas de tendencia central con datos agrupados en escalas ordinal y nominal.
Mediana: para datos agrupados en escala ordinal Valores ordenados:
1 Determinar el orden medio de las observaciones (la mitad de las observaciones)
2 Buscarla en las frecuencias acumuladas más que (fa+q)
Modo: Debe buscarse la clase que tiene el mayor número de frecuencia.
g. Medidas de orden: cuartiles, deciles y percentiles.
Son las medidas que nos indican hacia qué valor tienden con más frecuencia las mediciones. Nos permiten
conocer la posición relativa de cualquiera de las observaciones con respecto a la distribución de frecuencia.
Se sacan en escalas ordinales e intervalares. Y tenemos:
Cuartil (Q): Divide en cuatro partes iguales (25%). Fórmula: Q❑=N/4 . ❑
❖ Es la medida de variabilidad más común y de mayor confianza, es decir, aquella que varía menos
cuando se calcula para distintas muestras extraídas de la misma población o universo.
❖ Es un índice que representa todas las diferencias individuales de las observaciones, respecto a un punto
de referencia común, que es la media.
❖ Interpretación: Se tiene entonces que cuando el valor de las desviaciones es más chico, la diferencia de
los valores respecto a la media son menores y por lo tanto el grupo de observaciones es más
homogénea.
Varianza (V): Equivale a la desviación estándar elevada al cuadrado.
Coeficiente de variación (CV): Es la medida de variabilidad relativa, que se obtiene dividiendo la desviación
estándar por la media e indica el tamaño de la desviación estándar en relación con el tamaño de la media,
por promedios de porcentajes.
22
❖ Seca – seca
❖ Cara – seca
Todos los resultados posibles de un experimento constituyen lo que se llama “espacio muestral o
distribución muestral”. Un suceso es un subconjunto del espacio o distribución muestral
25
No son más fáciles de aprender y aplicar que Típicamente son más fáciles de aprender y aplicar que
las pruebas no paramétricas. las pruebas paramétricas.
Su interpretación no suele ser más directa. Su interpretación suele ser más directa.
Son exactas si se encuentran todas las Son inútiles si se encuentran todas las suposiciones y
suposiciones y si las hipótesis de si las hipótesis de investigación son probadas
investigación son probadas mediante una mediante una prueba paramétrica.
prueba paramétrica.
Es más eficaz cuando se cumplen las Aún, cuando se satisfagan suposiciones de la prueba
suposiciones y se miden las variables al paramétrica, requerimientos de fuerza y medición, la
menos en escala intervalar. potencia–eficiencia indica que al aumentar el tamaño
de la muestra podemos usar una prueba no
paramétrica sin perder potencia para rechazar Ho.
No posee Potencia-eficacia porque se Si su Potencia-eficacia tiene un alto porcentaje (90%),
trabajan con la totalidad de los datos. es más conveniente.
Perfecta – Eficiencia, siempre en términos de No son perfectas, sino probables, no tienen 100 % de
precisión. eficacia sino de probabilidad.
Tienen el 100 % de eficacia certeza.
Difíciles de entender. Fáciles de entender. Exigen conocimientos
matemáticos básicos.
Son más sistemáticas. Son menos sistemáticas.
Son costosas. Son menos costosas.
Pueden utilizarse fácilmente en experimentos No se pueden aplicar en experimentos complejos en
complejos con gran número de variables. los que se maneje gran número de variables.
10. Determinación de la zona en que se encuentra el resultado observado 11. Decisión a favor o en contra
de la H0
d. Errores en la prueba de hipótesis.
Error tipo I y error tipo II. Hay dos tipos de errores que pueden cometerse al decidir acerca de la hipótesis
nula. El primero, el error tipo I es rechazar la hipótesis nula siendo verdadera. El segundo, el error tipo II, es
aceptar la hipótesis nula siendo falsa.
La relación que existe entre ellas es una relación inversa entre las probabilidades de cometer ambos tipos
de errores. Es decir que, al decrecer la posibilidad de cometer el error tipo I, se incrementará la posibilidad
de cometer el error tipo II, para cualquier N dada. Por lo tanto, si se desea reducir la posibilidad de ambos
tipos de errores, se debe incrementar el N.
e. Pruebas de uno y de dos extremos.
Si una prueba es de una cola la dirección de la diferencia es unilateral, es mayor o es menos. Si es de dos
colas, la dirección es bilateral, es distinta.
f. Procedimiento objetivo para probar una hipótesis: sus pasos.
1. Formulación de Hipótesis: Se plantean hipótesis nula (H0) e hipótesis alternativa (H1). La prueba de
nulidad consiste en enunciar la hipótesis nula, la cual anula las diferencias. Se formula con la intención
de ser rechazada para aceptar entonces, la hipótesis alternativa. La hipótesis alternativa es la
aseveración operacional de la hipótesis de investigación del experimentador, es decir, la predicción que
se deriva de la teoría que se está probando.
2. Elección de la prueba estadística: Siegel considera 4 criterios de elección
• El primero es la potencia de un análisis estadístico, es decir, una prueba estadística es buena si es
pequeña la probabilidad de rechazar la hipótesis nula siendo verdadera; y grande, la posibilidad de
rechazar la hipótesis nula, siendo falsa.
• El segundo es considerar la manera en que la prueba de puntaje fue obtenida (tipo de muestreo).
• El tercero es la naturaleza de la población de la que se extrajo la muestra.
• Y el cuarto es la escala empleada en las operacionalizaciones de la variable a investigar.
3. El nivel de significación y tamaño de la muestra: El nivel de significación se simboliza con α (Alfa). Se
debe escoger antes de realizar la investigación y depende del tipo de investigación. Se debe escoger con
reglas de objetividad. El Alfa es el margen de error admitido, la probabilidad de cometer un error tipo I.
4. Distribución muestral: La distribución muestral es una distribución teórica que se realiza. Se obtendría
al tomar al azar todas las pruebas posibles de un mismo tamaño, extraídas de una misma población. La
distribución muestral incluye todos los valores posibles que una prueba estadística puede tomar,
conforme a la hipótesis nula. Distribución muestral serían las probabilidades de respuestas posibles.
5. Definición de la región de rechazo: Es una región de la distribución muestral. Incluye todos los valores
posibles que una prueba puede tomar conforme a H0. Consiste en expresar con palabras en qu é caso
se acepta la H0 o en qué caso se rechaza, tomando como referencia α. Por ejemplo: si α = 0,05,
entonces el tamaño de la región de rechazo es del 5% del área total.
6. La decisión: Es la conclusión. En ella se incluyen todos los valores probabilísticos utilizados. Si la prueba
estadística da un valor que está en la región de rechazo, se rechaza la H0. La región de rechazo se
determina por el valor de significación de α.
g. Criterios para la elección de la prueba estadística adecuada.
1. Criterio de potencia.
2. Ver cuántas muestras son. En el caso de que sean dos muestras, ver si son relacionadas o
independientes.
3. ¿Cuál es el N? En las pruebas para muestras relacionadas el N tiene que ser igual en ambas muestras.
En las pruebas para muestras independientes, el N no necesariamente es igual en ambas muestras.
4. ¿Cuál es la naturaleza de la variable o cómo fue operacionalizada, es decir de qué manera se midió?
29
H1 será tal que H1 > H2, es decir que la cantidad media de tiempo empleado en internet por los
hombres es mayor al de las mujeres.
H0 será tal que H1 = H2, esto es que la cantidad media de tiempo empleado en internet por los hombres y
las mujeres, es la misma.
¿Qué es la potencia de una prueba? ¿Cómo se puede implementar la potencia de una prueba?
Una prueba con potencia es aquella en la que hay una gran probabilidad de rechazar la hipótesis nula
cuando es realmente falsa.
Se refiere al incremento en el tamaño de la muestra necesario para hacer una prueba “B”, tan poderosa
como una prueba “A”. La potencia de una prueba estadística se incrementa al aumentar el N.
A la probabilidad de cometer un error tipo II generalmente se le designa ẞ .Cuando ẞ es pequeña, la
potencia de la prueba es grande y viceversa. En algunos casos, es útil asignar un valor numérico a la
potencia de una prueba; este valor se da como 1- ẞ.
Existen 3 maneras de cambiar la potencia de una prueba:
1. La primera es cambiar el nivel de significación: Puede incrementarse la potencia de la prueba usando
un valor crítico menos riguroso, pero con esto se ha incrementado también la probabilidad de cometer
un error tipo I. En términos de la analogía con el tribunal penal, la potencia es la probabilidad de
condenar al culpable. Puede incrementarse la potencia condenado a más gente, pero al hacer esto se
incrementan los riesgos de condenar al inocente. Por lo tanto debe balancearse la probabilidad de
cometer un error tipo I con la probabilidad de cometer un error tipo II; no puede reducirse una de éstas
sin producir un incremento en la otra
2. La segunda es cambiar la magnitud de la desviación con respecto a la hipótesis nula que se quiere ser
capaz de detectar, es decir resignarse a la posibilidad de detectar sólo las grandes desviaciones de la
hipótesis nula.
3. La tercera es cambiar el número de observaciones, es decir reunir más datos.
Señale y explique la fórmula para calcular la potencia eficiencia de una prueba B.
• La potencia eficiencia es incrementar el tamaño de la muestra para hacer la prueba B tan poderosa
como la A.
• Potencia-eficiencia de la prueba B: NA (p. no paramétrica) / NB (p. paramétrica). 100
• Se debe incrementar el N de A para poder potenciar a la prueba B y así poder, a partir de los N de cada
prueba, sacar un porcentaje de potencia eficiencia. Son necesarios 10 casos de B para 4 casos de A.
Potencia eficiencia de cada prueba ❖ Binomial: 95 % con N=6
❖ X2: No se puede calcular su potencia exacta. Cuando se usa la medición nominal o los datos están
conformados por categorías discreta, la noción de potencia eficiencia de esta prueba, no tiene
importancia.
❖ McNemar: Tiene una potencia eficiencia cerca del 95% para A + D= 6, que declina a medida que
aumenta el tamaño de A + D, hasta una eficiencia final de cerca del 63%.
❖ De los Signos: Cerca del 95% para N= 6, que declina a medida que aumenta el tamaño de la muestra,
hasta una eficiencia final de cerca del 63%.
❖ Wilcoxon: Para muestras pequeñas la eficiencia se acerca a 95%.
❖ Walsh: Su potencia eficiencia es del 99% con N=9 y α =0,01 en una prueba de 1 cola. Y sin bajar del
87,5% con N=10 y α=0,06 en una prueba de 1 cola.
❖ Fisher: Es la más poderosa para pruebas de 1 cola para datos adecuados.
31
❖ X2 para dos muestras independientes: Cuando la prueba de X2 se usa, generalmente no hay una
alternativa clara, y la potencia exacta de la prueba es difícil de calcular. Sin embargo se demostró que le
límite de la distribución de potencia de X2 tiende a 1 cuando N toma un valor grande.
❖ Prueba de la extensión de la Mediana: Como se sabe, esta prueba es en esencia una prueba X2 para K
muestras, por lo tanto, su potencia eficiencia es similar a la de X2 para dos muestras independientes.
❖ Prueba de los rangos de Spearman: la eficiencia de la correlación de rangos de Spearman cuando se
compara con la correlación más poderosa, la de Pearson, es de cerca del 91%. Cuando el rango de
Spearman se usa con una muestra para probar la existencia de una asociación en la población, y cuando
la población tiene una distribución normal bivariada y la medición se ha hecho en escala intervalar, el
rango de Spearman tiene una eficiencia del 91% respecto a Pearson, para rechazar hipótesis nula. Si
existe una correlación entre x e y en esa población, Spearman necesitará 100 casos para establecer esa
correlación al mismo nivel de significación que Pearson logra con 91 casos.
¿Por qué no tiene importancia el cálculo de la potencia-eficiencia de X2 para una muestra, cuando se usa
la medición nominal?
Para sacar la potencia eficiencia de una prueba se debe dividir la prueba no paramétrica con la prueba
paramétrica. Como las diferentes pruebas de X2 trabajan con una escala nominal, no tienen una medición
fuerte, por lo tanto, es una prueba no paramétrica que no tiene punto de comparación con otra prueba
realmente paramétrica que permita calcular su potencia eficiencia.
Otra explicación: La potencia eficiencia se calcula siempre en comparación con las pruebas paramétricas, al
trabajar con una escala nominal, la única prueba que se puede utilizar es X2, por lo tanto, no importante
cuál es su potencia eficiencia ya que no se la puede comparar con otra prueba.
Explique: ¿Qué es el nivel de significación? ¿Para qué se establece?
El nivel de significación se simboliza con la letra Alfa α, se debe escoger antes de realizar la investigación y
depende del tipo de investigación.
Alfa es el margen de error admitido. Todo el procedimiento tiende a rechazar la H0 para aceptar la H1, y
esto es posible cuando una prueba estadística produce un valor cuya probabilidad asociada de ocurrencia
bajo H0 es igual o menor que el nivel de significación.
¿Qué es una distribución muestral? ¿Cómo se la podría obtener?
La distribución muestral es una distribución teórica. Se obtiene al tomar al azar todas las muestras posibles
de un mismo tamaño extraídas de una misma población. Es decir que la distribución muestral es la
distribución conforme a Ho, de todos los valores posibles que una estadística puede tomar cuando es
calculada con nuestras de igual tamaño tomadas al azar.
La distribución muestral señala las probabilidades conforme a Ho, están asociadas con los diferentes
valores numéricos posibles.
La distribución muestral de todos los eventos posibles nos ha mostrado la probabilidad de ocurrencia
conforme a Ho del evento en que estamos interesados. ¿A qué llamamos técnicas de distribución libre?
¿Por qué?
Llamamos técnicas de distribución libre a aquellas técnicas que no hacen suposiciones numerosas o
rigurosas acerca de la población de la cual se han muestreado los datos. Estas técnicas dan como resultado
conclusiones que requieren menos calificaciones. Se llaman así, justamente porque no suponen que las
puntuaciones que se analizan fueron extraídas de una población que presenta una distribución normal,
sino de una con distribución libre.
Técnicas no paramétricas: Se tiene en cuenta los datos no paramétricos, con distribución libre y muestras al
azar.
¿Qué es la región de rechazo? ¿Cuál es su relación con las colas de la hipótesis alternativa? ¿Cuál es su
relación con el nivel de significación?
32
La región de rechazo es v región de la distribución muestral. Incluye todos los valores posibles que una
prueba estadística puede tomar conforme a hipótesis nula (H0). La región de rechazo se compone de un
subconjunto de estos posibles valores, de manera que la probabilidad de ocurrencia de una prueba
estadística conforme a hipótesis nula (H0), cuyo valor esté en ese subconjunto, sea alfa. La probabilidad
asociada con cualquier valor de la región de rechazo es igual o menor que alfa, que es el nivel de
significación. La región de rechazo consiste en expresar con palabras y en qué casos se acepta la hipótesis
nula (H0) o en qué casos se rechaza, tomando como referencia a alfa o nivel de significación. La
probabilidad asociada a cualquier valor de la región de rechazo es mayor o igual a alfa.
Si la hipótesis alternativa uno (H1), indica la dirección predicha de la diferencia, se requiere de la prueba de
una cola; si no indica la dirección, se requiere de la prueba de dos colas. En una prueba de una cola, la
región de rechazo está en un extremo de la distribución muestral. En cambio en el caso de dos colas, la
región de rechazo está en ambos extremos de la distribución muestral por ejemplo si alfa.= 0.05. Entonces
el tamaño de la región de rechazo es el del 5% del área total. α =% de error α =0,05 ẞ=0,95 α + ẞ =1 →
Distribución muestral: suma de todas las probabilidades
Unidad VII: DIFERENTES PRUEBAS DE HIPOTESIS
a. Pruebas de hipótesis para una muestra: La prueba binomial y la prueba chi cuadrada.
Características Binomial X2
Posee una variable cualitativa Posee una variable cualitativa
Variable:
discreta discreta
Variable de respuesta: Dicotómica K categorías, o sea, más de 2
Medible en: Escala nominal Escala nominal
N: N de 5 A 25 N más de 25
X2= ∑ (o-e)2/E y gl = k-1
Resolución: Con N y X, el de frecuencia menor
tener en cuenta fe = N / K
Tabla: D C
b. Pruebas de hipótesis para dos muestras relacionadas: La prueba de McNemar para la significación de
los cambios, la prueba de los Signos, la prueba de rangos señalados y pares igualados de Wilcoxon y la
prueba de Walsh.
Muestras relacionadas, adecuadas para sujeto como su propio control o emparejamiento.
Características P. de McNemar P. de los Signos P. de Wilcoxon P. de Walsh.
N entre 4 y 15
(cantidad de
N sin límites y se N entre 5 y 25 y se N sin límite y se
parejas, no de
N: reduce a los reduce por ligas reduce por ligas
personas) y no se
casilleros de cambio internas internas
reduce con ligas
internas
Se resuelve por Tiene resolución
Tiene resolución
Binomial o X2, propia:
propia:
dependiendo del Se resuelve por Sacar di y anular Փ,
Resolución: Sacar di, otorgarle
resultado A+D/2. Binomial otorgarle rangos a di,
un rango y buscar
≥ 5 = X2 promediar los rangos
en la tabla la
< a 5 = Binomial que se repiten, sacar
T=∑ de rangos de operación que le
menor frecuencia corresponda al caso
N menos de
N mayor a 40
20
N: N sin límites N sin límite
34
ciertos estudios requieren del tratamiento estadístico de dos variables asociadas, como es el caso de las
investigaciones que incluyen hipótesis correlaciónales.
Considerando que uno de los principales fines de la ciencia es la predicción, esto es, apreciar los valores de
una variable, conociendo el valor de otra variable asociada, la correlación ha sido tratada por distintos
autores, quienes han creado cada uno su propia fórmula. Entre ellos se pueden mencionar los coeficientes
de correlación de Pearson, de Spearman y de Kendall.
Una correlación indica cómo varía o cambia una característica cuando la otra característica o variable
asociada cambia.
Es importante destacar que una correlación no implica, necesariamente, una relación de causa a efecto;
puede suceder que dos fenómenos estén correlacionados y sin embargo la causa de dicha correlación, sea
una tercera variable que no es tratada en la investigación.
La correlación o estadística bivariada, también se puede presentar en tablas, gráficos y a través de
fórmulas. Correlación, entonces, es la relación entre 2 variables de las cuales una es independiente (x) y la
otra es dependiente (y). La correlación se expresa en un grado de correlación y éste grado debe oscilar
entre -1 y 1 pasando por el 0 (cero).
c. Utilidad de la correlación.
Proporciona 3 datos principales:
1. La existencia o no de una relación entre las variables estudiadas.
2. La dirección de esta relación, si es que existe.
3. Y el grado de esta relación.
Estos 3 aspectos se dan en un sólo valor que oscila entre +1 y -1.
Existen 2 tipos de correlación:
• Positiva o directa: al aumentar una variable, la otra también aumenta o cuando al disminuir una
variable, la otra también disminuye.
• Negativa o inversa: al aumentar una variable, la otra disminuye.
1 Correlación perfecta
Estabilidad: Significa que sean poco sensibles a las deficiencias de los datos básicos, que no se vean
demasiado influenciados por datos básicos deficientes o erróneos
Complejidad: En caso de tratarse de variables complejas debe ser posible definir la variable en varios
componentes, entonces se puede obtener un índice combinando diversos indicadores, asignando a
cada uno la ponderación correspondiente
Simplicidad y Estandarización: Deben ser de fácil comprensión y presentarse normalizados en escalas
internacionales para facilitar las comparaciones
b. Medición del nivel de salud.
La organización Mundial de la Salud define salud como, un estado de bienestar físico, mental y social y no
solo como ausencia de enfermedad. La medición del nivel de salud puede darse a partir de: a) La medición
positiva de la salud, o sea, del estado mismo de bienestar
b) La medición de las consecuencias derivadas de la pérdida de la salud, o sea, enfermedad y muerte
c) La medición de los factores que determinan el nivel de salud
El primer enfoque ha recibido en años recientes atención por la creciente consciencia de las limitaciones de
los indicadores en la mortalidad o morbilidad.
La medición de los factores que se supone determinan el nivel de salud es usada hoy en planificación,
como parte del diagnóstico de salud de una comunidad. Pero es distinto que utilizar tal medición como
expresión del nivel de salud, porque supone una relación cuantificable entre las variaciones de los
indicadores y el nivel de salud. Pero el modelo de interrelaciones no ha sido desarrollado, y existen
interacciones múltiples entre estos factores determinantes y el nivel de salud. En consecuencia, no cumple
el requisito fundamental de validez para medir adecuadamente las variaciones en el nivel de salud de una
población.
c. Mortalidad y morbilidad: Ventajas y desventajas de las medidas.
Indicadores basados en la mortalidad
Ventajas🡺 la defunción es un evento concreto, unico en la vida de una persona. En la mayoria de los paises
existe un registro de muertes. Lo datos obtenidos son generalmente de censos.
1) La defunción es un evento concreto, único en la vida de una persona y definido internacionalmente. 2)
En la mayoría de los países existe un registro sistemático de las muertes.
3) Los datos de población requeridos generalmente se obtienen de los censos
Deventajas🡺 deficiencia en datos basicos y errores en los registros de causas de muertes.
1-Deficiencia en datos básicos
2-Errores en el registro de las causas de muerte
3- Omisiones que a veces alcanzan hasta un tercio de las defunciones
4-No reflejan toda la complejidad del fenómeno de salud de una población
5-No expresan la ocurrencia de enfermedades de baja o nula letalidad
Tasa cruda de Mortalidad: Refleja el número de defunciones anuales por 1000 habitantes y traduce en
forma global el impacto de las alteraciones letales de salud en una comunidad.
Requiere del conocimiento del total de muertes y de toda la población. Es un macroindicador y resume los
riesgos de una población heterogénea. No contempla aspectos como la edad y el sexo
Esperanza de vida al nacimiento: Si se disponen de las tasas específicas de mortalidad por edad y sexo de
una población se puede calcular las correspondientes probabilidades de muerte. Con ellas se puede
construir una tabla de vida que representa el curso de una generación de 100.000 nacidos vivos que
hubieran estado expuestos a riesgos de muerte citados. El indicador de nivel de salud derivado de la tabla
de vida es la esperanza de vida al nacimiento y refleja el promedio de años de sobrevida al nacimiento. Este
indicador resume más comprensiblemente los riesgos de morir observados en una población,
41
Las tasas, razones y proporciones son los elementos mas usados en la descripción de datos cualitativos.. En
el campo de salud pública, el uso de valores absolutos es muy frecuente y llena los requerimientos de
muchos sectores, por ejemplo la necesidad del conocimiento del total de la población de un municipio para
estimar el volumen de prestaciones que debe dársele, como puede ser el conocer el número total de
nacimientos para calcular el volumen de camas que deben estar disponibles para obstetricia Los valores
absolutos tienen innumerables aplicaciones en salud pública, particularmente los relacionados con
nacimientos, defunciones, morbilidad, etc, ya que son ampliamente usados en los programas de
planificación de actividades. Sin embargo, no son suficientes cuando se desea comparar las cifras de un
área a lo largo del tiempo o entre varias regiones entre sí, porque las poblaciones de las cuales provienen
son cambiantes y los totales absolutos pierden importancia pues no son comparables. Para ello se usan
las frecuencias relativas que no son más que cantidades que están referidas a otras que se usan como
base de comparación.
Pautas para el uso de frecuencias Relativas
1) Es necesario especificar que fenómenos se están relacionando y cual de ellos se toma como base de
referencia
2) No deben calcularse frecuencias relativas sobre valores absolutos muy pequeños, los
resultados serían muy inestables
3) Todo cociente debe expresarse a través de su valor real o puede amplificarse por un factor que
puede ser múltiplo de 10
4) Un cociente no expresa la magnitud de ninguno de los valores usados sino de la relación, por eso
todo cociente debe acompañarse por lo menos por uno de los valores absolutos que le dio origen e.
Sumarización de series cualitativas: tasas, razones y proporciones.
Cuando el conjunto de datos a analizar son cualitativos, es útil la aplicación de medidas relativas tales como
la razón, la proporción y la tasa. Estas medidas sirven para establecer comparaciones de las cifras referidas
a distintas poblaciones o muestras.
Se define como razón a todo número relativo que relaciona dos fenómenos distintos o dos categorías
diferentes de un mismo fenómeno.
Una tasa es la relación existente entre el número de veces que ocurre un hecho o fenómeno y la población
que estuvo expuesta a ese fenómeno mencionado en el numerador. Está compuesta por tres elementos:
numerador, denominador y factor de ampliación.
En el numerador se consigna el número de veces que un fenómeno se registró.
En el denominador se coloca la población que estuvo expuesta al riesgo de acaecimiento del fenómeno
que se refiere en el numerador.
Para que una tasa sea correcta, debe tenerse en cuenta su concordancia entre el numerador y el
denominador en lo referente a la naturaleza, lapso y área de referencia. También incluye un factor de
amplificación para que los resultados que son menores a la unidad se pueden interpretar fácilmente desde
el sentido común.
Las proporciones son la relación de dos cantidades, en la cual el numerador es una parte de la registrada
en el denominador y este constituye el total de las observaciones en consideración. El resultado se agranda
por un factor de amplificación que generalmente es 100 y esas proporciones reciben el nombre de
porcentajes. Una proporción mide el peso relativo de una parte con respecto al todo del cual proviene.
Ej.: N° de alumnos promovidos x 100
N° total de alumnos
f. Aplicación de los indicadores de salud al contexto de los fenómenos de la conducta.
Razón: Es todo número relativo que relaciona a) dos fenómenos distintos o b) dos categorías diferentes de
un mismo fenómeno. Ej. a) Promedio de habitantes por Km. b) Relación de sexos de los nacidos vivos.
Proporción: Es la relación de dos cantidades en la cual el numerador es una parte de la registrada en el
denominador y este constituye el total de las observaciones en consideración. El resultado se agranda por
43
un factor de amplificación que en general es 100 y esa proporción recibe el nombre de porcentaje. Una
proporción mide el peso relativo de una parte respecto al todo del cual proviene. Ejemplo: Proporción de
pacientes que curaron con una droga con respecto al total de pacientes tratados con dicha droga.
Tasa: Es la relación existente entre el número de veces que ocurrió un hecho vital o de salud, y la población
que estuvo expuesta al riesgo de acaecimiento del hecho mencionado en el numerador. Tiene mayor
implicancia que las razones y proporciones pues involucra el factor riesgo o probabilidad. La mayoría
de las tasas miden la fuerza de acaecimiento de un fenómeno y con ello evalúa el riesgo inherente. Una
tasa está compuesta por tres elementos: numerador, denominador y factor de ampliación. En el numerador
se consigna el número de veces que se registró un fenómeno (total de nacimientos, defunciones,
matrimonios) y en el denominador la población que estuvo expuesta al riesgo de acaecimiento de lo
asignado en el numerador. Generalmente los datos del numerador provienen de sistemas de registro
permanente y los del denominador de recuentos censales o proyecciones hechas a partir de los censos.
Para que una tasa sea correcta se debe considerar la concordancia de numerador y denominador en lo
referente a la naturaleza, tiempo y área de referencia. Respecto a la concordancia en la naturaleza, en la
tasa de mortalidad por cáncer de útero no se considera la población total pues los hombres no pueden
producir tales defunciones. Respecto del tiempo, los datos deben haber sido enumerados en el mismo
periodo. Respecto del área de referencia se deben descartar hechos acaecidos a personas no residentes en
el área, así en hospitales muy especializados los casos que puedan registrarse pueden corresponder a
personas residentes en otras áreas
Tasa general: Mide la fuerza de acaecimiento(HECHO) de un fenómeno en el total de la población e intenta
cuantificar la probabilidad de ocurrencia en el conjunto de los componentes.
Tasa específica: Mide un hecho registrado en un segmento de la población en relación a la
población de ese segmento Ejemplos:
Tasa general = Nº de de nacimientos en el área Y en el período Z
De Natalidad Población total del área Y, a la mitad del período Z
Tasa específica = Nº de nacimientos en un segmento del área Y en el periodo Z de natalidad
Población de ese segmento a la mitad del período
Tasas ajustadas: Que 2 tasas generales sean iguales no implica que ambas poblaciones tengan igual riesgo
de acaecimiento del fenómeno pues pueden tener estructura diferente, pero las diferencias se compensan
y los resultados finales son iguales. Ejemplo: La tasa general anual de mortalidad por cáncer en hombres en
1962-63 fue de 259.4 por 1000.000 habitantes. En Lima en igual período fue de 91.9. Al comparar ambas
poblaciones se ve que en La Plata un 36% de la población tiene entre 45-74 años y en Lima solo un 20%,
Lima tiene una población mas joven y por ello menos expuesta a tal riesgo. Debe entonces eliminarse esa
diferencia. Suprimiendo las diferencias de edad, las tasas son 132.16 y 112.5, la disimilitud tiende a
disminuir. Por ello cuando se desean comparar dos poblaciones respecto a cierto riesgo deben tomarse uno
de dos caminos:
1) Comparar las tasas específicas: Se comienza estableciendo cuál es el factor específico mas
importante (edad, sexo) luego se obtienen las tasas específicas correspondientes y luego se comparan clase
a clase, las clases de cada tramo. Esto se puede hacer cuando el número de clases es pequeño sino debe
optarse por el segundo método
2) Comparar las tasas ajustadas: a) Se determinan cuáles son los factores de variación posible b) Se
aísla el que se supone mas probable c) Se estudia la estructura de las poblaciones tabuladas y se detectan
similitudes o diferencias d) se calculan las tasas específicas para cada tramo y se las compara una a una.