Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Métodos estadísticos
INVESTIGACION
16 de ene. de 21
ELECCION DE LA PRUEBA ESTADISTICA ADECUADA
La selección correcta de una prueba estadística depende de varios factores, pero para fines
prácticos se revisarán los criterios más frecuentes:
1) Las características de las variables: tipo y escala de medición.
2) La pregunta científica que se desea contestar.
3) La hipótesis planteada.
4) La potencia y la eficiencia de la prueba elegida.
5) Las características de la muestra (tamaño de muestra y número de grupos en estudio).
Las variables se clasifican por diferentes características. Para fines prácticos, variables se
clasifican en dos tipos: a) variables cuantitativas, también llamadas Inter valares, que son
aquellas que tienen como atributo una cantidad y sus escalas son continuas (se pueden medir
en decimales) y discretas (sólo se miden en números enteros), y b) variables cualitativas, que se
dimensionan por categorías, contienen una categoría o cualidad y sus escalas o medición son
ordinales (cuando tienen un orden) o nominales (cuando se le asigna un nombre a la variable y
ésta puede ser dicotómica, si sólo hay dos opciones de clasificación, y policotómicas, cuando
hay más de dos opciones de clasificación).
ESCALA DE MEDICION
Las Escalas de Medición son una sucesión de medidas que permiten organizar datos en orden
jerárquico. Las escalas de medición, pueden ser clasificadas de acuerdo a una degradación de
las características de las variables. Estas escalas son: nominales, ordinales, intercalares o
racionales. Según pasa de una escala a otra el atributo o la cualidad aumenta. Las escalas de
medición ofrecen información sobre la clasificación de variables discretas o continuas. Toda vez
que dicha clasificación determina la selección de la gráfica adecuada.
Todo problema de investigación científica, implica de algún modo una tarea de medición de los
conceptos que intervienen en el mismo. Porque si tratamos con objetos como una especie
vegetal o un comportamiento humano nos veremos obligados ya sea a describir sus
características o a relacionarse éstas con otras con las que pueden estar conectadas: en todo
caso tendremos que utilizar determinadas variables –tamaño, tipo de flor, semilla, o las
variables que definan el comportamiento de estudio- y tendremos que encontrar el valor que
éstas asumen en el caso estudiado. En eso consiste, desde el punto de vista lógico más general,
la tares de medir.
Tipos de Escalas de Medición
La escala de medida de una característica tiene consecuencias en la manera de presentación de
la información y el resumen. La escala de medición -grado de precisión de la medida de la
característica- también determina los métodos estadísticos que se usan para analizar los datos.
Por lo tanto, es importante definir las características por medir. Las escalas de medición más
frecuentes son las siguientes:
Escala Nominal: No poseen propiedades cuantitativas y sirven únicamente para identificar las
clases. Los datos empleados con las escalas nominales constan generalmente de la frecuencia
de los valores o de la tabulación de número de casos en cada clase, según la variable que se
está estudiando. El nivel nominal permite mencionar similitudes y diferencias entre los casos
particulares. Los datos evaluados en una escala nominal se llaman también "observaciones
cualitativas", debido a que describen la calidad de una persona o cosa estudiada, u
"observaciones categóricas" porque los valores se agrupan en categorías. Por lo regular, los
datos nominales o cualitativos se describen en términos de porcentaje o proporciones. Para
exhibir este tipo de información se usan con mayor frecuencia tablas de contingencia y gráficas
de barras.
Escala Ordinal: Las clases en las escalas ordinales no solo se diferencian unas de otras
(característica que define a las escalas nominales) sino que mantiene una especie de relación
entre sí. También permite asignar un lugar específico a cada objeto de un mismo conjunto, de
acuerdo con la intensidad, fuerza, etc.; presentes en el momento de la medición. Una
característica importante de la escala ordinal es el hecho de que, aunque hay orden entre las
categorías, la diferencia entre dos categorías adyacentes no es la misma en toda la extensión de
la escala. Algunas escalas consisten en calificaciones de múltiples factores que se agregan
después para llegar a un índice general. Debe mencionarse brevemente una clase espacial de
escala ordinal llamada "escala de posición", donde las observaciones se clasifican de mayor a
menor (o viceversa). Al igual que en las escalas nominales, se emplean a menudo porcentajes y
proporciones en escalas ordinales.
Escala de Intervalo: Refleja distancias equivalentes entre los objetos y en la propia escala. Es
decir, el uso de esta escala permite indicar exactamente la separación entre 2 puntos, lo cual,
de acuerdo al principio de isomorfismos, se traduce en la certeza de que los objetos así
medidos están igualmente separados a la distancia o magnitud expresada en la escala.
Escala de Razón: Constituye el nivel óptimo de medición, posee un cero verdadero como origen,
también denominada escala de proporciones. La existencia de un cero, natural y absoluto,
significa la posibilidad de que el objeto estudiado carezca de propiedad medida, además de
permitir todas las operaciones aritméticas y el uso de números representada cantidades reales
de la propiedad medida. Con esto notamos que esta escala no puede ser usada en los
fenómenos psicológicos, pues no se puede hablar de cero inteligencias o cero aprendizajes, etc.
DE BONDAD DE AJUSTE
Se utiliza para decidir cuando un conjunto de datos se ajusta a una distribución dada
Considérese una muestra aleatoria de tamaño n de la distribución de una variable aleatoria X
dividida en k clases exhaustivas e incompatibles, y sea Ni i = 1, 2, …, k. el número de
observaciones en la i-ésima clase. Considérese la hipótesis nula
H0: F(x)=F0(x)
en donde el modelo de probabilidad propuesto F0(x) se encuentra especificado de manera
completa, con respecto a todos los parámetros.
Es posible, pues, calcular pi: probabilidad de obtener una observación en la i-ésima clase, bajo
H0. Es obvio, también, que
Dado que existen k categorías mutuamente excluyentes con probabilidades p1, p2, …, pk;
entonces bajo la hipótesis nula la probabilidad de la muestra agrupada es igual a la función de
probabilidad de una distribución multinomial determinada.
Para deducir una prueba estadística para H0, considérese el caso de k = 2. Este es el caso de la
distribución binomial con x = n1, p = p1, n-x =n2 y 1-p =p2. Sea la variable aleatoria
estandarizada:
para n grande, esta variable aleatoria se distribuye según una N(0;1). Además, sabemos que el
cuadrado de una variable aleatoria N(0,1) se distribuye según una chi-cuadrado con un grado de
libertad. Entonces el estadístico
Si se sigue este razonamiento, puede demostrarse que para k≥2 categorías distintas
PRUEBA DE INDEPENDENCIA
Muchas veces surge la necesidad de determinar si existe alguna relación entre dos rasgos
diferentes en los que una población ha sido clasificada y en donde cada rasgo ha sido
subdividido en cierto número de categorías. Cuando una muestra se clasifica de esta manera
recibe el nombre de tabla de contingencia de 2 criterios de clasificación. Es posible analizar
tablas que contengan más de dos clasificaciones.
El análisis de una tabla de este tipo supone que las dos clasificaciones son independientes. Esto
es, bajo la hipótesis nula de independencia se desea saber si existe una diferencia entre las
frecuencias que se observan y las correspondientes frecuencias que se esperan. La prueba chi-
cuadrada da los medios apropiados.
Sea n una muestra que se clasifica según A y B, cada uno de los cuales tiene r y c categorías.
Además, sea Ni el número de observaciones de las categorías i, j de A y B. Se pueden tabular los
datos en una matriz de r x c. El total del i-ésimo renglón es la frecuencia de la i-ésima categoría
de A, de manera similar para las columnas. Sea
Sea pij la probabilidad de que un objeto seleccionado al azar se encuentre en la categoría (i, j),
sea pi. la marginal de i de A y p.j la marginal de j de B. Si las características son independientes,
la probabilidad conjunta es igual al producto de las marginales
cuando n es grande.
Sin embargo, la mayoría de las veces no se conocen las probabilidades marginales, y de esta
forma se estiman con base en una muestra.
Afortunadamente, la prueba de bondad de ajuste de la chi-cuadrado permanece como la
estadística apropiada siempre que se empleen los estimados de máxima verosimilitud y se reste
un grado de libertad del total para cada parámetro que se esté estimando. Dado que
al sustituir se obtiene
TABLAS DE CONTINGENCIA
Las tablas de contingencia (también llamadas a veces tablas dinámicas, tablas cruzadas, tablas
de control o crosstabs como se conocen en inglés) son posiblemente la técnica estadística más
utilizada en análisis de datos. En este tutorial mostraré cómo se analizan las tablas de
contingencia para que cada vez que nos encontremos con una en un periódico, artículo
científico o informe, podamos leerla e interpretar fácilmente los resultados. Y también para que
podamos hacer tablas de contingencia en SPSS y analizar sus resultados de forma muy fácil y
sencilla.
Hay dos condiciones para aplicar las tablas de contingencia como estrategia de análisis de
datos:
Solo se pueden relacionar dos variables. Una puntualización. Sí se pueden hacer tablas de
contingencia con 3 variables, pero este es ya otro tema que abordaremos en otro tutorial.
Las variables a analizar deben ser nominales u ordinales. Las variables nominales son las que no
tienen orden interno establecido (p.ej. género o estado civil), y las variables ordinales son
aquellas que sí tienen un orden interno establecido y el paso de una categoría a otra no es igual
(p.ej. nivel educativo, interés en la política (alto-medio-bajo-ninguno). Las tablas de
contingencia no se usan para analizar relaciones de variables escalares como la edad de muchas
categorías ya que si se usara la tabla sería inmensa e ilegible. Si queremos usar la edad como
variable en una tabla de contingencia debemos recodificarla por rangos. Al recodificar una
variable escalar como la edad por rangos, deja de ser escalar y pasa a ser ordinal, y por tanto sí
se puede incluir un análisis de tablas de contingencia. Ejemplo: interés en la política según
grupos de edad.
Por tanto, dos condiciones: relacionar solo 2 variables y que las variables sean nominales u
ordinales.
PRUEBA DE KOLMOGOROV PARA BONDAD DE AJUSTE
La prueba de bondad de ajuste de Pearson se encuentra limitada cuando F0(x) es continua y la
muestra aleatoria disponible es de tamaño pequeño. Una prueba de bondad cuando F0(x) es
continua es la de Kolmogórov-Smirnov. No necesita que los datos estén agrupados en intervalos
y es aplicable cuando la muestra es pequeña. Ésta se basa en una comparación entre las
funciones de distribución acumulativas que se observan en la muestra ordenada y en la
distribución propuesta bajo la hipótesis nula.
Consideremos la hipótesis nula H0: F(x)=F0(x), en donde F0(x) se especifica de forma completa.
Denótese por x(1), x(2), …, x(n) a las observaciones ordenadas de una muestra aleatoria de
tamaño n; y defínase la función de distribución acumulativa muestral como
Si la hipótesis nula es correcta las diferencias entre Sn(x) y F0(x) serán pequeñas. El estadístico
de Kolmogórov-Smirnov se define como
El estadístico Dan tiene una distribución que es independiente del modelo propuesto bajo la
hipótesis nula, y depende tan solo del tamaño de la muestra. En la tabla adjunta en la hoja de
cálculo, se proporcionan valores cuantiles superiores de Dan para varios tamaños de la
muestra.
Para un error de tipo I de tamaño a, la región crítica es de la forma
PRUEBA DE RACHAS PARA ALEATORIEDAD
El contraste de rachas permite verificar la hipótesis nula de que la muestra es aleatoria, es
decir, si las sucesivas observaciones son independientes. Este contraste se basa en el número
de rachas que presenta una muestra. Una racha se define como una secuencia de valores
muestrales con una característica común precedida y seguida por valores que no presentan esa
característica. Así, se considera una racha la secuencia de k valores consecutivos superiores o
iguales a la media muestral (o a la mediana o a la moda, o a cualquier otro valor de corte)
siempre que estén precedidos y seguidos por valores inferiores a la media muestral (o a la
mediana o a la moda, o a cualquier otro valor de corte).
El número total de rachas en una muestra proporciona un indicio de si hay o no aleatoriedad en
la muestra. Un número reducido de rachas (el caso extremo es 2) es indicio de que las
observaciones no se han extraído de forma aleatoria, los elementos de la primera racha
proceden de una población con una determinada característica (valores mayores o menores al
punto de corte) mientras que los de la segunda proceden de otra población. De forma idéntica
un número excesivo de rachas puede ser también indicio de no aleatoriedad de la muestra.
Si la muestra es suficientemente grande y la hipótesis de aleatoriedad es cierta, la distribución
muestral del número de rachas, R, puede aproximarse mediante una distribución normal de
parámetros:
Donde:
c: número de diferencias positivas.
n: número de datos menos la cantidad de datos iguales al valor asumido.
b) Cuando:
T(número de diferencias positivas)
entonces el "p- valor" se calcula por :
Donde:
c: número de diferencias positivas.
n: número de datos menos la cantidad de datos iguales al
valor asumido.
Hipótesis de la prueba para el caso:
a)
a.1) T(número de diferencias positivas) > T(-) (número de diferencias negativas) entonces el “p-
valor” calcula con : es decir con:
a.2) T(número de diferencias positivas) < T(-) (número de diferencias negativas), entonces el
“p-valor” calcular con es decir con
b)
b.1) T(número de diferencias positivas) > T(-) (número de diferencias negativas) entonces el
“p-valor” calcula con es decir con:
b.2) T(número de diferencias positivas) < T(-) (número de diferencias negativas), entonces el
“p-valor” calcular con es decir con:
c)
c.1) T(número de diferencias positivas) > T(-) (número de diferencias negativas) entonces el “p-
valor” calcula con : es decir con:
c.2) T(número de diferencias positivas) < T(-) (número de diferencias negativas), entonces el “p-
valor” calcular por:
c.3) T(número de diferencias positivas) = T(-) (número de diferencias negativas) entonces el “p-
valor” = 1
Para muestras de tamaño n y p= 0,5, la distribución binomial está bien aproximada por
la distribución normal.
Por tanto, dado que la media de la distribución binomial es np y la varianza es npq, la
distribución de “T(número de signos de mayor frecuencia)” es aproximadamente normal con
media 0,5n y varianza 0,25n, cada vez “n” es moderadamente grande . Por
consiguiente, las hipótesis pueden probarse con el estadístico:
U 1 = n 1 n 2 + n 1 ( n 1 + 1 ) 2 − R 1 {\ U_{1}=n_{1}n_{2}+{n_{1}(n_{1}+1) \ 2}-R_{1}}
U 2 = n 1 n 2 + n 2 ( n 2 + 1 ) 2 − R 2 {\ U_{2}=n_{1}n_{2}+{n_{2}(n_{2}+1) \ 2}-R_{2}}
donde n1 y n2 son los tamaños respectivos de cada muestra; R1 y R2 es la suma de los rangos
(la suma de la posición relativa de cada individuo de la muestra) de las observaciones de las
muestras 1 y 2 respectivamente.
El estadístico U se define como el mínimo de U1 y U2.
Los cálculos tienen que tener en cuenta la presencia de observaciones idénticas a la hora de
ordenarlas. No obstante, si su número es pequeño, se puede ignorar esa circunstancia
OBSERVACIONES PAREADAS : PRUEBA DE SIGNOS
Consiste en convertir valores de datos en signos positivos y negativos, y luego hacer una prueba
para ver si hay una cantidad desproporcionadamente mayor de uno u otro signo.
Es una prueba no paramétrica (de distribución libre) que utiliza signos positivos y negativos
para probar diferentes aseveraciones, incluyendo:
Aseveraciones que implican datos muestrales apareados
Aseveraciones que implican datos nominales
Aseveraciones acerca de la mediana de una sola población
La idea básica que subyace en la prueba del signo es el análisis de las frecuencias de los signos
positivos y negativos para determinar si son significativamente diferentes. Por ejemplo,
suponga que probamos un tratamiento diseñado para incrementar la probabilidad de que un
bebé sea niña. Si se trata a 100 mujeres y 51 de ellas tienen niñas, el sentido común sugiere que
no existe evidencia suficiente para afirmar que el tratamiento es efectivo, puesto que 51 niñas
entre 100 bebés no son significativas
Requisitos
Los datos muestrales se seleccionaron aleatoriamente.
No existe el requisito de que los datos muestrales provengan de una población con una
distribución particular, como una distribución normal.
Notación
x= el número de veces que ocurre el signo menos frecuente
n= el número total de signos positivos y negativos combinados
Estadístico de prueba
Para n ≤ 25: x (el número de veces que ocurre el signo menos frecuente)
n
Para n > 25: z=
()
( x+ 0.05 )−
2
√n
2
Valores críticos
Para n ≤ 25, los valores críticos x se encuentran en la tabla valores críticos para la prueba del
signo
Par n > 25, los valores críticos z se encuentran en la tabla de distribución normal
Cuando se aplica la prueba del signo en una prueba de una cola, necesitamos ser muy
cuidadosos para evitar obtener la conclusión equivocada cuando un signo ocurre
significativamente con más frecuencia que el otro, pero los datos muestrales contradicen la
hipótesis alternativa. Por ejemplo, suponga que estamos probando la aseveración de que una
técnica de selección del género favorece a los niños, pero obtenemos una muestra de 10 niños
y 90 niñas. Con una proporción muestral de niños igual a 0.10, los datos contradicen la hipótesis
alternativa H1: p > 0.5. No hay forma de sustentar dicha aseveración con ninguna proporción
muestral menor que 0.5, por lo que no rechazamos la hipótesis nula y no procedemos con la
prueba del signo. Si los datos muestrales van en el sentido opuesto de H1, no rechace la
hipótesis nula.
Cuando se utiliza la prueba del signo con datos que están ordenados en pares, convertimos los
datos en bruto a datos con signos positivos y negativos como sigue:
Restamos cada valor de la segunda variable del valor correspondiente de la primera variable
Registramos sólo el signo de la diferencia encontrada por el paso 1. Excluimos los empates: es
decir, excluimos todos los datos apareados en los que ambos valores son iguales
El concepto clave que subyace en la aplicación de la prueba del signo:
Si dos conjuntos de datos tienen medianas iguales, el número de signos positivos debe
ser aproximadamente igual al número de signos negativos.
35 3 30 5 2 4
23 5 33 3 2 4
47 1 45 2 1 1
17 6 23 6 0 0
10 7 8 8 1 1
43 2 49 1 1 1
9 8 12 7 1 1
6 9 4 9 0 0
28 4 31 4 0 0
12
Paso 4: Sumar todos los valores del cuadrado “d” que es 12 (∑d cuadrada).
Paso 5: Insertar estos valores en la fórmula.
=1-(6*12) / (9(81-1))
=1-72/720
=1-01
=0.9
El coeficiente de correlación de Spearman para estos datos es de 0.9 y como se mencionó
anteriormente si el valor de ⍴ se acerca a +1 entonces tienen una asociación perfecta de rango.
APLICACIONES
El primer término a considerar es el de las probabilidades. Cuando se quiere conocer lo que
ocurre dentro de nuestra unidad de producción, cuando se quiere conocer qué forma de
manejo es la más adecuada, es necesario repetir varias veces las observaciones que se hacen.
Así como debo lanzar varias veces una moneda para conocer la probabilidad de que caiga cara o
que caiga sello (si concluyera en base a solo una observación, quizás mi conclusión
absolutamente errada sería: “toda vez que se lanza una moneda caerá sello”), también debo
observar varias veces el efecto que tenga un fertilizante foliar sobre mi cultivo, o el efecto de
suplementar al ganado con bloques nutricionales, o el efecto de dar alimento balanceado a las
cabras. Esas varias observaciones se deben hacer de manera organizada y sistemática, y es así
que surge el concepto de Diseño de Experimentos que intentará maximizar las diferencias
obtenidas por efecto de lo que se está probando, y adicionalmente intentará minimizar las
diferencias debidas a factores que no se están evaluando. En el Diseño de Experimentos se
establecen las Repeticiones que estarán representadas por el número de observaciones que se
harán sobre el efecto de cierto tratamiento sobre cierta variable. Como es complejo tener todo
bajo control, especialmente en el campo, la experimentación agrícola se hace normalmente en
pequeñas parcelas, o con pocos animales. Las repeticiones serán pequeñas parcelas sobre las
cuales se aplica un mismo tratamiento, por ejemplo, si se está probando dosis de un
fertilizante, los tratamientos serán las distintas dosis y las repeticiones serán el número de
parcelas sobre las cuales se aplica la misma dosis y sobre las cuales de tomarán observaciones
de la variable que se está midiendo (probablemente rendimiento por parcela). O si se está
probando distintas dosis de minerales en cerdos, los tratamientos serán las distintas dosis de
minerales y las repeticiones serán la cantidad de animales a los cuales se les da la misma dosis y
sobre los cuales se tomarán las observaciones de la variable que se está midiendo
(probablemente ganancia de peso).
BIBLIOGRAFIA
cómo elegir la prueba estadística. (s. f.). acces. Recuperado 16 de enero de 2021,
dehttps://accessmedicina.mhmedical.com/content.aspx?bookId=2448§ionId=193961180#:~
Lubin, P. Macià, A. Rubio de Lerma, P. (2005). Psicología matemática I y II. Madrid: UNED.
Pardo, A. San Martín, R. (2006). Análisis de datos en psicología II. Madrid: Pirámide.
¿que son las pruebas paramétricas y no paramétricas? (s. f.). cine ciencia hoy. Recuperado 17
de enero de 2021, de https://cienciadehoy.com/que-son-las-pruebas-parametricas-y-no-
parametricas
cómo elegir la prueba estadística. (s. f.). acces. Recuperado 16 de enero de 2021, de
https://accessmedicina.mhmedical.com/content.aspx?bookId=2448§ionId=193961180