Está en la página 1de 8

VARGAS CONDORI ALDAIT NESTOR

TABLAS DE CONTINGENCIA PARA ANALISIS BI-VARIADO


Las tablas de contingencia (tambin llamadas a veces tablas dinmicas, tablas
cruzadas, tablas de control o crosstabs como se conocen en ingls) son posiblemente la
tcnica estadstica ms utilizada en anlisis de datos.
Las tablas de contingencia se aplican para comprobar hiptesis donde hay una
relacin entre dos variables.
Las caractersticas de las variables sociolgicas justifican al autor para profundizar
nicamente en las relaciones de las variables que tienen nivel de medicin nominal y
ordinal, ya que, como l mismo apunta en la introduccin de dicho tema, son stas las

variables ms frecuentes en la investigacin social. (Snchez, 1992,

p.215). Para las tablas de contingencia se utiliza una serie de


manipulaciones como:
Snchez (1992) afirma: A partir de la cual realizan diferentes manipulaciones, en unos
casos las frecuencias de las tablas utilizando algn estadstico (diferencias o porcentajes
o razones) y en otros representan grficamente la informacin contenida en la tabla
(p.215).

PROBABILIDAD Y ESTADISTICA CIV 271

VARGAS CONDORI ALDAIT NESTOR


CMO SE ANALIZAN TABLAS DE CONTINGENCIA.
Una tabla de contingencia est formada por dos variables y est basada en el clculo
de porcentajes. El objetivo de esta tcnica estadstica es averiguar si las dos variables
estn relacionadas y la manera de averiguarlo es mediante la distribucin de
porcentajes. Concretamente se trata de analizar si la distribucin de porcentajes de una
variable se repiten por igual en las categoras de la otra variable. Debido a que se
estudia una variable
en funcin de otra, el investigador ha de distinguir entre la variable dependiente
(o a explicar) y la variable independiente (o explicativa).
http://networkianos.com/que-es-la-correlacion-bivariada-y-como
LAS CONDICIONES PARA HACER UN ANLISIS DE TABLAS DE
CONTINGENCIA
Hay dos condiciones para aplicar las tablas de contingencia como estrategia de
anlisis de datos:

Solo se pueden relacionar dos variables. Una puntualizacin. S se pueden


hacer tablas de contingencia con 3 variables pero este es ya otro tema que
abordaremos en otro

tutorial.

Las variables a analizar deben ser nominales u ordinales. Las variables nominales
son las que no tienen orden interno establecido (p.ej. gnero o estado civil), y las
variables

ordinales son aquellas que s tienen un orden interno establecido y el paso de una
categora a otra no es igual (p.ej. nivel educativo, inters en la poltica (alto-mediobajo-ninguno). Las tablas de contingencia no se usan para analizar relaciones de
variables escalares como la edad de muchas categoras ya que si se usara la tabla

PROBABILIDAD Y ESTADISTICA CIV 271

VARGAS CONDORI ALDAIT NESTOR


sera inmensa e ilegible. Si queremos usar la edad como variable en una tabla de
contingencia debemos recodificarla por rangos.
DEBEMOS RECORDAR PARA HACER UN ANLISIS DE TABLAS DE
CONTINGENCIA:
La tabla de contingencia es una tcnica de anlisis bivariado, relaciona dos
variables y trata de averiguar si una variable explica la otra.
Las tablas de contingencia permiten relacionar variables nominales y ordinales,
pero no variables escalares (a no ser que las recodifiquemos por rangos).
Hay que distinguir entre la variable que quiero explicar (variable dependiente)
que ir en filas, y la variable explicativa (o independiente) que ir en
columnas.
Calcular el porcentaje por columna para poder leer la tabla de contingencia.
La tabla se lee fila por fila y de derecha a izquierda.
Lo importante es averiguar si los porcentajes de la variable a explicar (la que va
en filas) se diferencian mucho, poco o nada entre las categoras de la variable
explicativa (la que va en columnas). Si hay altas diferencias de porcentajes las 2
variables estn relacionadas, una variable explica la otra. Si no hay diferencias
de porcentajes es que no hay relacin. Y si la diferencia es pequea o ocurre solo
en algunas categoras es que la relacin explicativa entre las variables es dbil.
REFERENCIAS.
Snchez Carrin, J. J. (1984): Introduccin a las tcnicas de Anlisis Multivariable
aplicadas a las Ciencias Sociales, Madrid: Centro de investigaciones
Sociolgicas (CIS).
Crdenas, Julin (2015, 29 de octubre). Tabla de contingencia [web log post]. Recuperado
de http://networkianos.com/tabla-de-contingencia-bivariada-y-como

PROBABILIDAD Y ESTADISTICA CIV 271

VARGAS CONDORI ALDAIT NESTOR

OUTLIER
El concepto de outlier sirve para que quien est trabajando con los datos le
llame la atencin valores que pudieran ser errores de captura u otro tipo de error o
intento de manipulacin de los mismos.
En determinadas circunstancias, es demasiado claro que el valor outlier
definitivamente no pertenece al conjunto de datos, y se puede eliminar. Pero en
general debemos hacer esto con cuidado, ya que hay situaciones en las cuales el
outlier realmente pertenece a los datos y debemos eliminar el outlier. Debemos
tener una actitud cuidadosa.
En estadstica, tales como muestras estratificadas, un valor atpico (en
ingls outlier) es una observacin que es numricamente distante del resto de los
datos. Las estadsticas derivadas de los conjuntos de datos que incluyen valores
atpicos sern frecuentemente engaosas. Por ejemplo, en el clculo de la
temperatura media de 10 objetos en una habitacin, si la mayora tienen entre 20 y
25 C, pero hay un horno a 350 C, la mediana de los datos puede ser 23, pero la
temperatura media ser 55. En este caso, la mediana refleja mejor la temperatura
de la muestra al azar de un objeto que la media. Los valores atpicos pueden ser
indicativos de datos que pertenecen a una poblacin diferente del resto de la
muestra establecida.
Tomando como referencia la diferencia entre el primer cuartil (Q) y el
tercer cuartil(Q) , o valor intercuartil, en un diagrama de caja se considera un valor

PROBABILIDAD Y ESTADISTICA CIV 271

VARGAS CONDORI ALDAIT NESTOR


atpico el que se encuentra 1,5 veces esa distancia de uno de esos cuartiles (atpico
leve) o a 3 veces esa distancia (atpico extremo).
Valores ms extremos (Outliers)
Un valor ms extremo (outlier) es un valor en un conjunto de datos que es
muy diferente de los otros valores. Esto es, los outliers son valores excepcionalmente
lejanos del centro.En la mayora de los casos, los outliers tienen influencia en la
media, pero no en la mediana, o la moda. Por lo tanto, los outliers son importantes en
su efecto en la media.
No hay una regla para identificar a los outliers. Pero algunos libros refieren
un valor como un outlier si este es mayor que 1.5 veces el valor del rango intercuartil
ms all de los cuartiles.
Tambin graficando los datos en una recta numrica como una grfica de
puntos, nos ayuda a identificar a los outliers.
Ejemplo:
Encuentre los outliers del conjunto de datos. Tambin encuentre la media del
conjunto de datos incluyendo los outliers y excluyendo los outliers.
15, 75, 20, 35, 25, 85, 30, 30, 15, 25, 30
Primero arregle el conjunto de datos en orden.
15, 15, 20, 25, 25, 30, 30, 30, 35, 75, 85
Grafique los datos en una recta numrica como una grfica de puntos.

PROBABILIDAD Y ESTADISTICA CIV 271

VARGAS CONDORI ALDAIT NESTOR

Los valores 75 y 85 estn muy lejos del centro. As, estos dos valores son
outliers para el conjunto de datos dado.
Encuentre la media, la mediana y la moda de los datos incluyendo los outliers:

Encuentre la media de los datos excluyendo los outliers:

La media del conjunto de datos dado es 35 cuando los outliers estn


incluidos, pero es 25 cuando los outliers estn excluidos.
El trabajar con datos producto de algn proceso de medicin o conteo y de la
captura de los mismos. Generalmente se producen datos extraos que pueden ser
resultado de errores de captura, o de las operaciones aritmticas de quienes operan con
ellos.

En estadstica a estos valores se les llama outliers, los cuales son sospechosos de no
pertenecer al conjunto de datos de donde proceden, o ser producto de algn suceso

PROBABILIDAD Y ESTADISTICA CIV 271

VARGAS CONDORI ALDAIT NESTOR


sumamente extrao. Podemos tener valores outliers moderados y extremos Hernndez,
G. M. (2008). Sistemas de Optimizacin y Estadstica. S. C.: Copyright 2Todos los
derechos reservados.

Deteccin de outliers multivariantes


Un ejemplo sencillo puede verse en la Figura 1, que presenta puntos de
datos que tienen dos medidas en un espacio bidimensional.

Tcnicas para deteccin de outliers multivariantes


El anlisis de la calidad de los datos es de gran importancia para las
organizaciones, ya que datos con problemas pueden conducir a decisiones errneas
con consecuencias como prdida de dinero, tiempo y credibilidad.

Hawkins, afirma: Un outlier es una observacin que se desva mucho de otras


observaciones y despierta sospechas de ser generada por un mecanismo diferente
(Hawkins, ----). [1]; Aunque estos valores pueden aparentar ser invlidos pueden ser
correctos y viceversa.
Los mtodos de deteccin de valores atpicos se pueden dividir en
univariados y multivariados. Para el caso univariado, diferentes autores han
realizado mltiples investigaciones.

PROBABILIDAD Y ESTADISTICA CIV 271

VARGAS CONDORI ALDAIT NESTOR


Beckman y Cook [2] abordan temas como las tcnicas de rechazo para mltiples valores
atpicos as como los efectos de enmascaramiento y empantanamiento, los valores
atpicos en los datos circulares, el anlisis discriminante, el diseo experimental, la
distribucin no normal, y las series de tiempo. Barnett y Lewis [3] hacen una
unificacin de los mtodos de anlisis estadstico para la deteccin de valores atpicos
as como los datos espaciales y los valores atpicos en las series temporales. Para el caso
multivariado es mucho ms complicado realizar una exploracin para llegar a encontrar
estos valores, debido al problema de la dimensin, por lo tanto se hace necesario
conocer cules son los mtodos existentes que permiten detectar este tipo de outliers.

Referencias
Hernndez, G. M. (2008). Sistemas de Optimizacin y Estadstica. S. C.: Copyright
2Todos
los derechos reservados.

D.M. Hawkins, Identification of Outliers. London, Chapman & Hall. 1980.

R. J Beckamn. R. D Cook, Outlier.s, Technometrics Vol 25, No. 2. pp 119149. 1983.

V. Barnett, T. Lewis, Outliers in statistical data, 3rd edition. Chichester,


John Wiley & Sons, 1994, 584 pp.

es.wikipedia.org/wiki/Valor_atpico pagina web

PROBABILIDAD Y ESTADISTICA CIV 271