Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Los objetivos de las temáticas que vamos a desarrollar son conceptualizar los elementos
básicos de la estadística descriptiva en el proceso de análisis descriptivo de datos vamos a
desarrollar también soluciones a problemas de análisis descriptivo de datos usando una
herramienta informática también
aplicaremos diferentes metodologías de muestreo para diferentes tipos de poblaciones.
Las definiciones que vamos a tomar en cuenta son primero la definición de estadística vamos
a considerar que es la ciencia que se encarga del diseño de estudios o experimentos la
colección de datos el modelaje o análisis de dichos datos para el propósito de tomar
decisiones y hacer descubrimientos cuando la información esté disponible y yo es
limitada como para ello la estadística se considera entonces como la ciencia del aprendizaje a
partir de los datos esto según la definición de Lyman Ott en el 2010 en su libro de probabilidad.
También se puede considerar como la rama que tiene que ver con la colección análisis
interpretación y presentación y organización de los datos esa es otra definición que aparece ahí
en la bibliografía que hemos recomendado y según Lyman Ott enfoque o un enfoque para el
estudio de la estadística es lograr el aprendizaje a partir de los datos y esto va a requerir los
siguientes pasos:
definir el problema
colectar datos
resumir los datos
analizar los datos interpretarlos y comunicar los adecuadamente los resultados
Vale la pena aclarar que la realización de estos cuatro pasos de una manera correcta es
importante para lograr el aprendizaje a partir de los datos. Uejemplo considera el caso de una
fábrica que produce en un día en un promedio aproximado de 10.000 artículos y suponga que
se desea saber cuál es la tasa de artículos defectuosos producidos un procedimiento será
examinar todos los artículos uno por uno aunque este método realmente nos va a decir cuántos
artículos defectuosos hay en el proceso será demasiado caro demasiado lento y por lo tanto no
es viable como una alternativa se propone tomar una muestra de estos datos de los 10.000
datos producidos digamos se toma una muestra de unos 100 artículos y a la fracción de
los artículos defectuosos de los 100 se puede tomar entonces como una representatividad de
toda la población en ese caso eso sería como un ejemplo de cómo a partir de ciertos datos se
puede aprender para toda la población.
También permite compilar dinámicamente y enlazar otros lenguajes tales como fortran, c por
ejemplo de esta manera las librerías externas se pueden usar como si fuera parte de las
características internas del Scilab también tiene un ambiente interactivo que se llama lab view
que es una plataforma es un ambiente de desarrollo digámoslo así para lenguajes de
programación de tipo visual desde el punto de vista de licenciamiento scilab es un software libre
en el sentido de que no pagamos por él usted lo puede descargar y si está otorgado bajo la
licencia gpl versión 2.0 y superiores por supuesto el software se distribuye con su código fuente
de tal manera que los usuarios tienen el acceso a todos los aspectos internos del site lab y
pueden hacerle modificaciones y según la licencia toda modificación que se le haga al software
tendrá que ser dada a conocer públicamente y también desde el punto de vista científico Scilab
viene con muchas características desde los orígenes Scilab ha tenido cierto enfoque al álgebra
lineal pero también tiene aplicaciones y rápidamente han ido creciendo han sido características
que se han extendido como el álgebra de matrices funciones polinómicas irracionales
interpolación la aproximación lineal cubica cuadrática también hay solución de ecuaciones
diferenciales hay muchas otras áreas de aplicación, pero la que nos va a interesar nosotros es
la estadística.
Entonces con esto pues estamos dando paso a lo que sería la planeación del muestreo ya
sabemos que vamos a hacer muestreo entonces lo vamos a planear vamos a hacer estos
pasos:
El primer paso es definir la población definir la población está identificado porque necesitamos
saber a qué nos vamos a acercar cuando tenemos eso que debemos identificar de toda esa
población cuáles van a ser esas unidades que vamos a considerar como elementos a muestrear
y las identificamos y las lista nos hacemos un listado de todas las unidades o elementos a
muestrear ya eso le definimos como marco muestral que realmente va a ser nuestro universo
de muestreo no toda la población sino el marco muestral ahí están ya purificados los ojos
filtrados digamos algunos casos que se puedan tener en el caso de poblaciones donde
realmente no conviene tomar toda la población sino los elementos definidos en el marco
muestral eso ya es un número limitado y ,luego de eso se determina el tamaño de la muestra
cuando ya se tiene el marco podemos decir de ese marco que tiene un tamaño dado vamos a
elegir una muestra de tal tamaño hay que tener un método para elegir el tamaño de la
muestra también eso tiene que ver con el tipo de población que se hace y luego que se define
el tamaño se hace el método que se haya elegido de muestreo y luego se procede a obtener
la muestra estos son los pasos que debemos realizar en cualquier experimento que tiene que
ver con muestreo no debemos de pasar ninguno de estos desapercibido.
Entonces definiendo un poquito más la población son pueden ser infinitas o finitas verdad
porque hay casos donde la población es demasiado grande si hablamos por ejemplo de las
estrellas del universo no las pueden contar o si hablamos de las arenas de la de la playa
tampoco entonces tenemos casos como mucha gente en un lugar que podemos llegar a
considerar que para nuestro estudio eso se convierte en infinito también hay poblaciones
finitas las producciones de una fábrica el número de estudiantes en una universidad etcétera
son casos finitos de esos definimos el marco muestral que sería la lista de todos aquellos
elementos de la población que vamos a considerar como para poder ser parte de nuestra
muestra y la muestra obviamente es las unidades de muestreo o a veces se coincide en verdad
las unidades muestrales con las unidades elementales como gesto por ejemplo si yo quiero
hablar de familias en una muestra los elementos de las familias son personas entonces pueda
darse por ejemplo que en una comunidad yo tenga que en unas casas puede tener personas
individuales que no tienen otros miembros de la familia con ellos entonces como haría para
hacer que esto se convierta como en una familia para ese tipo de personas puedo agruparlos y
entonces tener digamos conjuntos de estos tipos como mis elementos de muestreo podría darse
el otro caso que en una casa digamos que sé que se va a tomar como elemento de muestreo
se tengan varias familias entonces también ahí habría que tomar una consideración con
respecto a qué elementos y unidades vamos a formar ahí entonces hay que eso a veces
coincide a veces no las unidades con los elementos hay que hacer una consideración al
respecto.
Una vez que se haya definido el tamaño de la muestra no hay problema para seguir, pero ahora
vamos a dedicar un tiempo para encontrar ese tamaño de muestra a la elección del tamaño de
muestra es un tema de mucho interés la lógica nos indica que a mayor tamaño demuestra
más confianza obviamente en la exactitud de los resultados lo contrario también es cierto
verdad que a menor tamaño demuestra menos confianza en la exactitud de los resultados
aún más el mayor tamaño demuestra que se podría llegar a tomar es el mismo tamaño en la
población lo que significaría que hay un costo muy elevado para la realización de este tipo de
casos por otro lado es lo menos que se puede llegar a elegir es no elegir a nadie en cuyo caso
no tiene sentido el experimento entonces esto nos induce a que hay que pensar en que hay que
tomar un balance entre un punto medio digámoslo así no necesariamente el punto medio de la
población pero si hay un razonamiento alrededor de esto los estudios demuestran que
dependiendo del caso que se quiera obtener el tamaño de muestra entonces el tamaño de
muestra apropiado dependerá de varios factores por ejemplo la estabilidad de la población qué
tan variable es con respecto a la variable que se está observando la lógica y la observación de
la lógica y la observación juegan un papel esencial en todo esto.
Bueno como un resumen vamos a ver que hay diferentes métodos de muestreo el
muestreo puede:
ser probabilística o
aleatorio y no probabilística
El muestreo sistemático
El muestreo sistemático es donde se usa el muestro aleatorio simple para
elegir pero digamos que yo tengo una cantidad mucho más grande de
elementos a elegir entonces yo digo si tengo
100 elementos y voy a elegir días entonces puede elegir de los primeros 10
uno de los siguientes 10 otros y así y hago series de la primera serie de días
voy a elegir el aleatorio que me salga y de la segunda serie de días voy a
elegir el aleatorio que me salga y de la tercera serie de 10 voy a elegir el
aleatorio que me salga y así elijo días de entre los 100 aleatoriamente ese es
un muestreo sistemático y también existe
El muestreo estratificado
cuando nosotros sabemos que él población hay estratos esto no
necesariamente tiene que ver con nivel digamos económico sino hay digamos
extractos educativos digamos si yo tengo en una institución escolar digamos
primaria tengo secundaria tengo bachillerato o tercer ciclo y bachillerato
entonces yo puedo tener estratos ahí y quiero elegir gente de esa de ese
grupo entonces yo digo tengo estratificada mi población los de primaria los
de tercer ciclo los de bachillerato y voy a elegir una muestra que represente
a todo a todo el grupo de estudiantes entonces hago estratos y elijo de cada
estrato aleatoriamente un grupo verdad y así formó mi muestra y
FN E Copy Ctrl-C
Paste Ctrl• V ^ N.. . v... T... v›..
& Helpbx 0. 5
g ”¿ Cteat Console 7
t Distfun - IO
Start Stixbox
Start Apifun
Load macros
. @ cuerucuru s
• e-Swmd Type "help apifun overview" fo› 'w-°'** ’
'Start Helpbx
Start Distfun
hts•nagcnes
’. Nos›
/"1ATLAB .7
Start Distfun iO
Start Stixbox
Ne'w s feed va‘ affable.
^ Modu*managw- ATOMS ” r
#: help
’ !C 8^^ Variable Browser
..•. e -S' ord 'help apifon_overview” fo› '”-'“'¥ ’
0.3 ^
0.3
0.S
7
0*
0. 2 •••
B.685
s . ses
*’ CL 'RJCLtUf•tS
* e -S'w6d
Easy Jntera<ave Toolr
.• LG PC State 0.5
Undefined variable: r
i: i•t muéca
• Its escaneos
--> mean(A,’r')
4. 4.55 0.B05
filas y podemos verificar verdad por ejemplo este 4 podríamos ver que uno más 2 3
1 en 10 entonces es 12 13 entre 34 y fracción está aproximado y lo mismo con el
455 y lo mismo con bueno que me los está dando así verdad 7 18 entre 27 más 2
entonces me los está calculando en columnas y aquí me los está calculando en filas
esto me calcula los promedios por columnas y esto me calcula los promedios en
filas entonces ahí tenemos los tres y los dos correspondientes ahora veamos qué
se puede hacer con esta pantalla porque yo necesito comenzar algo nuevo entonces
voy a borrar la pantalla y escribo el comando clc y ya tengo una en pantalla lista
para ser utilizada me gustaría que investigara usted por su cuenta qué es lo que
hace en estos iconos que están aquí ahí
dice hay un cuadrito en amarillo que me indica qué es lo que va haciendo cada uno
pero sería bueno que usted dé un clic y pueda estar investigando el funcionamiento
de cada uno de estos
y pueda escribir digamos al lado de cada uno de ellos qué significa lo que hace para
tenerlo como evidencia y luego pues que hemos avanzado en esto veremos un
poquito de las preferencias del scilab para ver qué podemos hacer ahí y una de las
cosas que podemos hacer es trabajar con las preferencias y ubicarnos en la ventana
general cuando activamos la ventana de preferencias y nos ubicamos en la ventana
general algunas de las cosas que podemos hacer es que aquí podemos ver que el
setting por el lenguaje principal el default es inglés vamos a ponerlo como el que
nos interese verdad y spanish en este caso y con esto pues ya nuestro menú
principal del de scilab le va a usar español ya esa es una buena opción verdad ya
podemos por algunos que nos cuesta el inglés puedes trabajar la versión en español
de esa en la aquí por efectos de despliegue yo no tengo toda la la ventana pero
abajo aparecen un botoncito de predeterminado cancelar ok y apply entonces habrá
que darle al botón apply para que él tenga efecto entonces con eso pues ya va a
quedar asignado en el idioma verdad español en este momento pues nosotros no
tenemos esa disponibilidad pero lo vamos a tener en breve ahorita va a quedar
entonces aplicado y ya nuestra digamos consola todo va a salir luego en español
para que tenga sentido y validez me voy a salir del
programa y voy a volver a ingresar y vamos a tener el cambio de las opciones
lo primero que hay que reconocer es que cuando tenemos un conjunto de datos
estos datos no aparecen de la nada estos datos provienen de la intención del
investigador sobre algo que le interesa y estos digamos tienen diferente naturaleza
algunos pueden ser numéricos otros pueden ser características o cualidades que
se tienen de la variable que se está observando otros pueden ser resultados de
conteos o de mediciones entonces dependiendo del conjunto de datos así es como
se va a tener que ser el análisis el análisis descriptivo o exploratorio lo que trata de
hacer es dar como una idea inicial de cómo es el comportamiento de la variable que
se está observando esto todo esto tiene que formar parte de un experimento
digamos o una investigación aquí estamos hablando de conocer con anterioridad
qué es lo que se desea investigar esto es parte de lo que se conoce como un
experimento aleatorio qué es un experimento aleatorio un experimento aleatorio
es aquel en el que nosotros conocemos todas las posibles resultados o todos los
posibles resultados que pueden obtenerse el experimento antes de realizarlo pero
no podemos decir con seguridad cuál de todos esos resultados ocurrirá hasta que lo
realicemos eso es un experimento aleatorio entonces ya se tiene conocimiento de
todos los posibles valores que puede haber un ejemplo podría ser sencillo si
estamos estudiando características de las personas y digamos estamos hablando
de cuál es su color de ojos hay muchos colores de ojos pero se pueden digamos
clasificar por ejemplo pueden ser negros pueden ser café pueden ser pardos pueden
ser azules grises pero no es una una cantidad infinita entonces se puede digamos
de alguna manera de establecer digamos un rango de valores entre los que va a
oscilar el color de ojos si hablamos de digamos el peso de una persona entonces
igualmente los pesos de las personas andan digamos un mínimo de depende de su
estatura también y su edad pero tienen una variación entre un mínimo y un máximo
razonable aunque podemos pensar que hay personas demasiado obesas pero
tienen un peso que podemos considerarlo como un peso máximo y un peso mínimo
entonces entre esos dos valores oscilan no se esperaría un resultado que no caiga
dentro de esos dos extremos.
entonces comenzamos por ahí y esto nos hace pensar un poquito en el tipo de datos
el tipo de datos que tenemos lo podemos clasificar como categórico o como
numérico pensemos en el tipo de datos categórico sí que tiene categorías las
categorías podrían considerarse como de dos categorías como los dicotómicos
como en el caso del sexo que puede ser varón o mujer o el género puede ser
masculino o femenino y así como esos hay muchas otras digamos en el caso de
algunos artefactos podrían estar arruinados o en buen estado o podría estar activos
o inactivos o cosas por el estilo en los datos multi categóricos podemos pensar en
más de dos categorías y estos además se podrían clasificar como nominales y
como ordinales nominales donde no hay ningún orden obvio entre las categorías
pensemos en el estado civil de una persona puede estar casado puede estar viudo
puede estar divorciado puede estar soltero puede ser una unión libre no hay una
relación entre las categorías en el caso de los ordinales si hay una una relación
natural digámosle así por ejemplo si vemos el grado de una enfermedad una
persona puede estar sana puede estar con un nivel de enfermedad un nivel
moderado un nivel severo los valores que toma de esa variable están de alguna
manera relacionado con el tipo de enfermedad que pueda tener cuando se le dan
las notas los estudiantes encontramos que algunas pueden ser excelentes muy
buenas buenas regulares necesitan mejorar ese tipo de datos están relacionados
también entre sí el valor de la categoría indica una posición en un rango establecido
esos son los datos ordinales por otro lado los casos numéricos los casos numéricos
también se pueden dividir en discretos y en continuos el caso discreto proviene por
lo general de un proceso de conteo contamos cosas cuántos hay cuántos entraron
cuantos tenemos etcétera y el caso continuos
generalmente provienen de medir cosas medir presión volumen temperatura ese
tipo de datos generalmente se denominan continuos y sabemos que va a depender
de la escala de medición y del comportamiento lo que se pueda obtener esto nos
ayuda a pensar en que también las variables que estamos observando se pueden
clasificar de esa manera una van a ser cualitativas y otras van a ser cuantitativas
las cualitativas tienen que ver con las cualidades características como el color de
los ojos el color del cabello y ese tipo de datos las cuales se dividen en nominales y
también ordinales donde ya hemos dicho de que algunas pues te involucran un
cierto orden intrínseco allí en el en el desarrollo de los valores que toma la variable
como en el caso de las notas de excelente necesita mejorar entre esos valores los
valores obtenidos están pues de alguna manera relacionados y en el caso de las
cualitativas las hemos visto que son las numéricas y que pues van a dividirse en
discretas y en continuas las discretas generalmente del proceso de conteo y las
continuas por lo general del proceso de medición
hay un trabajo de un señor que es stevens es es un psicólogo que propuso unas
escalas de medición estas escalas según stephens las clasificó en primer lugar
como nominales y ordinales ya nosotros tenemos en consideración que las
nominales serían las que corresponden a las variables nominales y las ordinales a
las variables ordinales pero él hizo una clasificación aún más mejor e introdujo un
concepto de poner un punto inicial de observación que no representaba nada
inicialmente o una exclusión de alguna variable y lo lo denominado intervalo y eso
tiene que ver con mediciones numéricas de cierto tipo y las de razón que se incluye
el punto inicial de medición y si significa la exclusión de un valor que él llamó de razón
y este contexto de escalas ordinales nominales interval al es intervalores de razón
se ha hecho muy común en el estudio estadístico de descripción de datos y por eso
lo menciono porque es un trabajo muy que se usa mucho en el ambiente estadístico
usted puede puede encontrar este tipo de escalas y entender realmente de qué se
trata hay
un enlace en el documento escrito donde usted puede ir y ver directamente el
documento que fue producido por Stevens.
bien vamos entonces a pasar ahora al estudio del método gráfico donde hacemos
uso de recursos computacionales no podemos realizar esto de manera manual eso
es aquí donde nosotros podemos entender la ventaja de tener una herramienta
computacional para poder realizar este tipo de estudios si yo puedo usar un recurso
computacional y hacer estos gráficos obviamente es si lo hiciera a mano esto me
llevaría demasiado tiempo y perdería el objetivo de la investigación por estar
teniendo que tener el cuidado no equivocarme en el procesamiento o en la forma de
de obtener el gráfico como los recursos computacionales ya están avanzados uno
puede realizar este tipo de gráficos de una forma tan simple y obviamente dedicarse
a interpretar el resultado de lo gráfico que justamente lo que interesa en la
investigación aquí tenemos diferentes tipos de gráficos de que parecen como
de barras cada barras tiene una altura que representa algo obviamente cuando uno
hace este estudio y puede ver el comportamiento de esta gráfica por ejemplo la que
está al inicio en la esquina superior izquierda podemos ver de que hay algunas
mediciones por ejemplo la de muy bueno que no tiene valor es la de bueno tiene un
incremento regular deficiente tiene valores elevados también entonces podemos ver
de que hay una tendencia a que se necesita mejorar algo ahí aunque estamos
poniendo digamos un ejemplo de esta naturaleza no sabemos de dónde proviene
este estudio o estos datos de este estudio pero el gráfico de hecho nos muestra que
hay que mejorar porque lo deficiente y lo regular está tomando mucho auge
entonces hay que mejorar algo el otro gráfico que tenemos aquí es el histograma
cada barrita aquí en el histograma representa un área no es una frecuencia
directa sino que es la relación entre la frecuencia que se obtuvo y el total de datos
que se han examinado en la en la muestra digamos las ideas de investigación
entonces esas alturas no son frecuencias únicamente sino que son frecuencias
divididas entre el total lo que me generaría una especie de área de correspondiente
a este tipo de gráfico que me ayuda mucho y me dice no solo las frecuencias sino que
digamos en comparación con el todo que tanto de del todo representa esa barrita eso
es muy bueno porque yo puedo ir clasificando digamos de acuerdo a lo que esté
observando el tipo de variable y ésta que tenemos aquí abajo es factores que
activan el esta es como una frecuencia de cada una de las escalas y es un gráfico
de barras tradicional igual que tenemos en la parte superior izquierda pero escrito o
mostrado de forma horizontal y se han puesto los valores también para identificar
en cada barrita lo que se tiene entonces estos son de gráficos de barras que son
muy útiles y que tienen muchos significados
me muestran las tendencias de algunas de las variables que se estén observando
hay otros tipos de gráficos que también nos ayudan a entender esto por ejemplo el
que tenemos en la esquina superior derecha izquierda de tallo y hoja se han
clasificado los datos donde se por ejemplo el primero en la parte de tallo 4 y hoja 4
significa el dato 44 el dato 45 el dato 49 el 4 primero de las unidades digamos de
las decenas se ha puesto como tallo y el de las unidades se ha puesto como hoja y
entonces podemos entender que los son los 50 y los
60 y los 70 los 80s y entonces ahí podemos estar viendo cuál es el comportamiento
poniendo los datos mismos en un gráfico y vemos de que hay una situación entre los
50 y los 70 que son los que tienen mayor altura o mayor longitud entonces ahí
tendríamos los datos como con mayor frecuencia o mayor digamos peso en la
investigación el que tenemos aquí este es un gráfico de líneas pero tiene los puntos
pero tiene las líneas esa línea es como una aproximación una tendencia observando
los puntos se ha trazado esa línea hay métodos que nos permiten decir cuáles son
las ecuaciones de las líneas que
aproximan a los puntos eso lo veremos posteriormente y aquí abajo tenemos
también un gráfico también de línea pero diferente porque aquí va uniéndolos los
puntos con líneas tenemos al lado izquierdo en la parte inferior un gráfico que se
conoce como de pastel circular y también pues aquí tenemos una representación
de el área cómo es que se puede identificar en el gráfico qué variables tienen mayor
peso o mayor influencia en lo que se está investigando también existe un gráfico que
ya tiene que ver con un poquito más de detalles de los datos.
aquí pues encontramos que yo necesito digamos identificar primero para poder
hacer este gráfico necesito identificar primero la secuencia de datos ordenar la de
menor a mayor para saber cuál es el menor valor el mayor valor y encontrar el rango
entre esos dos y ese rango dividirlo en cuartiles es decir valores que van a dividir
ese rango en porciones del 25% cada una el cuartil 1 es 25% de los datos que eran
abajo de ese valor el cuartil 2 es el 50% de los
datos quedan abajo de ese valor el cuartil 3 es el 75% de los datos quedan abajo
de ese valor obviamente si pongo un cuartil 4 ya quedan todo datos debajo entonces
ya no tiene sentido entonces solo se habla de tres cuarteles y una característica
muy particular es que el cuartil 2 como deja el 50% debajo de los datos deja también
el 50% arriba coincide con el concepto de mediana entonces la mediana es la que
deja el 50 por ciento abajo del 50% arriba y se puede ver otra característica que se
puede observar en este tipo de gráficos es que cuando nosotros ya tenemos
ordenados los datos y los queremos graficar este es un gráfico que se llama the box
plot o de cajas algunos le llaman también de cajas y bigotes este tipo de gráficos
puede identificar valores que se salen del rango por ejemplo aquí podemos ver qué
hay un límite superior y hay un límite inferior es el límite superior y es el límite inferior
como se determinan bueno hay una regla que es que si yo parto del centro y me
desvío una vez la desviación estándar hacia la derecha hacia la izquierda o hacia
arriba o hacia abajo estoy todavía dentro del margen de la de la distribución normal
una vez y medio todavía se puede aceptar entonces saliendo me de una vez y medio
hacia arriba y una vez y medio hacia abajo a la derecha la izquierda de la distribución
de la desviación entonces ya caigo con valores que son demasiado extremos un
ejemplo si yo tengo que medir o contar o identificar la edad de mis estudiantes en
un salón de clases tengo 20 estudiantes y empiezo a preguntar cuál es su edad su
edad suda y me empiezan a decir 19 20 18 porque muy extraño que a 18 pero
digamos hay algunos alumnos ahí que ya llevan varios años y uno dice por ejemplo
45 comparar ese 45 con digamos los 18,20,21,45 está como el doble o muy fuera
del rango ese dato me puede afectar el resultado de la investigación y este gráfico
me lo va a
identificar de que es un dato extremo se sale de los límites eso me puede ayudar a
tomar la decisión de quitarlo del grupo para que no afecte el resultado del promedio
que es el que muchas veces se identifica de los group esos parte de lo que este tipo
de gráficos nos puede ayudar a realizar
También tenemos digamos ya la combinación de todo esto pues como una especie
de digamos hacer como un diseño gráfico de los datos donde primero se puede
analizar de forma el tipo de gráfico en barra o de tallo y hoja se puede hacer el
histograma para identificar las regiones de mayor peso se puede hacer el gráfico de
línea para identificar tendencias de la distribución y también se le puede dar un
enfoque así tipo pictográfico como aparece en el diagrama de los arbolitos donde
podemos ver que algunos arbolitos tienen menor menor característica o menor peso
que otros bien no nos resta nada más que pensar en que cuando uno hace el estudio
de los gráficos de una variable estos pueden mostrar una relación y entonces
podemos hacer como una especie de
digamos secuencia de gráficos podemos comenzar con el gráfico de barras que nos da una del
comportamiento de los datos pero también podemos presentar el diagrama de circular o el de pastel
donde nosotros sabemos digamos cómo está influenciando cada uno de los valores y podemos
realizar también gráficos de líneas donde podemos hacer evidente la tendencia de la variable y
muchas veces para cambiar esto y darle otro enfoque se puede usar también así como este un
pictograma donde la forma de o la estatura de los arbolitos me indica la tendencia igualmente puede
observarse como si fuera un gráfico pero diferente verdad dándole un enfoque un poco más
relacionado a lo que se esté observando entonces esto es como una especie de resumen donde los
gráficos pues nos ayudan verdad hay un pensamiento ahí que dice que un gráfico habla mucho mejor
que mil palabras si el gráfico está bien hecho por supuesto.
vamos a estar usando microsoft excel como una herramienta informática muy útil donde ya pues está
desarrollado para hacer muchas cosas entre ellas los gráficos de excel son muy fáciles de realizar y
vamos a verlo cómo es que lo vamos a utilizar en nuestra vida autoría obvia y shaila que también lo
usaremos en su parte tabular para hacer algunos cálculos
el coordinador de una asignatura realizó una encuesta con el personal bajo su cargo para
identificar posibles fallos en el proceso de enseñanza-aprendizaje y obtuvo en las siguientes
respuestas entre los asistentes o subordinados a su reunión y dice causas que considera que
fueron las que originaron la deserción de los estudiantes de la asignatura de excepción de
estudiantes se refiere aquí a aquellos estudiantes que se retiraron legalmente aquellos que se
retiraron sin hacer ningún trámite administrativo a aquellos que sencillamente dejaron de
evaluarse entonces esos son de soluciones así lo vamos a considerar y entonces algunos
dijeron que del de los docentes que estaban en la reunión dijeron que por la carga laboral fueron
11 los que votaron por el nivel de conocimientos previos dijeron que días estaban de acuerdo
con ese concepto de que el nivel de conocimientos previos fue la causa de la decepción por las
falsas expectativas siete personas dijeron que fue eso la carga académica dijeron que fue tres
por accesibilidad de internet 3 y por cultura de estudio 1 ateniéndose un total de 35 respuestas
entre los asistentes y también se examinaron causas de reprobación así como causas de
aprobación si camino entonces decepción aprobación y reprobación entonces vamos a hacer
el estudio nosotros para esta parte cita de la de la deserción y se va a dejar al estudiante que
haga por su parte el estudio de los literales b&c tanto para la reprobación como para lo de la
aprobación
hacer este gráfico bueno realmente sólo seleccionamos esta sección de esta manera y si yo
puedo irme insertar gráficos recomendados con sólo dar un clic en este botoncito él ya me
muestra gráficos recomendados entonces aquí veo opiniones active opiniones y aquí puedo ver
opiniones desde el forma circular en barras de manera perpendicular y barras de manera
horizontal el que nosotros hemos realizado es el de barras de manera perpendicular y
obviamente cambiamos el título de opiniones por causas de deserción estudiantil para que
tenga un una mayor significó significa más el título con respecto al a la gráfica que estamos
viendo entonces vemos aquí que por carga laboral vemos aquí que por nivel de conocimiento
hay que saber interpretar yo no tendrían digamos razón de unir estas barras por puntos y decir
que hay una tendencia de este tipo porque son conceptos completamente diferentes no hay una
relación directa entre carga laboral nivel de conocimientos juego falsos respecto a todas estas
son opiniones diferentes unas de otras y estos son los rangos o las frecuencias de dichas
opiniones yo puedo verla directamente acá entonces resulta muy fácil que hagamos eso de esta
manera entonces ahí tenemos ya el gráfico de barras
el siguiente tipo de gráfico es el gráfico circular lo vimos anteriormente en la selección que
hicimos de los datos y al querer hacer los gráficos recomendados cuando seleccionamos los
datos junto con las opiniones venimos aquí aparece de manera sencilla el gráfico y lo pues es
lo que me interesa una vez que lo hemos elegido y se pone en esta sección podemos modificar
cómo es que queremos que parezcan las digamos opiniones marcadas con sus colores
respectivos la forma del gráfico los títulos pues todo verdad podemos mover esto si no nos
interesa que esté allí al lado de eso dirigirme internamente a las partes del gráfico y cambiar la
leyenda y ponerla en otra posición luego cambiar los colores puedo hacer muchas cosas
relacionadas al gráfico y así pues de manera sencilla esto un simple de realizar un gráfico
circular aunque ya sabemos que la teoría de esto significa de que cada una de las opiniones
que tiene un sector asignado en grados dependiendo de su frecuencia sobre los 360 grados de
la circunferencia total entonces ahí se va trabajando esa parte teórica pero no hay necesidad
de hacerlo nosotros porque excel lo hace por nosotros.
tipo de gráficos de líneas y de tallos y hojas usaremos otro conjunto de datos debido a que el
conjunto de datos anterior las opiniones vertidas por los docentes sobre las posibles causas de
deserción estaban pues indicando opiniones separadas no podíamos relacionarlos a través de
una línea entre una barra y otra en cambio si yo hago un estudio de estatura y peso de una
persona entonces tiene como más digamos sentido si yo veo estatura de varias personas todas
son estaturas entonces puedo ver digamos cuál es la tendencia de estatura de las personas
dentro del grupo y puedo estudiar si hay alguna tendencia a crecer o ha de crecer o hay algún
alguno que domine más que otros ese tipo de estudios se hacen de manera gráfica viendo pues
el primero consideremos estos datos tengo aquí una lista de 20 personas con sus respectivas
estructuras en metros y su peso en libras entonces podemos analizar esto y ver cómo es su
gráfico puedo ver el gráfico de los pesos aquí hay una
imagen de barras de los pesos puedo ver que ahí están los 20 pesos y así están distribuidos el
primero corresponde al primer dato de la tabla el segundo el segundo dato y así sucesivamente
entonces esto fue tomado directamente de la tabla y graficando únicamente pesos si yo quiero
digamos las estaturas igualmente es elijo a la columna estatura si hago la gráfica y vemos ahí
las estaturas las 20 estructuras me están digamos diciendo que hay un pequeño una pequeña
variaciones pero hay algunos que son un poquito más alto que otros y otro más pequeño que
otros no hay digamos una forma de identificar igual que los pesos acá hay unos más que otros
pero todavía yo puedo hacer un poquito más y combinar de la persona aún no tener tanto su
peso
el peso en la figura en esta línea amarílla que viene acá y la estatura en la barra no puedo
hacerlo comparando barras porque las estructuras 1 punto y algo comparado con el peso 200
y algo de libras son valores que numéricamente son muy distintos entonces si yo quiero hacer
barras de las estaturas y ponerlas a la par de las barras de los pesos entonces las estructuras
no se van a ver comparado con los pesos porque son demasiado pequeña entonces no puedo
hacer comparaciones de barras entre los dos tipos de datos por eso se hace un gráfico
combinado con una escala para las estructuras y una escala diferente para los pesos gráfica 2
todos los dos los dos tipos de escalas en el mismo set se ve este tipo de gráfico con esto pues
yo puedo hacerlo muy fácil en las opciones que vimos antes de hacer gráficos y hay otras
opciones ahí que me permiten realizar este tipo de gráfico combinado que usted lo puede hacer
de manera sencilla sin mayor dificultad
el estudio de tabular de los datos yo necesito ordenar los datos primero de menor a mayor
es muy fácil verdad no puedo usar excel para seleccionar estos datos usando la opción que
tiene excel en la parte superior derecha de ordenamiento porque esto se puede ver aquí como
ordenar pero cómo hacer una ordenación de los datos se pueden ordenar de menor a mayor
estos datos entonces con eso pues yo ya puedo ponerlos en orden de menor a mayor y eso es
lo que lo que teníamos allá en la ventana estoy usando en este momento que es de word y eso
es lo que vamos a hacer ya tengo ordenados los datos y ya puedo ver aquí la tendencia del
dato menor al dato mayor yo puedo ver que hay unos datos que van en forma creciente y veo
aquí que se refiere prácticamente a las mujeres las primeras seis que aparecen aquí son datos
de mujeres y los restos son datos de hombres entonces yo veo aquí una tendencia de que las
mujeres son más chiquitas que los hombres en este gráfico para este grupo de personas no
quiere decir que en general todas las mujeres son más chiquitas que los hombres ya hemos
visto que hay mujeres que son muy grandes muy altas mucho más que los hombres pero en
este grupo de datos esta es la información que tenemos y cuando uno hace una explicación de
una variable que está observando tiene que hacer referencia a esa variable que está
observando con ese conjunto de datos porque con otros datos la misma variable resultados
muy diferentes entonces esto hay que tomarlo siempre en consideración cuando uno esté
haciendo un análisis o explicando la existencia de una relación basada en datos de una variable
los distribuimos en clases uno debe decir cuántas clases recuerda que con el exploit que yo
decía hacer los gráficos en záiler yo decía hacer diez clases bueno diez clases por qué no hacer
seis porque no hacer tres porque no es el cinco porque no hace siete en realidad no hay un
límite o no hay un control pero hay una tendencia digamos si yo hago poquitas clases entonces
digamos una sola clase una sola barra no me dicen nada pocas pocas barras dos barras tres
barras no me dice nada pero si algo más barras entonces tengo digamos una mejor distribución
de los datos en las barras si hago muchas barras es cómo volver al diagrama individual de
barras uno por cada dato y entonces también tiene alguna importancia pero no es lo mismo que
consolidar en un cierto número de barras y ver la tendencia de los datos dentro de esas barras
y poder determinar si hay alguna distribución de los datos que se le puede asemejar a esos
datos entonces vamos a hacerlo y hemos decidido que un número entre 5 y 10 es bastante
aceptable pongamos un número 6 por ejemplo como hicimos acá y lo primero que se hace es
encontrar el rango el rango se encuentra de restando al valor mayor de las observaciones el
valor menor de las observaciones y en el caso pues resultó ser punto 32 la diferencia este
punto 32 yo lo debo dividir entre 6 para encontrar el ancho de cada clase y a partir del primer
valor y sumando este valor para ir encontrando el extremo de la siguiente clase y eso es lo que
se ha hecho y se ha encontrado las seis clases y aquí están identificados los extremos desde
el 156 más este 0.05 llegó a este valor luego desde ese valor hasta más 1 punto más 0.05 llegó
el siguiente y así sucesivamente y veo cuántos datos de las observaciones caen en cada
intervalo de clase y luego que estas son las frecuencias y tengo las frecuencias acumuladas
como se van logrando en cada uno de estos datos
el gráfico entonces yo podría tenerlo algo así donde tres luego se va hasta arriba y luego va
bajando y el gráfico de frecuencias acumuladas tendría este comportamiento esto después
digamos como hacer un gráfico de este tipo de líneas para los datos que tenemos en
observación con esto pues hemos llegado a esta parte de los gráficos
ahora a la parte tabular bien la parte tabular la vamos a hacer la podemos hacer siempre en
excel porque es muy simple usar el excel para este tipo de tablas vamos a incluir a frecuencia
la frecuencia acumulada de cada clase la frecuencia relativa ya vamos a ver cómo se calcula la
frecuencia relativa porcentual la frecuencia relativa acumulada y la frecuencia relativa
acumulada porcentual pues veremos en esta tabla todos esos valores y cómo se calculan en
seguida entonces partimos siempre del hecho de tener nuestra tabla original de donde hemos
encontrado nuestro rango nuestro ancho de clases y ya tenemos las clases definidas y las
frecuencias y las frecuencias acumuladas anteriores cómo hacemos para calcular la frecuencia
relativa vamos a la frecuencia y lo dividimos entre el número de datos como son 20 datos en
total entonces al dividir 3 entre 20 me genera esta frecuencia relativa y lo mismo para este 3 y
este 8 y este 3 y así si yo la quiero porcentual entonces sencillamente multiplicó por cien por
ciento y obtengo que esto es el 15% los datos el 40% y así y la frecuencia relativa acumulada
bueno voy acumulando este 15 con este otro se me hace 30 con este 40 se me hace 70 y así
sucesivamente y la frecuencia acumulada porcentual estos valores acumulados entonces lo voy
a hacer porcentuales y lo multiplicó por 100 tengo el 15% hasta el 30 está acá el 70 por ciento
a calles y hasta llegar al 100 por ciento con el último dato esta es la forma como se hace de
manera sencilla y pueden aplicarse formulita para ir haciendo estos cálculos y automáticamente
se va a ir rellenando con los valores de frecuencias y frecuencias acumuladas que yo ponga
inicialmente
bienvenidos a esta vídeo clase en esta sección que vamos a estudiar ahora vamos a ver medidas
de tendencia central siempre tenemos nosotros el estudio de los datos y obviamente a partir de los
datos podemos obtener información directamente de los mismos sin pasar por los gráficos
obviamente que los gráficos son muy buenos y ayudan y pueden dar interpretaciones que nos
pueden ayudar a decidir en un momento dado pero también podemos ir directamente a los cálculos
y eso es el objetivo de esta vídeo clase y ahora vamos a comenzar las medidas de tendencia
central siempre con el objetivo de aplicar el análisis descriptivo a un conjunto de datos siempre
usando la herramienta computacional vamos siempre a recordar que los datos no surgen de la nada
los datos siempre provienen del deseo o el interés del investigador de estudiar una variable y de
conocer qué es lo que está ocurriendo en ella y para ello puesto hace un experimento es una
investigación y resulta en los datos de estos datos ya dijimos que puede de diferente tipo para esto
que vamos a estudiar acá los datos en ecuación numéricos de carácter cuantitativo entonces
veamos el primer digamos parámetro estadístico
a considerar y es las medidas de tendencia central la primera la media aritmética ya hemos visto
antes que la media aritmética o promedio en el caso poblacional cuando se habla de esperanza
matemática estamos hablando del promedio pero es a nivel poblacional incluso a nivel
probabilístico matemático del formato más general que puede haber del concepto se habla de
esperanza matemática la esperanza matemática ya hablándolo en términos de un conjunto de
datos se llama media aritmética promedio que son los datos que tenemos o los valores que
nosotros podemos manejar digamos que tenemos n datos el promedio se calcula así como está
indicada en esta fórmula está fórmula nos dice que debemos sumar todos los datos y dividirlos
entre el número de datos sumados que es un n y eso nos da el promedio la media aritmética
cómo lo vamos a hacer ahora lo vamos a hacer digamos referenciando lo aún a una herramienta
computacional en nuestro caso vamos a hacerlo con r r es un sistema que ahora pues se ha
actualizado hacer una licencia de público abierta una licencia libre es un software libre eso significa
que no vamos a tener que pagar nada por usarlo es este es un proyecto digamos se ha desarrollado
mucho y tiene aplicaciones en diferentes áreas y en cada una de esas áreas ha creado su propia
tool box o caja de herramientas que le permite a los usuarios a hacer aplicaciones y utilizarlas de
manera gratuita entonces nosotros vamos a hacer uso de la parte de estadística de r que r esto es
un monstruo verdad es un proyecto gigantesco que tiene aplicaciones geoespaciales en cuestiones
estadísticas en análisis de variantes análisis multivariado diseños experimentos tiene también
cuestiones en geoespacial es bueno tantas cosas pero nosotros vamos a usar la parte estadística y
cuando hablamos de la estadística usando r entonces tendríamos que primero crear una variable
que contendrá nuestros datos para ello se usa este primer comando ese símbolo que aparece de
mayor que al inicio de la línea ese símbolo es el puntero de r o sea que cuando uno entra de deere
lo que aparece en la ventana de la consola es ese símbolo mayor que indicándonos que allí es el
pronto y ese es el punto en el que tiene la entrada de datos que nosotros hagamos el símbolo x o la
letra x que sigue es el nombre que va a tener la variable y esa letra se que aparece después del
signo igual es como una manera de indicar que en nuestro conjunto de datos es el que sigue que
está indicado entre paréntesis aquí tenemos 10 valores entonces esos 10 valores es el conjunto de
datos nuestro iba a ser asignado a la variable x entonces qué hacemos para calcular el promedio
simplemente digita moss min y entre paréntesis x ese es el comando para encontrar el promedio el
promedio fue calculado claro en esta presentación yo no estoy mostrando los resultados porque esto
ha sido escrito y no estoy interactuando directamente en la ventana de consola de r entonces estoy
nada más indicando que es los comandos que se tienen que digitar cuando usted vaya a r y digita
estos comandos va a tener a lo mejor otro tipo de interacción si se equivoca por ejemplo le va a
aparecer un mensaje de error aquí esto está correcto no hay errores pero no me están mostrando
digamos la interacción directa con el software que hago después la siguiente instrucción de igual min
x lo que me está haciendo es asignando me el resultado que ya se había calculado en la variable y
esa variable contiene el valor calculado del promedio de los diez datos anteriores que hago para
conocer simplemente dígito el valor dígito la variable y y entonces me aparece el cálculo que haya
encontrado de esa de ese promedio de esos diez datos es sencillo no requiere mucho es muy fácil
es una sola instrucción yo incluso pude haber hecho evitarla la segunda instrucción y dina sola vez
hacer la tercera y ya tener como estos se van guardando en esas variables que uno va creando las
variables son alojadas en un works space o en un área de trabajo yo puedo ver el área de trabajo
directamente en la misma consola donde tengo el funcionando r tengo diferentes paneles uno de
ellos es la parte donde están las variables esas variables yo puedo verlas sin tener que digitar el y
puedo ver directamente el valor ahí en esa ventanita en esa digamos sección de la ventana de todo
el sistema r también tengo una parte donde yo puedo codificar es una especie de editor editor de
programas dos funciones donde yo creo funciones o programas que después puedo utilizar yo
puedo crear mis propias funciones por ejemplo puedo crear una función donde yo le pida al usuario
que introduzca los datos entonces en mi función yo tendría o en mi programa yo tendría que ingresar
los datos internamente el hace el cálculo del promedio y lo puedo mostrar a través de un comando
interno dentro de r por supuesto esto ya es programación pero hay una sección donde yo tengo para
poder programar y así mismo tengo también una sección donde puedo ver ayuda todo eso en la
misma ventana de r la ayuda en línea tengo las variables que voy creando tengo mi ventanita para
hacer el código de mis programas o funciones y tengo la consola con la que interactúa directamente
con el sistema y obtengo estos resultados veamos qué más podemos hacer podemos encontrar
entonces la mediana la mediana recordemos que era el valor que me dividía la distribución de los
datos en el 50% debajo de ese valor y el 50% por sobre ese valor entonces qué hago aquí
directamente yo puedo tener ese valor de mediana con solo digitar ese comando y ya me da el valor
de la secuencia ordenada de datos ya me dice en cual está el punto central que me divide en 50%
arriba y abajo directamente sin hacer nada más que eso directo fácil tranquilo luego está la moda no
tengo un comando definido para encontrar la moda en así con el nombre moda mode sería en inglés
world pero tengo ese comando table y entre paréntesis la variable que quiero estudiar y que hace
ese comando table me muestra una especie de tabla donde tengo los datos ordenados y puedo ver
la frecuencia de cada dato como la moda es obtener el que tiene mayor frecuencia yo podría haber
en esa tablita que me muestra table que hay algunos que tienen mayor frecuencia que otros y puedo
ver cuál es el de mayor frecuencia no tengo uno para moda pero tengo uno para table que me
muestra la tabla de los datos con sus respectivas frecuencias que es muy útil luego si quiero
encontrar cuartiles ocupó cuanta el x entre paréntesis y ya con eso pues obtengo los cuartiles
también tengo un comando que se llama short que me sirve para ordenar los datos ese es otro
comando no está referenciado a ninguno de los que ya hemos visto pero es bueno tener los datos
ordenados si yo no los puede ordenar si me cuesta si son muchos y esa es la ventaja de tener un
software yo no estoy hablando de 10 datos estoy hablando de cientos miles quizás de datos y tener
un control de por ejemplo 500 datos y encontrar el orden de los 500 datos ya sólo ese si lo hago a
pie ya es un con un verdadero dolor de cabeza tendría que tener una estrategia de cómo hacerlo de
ir ordenando los de alguna forma primero de una y de ir avanzando en una especie de de
reordenamiento más reordenamiento hasta llegar a tener un orden total de todos es un poco más
complicado short de una sola vez me ordena todos los datos y ya puedo tener ese orden listo con un
solo comando y no se va a tardar ni segundos sino que es una respuesta casi inmediata luego el
rango para encontrar el rango que es el valor mayor menos el valor menor ese es el rango de los
datos me sirve ese rango para hacer muchas cosas más adelante veremos pero el rango se puede
calcular haciendo esa operación max que me calcula el máximo de los valores de x-men que me
calcula el mínimo de los valores de xy el hacer max menos 1000 obtengo el rango y por último la
variable sumar y es una es es una función extremadamente útil sumar y hace cosas maravillosas
porque me muestra no solo el máximo el mínimo sino que también el rango de los datos ordenados y
también me muestran los percentiles los cuartiles de una sola vez dentro de la misma expresión de
el comando sumar y me muestra la media me muestra la mediana de muestra bueno todos esos
valores en un solo él me hace todo es algo maravilloso además de esto tenemos otras medidas que
se usan muy poco pero las vamos a mencionar la media geométrica por ejemplo que lo que hace es
agarrar las observaciones las multiplica una por otra por otra por otra y ese producto le saca la raíz
elevada a la raíz enésima de ese producto digamos si tengo 10 datos sería la raíz décima de los
diez datos multiplicados todos uno por el otro si son 500 las race 500 lo hace sin problema pues algo
que digamos no le va a costar al computador hacerlo para que me pueda servir la media geométrica
hay aplicaciones digamos en física donde yo necesito tener no la media aritmética sino la media
geométrica más que todo en esas áreas y también puedo hacer una media geométrica ponderada
que es lo ponderado lo ponderado es como en el caso de las edades que yo tenía por ejemplo tenía
que si tenía un un salón de clases con diferentes edades yo les preguntaba a los alumnos cuánto
cuál era su edad y él me decía o ella me decía 19 20 21 pero resultaba de que habían varios de 19
varios de 20 varios de 21 entonces yo digo 5 por 21 4 por 20 y así ese 5 ese 4 es la ponderación del
valor que yo estoy haciendo iguales acá aquí la ponderación es ese alfa 1 s alfa sub 2 s alfa sucre
es ese alfa su n que hay para cada observación entonces yo puedo hacer esto y obviamente pues
esto se simplifica usando el programa verdad el programa de ayuda uno tremendamente y una más
que es la media armónica que se calcula de esta manera es un recíproco de los datos fíjense que
haya yo tenía la sumatoria en la media aritmética tenía la sumatoria de los x x 1 + x2 + x n / n pero
ahora que tengo el n lo tengo arriba y abajo no tengo la sumatoria de los valores sino de los
recíprocos 1 / x 1 + 1 / x 2 + y así hasta llegar a 1 / x m hago ese total hago n entre ese total y eso es
el resultado de la media armónica entonces estos son otros otras medidas de tendencia central no
las usamos mucho nosotros porque en nuestros cálculos generalmente usamos la media aritmética
pero no está de más conocerlas y saber que tienen aplicaciones bastantes en física y en otras en
otras áreas por supuesto economía por preocupa mucho la media armónica vamos a terminar esta
presentación y solamente quiero compartir un pensamiento más que es algo de mahatma gandhi
que dice así vive como si fueses a morir mañana aprende como si fueses a vivir siempre bien.