Mapa de carreras de grado universitarias en Paraguay (parte 2)
El objetivo de este trabajo es documentar el proceso de como se llegó a las herramientas presentadas en el anterior post. Vamos a analizar en esta entrada entonces como hacer coincidir los datos del MEC con los de la ANEAES para ver cual de las carreras registradas están acreditadas.
La base: el Registro Nacional de Carreras del MEC
Primeramente hay que delimitar el alcance del proyecto, como mencioné en el anterior post en principio nos limitamos a Universidades y carreras de grado, excluyendo a institutos superiores, carreras de pre y posgrado. Esto lo logramos eligiendo los filtros adecuados en el RNC del MEC:
Mediante estos simples pasos podemos concluir que existen 5579 carreras de grado ofrecidas por Universidades en el país (una por cada 1500 habitantes más o menos). Para tener una referencia con la cual comparar: en Argentina existen 4685 carreras en ese nivel según el portal BuscoUniversidad, y 4.226 según los Datasets del sitio Datos Argentina.
Existe un campo en el registro llamado “activa” que según el diccionario de datos:
“Indica si actualmente la carrera constituye una oferta académica activa. Incluye carreras que serán implementadas por primera vez en el siguiente periodo lectivo.”
Si elegimos solo las carreras “activas” la cantidad se reduce a 2979 carreras, pero como dije hace un año, no me queda muy claro que significa este campo o si está actualizado, pues por dar un ejemplo la carrera ing. civil de la Facultad donde trabajo figura como no activa, así como otras dos carreras, por tanto considero que este campo no es importante para el objetivo propuesto.
Descargamos entonces (sin filtrar por activa) los datos filtrados en formato csv (las 2 estrellitas del formato excel me hacen dudar).
Ordenamos por nombre de universidad, copiamos esta columna en otra hoja y eliminamos duplicados: nos quedan en total 54 instituciones. Sin embargo en este listado de la ANEAES vemos que existen 55 universidades. Notamos que la diferencia corresponde a la N° 27: “Universidad Superior Hernando Arias de Saavedra”.
Mirando la web de dicha Universidad vemos que ofrece solo la carrera de medicina en la ciudad de Pedro Juan Caballero, pero como no está entre las carreras registradas del MEC la pasamos por alto para los propósitos de este estudio.
Consolidamos los datos y con sencillas fórmulas ya tenemos la lista de Universidades con su cantidad de carreras ofrecidas: La UNISAL es la que mayor oferta tiene con 1142 carreras y la UPA es la de menor oferta con 3:
Según el tipo de Universidad vemos que existen 9 oficiales, nacionales o públicas (17% de las 54) y 45 privadas(83%). En cuanto a carreras el 89% (4966) es ofrecida por Universidades privadas y 613 por las públicas. Usando herramientas de visualización se pueden obtener otras vistas rápidamente como mencioné en el anterior post.
Se debe mencionar que la misma carrera ofrecida en distintas sedes ocupa registros distintos y cuenta como carreras diferentes, así también cuando la misma carrera ofrece títulos distintos o modalidades (presencial, a distancia, etc. ) distintas ocurre lo mismo. Otro campo que influye en estos casos es la de énfasis, distintos énfasis generan distintos registros, ejemplo:
Carreras Acreditadas por la ANEAES
Una vez hechas las aclaraciones ya tenemos nuestro archivo base. Ahora el objetivo es marcar cual de estos registros corresponde a carreras acreditadas, para eso vamos primeramente a la web de la ANEAES correspondiente a carreras de grado y descargamos el listado completo de carreras acreditadas en formato PDF: aunque en este formato no trae el campo tipo de universidad en formato CSV no trae el número de la resolución de acreditación. El archivo PDF lo convertimos a xls con alguna herramienta tipo ILovePDF y ya tenemos una hoja de cálculo con la que podremos lograr rápidamente el objetivo.
Primeramente eliminamos los registros que no corresponden a universidades, con lo cual nos quedan 234 registros. Ordenamos por nombre de institución, eliminamos los duplicados en otra hoja y nos quedan 38 Universidades con carreras acreditadas vigentes a la fecha: lidera esta lista la UNA con 49, seguida por la UCA con 36, quedando el resto a relativa distancia de ambas. Diez instituciones tienen una sola carrera acreditada vigente a la fecha:
Hacer coincidir nombres en ambas tablas (MEC y ANEAES)
Comparamos esta lista con la lista del MEC para ver si coinciden los nombres de las instituciones, con la fórmula BUSCARV encontramos 5 casos en los que dichos nombres no coinciden. Al ser pocos cambiamos los parámetros de la función y ya tenemos la lista de instituciones cuyo nombre habrá que cambiar en el archivo:
Corregimos esto y seguimos con los nombres de las carreras: primero eliminamos todos los acentos de la lista de ANEAES pues en la mayoría de los casos los nombres de las carreras en la lista del MEC no lo tienen. Luego comparamos la lista sin duplicados del MEC (523 registros) con la de la ANEAES (55 registros) para ver si los nombres coinciden. Repitiendo el procedimiento anterior encontramos 7 casos en los cuales los nombres de las carreras no coinciden:
Elegimos manualmente la mejor coincidencia para estos casos, reemplazamos en el registro y ya tenemos nombre de institución y carrera con los mismos datos en las bases de referencia. Cabe aclarar que algunas diferencias tal vez se deban al proceso de exportación y conversión a excel que hicimos anteriormente, pero en otros casos si se nota que la nomenclatura de carreras no es la misma.
Para terminar de hacer coincidir los datos comparamos los de distrito (MEC) y sede (ANEAES): eliminando duplicados encontramos que solo existen 17 sedes que tienen carreras acreditadas en el país, mientras que en la base del MEC existen 98 distritos. En este caso solo tenemos diferencias en 2 sedes: en un caso se trata de un acento para el nombre de la ciudad y en el otro la ANEAES puso como sede a un departamento no una ciudad. Hacemos las correcciones manualmente y ya tenemos las 2 tablas con las que trabajaremos. De este dato podemos sacar la cantidad de carreras acreditadas que se ofrecen por ciudad:
Con los dos archivos xls empezamos a buscar coincidencias, para esto opté por hacerlo usando un motor de base de datos, en este caso SQL Server Express, donde creé una base de datos e importé ambos archivos como tablas a las que llamé simplemente MEC y ANEAES. Luego ejecutamos una consulta en la cual básicamente pedimos todos los registros de la tabla MEC en los cuales coincidan con los de la tabla ANEAES los campos que estuvimos trabajando en unificar: el nombre de la institución, el nombre de la carrera y el nombre del distrito (sede).
Obtenemos como resultado 257 registros, pero recordemos que la tabla de ANEAES solo tiene 234 registros. La diferencia, como se mencionó antes se debe a que una misma carrera de la misma institución en la misma sede puede tener distintos énfasis, u ofrecerse en distintas modalidades.
Para ejemplificar esta situación miremos los resultados de una carrera de una institución en específico cuya resolución de acreditación dice:
Revisando la tabla MEC en este caso encontramos esta carrera con 4 registros en modalidad presencial, con distintos énfasis y un registro en modalidad a distancia:
Esto plantea la pregunta: ¿cual de estas es la carrera acreditada?. Para el autor del trabajo, al no estar especificado se debería marcar todos los registros como carreras acreditadas: suponga que la universidad ofrece solo 3 carreras pero con estas peculiaridades, en total tendría 18 registros en la base del MEC. Si acredita dos de estas carreras y solo se marcan 2 registros como acreditados en las estadísticas figuraría como 2/18=11% de carreras acreditadas, cuando en realidad le corresponde un 66% . De todas maneras, es un tema de debate cuya aclaración dejo en manos de las autoridades correspondientes.
Lo siguiente ya sería hacer un UPDATE en la tabla MEC en los registros que cumplan las condiciones mencionadas y ya tendremos marcadas las carreras acreditadas y podremos obtener los distintos datos que necesitemos: básicamente la versión actualizada del primer artículo que escribí sobre el tema.
Para llegar a la herramienta publicada en la parte 1 faltaría repetir más o menos este mismo proceso con los datos del CONES, lo cual como veremos próximamente (espero) es mucho más difícil que este ejercicio.
Si a alguien le interesa el tema y conoce una forma más eficiente de hacerlo espero pueda escribirme, con gusto recibo recomendaciones, tachas y reclamos.
PD: Gracias nuevamente a Santiago Gómez por sus sugerencias para lograr el objetivo propuesto.
Link a la Parte 1
Link a la Parte 3