<strong>La evaluación basada en tecnología: Lineamientos de la International Test Commission y la Association of Test Publishers</strong>

La evaluación basada en tecnología: Lineamientos de la International Test Commission y la Association of Test Publishers

.

Por: Ingrith Milena Uribe
Integrante SIEPSI

.

La aplicación de pruebas psicológicas mediadas por la tecnología es cada vez más común debido al auge de nuevas tecnologías y la movilización a la interacción a través de internet. De hecho, resulta común encontrarse  con algún tipo de pruebas en línea en contextos no oficiales, como responder un formulario, o una trivia, u oficiales como el examen de admisión a una universidad o una prueba virtual de conocimiento o dominio de una lengua extranjera.

La aplicación de pruebas mediadas por la tecnología tiene varias ventajas como lo son la reducción del uso de papel, la rapidez de las calificaciones, la posibilidad de tener test adaptativos o tener mayores recursos de multimedia que aumentan las posibilidades de construcción de ítems. No obstante, también se suman una serie de retos adicionales a los que se ven en las pruebas tradicionales de lápiz y papel que se deben considerar para mantener y asegurar la seguridad de la prueba y de la información de los evaluados. 

Por los anteriores motivos, en 2022 la International Test Commision (ITC) y la Association of Test Publisher (ATP), dos referentes importantes a nivel global para la construcción de pruebas psicológicas, comparten una serie de lineamientos para facilitar la construcción de pruebas mediadas por la tecnología asegurando la calidad, confiabilidad, validez y seguridad de las pruebas. A continuación, se hace un breve resumen de la estructura del documento y los lineamientos dados.

Estructura de los lineamientos

El documento de Guidelines for Technology-Based Assessment de la ITC y la ATP (2022) se compone de cuatro apartados principales: introducción y contexto, conceptos fundamentales y consideraciones, directrices para las evaluaciones basadas en tecnología y las aplicaciones emergentes en la evaluación basada en tecnología (TBA, Technology-Based Assessment). A continuación, se presentan los principales puntos tratados en cada apartado.

1) Introducción y contexto de la evaluación basada en tecnología

Para el desarrollo de los lineamientos, miembros de la ITC y la ATP se reunieron en el año 2018 con el fin de actualizar las recomendaciones hechas para el seguimiento de la validez y confiabilidad de las pruebas basadas en tecnología publicadas en 2002 y 2005. Para ello, se organizaron siete grupos dedicados al desarrollo de los lineamientos entre los que se destaca la participación de grupos de consultoría en campos de educación, organizacional, clínica, certificación profesional, seguridad y tecnología de cuatro regiones del mundo: Europa, Asia, Medio este y América del sur. Acompañado por un grupo de revisión legal y profesional en el campo.

Como propósito, los nuevos lineamientos se encaminan a proveer información sobre los factores clave para el diseño, entrega y calificación de test a través de plataformas digitales y brindar guías para los desarrolladores de pruebas, los administradores de test y los usuarios para asegurar pruebas confiables y válidas en los entornos digitales. Como meta, los lineamientos se proponen promover mejores prácticas en el desarrollo, administración y calificación de test que garanticen la justicia y validez de las medidas de conocimiento, habilidades, competencias y otras características. Los lineamientos se consideran una guía, más que una norma cuyas infracciones llevan consecuencias legales o institucionales. En su lugar, son un llamado a tener un estándar el cual seguir y poder garantizar pruebas de calidad.  

Los lineamientos están dirigidos a todos los interesados en el proceso de evaluación incluyendo los desarrolladores de test, psicómetras, encargados de programas educativos, investigadores, organizaciones de tecnología, promotores, distribuidores de pruebas, administradores de test, usuarios, evaluados y  público en general.

2) Conceptos fundamentales y consideraciones de la evaluación basada en tecnología

Este apartado menciona que hay aspectos fundamentales que todas las pruebas deben tener independientemente si son aplicadas de manera digital o en formato de lapíz y papel. Estos corresponden a  la confiabilidad, evidencias de  validez y la justicia o imparcialidad.

Al referirse a la confiabilidad se señala que es “el grado en que los resultados de las pruebas para un grupo de evaluados son consistentes a lo largo de repetidas aplicaciones del proceso de medida y por consiguiente se puede inferir que son dependientes y consistentes para una persona que ha tomado la prueba” (AERA, 2014). 

Por otra parte,  “la validez es el grado en que la evidencia y la teoría soportan las interpretaciones de los resultados de la prueba para los propósitos del test”. Su reporte se da en formas de evidencias en lugar de indicadores concretos, es decir, son juicios que pretenden asegurar que el uso de los resultados de las pruebas son adecuados para el contexto para el cual fue planeado.

Dado que la validez se vincula con el sustento teórico que basa la interpretación de los resultados que se tienen de un test, el concepto de “constructo” resulta de gran relevancia. De acuerdo, con las directrices un constructo hace referencia a “algún postulado atribuido a las personas, asumido de ser reflejado en el desempeño de la prueba” en este sentido los conocimientos, habilidades, actitudes y otros comportamientos que se miden en los test son constructos y deben ser bien definidos y representados para garantizar una medición válida.

Los constructos pueden tener dos riesgos que afecten una adecuada medición, la subrrepresentación del constructo y la varianza irrelevante al constructo. La subrepresentación del constructo se refiere cuando “se deja algo que debía ser incluido de acuerdo con la teoría del constructo o algo que debería dejarse afuera, o ambas” (ITC y ATP, 2022). Por otra parte, la varianza irrelevante al constructo ocurre cuando los resultados de un ítem o la prueba reflejan factores que el test no pretendía medir afectando la seguridad que se podría obtener con lo que realmente se estaba midiendo. Ambos problemas deben ser examinados antes y durante el proceso de construcción de prueba para evitar afectar la validez de la prueba.En cuanto a la justicia o imparcialidad, se resalta que esta es “un tema fundamental para la protección de los evaluados y los usuarios de las pruebas en todos los aspectos de la evaluación” (AERA, 2014) ya que otorga la “capacidad de respuesta a las características de las personas y los contextos de evaluación en donde los resultados llevan a una interpretación para los usos intencionados”(ITC y ATP, 2022). En general, cuando se habla de la imparcialidad se busca que se reduzca el máximo grado de inequidad que pudiese provocar por el mal uso o diseño de las pruebas al afectar a personas o grupos por la implementación o resultados hallados.

3) Directrices para las evaluaciones basadas en tecnología

Este apartado es el de mayor extensión e importancia de los lineamientos dado que se trata de la exposición de cada una de las consideraciones que se debe tener al momento de seleccionar el desarrollo de pruebas basadas en tecnología. El apartado se divide en 11 capítulos que van desde los aspectos que se deben tener para el desarrollo del test hasta la evaluación de las consideraciones generales.  

1. Desarrollo de test. aborda las consideraciones recomendadas para la planeación y desarrollo de TBA, consejos sobre el correcto uso de los ítems mejorados tecnológicamente, elementos a considerar para lograr el diseño universal durante la aplicación de la prueba, recomendaciones sobre cómo asegurar un uso apropiado de las TBA en contextos educativos para evaluar y aprender al tiempo, y otros elementos clave para la construcción de ítems.    

2. El diseño y ensamblaje de test. Presenta las diferencias entre el diseño de test lineales y los test adaptativos, así como algunas caracterírticas especiales en el ensamblaje de prueba. Como recomendaciones se incluyen: revisar la estructura de la prueba, el propósito y las características psicométricas que se quieren para introducir ajustes, algoritmos y otras decisiones sobre la prueba según evidencias empíricas que contribuyen a su validez. Se resalta la importancia del modelo de medición (p.e.IRT), la información de cada ítem, de la prueba en total y del banco de ítems. El apartado culmina señalando la importancia de estudios estadísticos sólidos, los estudios piloto y las simulaciones para revisar las propiedades psicométricas de los test como la constante revisión del desempeño de la prueba y de los ítems según los propósitos de la evaluación.

3. Los ambientes de envió de test. Precisa la distinción entre la entrega de pruebas por la web, redes locales, redes offline o móviles; agregando información sobre los programas de bloqueo de aplicaciones, la interoperabilidad y las disrupciones en la aplicación del test. Como recomendaciones se señalan algunas como: 

  • revisión de la seguridad de los test y las respuestas de los evaluados para evitar la pérdida de información; inhabilidad de funciones y aplicaciones que pudieran afectar la medición, 
  • acceso exclusivo a la prueba y a la información de las personas solo por los roles asignados para el fin, 
  • continuo monitoreo del envió y funcionamiento de la prueba y la plataforma, 
  • autenticación del ID, 
  • planes de contingencia en caso de que haya problemas en el acceso a la plataforma de la prueba, caída de la plataforma o la red. 

4. Calificación. Se presenta información sobre la calificación automática de respuestas seleccionadas, de respuestas construidas (p.e. diseño, desarrollo, desempeño) y la calificación asistida por tecnología pero verificada por humanos. Adicionalmente se indica cómo proceder en los casos en los que la calificación se  interrumpa por fallas en la conexión para la recopilación de los datos o pruebas incompletas y el posible uso del tiempo en la calificación. En las recomendaciones se indica: 

  • tener presente el proceso de calificación durante el desarrollo de la prueba; generar rúbricas de calificación para cada ítem incluyendo información sobre la respuesta producida en el ítem y su respectiva equivalencia en la calificación; 
  • indicar las reglas usadas en la calificación previamente a la calificación automática; 
  • revisar el funcionamiento de la inteligencia artificial usada para la calificación
  •  verificar su funcionamiento en diferentes intervalos de tiempo;
  •  revisar el cumplimiento de la validez, confiabilidad y justicia en toda la prueba.

5. Informe digital de resultados. En este apartado se resalta la importancia de mantener la confidencialidad de la información de los evaluados, especialmente sus resultados en las pruebas. Entre las recomendaciones que se dan para este tema se encuentran: 

  • garantizar que se posean procedimientos claros para que llegue la información clara a los evaluados o a las personas correspondientes,  
  • indicar claramente la definición de cada resultado y su interpretación (puntajes brutos, puntajes escalares, clasificaciones); 
  • garantizar que cada vez que se exporten los resultados se tenga la misma información; 
  • realizar pilotos sobre la exportación e interpretación de los resultados automáticos; 
  • adaptar las plataformas de consulta de resultados de modo que los usuarios fácilmente puedan acceder y entender los desempeños obtenidos: 
  • generar sistemas automáticos que incrementen la eficiencia y la precisión en la calificación: 
  • asegurar que la información sólo podrá ser consultada por las personas autorizadas.  

6. Manejo de datos. Se definen los conceptos de gobernanza de datos, mantenimiento, integridad y seguridad de los datos y también sobre la integración de los datos de las evaluaciones con otros sistemas. Sobre el almacenamiento de los datos se recomienda: 

  • realizar arquitectura, modelamiento y diseño de solución de almacenamiento de datos, asegurar que la calidad de los datos sea almacenada correctamente a través de la evaluación de la precisión, completitud y consistencia con los TBA. 
  • En relación con el  mantenimiento, integridad y seguridad de los datos se recomienda: establecer procesos y procedimientos para el mantenimiento de los datos como las copias de seguridad, políticas de retención y eliminación de los datos. 
  • En cuanto a la integridad de la información se sugiere que las respuestas de los evaluados sean almacenadas lo más pronto posible (p.e. segundos) para evitar la pérdida de información, usar sistemas de seguridad para evitar el uso de malware, realizar las actualizaciones de los softwares frecuentemente y durante la transferencia de datos encriptar la información.

7. Calidad psicométrica y técnica. Se tratan los conceptos de precisión de medida, comparabilidad de resultados y equiparación de pruebas. Además se aborda el tema de la validación de la TBA indicando las cinco fuentes de evidencia (contenido del test, proceso de respuesta, estructura interna, relación del test con otras variables y las consecuencias ). 

Algunas de las recomendaciones que se dan en este apartado son las siguientes: 

  • definir y documentar con suficiente nivel de detalle los esfuerzos por garantizar la calidad de la medición, p
  • proveer información sobre el rango de la escala y sus usos e interpretaciones como evidencia de la precisión de la medida. 
  • Para distintas formas de prueba se debe buscar  el método de equiparación más apropiado asegurando el mismo nivel de comparación del constructo con el mismo nivel de dificultad y precisión. 
  • Garantizar que sin importar el método o el dispositivo usado para responder la prueba los resultados son los mismos, 
  • mostrar evidencias de las propiedades de la forma de la distribución de la calificación, la confiabilidad y el error estándar de medida, 
  • dejar claro el constructo medido, los usos pretendidos y sus propósitos, 
  • realizar evaluaciones periódicas de la confiabilidad, las evidencias de validez e imparcialidad de la prueba.

8. Seguridad de los test. En este apartado se señalan algunos tratos y riesgos de seguridad en las pruebas basadas en tecnología y algunas estrategias de seguridad. Entre las recomendaciones más destacadas se encuentran: 

  • desarrollar y seguir un plan de seguridad escrito el cual debe ser actualizado al menos una vez al año indicando el tipo de riesgo, los responsables de tratarlo y el rastreo de posibles riesgos informáticos; analizar el nivel de riesgo que se tiene de fraude y robo de información de la prueba para adoptar, 
  • implementar y mantener soluciones apropiadas sobre esos asuntos y utilizar tecnología de autenticación para asegurar que solo las personas autorizadas están respondiendo la prueba.  

9. Privacidad de los datos. En este apartado se encuentran como recomendaciones  para guardar la privacidad de los datos: 

  • Identificar y seguir las leyes de privacidad de la información del país en el que se aplica la prueba  y aplicarla, 
  • revisar si hay legislaciones especiales en caso de que se quiera transferir información de manera internacional, 
  • revisar si hay jurisdicciones especiales para el uso de tecnología biométricas; 
  • almacenar el mínimo de información de las personas tomando únicamente los datos requeridos para el proceso de valoración, 
  • actualizar el tratamiento de datos por lo menos una vez al año, encriptar y/o anonimizar la información de las personas; 
  • documentar el periodo de retención de la información y hacerlo cumplir borrando de manera cuidadosa y segura la información ya vencida del periodo
  • mantenerse actualizado sobre los derechos del tratamiento de datos.

10.  Imparcialidad y accesibilidad. Se aborda en este capítulo los temas de accesibilidad y equidad de los TBA. Entre las recomendaciones dadas se destacan: 

  • asegurar que toda la información del ciclo de evaluación sea de conocimiento a las personas (e. información del test, del registro, de las páginas de ingreso, las interfases, los resultados; 
  • Informar claramente los constructos a evaluar; Ajustar los tiempos de evaluación para las personas que lo necesiten de manera especial, con lo cual las pruebas se deben diseñar desde el marco de la diversidad y la inclusión. 
  • Dar el suficiente tiempo previo para que los evaluados se familiaricen con la aplicación y asegurar que para el momento de la prueba los evaluados puedan contar con buena conexión.  

11.  Consideraciones globales. En este apartado se presentan consideraciones adicionales con la adaptación y la traducción de prueba al TBA; la disponibilidad de los recursos para TBA; y la preparación, práctica y orientación de los candidatos frente a la tecnología. Entre algunas de las recomendaciones dadas se encuentra: 

  • Planear como parte del desarrollo del test, si es necesario, las traducciones y adaptaciones a TBA, 
  • definir claramente los constructos a medir para revisar el grado de generalizabilidad tales constructos en distintos idiomas y culturas, 
  • contar con lingüistas y traductores certificados para el proceso de traducción y adaptación de pruebas según sea el presupuesto 
  • pilotear las versiones adaptadas y/o traducidas cuando sea posible.

4) Aplicaciones emergentes en la evaluación basada en tecnología

Como apartado final de los lineamientos, se da un espacio para presentar algunas aplicaciones de TBA, las cuales irán aumentando gradualmente. Entre los avances mencionados se encuentra el uso de la inteligencia artificial en los contextos de valoración mediados por la tecnología; el uso del big data y la social media; el reconocimiento y análisis facial y la generación automática de ítems. Todos estos temas son de interés y pueden ser las futuras tendencia en la medición psicológica.

Con estas aplicaciones y recomendaciones finalizan los temas tratados en los lineamientos de la International Test Commision y la Association of Test Publisher. En caso de tener interés por conocer a detalle los contenidos y recomendaciones hechas se recomienda revisar el documento original (https://www.intestcom.org/page/16) y seguir ejemplos de aplicaciones de TAB en diferentes contextos de valoración.

Referencias

American Educational Research Association, American Psychological Association, & National Council for Measurement in Education. (2014). Standards for educational and psychological testing. American Educational Research Association.

International Test Commission and Association of Test Publishers (2022). Guidelines for Technology-Based Assessment.

Add Comment

Your email address will not be published. Required fields are marked *