Trabajos hechos con ChatGPT: el problema ya no es que escriban demasiado bien

El problema ya no es que un trabajo suene demasiado perfecto. Ahora un texto puede venir con faltas, tono adolescente y errores simulados. En este artículo hablamos de cómo evaluar autoría y comprensión sin convertir cada entrega en una auditoría imposible.
Trabajos hechos con ChatGPT: el problema ya no es que escriban demasiado bien
El problema ya no es que un alumno entregue un texto demasiado perfecto.
Eso era la versión fácil del drama.
Ahora puede pedirle a ChatGPT que escriba “como alguien de 14 años”, que meta alguna falta, que no use vocabulario sofisticado, que parezca hecho con prisa, que baje el nivel, que suene más natural o que incluya errores repartidos con bastante puntería.
Y ahí se cae una fantasía cómoda: pensar que vamos a detectar estos trabajos porque vendrán oliendo a LinkedIn, con conectores impecables y una conclusión sobre “la importancia de reflexionar como sociedad”.
Ojalá fuera tan simple.
Pero no.
El pastelón ya puede venir con faltas.
El texto perfecto ya no es la señal principal
Durante un tiempo, muchos textos generados cantaban bastante.
Demasiado ordenados. Demasiado neutros. Demasiado redondos. Demasiado “en conclusión, podemos afirmar que…”. Textos correctos, sí, pero con la temperatura emocional de una fotocopiadora.
Eso todavía pasa.
Pero cada vez es menos fiable como señal.
Porque basta con añadir instrucciones como:
- escríbelo con frases más simples;
- mete algún error ortográfico;
- no uses palabras difíciles;
- hazlo menos perfecto;
- que parezca escrito por un alumno de ESO;
- usa un tono más informal;
- deja alguna idea sin desarrollar del todo;
- incluye errores típicos, pero no demasiados.
Y de repente el texto deja de parecer una redacción de consultoría y empieza a parecer algo más humano.
No necesariamente auténtico.
Solo mejor disfrazado.
El profesor no es tonto. La superficie del trabajo ha cambiado.
Aquí conviene no caer en el cliché.
Muchos docentes ya usaban procesos antes de que apareciera todo este circo: borradores, exposiciones, cuadernos, seguimiento, preguntas en clase, comparación con entregas anteriores, rúbricas, defensa oral, revisión del proceso, criterios de departamento.
No estamos descubriendo ahora que evaluar no consiste en mirar una entrega final y aplaudir si tiene márgenes bonitos.
Lo que ha cambiado es otra cosa: la entrega final se ha vuelto mucho más fácil de fabricar.
Antes copiar exigía buscar, recortar, pegar, maquillar y rezar para que no se notara Wikipedia haciendo cosplay de alumno.
Ahora se puede generar una versión adaptada, con tono concreto, errores estratégicos y apariencia de esfuerzo.
Así que el problema no es que el profesor sea ingenuo.
El problema es que el documento final ya no dice tanto como antes.
Cuando hasta los errores se pueden fabricar
Durante años, algunos indicios ayudaban: cambio brusco de vocabulario, ausencia total de faltas, estructura demasiado perfecta, frases que no sonaban al alumno.
Siguen siendo señales.
Pero son señales más débiles.
Porque ahora también se puede pedir:
“Pon alguna falta, pero no demasiadas.”
“Haz que parezca escrito por alguien que entiende más o menos el tema.”
“No lo hagas perfecto.”
“Que suene natural.”
Y eso complica bastante el asunto.
Un texto con faltas puede ser auténtico.
Pero también puede estar calibrado para parecerlo.
Un texto sencillo puede ser del alumno.
Pero también puede estar rebajado a propósito.
Un trabajo irregular puede mostrar proceso real.
Pero también puede ser una simulación de proceso.
Esto no significa que haya que sospechar de todo.
Significa que el estilo, por sí solo, ya no puede cargar con toda la decisión.
El detector no puede ser juez, jurado y verdugo
Los detectores pueden orientar, pero no deberían decidir solos.
OpenAI retiró su propio clasificador de textos generados por IA por baja precisión, y Turnitin reconoce que, aunque busca minimizar falsos positivos, el riesgo no es cero y la decisión debe quedar contextualizada por el criterio del docente y las políticas del centro.
Esto importa.
Porque una cosa es usar una señal para mirar mejor.
Y otra muy distinta es convertir un porcentaje en una acusación.
| Lo que puede hacer un detector | Lo que no debería hacer solo |
|---|---|
| Señalar un texto que merece revisión | Decidir que hubo fraude |
| Aportar una pista más | Sustituir el contexto del aula |
| Ayudar a priorizar casos dudosos | Ignorar historial, proceso y defensa |
| Detectar patrones posibles | Convertirse en prueba única |
Un detector no sabe cómo escribe ese alumno normalmente.
No sabe si recibió ayuda familiar.
No sabe si hizo borradores.
No sabe si el trabajo fue muy editado.
No sabe si ha mejorado.
No sabe si el texto es mixto, retocado o simplemente raro.
El contexto no está en el porcentaje.
La entrega final necesita compañía
No hace falta convertir cada trabajo en una investigación policial.
Tampoco hace falta fingir que no ha cambiado nada.
La salida razonable está en pedir alguna evidencia adicional.
No veinte.
No una carpeta burocrática con anexos, declaraciones juradas y olor a oposición.
Alguna.
Algo que ayude a ver si el alumno está dentro de su propio trabajo o solo lo ha traído envuelto.
Por ejemplo:
| Entrega final | Evidencia que puede acompañarla |
|---|---|
| Trabajo escrito | Una decisión tomada durante el proceso |
| Comentario de texto | Una frase que pueda defender oralmente |
| Investigación | Una fuente descartada y el motivo |
| Redacción argumentativa | Un cambio entre borrador y versión final |
| Proyecto | Una dificultad encontrada y cómo la resolvió |
| Análisis | Un ejemplo trabajado en clase que sostenga la idea |
La idea no es hacer la tarea imposible.
La idea es que el texto no viaje solo.
Autoría no significa pureza absoluta
Aquí también conviene matizar.
No todo uso de ChatGPT significa fraude.
No es lo mismo:
- pedir una explicación de un concepto;
- usarlo para ordenar ideas;
- pedir ejemplos;
- corregir ortografía;
- reformular una frase;
- generar todo el trabajo;
- pedir que lo disfrace como si fuera propio;
- entregar sin leer;
- negar el uso cuando lo hubo.
Meter todo en el mismo saco no ayuda.
La pregunta interesante no es solo:
“¿Ha usado ChatGPT?”
La pregunta más útil es:
“¿Qué parte puede sostener?”
“¿Qué entiende?”
“¿Qué decidió?”
“¿Qué modificó?”
“¿Qué puede explicar sin leer?”
“¿Dónde está su criterio?”
Eso cambia el foco.
De perseguir herramientas a evaluar comprensión.
Evidencias mínimas que no multiplican la carga
La solución no puede ser que el docente trabaje el doble.
Sería fantástico: aparece una tecnología que complica la autoría y la respuesta del sistema es, como siempre, que el profesor haga más formularios, más registros, más comprobaciones y más malabares.
No.
La evidencia tiene que ser ligera.
Pocas piezas, pero bien elegidas.
Opción 1: decisión tomada
Pedir:
Señala una decisión que tomaste durante el trabajo y explica por qué.
Esto obliga a mostrar proceso sin pedir una novela.
Opción 2: fragmento defendible
Pedir:
Elige una frase de tu trabajo que puedas explicar oralmente sin leer.
Si no puede explicar una frase central, hay información.
Opción 3: cambio entre versiones
Pedir:
Indica algo que cambiaste entre el borrador y la versión final.
Sirve para ver revisión, no solo entrega.
Opción 4: ejemplo de clase
Pedir:
Incluye un ejemplo trabajado en clase y explica cómo se relaciona con tu argumento.
Esto reduce el texto genérico.
Opción 5: fuente descartada
Pedir:
Menciona una fuente que no usaste y por qué la descartaste.
La selección también es pensamiento.
Tres preguntas que suelen abrir el melón
No hace falta montar un interrogatorio.
Tres preguntas bien elegidas pueden decir mucho.
1. Explícame esta frase sin usar las mismas palabras
Si entiende lo que entrega, debería poder reformularlo.
Si no puede, conviene revisar.
2. ¿Por qué elegiste este ejemplo?
La elección revela proceso.
Aunque haya usado ayuda, debería poder justificarla.
3. ¿Qué cambiarías si quisieras mejorarlo?
Quien ha trabajado sobre un texto suele detectar una mejora posible.
Quien solo ha entregado un bloque fabricado muchas veces mira su propio trabajo como si acabara de conocerlo.
Lo que sí conviene evitar
Evitaría tres extremos.
Acusar solo por intuición
La intuición docente importa.
Pero una sospecha no debería convertirse automáticamente en sentencia.
Confiar solo en detectores
Un detector puede ser una señal.
No una prueba total.
Diseñar tareas imposibles de corregir
Pedir demasiadas evidencias puede acabar castigando al profesor.
Y ya tenemos bastante deporte de resistencia en educación.
Una consigna más resistente
En vez de pedir solo:
Entrega un trabajo sobre este tema.
Puedes pedir:
Entrega el trabajo e incluye al final:
- una decisión que tomaste durante el proceso;
- una frase que puedas defender oralmente;
- un ejemplo trabajado en clase;
- una parte que cambiarías si tuvieras más tiempo.
No elimina todos los problemas.
Pero cambia la conversación.
Ya no evalúas solo un texto final.
Evalúas también señales de proceso, comprensión y apropiación.
El objetivo no es pillar. Es que no desaparezca el aprendizaje.
El problema de los trabajos hechos con ChatGPT no es que exista una herramienta.
El problema es que el alumno pueda desaparecer detrás de una entrega aparentemente correcta.
Y eso no se resuelve solo con prohibiciones, detectores o sospecha permanente.
Se resuelve pidiendo mejores evidencias.
Pocas.
Concretas.
Sostenibles.
No para convertir al profesor en policía.
Sino para que el trabajo vuelva a mostrar algo más que una superficie bien maquillada.
Porque si el texto habla, pero el alumno no puede sostenerlo, ahí hay una pista.
Y bastante más útil que perseguir fantasmas digitales con una lupa rota.
