Los caracteres invisibles son símbolos Unicode que no tienen representación visual (espacios de ancho cero, marcas de dirección, etc.). Se usan para controlar la dirección del texto, separar palabras sin espacio visible o unir caracteres de forma especial.
Los modelos de IA avanzados como GPT, Claude, Llama y otros suelen insertar caracteres invisibles en sus respuestas por varias razones:
Estos caracteres pueden afectar negativamente cuando:
Por ello, esta herramienta es útil para detectar y eliminar estos caracteres cuando transfieres contenido desde sistemas de IA a otros entornos.
NUEVO (Enero 2025): Se han añadido nuevos caracteres basados en hallazgos recientes en modelos razonadores (o3, o4-mini) y espacios Unicode adicionales.
| Código | Nombre | Descripción | Notas |
|---|---|---|---|
| U+202F | Narrow No-Break Space | Espacio estrecho no separable. MUY IMPORTANTE: Reportado en modelos o3/o4-mini de OpenAI (abril 2025). | NUEVO: OpenAI indicó que fue un bug de RL, posiblemente corregido. |
| U+200B | Zero Width Space | Espacio de ancho cero. Indica posible división de palabras sin mostrar un espacio visible. | Muy común en todos los LLMs. |
| U+200C | Zero Width Non-Joiner | Previene la ligadura entre caracteres que normalmente se unirían. | - |
| U+200D | Zero Width Joiner | Causa la unión de caracteres que normalmente no se ligarían. Usado en emojis compuestos. | Importante: Necesario para emojis. No siempre indica IA. |
| U+FEFF | Zero Width No-Break Space (BOM) | También conocido como BOM (Byte Order Mark). Indica orden de bytes en codificaciones. | Común en archivos con problemas de codificación. |
| U+00A0 | No-Break Space | Espacio no separable. Usado en tipografía correcta para evitar saltos de línea no deseados. | NUEVO: Muy común. Uso legítimo en texto bien formateado. |
| U+2060 | Word Joiner | Similar al ZWSP pero no indica división de palabras. Previene saltos entre palabras. | |
| U+180E | Mongolian Vowel Separator | Separa vocales en escritura mongola tradicional. | |
| U+200E | Left-to-Right Mark | Fuerza dirección de izquierda a derecha para el texto siguiente. | |
| U+200F | Right-to-Left Mark | Fuerza dirección de derecha a izquierda para el texto siguiente. | |
| U+202A | Left-to-Right Embedding | Establece un nuevo nivel de incrustación con dirección LTR. | |
| U+202B | Right-to-Left Embedding | Establece un nuevo nivel de incrustación con dirección RTL. | |
| U+202C | Pop Directional Formatting | Finaliza el último nivel de formato direccional. | |
| U+202D | Left-to-Right Override | Fuerza toda la secuencia siguiente a ser tratada como LTR. | |
| U+202E | Right-to-Left Override | Fuerza toda la secuencia siguiente a ser tratada como RTL. | |
| U+2061 | Function Application | Símbolo matemático invisible que representa la aplicación de funciones. | |
| U+2062 | Invisible Times | Representa una multiplicación invisible en notación matemática. | |
| U+2063 | Invisible Separator | Separador invisible usado en notación matemática. | |
| U+2064 | Invisible Plus | Representa una suma invisible en notación matemática. | |
| U+034F | Combining Grapheme Joiner | Une grafemas o unidades visuales en escrituras complejas. | |
| U+061C | Arabic Letter Mark | Controla el comportamiento de texto árabe en entornos bidireccionales. | |
| U+00AD | Soft Hyphen | Guión invisible que solo aparece cuando una palabra debe cortarse al final de línea. | |
| U+2009 | Thin Space | Espacio fino, más estrecho que un espacio normal pero visible. Usado en tipografía para separación precisa. | - |
| U+3000 | Ideographic Space | Espacio de ancho completo usado en texto CJK (Chino, Japonés, Coreano). | NUEVO: Común en textos asiáticos. |
| U+FE0F | Variation Selector-16 | Selecciona variante emoji de un carácter. Controla la representación visual. | NUEVO: Común y generalmente legítimo en emojis. |
| Y más... (total de 30+ caracteres detectables) | |||
Actualización 2025: La herramienta ahora detecta 30+ tipos de caracteres invisibles, incluyendo espacios Unicode tipográficos, variantes de selección, y caracteres reportados en modelos razonadores modernos.
La detección de estos caracteres puede ser una forma efectiva de identificar contenido generado por IA, aunque no es concluyente por sí misma.
Estos artículos refuerzan la importancia de detectar caracteres Unicode invisibles en texto generado por IA y sus implicaciones de seguridad:
Ataques y vulnerabilidades (2024-2025):
Watermarking y detección (2025):
Impacto en seguridad:
Herramienta desarrollada por 686f6c61