Caracteres: 0
Palabras: 0
¿Qué son los caracteres invisibles?

Los caracteres invisibles son símbolos Unicode que no tienen representación visual (espacios de ancho cero, marcas de dirección, etc.). Se usan para controlar la dirección del texto, separar palabras sin espacio visible o unir caracteres de forma especial.

¿Por qué los modelos de IA insertan caracteres invisibles?

Los modelos de IA avanzados como GPT, Claude, Llama y otros suelen insertar caracteres invisibles en sus respuestas por varias razones:

  1. Procesamiento interno: Los modelos procesan texto en unidades llamadas "tokens". A veces, al convertir estos tokens de vuelta a texto, se introducen caracteres invisibles como artefactos del proceso.
  2. Tokenización multisistema: Para manejar diferentes idiomas y sistemas de escritura, los modelos usan marcadores de dirección (RTL/LTR) que pueden quedar en el texto final.
  3. Formateo de texto: Al generar texto con formato específico (como código, tablas o listas), pueden usar caracteres invisibles para controlar la disposición.
  4. Huellas digitales: Algunos sugieren que podrían ser marcas deliberadas para identificar el contenido generado por IA, aunque no hay confirmación oficial de esta práctica.
  5. Control del flujo de texto: Para evitar que ciertas palabras se rompan o para mantener formatos específicos, los modelos pueden usar caracteres como ZWSP (Zero Width Space).

Estos caracteres pueden afectar negativamente cuando:

  • Copias código generado y no funciona correctamente
  • Realizas búsquedas de coincidencias exactas en texto
  • Comparas strings de texto en programación
  • Cuentas caracteres con precisión

Por ello, esta herramienta es útil para detectar y eliminar estos caracteres cuando transfieres contenido desde sistemas de IA a otros entornos.

Caracteres invisibles detectados por esta herramienta:

Código Nombre Descripción
U+200B Zero Width Space Espacio de ancho cero. Indica posible división de palabras sin mostrar un espacio visible.
U+200C Zero Width Non-Joiner Previene la ligadura entre caracteres que normalmente se unirían.
U+200D Zero Width Joiner Causa la unión de caracteres que normalmente no se ligarían. Usado en emojis compuestos.
U+FEFF Zero Width No-Break Space También conocido como BOM (Byte Order Mark). Indica orden de bytes en codificaciones.
U+2060 Word Joiner Similar al ZWSP pero no indica división de palabras. Previene saltos entre palabras.
U+180E Mongolian Vowel Separator Separa vocales en escritura mongola tradicional.
U+200E Left-to-Right Mark Fuerza dirección de izquierda a derecha para el texto siguiente.
U+200F Right-to-Left Mark Fuerza dirección de derecha a izquierda para el texto siguiente.
U+202A Left-to-Right Embedding Establece un nuevo nivel de incrustación con dirección LTR.
U+202B Right-to-Left Embedding Establece un nuevo nivel de incrustación con dirección RTL.
U+202C Pop Directional Formatting Finaliza el último nivel de formato direccional.
U+202D Left-to-Right Override Fuerza toda la secuencia siguiente a ser tratada como LTR.
U+202E Right-to-Left Override Fuerza toda la secuencia siguiente a ser tratada como RTL.
U+2061 Function Application Símbolo matemático invisible que representa la aplicación de funciones.
U+2062 Invisible Times Representa una multiplicación invisible en notación matemática.
U+2063 Invisible Separator Separador invisible usado en notación matemática.
U+2064 Invisible Plus Representa una suma invisible en notación matemática.
U+034F Combining Grapheme Joiner Une grafemas o unidades visuales en escrituras complejas.
U+061C Arabic Letter Mark Controla el comportamiento de texto árabe en entornos bidireccionales.
U+00AD Soft Hyphen Guión invisible que solo aparece cuando una palabra debe cortarse al final de línea.
U+2009 Thin Space Espacio fino, más estrecho que un espacio normal pero visible. Usado en tipografía para separación precisa.

La detección de estos caracteres puede ser una forma efectiva de identificar contenido generado por IA, aunque no es concluyente por sí misma.

Herramienta desarrollada por 686f6c61