Bloc de Notas – Detector de Caracteres Invisibles

Caracteres: 0

Palabras: 0

¿Qué son los caracteres invisibles?

Los caracteres invisibles son símbolos Unicode que no tienen representación visual (espacios de ancho cero, marcas de dirección, etc.). Se usan para controlar la dirección del texto, separar palabras sin espacio visible o unir caracteres de forma especial.

¿Por qué los modelos de IA insertan caracteres invisibles?

Los modelos de IA avanzados como GPT, Claude, Llama y otros suelen insertar caracteres invisibles en sus respuestas por varias razones:

Procesamiento interno: Los modelos procesan texto en unidades llamadas "tokens". A veces, al convertir estos tokens de vuelta a texto, se introducen caracteres invisibles como artefactos del proceso.
Tokenización multisistema: Para manejar diferentes idiomas y sistemas de escritura, los modelos usan marcadores de dirección (RTL/LTR) que pueden quedar en el texto final.
Formateo de texto: Al generar texto con formato específico (como código, tablas o listas), pueden usar caracteres invisibles para controlar la disposición.
Huellas digitales: Algunos sugieren que podrían ser marcas deliberadas para identificar el contenido generado por IA, aunque no hay confirmación oficial de esta práctica.
Control del flujo de texto: Para evitar que ciertas palabras se rompan o para mantener formatos específicos, los modelos pueden usar caracteres como ZWSP (Zero Width Space).

Estos caracteres pueden afectar negativamente cuando:

Copias código generado y no funciona correctamente
Realizas búsquedas de coincidencias exactas en texto
Comparas strings de texto en programación
Cuentas caracteres con precisión

Por ello, esta herramienta es útil para detectar y eliminar estos caracteres cuando transfieres contenido desde sistemas de IA a otros entornos.

Caracteres invisibles detectados por esta herramienta:

NUEVO (Enero 2025): Se han añadido nuevos caracteres basados en hallazgos recientes en modelos razonadores (o3, o4-mini) y espacios Unicode adicionales.

Código	Nombre	Descripción	Notas
U+202F	Narrow No-Break Space	Espacio estrecho no separable. MUY IMPORTANTE: Reportado en modelos o3/o4-mini de OpenAI (abril 2025).	NUEVO: OpenAI indicó que fue un bug de RL, posiblemente corregido.
U+200B	Zero Width Space	Espacio de ancho cero. Indica posible división de palabras sin mostrar un espacio visible.	Muy común en todos los LLMs.
U+200C	Zero Width Non-Joiner	Previene la ligadura entre caracteres que normalmente se unirían.	-
U+200D	Zero Width Joiner	Causa la unión de caracteres que normalmente no se ligarían. Usado en emojis compuestos.	Importante: Necesario para emojis. No siempre indica IA.
U+FEFF	Zero Width No-Break Space (BOM)	También conocido como BOM (Byte Order Mark). Indica orden de bytes en codificaciones.	Común en archivos con problemas de codificación.
U+00A0	No-Break Space	Espacio no separable. Usado en tipografía correcta para evitar saltos de línea no deseados.	NUEVO: Muy común. Uso legítimo en texto bien formateado.
U+2060	Word Joiner	Similar al ZWSP pero no indica división de palabras. Previene saltos entre palabras.
U+180E	Mongolian Vowel Separator	Separa vocales en escritura mongola tradicional.
U+200E	Left-to-Right Mark	Fuerza dirección de izquierda a derecha para el texto siguiente.
U+200F	Right-to-Left Mark	Fuerza dirección de derecha a izquierda para el texto siguiente.
U+202A	Left-to-Right Embedding	Establece un nuevo nivel de incrustación con dirección LTR.
U+202B	Right-to-Left Embedding	Establece un nuevo nivel de incrustación con dirección RTL.
U+202C	Pop Directional Formatting	Finaliza el último nivel de formato direccional.
U+202D	Left-to-Right Override	Fuerza toda la secuencia siguiente a ser tratada como LTR.
U+202E	Right-to-Left Override	Fuerza toda la secuencia siguiente a ser tratada como RTL.
U+2061	Function Application	Símbolo matemático invisible que representa la aplicación de funciones.
U+2062	Invisible Times	Representa una multiplicación invisible en notación matemática.
U+2063	Invisible Separator	Separador invisible usado en notación matemática.
U+2064	Invisible Plus	Representa una suma invisible en notación matemática.
U+034F	Combining Grapheme Joiner	Une grafemas o unidades visuales en escrituras complejas.
U+061C	Arabic Letter Mark	Controla el comportamiento de texto árabe en entornos bidireccionales.
U+00AD	Soft Hyphen	Guión invisible que solo aparece cuando una palabra debe cortarse al final de línea.
U+2009	Thin Space	Espacio fino, más estrecho que un espacio normal pero visible. Usado en tipografía para separación precisa.	-
U+3000	Ideographic Space	Espacio de ancho completo usado en texto CJK (Chino, Japonés, Coreano).	NUEVO: Común en textos asiáticos.
U+FE0F	Variation Selector-16	Selecciona variante emoji de un carácter. Controla la representación visual.	NUEVO: Común y generalmente legítimo en emojis.
Y más... (total de 30+ caracteres detectables)

Actualización 2025: La herramienta ahora detecta 30+ tipos de caracteres invisibles, incluyendo espacios Unicode tipográficos, variantes de selección, y caracteres reportados en modelos razonadores modernos.

La detección de estos caracteres puede ser una forma efectiva de identificar contenido generado por IA, aunque no es concluyente por sí misma.

📰 Artículos relacionados

Estos artículos refuerzan la importancia de detectar caracteres Unicode invisibles en texto generado por IA y sus implicaciones de seguridad:

Ataques y vulnerabilidades (2024-2025):

AI chatbots can read and write invisible text, creating an ideal covert channel - Ars Technica documenta cómo los LLMs pueden interpretar y generar caracteres invisibles del bloque Tags Unicode, creando canales encubiertos para exfiltrar información sensible.
The Invisible Threat: How Zero-Width Unicode Characters Can Silently Backdoor Your AI-Generated Code - Análisis sobre cómo caracteres invisibles pueden introducir backdoors en código generado por IA.
Phishing attack hides JavaScript using invisible Unicode trick - BleepingComputer reporta ataques de phishing en enero 2025 que utilizan caracteres Hangul invisibles (U+FFA0, U+3164) para ofuscar JavaScript malicioso.
Invisible Prompt Injection: A Threat to AI Security - Trend Micro explica cómo atacantes usan caracteres invisibles para manipular respuestas de LLMs de forma encubierta.

Watermarking y detección (2025):

New ChatGPT models seem to leave watermarks on text - Rumi descubre que modelos o3/o4-mini insertan U+202F sistemáticamente. OpenAI confirmó que es un bug de RL, no una marca de agua intencional.
OpenAI's New o3/o4-mini Models Add Invisible Characters to Text, Sparking Watermark Debate - WinBuzzer analiza el debate sobre si los caracteres invisibles son marcas de agua o artefactos no intencionados.
Find Invisible Unicode Characters aka "AI Watermarks" - Guía técnica para detectar y analizar caracteres invisibles en texto de IA.

Impacto en seguridad:

Emerging Threat: Invisible Unicode Phishing Attacks - Blackswan Cybersecurity documenta cómo atacantes usan Zero-Width Joiners y Soft Hyphens para evadir filtros de seguridad.
GPT-4.1 Character Encoding Issues - Discusión en la comunidad de OpenAI sobre problemas de codificación de caracteres en GPT-4.1.

Herramienta desarrollada por 686f6c61