{"id":20049,"date":"2025-10-22T15:31:16","date_gmt":"2025-10-22T18:31:16","guid":{"rendered":"https:\/\/www.beyondprompting.com\/?p=20049"},"modified":"2025-10-22T15:31:18","modified_gmt":"2025-10-22T18:31:18","slug":"are-visual-tokens-more-effective-than-text-tokens-for-language-tasks","status":"publish","type":"post","link":"https:\/\/www.beyondprompting.com\/es\/are-visual-tokens-more-effective-than-text-tokens-for-language-tasks\/","title":{"rendered":"\u00bfSon los tokens visuales m\u00e1s efectivos que los tokens de texto para las tareas ling\u00fc\u00edsticas?"},"content":{"rendered":"<p>Est\u00e1 en las noticias: tenemos un nuevo momento DeepSeek. Quiz\u00e1s menos sofisticado, pero un gran avance que podr\u00eda redefinir los LLM. En su art\u00edculo m\u00e1s reciente, la ballena presenta DeepSeek-OCR, un nuevo y potente modelo de OCR (Reconocimiento \u00d3ptico de Caracteres). <\/p>\n\n\n\n<p>Si bien sus capacidades de OCR son impresionantes, la verdadera intriga para nosotros radica en una pregunta m\u00e1s fundamental que plantea.<\/p>\n\n\n\n<p>Como comunidad, hemos optado por tokens de texto como entrada universal para los LLM. Pero \u00bfy si esto supone un cuello de botella innecesario y limitante? \u00bfY si los p\u00edxeles son una fuente de entrada m\u00e1s efectiva y natural?<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">El caso de una dieta LLM basada \u00fanicamente en p\u00edxeles<\/h3>\n\n\n\n<p>Imagine un LLM que solo consume im\u00e1genes. Incluso el texto puro se convertir\u00eda en una imagen antes de ser procesado. Puede parecer contradictorio, pero las ventajas potenciales son convincentes:<\/p>\n\n\n\n<h4 class=\"wp-block-heading\">1. Compresi\u00f3n superior de informaci\u00f3n<\/h4>\n\n\n\n<p>El art\u00edculo sobre DeepSeek-OCR sugiere lo siguiente: la informaci\u00f3n visual puede almacenarse con mayor densidad. Una sola imagen puede transmitir el significado sem\u00e1ntico de un p\u00e1rrafo de texto, junto con su presentaci\u00f3n visual. Esto podr\u00eda resultar en ventanas de contexto efectivas significativamente m\u00e1s cortas, lo que se traduce directamente en mayor velocidad y menor coste computacional.<\/p>\n\n\n\n<h4 class=\"wp-block-heading\">2. Un flujo de entrada radicalmente m\u00e1s general<\/h4>\n\n\n\n<p>Los tokens de texto son un tipo de dato limitado y pobre. Al usar p\u00edxeles, el lenguaje del modelo se convierte en el lenguaje universal de la informaci\u00f3n visual. La entrada puede ser:<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>Texto formateado:<\/strong>\u00a0Negrita, cursiva, colores y tama\u00f1os de fuente, todos ellos con significado, se entienden de forma natural.<\/li>\n\n\n\n<li><strong>Modalidades Mixtas:<\/strong>\u00a0Gr\u00e1ficos, diagramas, memes y fotograf\u00edas reales se procesan de forma nativa junto con el texto. Se acabaron las complejas secuencias multimodales; todo es simplemente una imagen.<\/li>\n<\/ul>\n\n\n\n<h4 class=\"wp-block-heading\">3. El poder de la atenci\u00f3n bidireccional por defecto<\/h4>\n\n\n\n<p>La generaci\u00f3n de texto es autorregresiva: predecimos el siguiente token de izquierda a derecha. Pero&nbsp;<em>comprensi\u00f3n<\/em>&nbsp;El texto no lo es. Al procesar una imagen, no existe un orden secuencial inherente. El modelo puede usar la atenci\u00f3n bidireccional en toda la escena desde el principio, lo que genera una comprensi\u00f3n m\u00e1s rica y eficaz del contexto de entrada.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">El tokenizador debe desaparecer<\/h3>\n\n\n\n<p>Esta es una colina que estamos dispuestos a defender:&nbsp;<strong>El tokenizador es una reliquia problem\u00e1tica.<\/strong><\/p>\n\n\n\n<p>Es una etapa de preprocesamiento independiente y poco atractiva que interrumpe el aprendizaje integral. Importa todo el bagaje hist\u00f3rico de Unicode, codificaciones de bytes y vulnerabilidades de seguridad (\u00bfalguien conoce los ataques de bytes de continuaci\u00f3n?). Lo m\u00e1s grave es que separa el modelo del mundo real.<\/p>\n\n\n\n<p>Dos caracteres que parecen id\u00e9nticos al ojo humano pueden asignarse a dos s\u00edmbolos completamente diferentes e inconexos. Un emoji sonriente se convierte en un s\u00edmbolo extra\u00f1o y abstracto, no en una representaci\u00f3n visual de una sonrisa que pueda beneficiarse de la comprensi\u00f3n inherente del modelo de rostros y emociones.<\/p>\n\n\n\n<p>El tokenizador crea una capa fr\u00e1gil y artificial entre el usuario y el modelo. Reemplazarlo por una interfaz directa basada en p\u00edxeles ser\u00eda un paso fundamental hacia una IA m\u00e1s robusta e intuitiva.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">El camino pr\u00e1ctico hacia adelante<\/h3>\n\n\n\n<p>Entonces, \u00bfc\u00f3mo se ver\u00eda esto en la pr\u00e1ctica? La arquitectura m\u00e1s viable hoy en d\u00eda es una&nbsp;<strong>Codificador visual + decodificador LLM<\/strong>.<\/p>\n\n\n\n<p>El mensaje del usuario, ya sea una captura de pantalla de un documento, una foto de una pizarra o un fragmento de texto renderizado, se introduce en p\u00edxeles. El codificador visual lo procesa en una representaci\u00f3n latente que el decodificador LLM utiliza para generar una respuesta textual coherente.<\/p>\n\n\n\n<p>Este enfoque elude con elegancia el obst\u00e1culo t\u00e9cnico m\u00e1s importante: generar im\u00e1genes coherentes y de alta fidelidad como resultado. Para la gran mayor\u00eda de las aplicaciones pr\u00e1cticas, buscamos un asistente textual, no un pincel. Mantenemos el potente decodificador de texto que llevamos a\u00f1os perfeccionando y simplemente lo optimizamos.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Conclusi\u00f3n: \u00bfUn futuro centrado en la visi\u00f3n para los LLM?<\/h3>\n\n\n\n<p>El OCR es solo una aplicaci\u00f3n dentro de un paradigma mucho m\u00e1s amplio. Al enmarcar todas las entradas como tareas visuales, desbloqueamos un mundo de generalidad y eficiencia. Si bien el tokenizador de solo texto nos ha llevado lejos, podr\u00eda estar impidi\u00e9ndonos dar el siguiente salto en la capacidad de la IA.<\/p>\n\n\n\n<p>La pregunta no es solo si los tokens visuales son&nbsp;<em>m\u00e1s eficaz<\/em>&nbsp;Para algunas tareas de lenguaje, la pregunta es si son las adecuadas.&nbsp;<em>una base universalmente mejor<\/em>&nbsp;para construir sistemas de razonamiento multimodal de prop\u00f3sito general.<\/p>\n\n\n\n<p> El futuro de las entradas de LLM podr\u00eda no ser texto en absoluto: podr\u00eda ser un flujo de p\u00edxeles.<\/p>","protected":false},"excerpt":{"rendered":"<p>It&#8217;s on the news: we&#8217;ve a new DeepSeek moment. A bit less fancy, maybe, but quite a breakthrough that may redefine LLMs. In it&#8217;s most recent paper, the whale presents DeepSeek-OCR, a powerful new OCR (Optical Character Recognition) model. While [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":20050,"comment_status":"closed","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[1],"tags":[],"class_list":["post-20049","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-sin-categoria","entry"],"_links":{"self":[{"href":"https:\/\/www.beyondprompting.com\/es\/wp-json\/wp\/v2\/posts\/20049","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.beyondprompting.com\/es\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.beyondprompting.com\/es\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.beyondprompting.com\/es\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/www.beyondprompting.com\/es\/wp-json\/wp\/v2\/comments?post=20049"}],"version-history":[{"count":1,"href":"https:\/\/www.beyondprompting.com\/es\/wp-json\/wp\/v2\/posts\/20049\/revisions"}],"predecessor-version":[{"id":20051,"href":"https:\/\/www.beyondprompting.com\/es\/wp-json\/wp\/v2\/posts\/20049\/revisions\/20051"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.beyondprompting.com\/es\/wp-json\/wp\/v2\/media\/20050"}],"wp:attachment":[{"href":"https:\/\/www.beyondprompting.com\/es\/wp-json\/wp\/v2\/media?parent=20049"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.beyondprompting.com\/es\/wp-json\/wp\/v2\/categories?post=20049"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.beyondprompting.com\/es\/wp-json\/wp\/v2\/tags?post=20049"}],"curies":[{"name":"gracias","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}