MarkItDown: convierte cualquier archivo en texto que tu IA entiende
La herramienta open source de Microsoft que transforma PDFs, Excel, Word y hasta videos de YouTube en Markdown limpio — para que tu IA responda mejor y gastes menos tokens.
El problema: tu IA no lee archivos, lee texto
Cuando subes un PDF directo a Claude o ChatGPT, el modelo no "ve" el documento como tú lo ves. Tiene que descifrar la estructura, el formato y todo el ruido interno del archivo — y eso cuesta tokens. Muchos.
El resultado: respuestas más lentas, contexto desperdiciado y límites de uso que se agotan el doble de rápido. Y si el archivo es complejo (tablas, columnas, escaneos), la IA puede perderse información importante en el camino.
La regla de oro
Mientras más limpio sea el texto que le das a un modelo, mejor y más barato responde.
Qué es MarkItDown
MarkItDown es una herramienta open source de Microsoft que convierte prácticamente cualquier archivo a Markdown: el formato de texto plano que los modelos de IA leen de forma nativa.
Piénsalo como un traductor universal: entra un archivo pesado, sale texto limpio y estructurado — con sus títulos, tablas y listas — listo para pegar en cualquier chat o usar en un flujo automatizado.
Documentos, contratos, reportes
Word / Excel / PowerPoint
.docx, .xlsx, .pptx
Imágenes
Extrae el texto (OCR) y metadatos
Audio
Transcripción automática
YouTube
Transcripción del video desde el link
Web y datos
HTML, CSV, JSON, XML, ZIP, EPUB
Es gratuita, corre 100% en tu computadora y el código está disponible en el repositorio oficial: github.com/microsoft/markitdown.
Instálalo en 2 minutos
Solo necesitas Python 3.10 o superior instalado. Abre la terminal y ejecuta:
pip install 'markitdown[all]'El extra [all] instala el soporte para todos los formatos (PDF, Office, audio, etc.). Para verificar que quedó instalado:
markitdown --help¿Usas Claude Code?
No necesitas tocar la terminal: pídele que lo haga por ti con el siguiente prompt.
Instala MarkItDown de Microsoft (https://github.com/microsoft/markitdown) en mi computadora con pip, verifica que el comando markitdown funcione y muéstrame un ejemplo de uso.
Cómo se usa
Desde la terminal — convierte cualquier archivo con un solo comando:
markitdown contrato.pdf -o contrato.mdDesde Python — si quieres integrarlo en un script o flujo automatizado:
from markitdown import MarkItDown
md = MarkItDown()
resultado = md.convert("reporte.xlsx")
print(resultado.text_content)Con tu asistente de IA — si usas Claude Code u otro asistente con acceso a tu computadora, estos prompts están listos para copiar:
Convierte ~/Descargas/contrato.pdf a Markdown con MarkItDown, léelo y dame: las 3 cláusulas más importantes, las fechas límite y cualquier riesgo que detectes.
Usa MarkItDown para extraer la transcripción de este video de YouTube [pega aquí el link] y resúmela en 10 puntos clave.
Tres usos reales
Contratos y documentos legales
Convierte el PDF y pídele a la IA un resumen de cláusulas, fechas y riesgos. Lo que antes era una hora de lectura ahora son 2 minutos.
Reportes de Excel
Transforma la hoja en texto y pregunta directamente: ¿qué productos cayeron este mes? ¿dónde está la mayor oportunidad?
Videos y reuniones largas
Extrae la transcripción de un YouTube o una grabación y conviértela en actas, resúmenes o contenido para redes.
Para los que construyen
Si estás armando un sistema que consulta documentos (RAG), MarkItDown es el paso de limpieza perfecto antes de indexar tu contenido.
¿Prefieres que esto funcione solo?
Puedo montar este flujo en tu negocio: documentos que llegan, se convierten y se resumen automáticamente — sin que nadie toque la terminal.
Hablemos por WhatsApp