Rost Glukhov | Sitio personal y blog técnico

Benchmarks de LLM con 16 GB de VRAM en llama.cpp (velocidad y contexto)

Aquí comparo la velocidad de varios LLMs ejecutándose en una GPU con 16 GB de VRAM, y elijo el mejor para autoalojamiento.

Precio y disponibilidad de la RTX 5090 en Australia para marzo de 2026: la realidad

Australia tiene existencias de la RTX 5090. Escasamente. Y si encuentras una, pagarás un sobreprecio que parece desconectado de la realidad.

Acceso remoto a Ollama mediante Tailscale o WireGuard, sin puertos públicos.

Ollama funciona mejor cuando se trata como un demonio local: la CLI y sus aplicaciones se comunican con una API HTTP de bucle local, y el resto de la red nunca descubre su existencia.

Registro Estructurado en Go con slog para Observabilidad y Alertas

Los registros (logs) son una interfaz de depuración que puedes seguir utilizando incluso cuando el sistema está en llamas. El problema es que los registros en texto plano envejecen mal: en cuanto necesitas filtrado, agregación y alertas, empiezas a analizar oraciones.

Ollama en Docker Compose con GPU y almacenamiento persistente de modelos

Ollama funciona muy bien en hardware físico (bare metal). Se vuelve aún más interesante cuando lo tratas como un servicio: un punto de conexión estable, versiones fijas, almacenamiento persistente y una GPU que está disponible o no lo está.

Ollama detrás de un proxy inverso con Caddy o Nginx para streaming HTTPS

Ejecutar Ollama detrás de un proxy inverso es la forma más sencilla de obtener HTTPS, control de acceso opcional y un comportamiento de transmisión predecible.

Incrustaciones de texto para RAG y búsqueda: Python, Ollama, APIs compatibles con OpenAI

Si estás trabajando en generación aumentada con recuperación (RAG), esta sección explica los incrustados de texto (text embeddings) en términos sencillos: qué son, cómo se integran en la búsqueda y la recuperación, y cómo llamar a dos configuraciones locales comunes desde Python usando Ollama o una API HTTP compatible con OpenAI (como la que exponen muchos servidores basados en llama.cpp).

Netlify para Hugo y sitios estáticos: precios, plan gratuito y alternativas.

Netlify es una de las formas más amigables para desarrolladores de lanzar sitios Hugo y aplicaciones web modernas con un flujo de trabajo de nivel de producción: URL de vista previa para cada solicitud de extracción, despliegues atómicos, una CDN global y capacidades de servidor y de borde opcionales.

Apache Flink en K8s y Kafka: PyFlink, Go, operaciones y precios gestionados

Apache Flink es un marco para computaciones con estado sobre flujos de datos acotados y no acotados.

Base de datos gráfica Neo4j para GraphRAG, instalación, Cypher, vectores y operaciones.

Neo4j es a lo que recurres cuando las relaciones son los datos. Si tu dominio parece un pizarrón lleno de círculos y flechas, forzarlo en tablas es doloroso.

IndexNow explicado: notifique a los motores de búsqueda cuando publique.

Los sitios estáticos y los blogs cambian cada vez que realizas una implementación. Los motores de búsqueda que admiten IndexNow pueden enterarse de esos cambios sin tener que esperar al próximo rastreo ciego.

Comparativa de correo electrónico alojado para dominios personalizados: Workspace, Microsoft 365, Zoho, Proton y WorkMail.

Poner el correo electrónico en tu propio dominio suena como una tarea de DNS para el fin de semana. En la práctica, es un pequeño sistema distribuido con una herencia de veinte años.

Inicio rápido de SGLang: instalar, configurar y servir modelos LLM a través de la API de OpenAI.

SGLang es un marco de servicio de alto rendimiento para grandes modelos de lenguaje y modelos multimodales, diseñado para ofrecer inferencia de baja latencia y alto rendimiento en todo, desde una sola GPU hasta clústeres distribuidos.

Inicio rápido del conmutador de modelos llama.swap para LLMs locales compatibles con OpenAI

Pronto estarás manejando vLLM, llama.cpp y más, cada pila en su propio puerto. Todo lo que hay aguas abajo sigue queriendo una URL base /v1; de lo contrario, seguirás reorganizando puertos, perfiles y scripts de una sola vez. llama-swap es el proxy /v1 antes de esas pilas.

Inicio rápido de Apache Kafka: instalar Kafka 4.2 con CLI y ejemplos locales

Apache Kafka 4.2.0 es la versión actual admitida y es la mejor base para una implementación rápida moderna, ya que Kafka 4.x carece completamente de ZooKeeper y se basa en KRaft de forma predeterminada.

Op My Opencode Review: Resultados honestos, riesgos de facturación y cuándo vale la pena.

Oh My Opencode promete un “equipo de desarrollo de IA virtual”: Sisyphus orquestando especialistas, tareas ejecutándose en paralelo y la palabra mágica ultrawork activando todo ello.