Rost Glukhov | Site personnel et blog technique

Benchmarks LLM avec 16 Go de VRAM utilisant llama.cpp (vitesse et contexte)

Voici, je compare la vitesse de plusieurs LLM tournant sur un GPU avec 16 Go de VRAM, et je choisis le meilleur pour l’auto-hébergement.

Prix et disponibilité de la RTX 5090 en Australie : la réalité de mars 2026

L’Australie dispose de stock pour la RTX 5090. À peine. Et si vous en trouvez une, vous paierez une prime qui semble déconnectée de la réalité.

Accès distant à Ollama via Tailscale ou WireGuard, sans ports publics.

Ollama est à son meilleur lorsque l’on le traite comme un démon local : la CLI et vos applications communiquent avec une API HTTP en boucle locale (loopback), et le reste du réseau ignore son existence.

Journalisation structurée en Go avec slog pour l'observabilité et l'alerting

Les journaux (logs) sont une interface de débogage que vous pouvez encore utiliser lorsque le système est en feu. Le problème, c’est que les journaux texte brut vieillissent mal : dès que vous avez besoin de filtrage, d’agrégation et d’alertes, vous commencez à parser des phrases.

Ollama dans Docker Compose avec GPU et stockage persistant des modèles

Ollama fonctionne parfaitement sur du matériel nu. Cela devient encore plus intéressant lorsque vous le traitez comme un service : une extrémité stable, des versions figées, un stockage persistant et une GPU qui est soit disponible, soit non.

Ollama derrière un proxy inversé avec Caddy ou Nginx pour le streaming HTTPS

Exécuter Ollama derrière un proxy inversé est le moyen le plus simple d’obtenir HTTPS, un contrôle d’accès facultatif et un comportement de streaming prévisible.

Embeddings de texte pour RAG et recherche - Python, Ollama, API compatibles OpenAI

Si vous travaillez sur la génération augmentée par récupération (RAG), cette section explique les incorporations de texte (text embeddings) en termes simples : ce qu’elles sont, comment elles s’intègrent dans la recherche et la récupération, et comment appeler deux configurations locales courantes depuis Python en utilisant Ollama ou une API HTTP compatible OpenAI (comme le font de nombreux serveurs basés sur llama.cpp).

Netlify pour Hugo et les sites statiques : tarification, offre gratuite et alternatives

Netlify est l’une des méthodes les plus adaptées aux développeurs pour déployer des sites Hugo et des applications web modernes avec un flux de travail de niveau production : URLs de prévisualisation pour chaque demande de fusion (pull request), déploiements atomiques, un CDN mondial et des capacités serverless et edge optionnelles.

Apache Flink sur K8s et Kafka : PyFlink, Go, opérations et tarification gérée

Apache Flink est un cadre pour les calculs à état sur des flux de données bornés et non bornés.

Base de données graphique Neo4j pour GraphRAG, installation, Cypher, vecteurs, opérations.

Neo4j est la solution à laquelle on se tourne lorsque les relations sont les données. Si votre domaine ressemble à un tableau blanc rempli de cercles et de flèches, le forcer dans des tables est douloureux.

IndexNow expliqué : notifier les moteurs de recherche lors de la publication

Les sites statiques et les blogs changent à chaque déploiement. Les moteurs de recherche prenant en charge IndexNow peuvent prendre connaissance de ces changements sans attendre le prochain cycle de crawl aveugle.

Comparatif des solutions d'e-mail hébergé pour domaines personnalisés : Workspace, Microsoft 365, Zoho, Proton et WorkMail.

Mettre en place un e-mail sur votre propre domaine semble être une tâche DNS de week-end. En pratique, il s’agit d’un petit système distribué avec un héritage de vingt ans.

Démarrage rapide de SGLang : Installation, configuration et déploiement de LLM via l’API OpenAI

SGLang est un framework de service haute performance pour les grands modèles de langage et les modèles multimodaux, conçu pour fournir une inférence à faible latence et à haut débit sur tout, d’une seule GPU à des clusters distribués.

Prise en main rapide du sélecteur de modèles llama.swap pour les LLM locaux compatibles avec OpenAI

Bientôt, vous jonglerez avec vLLM, llama.cpp et bien plus encore — chaque pile fonctionnant sur son propre port. Tout le reste de votre infrastructure souhaite toujours une URL de base unique /v1 ; sinon, vous finissez par réorganiser constamment les ports, les profils et les scripts ponctuels. llama-swap est le proxy /v1 qui précède ces piles.

Démarrage rapide d'Apache Kafka - Installation de Kafka 4.2 avec CLI et exemples locaux

Apache Kafka 4.2.0 est la ligne de version actuellement supportée, et elle constitue la meilleure base pour un démarrage rapide moderne, car Kafka 4.x est totalement libre de ZooKeeper et construit autour de KRaft par défaut.

Oh My Opencode Avis : Résultats honnêtes, risques de facturation et quand cela vaut la peine

Oh My Opencode promet une « équipe de développement IA virtuelle » : Sisyphus orchestre des spécialistes, les tâches s’exécutent en parallèle et le mot magique ultrawork active tout cela.