Rost Glukhov | 個人サイトとテクニカルブログ

llama.cpp を使用した 16GB VRAM における LLM ベンチマーク（速度とコンテキスト）

ここでは、16GB の VRAM を持つ GPU で動作するいくつかの LLM の速度を比較し、セルフホスティングに適した最適なモデルを選定しています。

オーストラリアにおける RTX 5090 の 2026 年 3 月の価格と在庫の実態

オーストラリアにはRTX 5090の在庫があります。ただし、ごくわずかです。もし見つけたとしても、現実感の欠けた、莫大なプレミアム価格を支払わなければなりません。

Tailscale または WireGuard を介した Ollama のリモートアクセス（パブリックポートなし）

Ollama は、ローカルデーモンとして扱われるときに最も快適に動作します。CLI とアプリケーションがループバック HTTP API と通信し、残りのネットワークにはその存在が知られない状態です。

ログは、システムが炎上している状況でも使用できるデバッグインターフェースです。問題となるのは、プレーンテキストのログは古くなりやすいという点です。フィルタリング、集計、アラートが必要になった瞬間、文章をパースし始めることになります。

GPU および永続的なモデルストレージを使用する Docker Compose での Ollama

Ollama は、メタル（物理マシン）上で非常に良好に動作します。それをサービスとして扱うと、さらに興味深くなります。安定したエンドポイント、固定されたバージョン、永続的なストレージ、そして GPU が利用可能か不可かの明確な状態が確保されます。

Caddy または Nginx をリバースプロキシとして使用し、HTTPS ストリーミングを有効にした Ollama

リバースプロキシの背後で Ollama を実行することは、HTTPS、オプションのアクセス制御、予測可能なストリーミング動作を実現する最も簡単な方法です。

RAG と検索向けのテキスト埋め込み - Python、Ollama、OpenAI 互換 API

検索拡張生成 (RAG) を実装されている方に向けて、このセクションではテキスト埋め込み（text embeddings）について平易な言葉で解説します。埋め込みとは何か、検索や検索（リトリバル）にどのように組み込まれるか、そしてOllamaやllama.cppベースのサーバーが提供するOpenAI 互換の HTTP API を使用して、Pythonから 2 つの一般的なローカル環境を呼び出す方法を説明します。

Netlify と Hugo および静的サイト：料金プラン、無料枠、および代替案

Netlify は、開発者フレンドリーな方法の一つであり、Hugo サイトやモダンな Web アプリを、本番環境グレードのワークフローで配信するためのプラットフォームです。プルリクエストごとのプレビュー URL、アトミックなデプロイ、グローバル CDN、およびオプションのサーバーレス機能やエッジ機能を備えています。

K8s と Kafka 環境における Apache Flink：PyFlink、Go、運用、およびマネージド価格設定

Apache Flink は、有界および無界のデータストリームに対して状態付きの計算を行うためのフレームワークです。

GraphRAG 向け Neo4j グラフデータベースのインストール、Cypher、ベクトル、運用

Neo4j は、関係そのものがデータであるときに選択するソリューションです。ドメインが白板に描かれた円と矢印の図のように見える場合、それをテーブルに無理やり押し込むのは苦痛を伴います。

カスタムドメイン向けホスト型メールサービス比較：Workspace、Microsoft 365、Zoho、Proton、WorkMail

独自ドメインへのメール設定は、週末の DNS 設定作業のように聞こえますが、実際には 20 年の歴史を持つ小さな分散システムです。

静的サイトやブログは、デプロイされるたびに内容が変化します。IndexNow をサポートする検索エンジンなら、次の盲目的なクロール（blind crawl）を待たずに、その変更を即座に認識できます。

SGLang クイックスタート：OpenAI API を介して LLM のインストール、設定、およびサービス提供

SGLang は、大規模言語モデルおよびマルチモーダルモデル向けの高パフォーマンスなサービングフレームワークであり、単一の GPU から分散クラスターに至るまで、低レイテンシかつ高スループットの推論を提供するために設計されています。

llama.swap モデルスイッチャーのクイックスタート（OpenAI 互換ローカル LLM 向け）

まもなく、vLLM や llama.cpp、さらに多くのスタックをそれぞれのポートで並行して管理することになるでしょう。しかし、下流のシステムはすべて単一の /v1 ベース URL を望みます。そうしないと、ポート、プロファイル、ワンオフスクリプトを絶えず整理し続ける羽目になります。llama-swap は、それらのスタックの前に置かれる /v1 プロキシです。

Apache Kafka クイックスタート - CLI とローカルサンプルを使用した Kafka 4.2 のインストール

Apache Kafka 4.2.0 は現在のサポート対象リリースであり、Kafka 4.x は完全に ZooKeeper 不要化され、デフォルトで KRaft に基づいて構築されているため、モダンな Quickstart の最適な基準となります。

Oh My Opencode レビュー：正直な結果、請求リスク、そして投資が worthwhile なタイミング

Oh My Opencode は「仮想 AI 開発チーム」を約束しています。Sisyphus が専門家を指揮し、タスクが並列で実行され、ultrawork という魔法のようなキーワードがそのすべてを活性化させます。

llama.cpp を使用した 16GB VRAM における LLM ベンチマーク（速度とコンテキスト）

オーストラリアにおける RTX 5090 の 2026 年 3 月の価格と在庫の実態

Tailscale または WireGuard を介した Ollama のリモートアクセス（パブリックポートなし）

slog を用いた Go の構造化ログ出力：可観測性とアラート機能の実現

GPU および永続的なモデルストレージを使用する Docker Compose での Ollama

Caddy または Nginx をリバースプロキシとして使用し、HTTPS ストリーミングを有効にした Ollama

RAG と検索向けのテキスト埋め込み - Python、Ollama、OpenAI 互換 API

Netlify と Hugo および静的サイト：料金プラン、無料枠、および代替案

K8s と Kafka 環境における Apache Flink：PyFlink、Go、運用、およびマネージド価格設定

GraphRAG 向け Neo4j グラフデータベースのインストール、Cypher、ベクトル、運用

カスタムドメイン向けホスト型メールサービス比較：Workspace、Microsoft 365、Zoho、Proton、WorkMail

IndexNow 解説：公開時に検索エンジンに通知する

SGLang クイックスタート：OpenAI API を介して LLM のインストール、設定、およびサービス提供

llama.swap モデルスイッチャーのクイックスタート（OpenAI 互換ローカル LLM 向け）

Apache Kafka クイックスタート - CLI とローカルサンプルを使用した Kafka 4.2 のインストール

Oh My Opencode レビュー：正直な結果、請求リスク、そして投資が worthwhile なタイミング