Topic Summary

Vllm

Back to month2026-03articles 2days active 2sources 2

Timeline

Continuity Window

first seen 2026-03-27 04:52 JST

last seen 2026-03-29 04:38 JST

representative articles 2

2026-03-272026-03-29

Reddit / r/LocalLLaMAReddit / r/MachineLearning

01

Reddit - The heart of the internet

分類と出典

www.reddit.com

要点

Nemotron 3 Super モデルで vLLM (NVFP4) と llama.cpp (gguf) の実行性能を比較した調査報告。
vLLM は約 55% を得ているのに対し、llama.cpp は標準パラメータ設定では 40% 程度と大幅に低いスコアを記録している。
複数モデルや異なるクランテーション形式で検証したが、生成パラメータ自体への違いを見つけるまでに至っていない状況がまとめられている。

重要性

LLVM の NVFP4 形式が llama.cpp よりも大幅に良い性能を示すかどうかを確認するコミュニティの議論であり、推論エンジン間の最適化差異を理解する上で重要である。

02

Reddit - The heart of the internet

分類と出典

www.reddit.com

要点

Google Cloud が Qwen 3.5 27B モデルを B200 GPU で 1M トークン/秒まで推論速度アップした
GPU ユーティライゼーション向上に MTP-1 が決定打となり TP=8 は効率が低下した
Inference Gateway の実装により約 35% オーバーヘッド発生するとの調査結果

重要性

最新世代 GPU 上で高頻度推論の実用化戦略と、モデル規模や並列構成が性能に与える影響の詳細なベンチマーク