Topic Summary

Inference Performance

Back to month2026-03articles 2days active 2sources 2

Timeline

Continuity Window

first seen 2026-03-27 04:52 JST

last seen 2026-03-29 09:55 JST

representative articles 2

2026-03-272026-03-29

Reddit / r/LocalLLaMAReddit / r/MachineLearning

01

Reddit - The heart of the internet

分類と出典

www.reddit.com

要点

Home lab ユーザーが、同スペック PC で Linux を Windows に換装した際の推論性能差を実感
RTX 8000 48GB と i9-9900k を搭載のシステムで Ollama 推論速度が大幅に向上したことを報告
Windows のみ vs Linux での実測データ（約 70〜120% の上昇）を共有し性能向上のヒント提供

重要性

家庭内大規模モデル推論における OS によるパフォーマンス差を実証し、環境構築者にとって重要な知見

02

Reddit - The heart of the internet

分類と出典

www.reddit.com

要点

Google Cloud が Qwen 3.5 27B モデルを B200 GPU で 1M トークン/秒まで推論速度アップした
GPU ユーティライゼーション向上に MTP-1 が決定打となり TP=8 は効率が低下した
Inference Gateway の実装により約 35% オーバーヘッド発生するとの調査結果

重要性

最新世代 GPU 上で高頻度推論の実用化戦略と、モデル規模や並列構成が性能に与える影響の詳細なベンチマーク