TechNews
Observatory
Topic Summary

Inference Performance

Timeline

Continuity Window

first seen 2026-03-27 04:52 JST
last seen 2026-03-29 09:55 JST
representative articles 2
2026-03-272026-03-29
Reddit / r/LocalLLaMAReddit / r/MachineLearning
01

Reddit - The heart of the internet

分類と出典
www.reddit.com
要点
  • Home lab ユーザーが、同スペック PC で Linux を Windows に換装した際の推論性能差を実感
  • RTX 8000 48GB と i9-9900k を搭載のシステムで Ollama 推論速度が大幅に向上したことを報告
  • Windows のみ vs Linux での実測データ(約 70〜120% の上昇)を共有し性能向上のヒント提供
重要性

家庭内大規模モデル推論における OS によるパフォーマンス差を実証し、環境構築者にとって重要な知見

02

Reddit - The heart of the internet

分類と出典
www.reddit.com
要点
  • Google Cloud が Qwen 3.5 27B モデルを B200 GPU で 1M トークン/秒まで推論速度アップした
  • GPU ユーティライゼーション向上に MTP-1 が決定打となり TP=8 は効率が低下した
  • Inference Gateway の実装により約 35% オーバーヘッド発生するとの調査結果
重要性

最新世代 GPU 上で高頻度推論の実用化戦略と、モデル規模や並列構成が性能に与える影響の詳細なベンチマーク