Article
I compared harrier-27b vs voyage-4 vs zembed-1 across 24 datasets. 27B parametersHarrier-27B モデルが Microsoft からはじまったばかりのベンチマークではトップだが、24 データセットを使った厳密な評価では zembed-1 が全体勝敗をリードすることが判明した。
Reading
Article Notes
要点
- Harrier-27B モデルが Microsoft からはじまったばかりのベンチマークではトップだが、24 データセットを使った厳密な評価では zembed-1 が全体勝敗をリードすることが判明した。
- RAG パイプラインにおいて実質的に重要となる Recall@100 指標では zembed-1 が Harrier-27B より 2.2 ポイントも優れており、レランク段階で信号をより多く抽出できる。
- Harrier-27B は多言語対応や自準 hosting 需要には適するが、4B 規模の zembed-1 に比べて計算コストが 7 倍で性能もわずかに劣るため、実運用においては慎重な選択が必要である。
重要性
RAG システムの実運用において、検索結果がレランクまで到達するかの指標である Recall@100 が、ベンチマークでの二値通過率よりも決定的な性能指標であることが示唆された。
取得経路
Reddit 本文ではなく、保存済み feed summary をもとに復元した項目です。
Signals
Why It Was Selected
Buzz
Reddit / r/LocalLLaMAで11位に入り、直近数日より前に反応が集まりました。短期の盛り上がりで終わるのか、継続的な関心に変わるのかを見極める材料になります。
Global
影響範囲が広く、個別の話題として流さず全体像で押さえる価値があります。どの領域に波及するかを見極めるためにも、今の段階で追っておく意味があります。
Context
背景と運用文脈を補って読むことで、影響の見え方が大きく変わる話題です。実装だけでなく、現場の扱い方や周辺ルールまで見ておく必要があります。