国产乱子伦60女人的皮视频,国产无码免费,99久久久国产精品久久,久久国产精品隔壁老王

<font id="wts4g"><big id="wts4g"><em id="wts4g"></em></big></font>

<form id="wts4g"></form>

<option id="wts4g"></option>

MMBench

AI模型評測

MMBench

全方位的多模態(tài)大模型能力評測體系

標簽： AI模型評測

訪問官網

MMBench是一個多模態(tài)基準測試，由上海人工智能實驗室、南洋理工大學、香港中文大學、新加坡國立大學和浙江大學的研究人員推出。該體系開發(fā)了一個綜合評估流程，從感知到認知能力逐級細分評估，覆蓋20項細粒度能力，從互聯(lián)網與權威基準數(shù)據(jù)集采集約3000道單項選擇題。打破常規(guī)一問一答基于規(guī)則匹配提取選項進行評測，循環(huán)打亂選項驗證輸出結果的一致性，基于ChatGPT精準匹配模型回復至選項。

MMBench的特點和優(yōu)勢

基于感知與推理，將評估維度逐級細分。約 3000 道單項選擇題，覆蓋目標檢測、文字識別、動作識別、圖像
理解、關系推理等 20 個細粒度評估維度
更具魯棒性的評估方式。相同單選問題循環(huán)選項提問，模型輸出全部指向同一答案認定為通過，相比傳統(tǒng)1次性通過評估 top-1 準確率平均下降 10% ~ 20%。最大程度減少各種噪聲因素對評測結果的影響，保證了結果的可復現(xiàn)性。
更可靠的模型輸出提取方法。基于 ChatGPT 匹配模型輸出與選項，即使模型未按照指令輸出也可準確匹配至最合理選項

?

??版權聲明：若無特殊聲明，本站所有文章版權均歸陸客資源網-AI工具集原創(chuàng)和所有，未經許可，任何個人、媒體、網站、團體不得轉載、抄襲或以其他方式復制發(fā)表本站內容，或在非我站所屬的服務器上建立鏡像。否則，我站將依法保留追究相關法律責任的權利。

類似網站

/uploadfile/202312/f6f5c0bd616b2f9.png

Open LLM Leaderboard

Hugging Face推出的開源大模型排行榜單

/uploadfile/202312/a529b7084e2df7f.png

大規(guī)模多任務語言理解基準

/uploadfile/202312/3ab9bba29fc079e.png

中文通用大模型綜合性測評基準

/uploadfile/202312/b095cd10d03098a.png

H2O EvalGPT

H2O.ai推出的基于Elo評級方法的大模型評估系統(tǒng)

/uploadfile/202312/10eadcfa3ad2b81.png

生物醫(yī)學研究問答數(shù)據(jù)集和模型得分排行榜

/uploadfile/202312/8e85d7e1e5d1f59.png

智源研究院推出的FlagEval（天秤）大模型評測平臺

/uploadfile/202312/95d5734a7c70f43.png

由復旦大學NLP實驗室推出的大模型評測基準

/uploadfile/202312/5b9b709af117441.png

一個全面的中文基礎模型評估套件

/uploadfile/202312/88695f879b976.png

OpenCompass

上海人工智能實驗室推出的大模型開放評測體系