国产乱子伦60女人的皮视频,国产无码免费,99久久久国产精品久久,久久国产精品隔壁老王

<th id="oefyx"></th>

AI模型評測

Open LLM Leaderboard

Open LLM Leaderboard

Hugging Face推出的開源大模型排行榜單

MMLU

大規(guī)模多任務(wù)語言理解基準

SuperCLUE

中文通用大模型綜合性測評基準

H2O EvalGPT

H2O EvalGPT

H2O.ai推出的基于Elo評級方法的大模型評估系統(tǒng)

PubMedQA

生物醫(yī)學(xué)研究問答數(shù)據(jù)集和模型得分排行榜

FlagEval

智源研究院推出的FlagEval（天秤）大模型評測平臺

LLMEval3

由復(fù)旦大學(xué)NLP實驗室推出的大模型評測基準

C-Eval

一個全面的中文基礎(chǔ)模型評估套件

OpenCompass

OpenCompass

上海人工智能實驗室推出的大模型開放評測體系

CMMLU

一個綜合性的大模型中文評估基準

HELM

斯坦福大學(xué)推出的大模型評測體系

MMBench

全方位的多模態(tài)大模型能力評測體系

Chatbot Arena

Chatbot Arena

以眾包方式進行匿名隨機對戰(zhàn)的LLM基準平臺