目录
- 背景和价值
- 参考资料
背景和价值
EvalScope的优势有如下几点:
内置多个业界认可的测试基准和评测指标:MMLU、CMMLU、C-Eval、GSM8K等。(附录中会介绍这些数据集的基本情况)
支持模型种类丰富,不仅仅支持常见的大语言模型的评测,还支持多模态模型、Embedding模型、Reranker模型、CLIP模型和AIGC模型(图生文/视频)的评测。
支持模型性能压力测试,相比于OpenCompass(大模型能力评估软件),EvalScope不仅可以评测模型在数据集上的表现,还具备吞吐量测算等模型推理性能压测的功能,确保模型在实际应用中表现出色。
https://article.juejin.cn/post/7512231268421517321