EvalsOpenAI 模型评估框架

联合创作 · 2023-09-26 06:42

Evals 是一个评估 OpenAI 模型的框架和一个开源的基准测试注册表，你可以使用 Evals 来创建和运行评估：

使用数据集来生成提示信息

衡量 OpenAI 模型所提供的完成度的质量

比较不同数据集和模型的性能

Evals 的目标是使建立一个评估尽可能简单，同时编写尽可能少的代码。要开始使用，建议你依次按照以下步骤进行：

通读本文档，并遵循下面的设置说明。

了解如何运行现有的评价：run-evals.md

熟悉现有的评估模板：eval-templates.md

了解构建评估的过程：build-eval.md

看一个实现自定义评价逻辑的例子：custom-eval.md。

设置

要运行评估，需要设置并指定您的 OpenAI API 密钥。获取 API 密钥后，使用 OPENAI_API_KEY环境变量指定它。

下载评估

Evals 注册表使用 Git-LFS 存储，下载并安装 LFS 后，可以通过以下方式获取评估：

git lfs fetch --all

git lfs pull

你可能只想为选择的评估获取数据，则可以通过以下方式实现：

git lfs fetch --include=evals/registry/data/${your eval}

git lfs pull

进行评估

如果您要创建评估，建议直接从 GitHub 克隆此仓库并使用以下命令安装要求：

pip install -e .

使用 -e，对 eval 所做的更改将立即反映出来，而无需重新安装。

浏览 61

点赞

收藏

分享

举报

评论

图片

表情

ASEFAndroid 安全评估框架

Android Security Evaluation Framework (ASEF) 是 And

ASEFAndroid 安全评估框架

AndroidSecurityEvaluationFramework(ASEF)是Android安全评估框架，在提醒你有异常的时候执行分析，让你知道应用的异常活动，暴露有漏洞的组件。ASEF是开源的A

机器学习模型评估教程！

MOFScript模型转换框架

MOFScript主要的目的是开发支持模型到文本转换的工具和框架。比如支持从模型生成代码或文档等。它提供一个元模型未知的框架，这个框架能够使用任何类型的元模型和它的实例来生成文本。它的特性包括从基于M

openModeller算法模型框架

openModeller是一个C++的框架，它提供了一个统一的方法，使用各种不同的算法对分布格局进行建模。它可以用来预测物种潜在分布基于一套地理发生点和一套环境层。

Proto ActorActor 模型框架

ProtoAct 是下一代的 Actor 模型框架，提供了 .NET 和 Go 语言的实现，默认支持

openModeller算法模型框架

openModeller是一个C + +的框架，它提供了一个统一的方法，使用各种不同的算法对分布格局

MOFScript模型转换框架

MOFScript 主要的目的是开发支持模型到文本转换的工具和框架。比如支持从模型生成代码或文档等。

CAFC++ actor 模型框架

CAF——C++actor模型框架，借鉴了erlang和akka的actor思想。使用C++现代编程规模实现。特点是：轻量级、分布式、简单、可适应以及无锁。下载和构建：git clone https:

OMGDGAN 模型压缩框架

OMGD 即 Online Multi-Granularity Distillation（在线多粒度

点赞

收藏

分享

举报