Arthur Bench评估生产用例 LLM 的工具认领

0粉丝

Arthur Bench 是一款用于评估生产用例 LLM 的工具。无论你是比较不同的 LLM、考虑不同的提示，还是测试温度和令牌数量等生成超参数，Bench 都能为你的所有 LLM 性能评估提供一个 touch point。Arthur Bench 帮助公司使用一致的指标来比较不同的 LLM 选项，

简介

Arthur Bench 是一款用于评估生产用例 LLM 的工具。无论你是比较不同的 LLM、考虑不同的提示，还是测试温度和令牌数量等生成超参数，Bench 都能为你的所有 LLM 性能评估提供一个 touch point。Arthur Bench 帮助公司使用一致的指标来比较不同的 LLM 选项，... 更多

技术信息

开源协议

MIT

开发语言

Python JavaScript

操作系统

跨平台

软件类型

开源软件

所属分类

神经网络/人工智能、 LLM（大语言模型）

开源组织

无

地区

不详

适用人群

未知

时光轴

里程碑1

LOG0

2023

09-26

轻识收录

打卡

评价

0.0（满分 10 分）0 个评分

什么是点评分

图片

表情

全部评价( 0)

推荐率 100%

推荐

ClassBuilderC++用例工具

ClassBuilder是一个用例工具，主要面向C++开发者，支持Windows系统，可以用来创建、操作和浏览C++类以及类之间的关系，成员和属性等

ClassBuilderC++用例工具

ClassBuilder 是一个用例工具，主要面向 C++ 开发者，支持 Windows 系统，可以

LangChain构建 LLM 应用的工具

LangChain是一个用于构建基于大型语言模型（LLM）的应用程序的库。它可以帮助开发者将LLM与其他计算或知识源结合起来，创建更强大的应用程序。LangChain提供了以下几个主要模块来支持这些应

LangChain构建 LLM 应用的工具

LangChain 是一个用于构建基于大型语言模型（LLM）的应用程序的库。它可以帮助开发者将 LL

corevidence™安全评估工具

corevidence™是一款以saas模式发布的安全工具,它提供了web应用程序评估,漏洞评估,VoIP安全评估,Web恶意代码监控,Web站点监控等服务。

StorScore存储设备评估工具

StorScore是一个用于测试存储设备的组件级评估工具。当运行默认设定的时候，它可以给出Windows应用开发者所希望的与实际相似的指标。示例代码：A Windows Perl interprete

trycmdCLI 测试用例工具

trycmd 是 Rust 编写的 CLI 测试用例工具，可用于枚举测试用例文件并运行它们以验证结果

trycmdCLI 测试用例工具

trycmd是Rust编写的CLI测试用例工具，可用于枚举测试用例文件并运行它们以验证结果。trycmd旨在简化运行大量端到端CLI测试用例的过程，灵感来自 trybuild。示例#[test]fnu

wavsepWeb应用程序扫描器评估工具

wavsep是一个包含漏洞的web应用程序，目的是帮助测试web应用漏洞扫描器的功能、质量和准确性。Wavsep收集了很多独特的包含漏洞的web页面，用于测试web应用程序扫描器的多种特特性。目前Wa

wavsepWeb应用程序扫描器评估工具

wavsep 是一个包含漏洞的web应用程序，目的是帮助测试web应用漏洞扫描器的功能、质量和准确性