如何评估大语言模型是否可信?这里总结了七大维度
水木人工智能学堂
共 5306字,需浏览 11分钟
· 2023-10-09
本文提出 7 个主要关键维度来全面评估 LLM 可信度。
-
a.生成正确、真实且一致的输出,并具有适当的不确定性。
-
a.避免产生不安全和非法的输出,并避免泄露私人信息。
-
a.避免偏见并确保不同人群上性能差异不大。
-
a.禁止恶意攻击者滥用。
-
a.向用户解释输出并正确推理的能力。
-
a.反映普遍共享的人类价值观。
-
a.对抗性攻击和分布变化的抗性。
-
可靠性:语言模型幻觉 -
安全性与社会规范:安全相关话题(例如暴力、歧视、仇恨言论等) -
公平性:(性别) 刻板印象 -
可靠性:校准失误 -
抵制滥用:宣传和网络攻击的滥用 -
抵制滥用:泄露版权 -
可解释性:因果推理 -
稳健性:对拼写错误攻击的稳健性
......
评论
RedPajama大语言模型
RedPajama项目旨在创建一套领先的全开源大语言模型。目前,该项目已完成了第一步,成功复制了LLaMA训练数据集超过1.2万亿个数据token。该项目由Together、Ontocord.ai、E
RedPajama大语言模型
0
OPT-175B大语言模型
OPT-175B是Meta开源的大语言模型,拥有超过1750亿个参数——和GPT-3相当。相比GPT-3,OPT-175B的优势在于它完全免费。Meta还公布了代码库、开发过程日志、数据、研究论文和其
OPT-175B大语言模型
0
LLaMA大语言模型
LLaMA语言模型全称为"LargeLanguageModelMetaAI",是Meta的全新大型语言模型(LLM),这是一个模型系列,根据参数规模进行了划分(分为70亿、130亿、330亿和650亿
LLaMA大语言模型
0