如何评估大语言模型是否可信?这里总结了七大维度
本文提出 7 个主要关键维度来全面评估 LLM 可信度。
-
a.生成正确、真实且一致的输出,并具有适当的不确定性。
-
a.避免产生不安全和非法的输出,并避免泄露私人信息。
-
a.避免偏见并确保不同人群上性能差异不大。
-
a.禁止恶意攻击者滥用。
-
a.向用户解释输出并正确推理的能力。
-
a.反映普遍共享的人类价值观。
-
a.对抗性攻击和分布变化的抗性。
-
可靠性:语言模型幻觉 -
安全性与社会规范:安全相关话题(例如暴力、歧视、仇恨言论等) -
公平性:(性别) 刻板印象 -
可靠性:校准失误 -
抵制滥用:宣传和网络攻击的滥用 -
抵制滥用:泄露版权 -
可解释性:因果推理 -
稳健性:对拼写错误攻击的稳健性
......
评论