Is the Sun bigger than the Earth?研究大语言模型(LLMs)对真实世界中物体大小的理解能力
共 941字,需浏览 2分钟
·
2023-10-31 15:52
#POSQA物体大小问答数据集
一个名为POSQA的物体大小问答数据集。用于研究大语言模型(LLMs)对真实世界中物体大小的理解能力。研究发现,尽管LLMs在一定程度上能够利用上下文信息提高性能,但它们仍然无法达到人类对真实世界物体大小的理解水平。此外,研究还发现,LLMs对问题格式的敏感性仍然存在挑战。
原文精华:
“实验表明,LLMs仍然无法稳定地理解物体的大小。其表现与人类理解相比存在明显差距。”“LLMs倾向于利用给定上下文中的信息,而不是依靠其内部权重。” “研究结果表明,为原始问题提供额外信息可以提高LLMs的性能,并增强其对真实世界的理解。然而,LLMs想要达到人类对真实世界的理解水平仍然存在难度,同时,LLMs对问题格式的理解存在挑战。”
以下是POSQA数据集中的一些示例问题和答案:
示例问题1:Question: Is the Sun bigger than the Earth? Answer: Yes 示例问题2:Question: Is an atom smaller than a planet? Answer: Yes 示例问题3:Question: Which one is smaller between an elephant and a mouse? Answer: Mouse 示例问题4:Question: Is a mountain bigger than a hill? Answer: Yes 示例问题5:Question: Which one is smaller between a car and a bus? Answer: Car
https://arxiv.org/pdf/2310.13394.pdf
# 我们可以使用续写的提示技巧,来让LLM回答这些问题:(如图所示