10倍提效，每天100篇，如何使用AI提取arXiv论文知识？-技术圈

arXiv

arXiv是国际上最有影响力的论文预发平台，在arXiv发表论文，已经成为科研圈的“潜规则”。arXiv创建于1991年，论文主要是理工科论文，包括数学、物理、计算机、统计、金融等领域。

目前收录论文数量已达200万篇。研究人员每个月会向arXiv提交约8000篇论文，平均每天提交250余篇。

arXiv每天更新量级已经不是普通人可以追更的体量了。

提到大量的信息，肯定有读者会想到用LLM来处理论文。

假设每天我们需要处理100篇英文论文，那需要消耗多少Token呢？需要消耗5百万Token，费用大约在1.25 ~ 600美元（不同模型价格不一样）。

计算逻辑：

假设一篇文档大概需要消耗4000Token（约等于3k单词），LLM每一轮输出消耗400 Token（输出约300字），那么10轮交互下来最少需要消耗5W Token。（每次交互都会把上下文输入LLM）。20篇需要消耗100W Token，如果是每天100篇，需要消耗500w Token。

不同模型的定价：

gpt-3.5-turbo-instruct

每百万Token 输入价1.5美元、输出价2美元。

gpt-4-32k

每百万Token 输入价60美元、输出价120美元。

claude opus

每百万Token 输入15美元、输出75美元

claude Haiku

每百万Token 输入0.25美元、输出1.25美元

100篇论文需要消耗1.25 ~ 600美元。

有没有更为经济（省钱）的方式？

使用本地的LLM，进行批量化处理，可以节省Token开支。

MixCopilot 提供了本地化解决方案，下载lm studio和通义千问-7B（Qwen-7B）模型，启动本地LLM服务，在MixCopilot接入后使用。

参考教程：

如何在个人电脑上使用千问大模型[教程]

如何使用谷歌的gemma新模型？

论文解读

使用MixCopilot最新功能，配置Arxiv论文、一键启动、使用本地LLM加工处理。

处理效率：128篇16分钟完成。

论文的知识加工

除了使用本地LLM来加工处理论文，还可以把pdf论文转为html。

为什么要转为html？

由于arXiv上的论文都是pdf格式，对视障人士的阅读产生不便。在去年12月，arXiv开始提供HTML格式的论文版本，HTML 格式的论文可以通过屏幕阅读器和其他技术更轻松、更准确地阅读，这可以帮助有阅读障碍（包括失明、视力低下等）的研究人员。

arXiv上的html服务 ar5iv.org

blog.arxiv.org/2023/12/21/accessibility-update-arxiv-now-offers-papers-in-html-format

有了html版本，我们就可以轻松地使用LLM来进行信息处理。

把论文的url在MixCopilot打开，右键调用chatbot，支持2种格式，pdf和html 。

（ html有个好处就是可以直接拷贝图片）

‍加工论文，转为markdown格式，生产内容，编辑后导出为pdf。

‍

论文的可信度

由于arXiv平台并没有纠正科学性错误的义务。这意味着，我们在阅读arXiv论文时，需要有足够的甄别能力，对一些存在明显科学性错误的论文应该能够鉴别。

我们可以从哪些方面得到论文的可信度？

作者、著名期刊收录、搜索引擎

‍

在知识库，可以点击作者直接调用搜索引擎，方便甄别信息。

通过chatbot总结搜索引擎的结果。我们还可以把这个prompt，制作成一个角色。

通过编辑器制作角色-搜索引擎助手，完成信息汇总，保留索引的角色设定，直接在chatbot种通过角色即可一键调用。

最佳实践

作为研究人员，你可以使用此方法制作技术趋势报告。

如果你是知识博主，你可以提供更为系统的论文解读给你的读者们。

如果你正在学习，你可以通过MixCopilot的帮助，高效率地完成最新论文的追踪和阅读。

入群交流