ollama:极简本地化部署LLM

GonFreecss

共 1236字,需浏览 3分钟

 · 2024-04-11

    主要是更方便简捷的方式运行大模型,无需GPU资源。mac、linux和win的版本都有。我是基于win去玩,在官网下载exe安装包。安装好后,默认就给你启起来,command也很简约

683a163174f8dfaefe3af458052ecd2d.webp直接run的时候,如果没有本地模型,就去pull一个,比如pull一个llava

      
      ollama run llava

ddb9db22101059633a3735febdb4b2c6.webp可是没有界面,还是少点意思,不打紧,我们用open-webui。通过docker安装open-webui

      
      docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main

298d872829439c083d93278414e0c72d.webp起容器后,直接打开网址 http://localhost:3000/e93a8d4d5240ee6b920f2434f54b1bd8.webp默认下载的模型都是int4量化后的模型,比如qwen1.5-1.8B-int4才1G多,qwen1.5-7B-int4才4.2G,响应速度很快。

  • 支持任意对话节点切换模型:比如和1.8B聊着不爽了,就切换到7B去聊

  • 支持多模态对话,比如llava,就是没有gpu资源,推理相对慢点0598516aba3d1b6331f461457e0932f0.webp7cf7cbbcd3c0b5329be553d3299911cd.webp

  • 构建提示词模板,当然下面的提示有点粗糙 : )0dcc28086eac709a0c1f0b7ce647fbdc.webp构建好后,通过“/”符号来唤醒37698a49a701e01f37f8f112200cef46.webp唤醒后会直接把提示词模版插入文本框d08c8e0d8b0654d3ccfc4ba6c12a5433.webp再在模板相应位置插入关键信息进行生成57d88a97d2c37d1944282818f6c2c44d.webp

  • 基于文档问答:先是插入文档和文档解析,默认用文本分块大小是1500,分块之间的overlap是100字符06944a636db3850f3d0a57c58ab4a111.webp解析好的文档会显示出来3d8b8d62965e4bca03f6a9811d1c3dff.webp然后在对话框中通过符号‘#’来引用a31ee2f27bd65b4ccd54b18aff820614.webp为了测试他具不具备这个能力,用qwen-14b做了验证,下面是没有加载文档的回复7a0a5300a4a6b2c7561a5fc61f7e0c83.webp下面是加载了文档的回复2516f309a54d759429d51c39d6cbd998.webpc887432e325142582a4cafbb33a832fc.webp

  • 支持GGUF、PyTorch和Safetensors模型的导入:参考这里

  • 通过ngrok反向代理服务,实现内网穿透:在这里下载ngrok安装exe文件,然后再在官网上注册一下获得auth的token,启动的时候指定3000端口即可。

      
      ngrok http http://localhost:3000

b0949c6a1b96fd7f0ee999f7c0785354.webp然后复制 https://6123-223-73-66-233.ngrok-free.app 给小伙伴们体验吧d76048694f6ab4fac3a2ed4b1ca2720a.webp目前ollama也支持gemma和mistral。现在没有网络,没有gpu显卡,也能跑起llm推理生成,何乐而不为。


浏览 4
点赞
评论
收藏
分享

手机扫一扫分享

举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

举报