編輯點評:基于MNN LLM的,手機上就能跑的大模型應用。
MNN Chat手機大模型是一個使用手機跑本地大模型的軟件,簡單來說就是將AI部署在本地手機中,只要下載相應的大模型內容,然后導入,就可以在手機上使用各大廠商的大模型,包含deepseek R1滿血版,通義QWQ等,這是一款老牌AI推理引擎工具。
MNN Chat手機大模型怎么使用
1、在本站下載MNN Chat手機大模型;
2、進入軟件后,我們需要挑選我們想要部署的AI;
3、注意,這個本地部署至少要保留10GB以上的手機內存;
4、下載完成以后,就可以通過此軟件與AI進行對話與聊天了;
5、支持多個語言,無限制詞聊天,本地部署無需聯網即可使用。
詳細使用攻略可看文檔:https://mnn-docs.readthedocs.io/en/latest/transformers/llm.html
MNN Chat是什么軟件
MNN是一個輕量級的深度神經網絡引擎,支持深度學習的推理與訓練。適用于服務器/個人電腦/手機/嵌入式各類設備。目前,MNN已經在阿里巴巴的手機淘寶、手機天貓、優酷等30多個App中使用,覆蓋直播、短視頻、搜索推薦、商品圖像搜索、互動營銷、權益發放、安全風控等場景。
MNN-LLM是基于MNN引擎開發的大語言模型運行方案,解決大語言模型在本地設備的高效部署問題(手機/個人電腦/嵌入式設備)。支持常見的千問/百川/智譜/LLAMA等大語言模型。
軟件功能
主體功能(模型推理CPU+GPU)無任何依賴,代碼精簡,可以方便地部署到移動設備和各種嵌入式設備中。
iOS平臺:功能全開的MNN靜態庫 armv7+arm64大小12MB左右,鏈接生成可執行文件增加大小2M左右。可裁剪主體功能后靜態庫大小6.1M ,鏈接生成可執行文件增加大小 600 KB。
Android平臺:主體功能 armv7a - c++_shared 動態庫大小800KB左右。
支持采用 Mini 編輯選項進一步降低包大小,大約能在上述庫體積基礎上進一步降低 25% 左右。
支持模型FP16/Int8壓縮與量化,可減少模型50% - 75% 的體積
通用性
支持 Tensorflow、Caffe、ONNX、Torchscripts 等主流模型文件格式,支持CNN / RNN / GAN / Transformer 等主流網絡結構。
支持多輸入多輸出,支持任意維度的輸入輸出,支持動態輸入(輸入大小可變),支持帶控制流的模型
算子豐富,支持 178 個Tensorflow Op、52個 Caffe Op、163個 Torchscipts Op、158 個 ONNX Op(ONNX 基本完整支持)
支持 服務器 / 個人電腦 / 手機 及具有POSIX接口的嵌入式設備,支持使用設備的 CPU / GPU 計算,支持部分設備的 NPU 計算(IOS 11 + CoreML / Huawei + HIAI / Android + NNAPI)
支持 Windows / iOS 8.0+ / Android 4.3+ / Linux 及具有POSIX接口的操作系統
軟件亮點
對iOS / Android / PC / Server 的CPU架構進行了適配,編寫SIMD代碼或手寫匯編以實現核心運算,充分發揮 CPU的算力,單線程下運行常見CV模型接近設備算力峰值
支持基于 Metal / OpenCL / Vulkan 使用移動端設備上的GPU進行推理
支持基于 CUDA 使用 PC / Server 上的 NVIDIA GPU 實現更快速的推理
廣泛運用了 Winograd 卷積算法提升卷積性能,首次在業界工程實踐中實現轉置卷積的Winograd算法優化與矩陣乘的Strassen算法優化,并取得加速效果
支持低精度計算( int8 / fp16 / bf16)以提升推理性能。并對 ARMv8.2 和 AVX512架構的相關指令進行了適配,這兩種架構下有更好的加速效果
支持使用 MNN 的算子進行常用的數值計算,覆蓋 numpy 常用功能
提供 MNN CV 模塊,支持圖像仿射變換與歸一化等 MNN_CV 庫,支持常用的圖像處理(armv7a 架構下小于 100 k )
支持各平臺下的模型訓練,尤其是移動端上的模型訓練
支持 python 調用
更新日志
0.3.0
LLM 相關更新
App 發布
Android
新增Android的大模型應用(LLM / Diffusion),詳見 apps/Android/MnnLlmChat/README.md
iOS
新增 iOS 的大模型應用,詳見 apps/iOS/MNNLLMChat/README.md
新特性
模型支持
支持 Qwen2-VL / Qwen2-Audio / Qwen2.5-VL 等多模態大模型的導出和運行。
支持 DeepSeek-R1-1.5B-Qwen 和 DeepSeek-R1-7B-Qwen
LLM 單步執行支持
新增了對 LLM 單步執行的支持,便于調試和優化模型推理過程。
LLM 擴展采樣算法支持
擴展了采樣算法的支持,提升了模型推理的靈活性和多樣性。
LLM 導出模型時支持輸出歷史 Token 的概率值
在導出 LLM 模型時,新增了輸出歷史 Token 概率值的功能,便于后續分析和優化。
LLM-CPU 支持 mmap 文件緩存
新增了對 mmap 文件緩存的支持,使二次加載模型時避免內存重排,提升了加載效率。
性能優化
CPU 多線程性能進一步提升
對 LLM 多線程性能進行了優化,進一步提升了整體推理速度。
CPU prefill 性能優化
優化了 CPU 上 prefill 性能,使 1024 token 輸入和 512 token 輸入的 prefill 性能持平。
GPU 優化 OpenCL AutoTuning 耗時
優化了 OpenCL AutoTuning 的耗時,避免了首次推理耗時過長的問題。
GPU 優化:Metal / OpenCL 支持 fp16 的 scale/bias,支持對稱量化優化
Metal / OpenCL 后端支持 fp16 的 scale/bias 和對稱量化優化的支持,提升了推理效率。
LLM 加速:Metal / OpenCL 后端支持 scale/bias 使用 fp16
Metal / OpenCL 支持 scale/bias 使用 fp16(設置 precision = low 時啟用),進一步優化了 GPU 推理性能。
熱門評論
最新評論