第二步,模型下載和轉換

在部署模型之前,我們首先需要將原始的PyTorch模型轉換為OpenVINOTM的IR靜態(tài)圖格式,并對其進行壓縮,以實現(xiàn)更輕量化的部署和最佳的性能表現(xiàn)。通過Optimum提供的命令行工具optimum-cli,我們可以一鍵完成模型的格式轉換和權重量化任務。

1745983264850.jpg

optimum-cli使用方法可以參考:

https://docs.openvino.ai/2024/learn-openvino/llm_inference_guide/genai-model-preparation.html

此外我們建議使用以下參數對運行在NPU上的模型進行量化,以達到性能和精度的平衡。

1745983311958.jpg

第三步,模型部署

OpenVINOTM目前提供兩種針對大語言模型的部署方案,如果您習慣于Transformers庫的接口來部署模型,并想體驗相對更豐富的功能,推薦使用基于Python接口的Optimum-intel工具來進行任務搭建。如果您想嘗試更極致的性能或是輕量化的部署方式,GenAI API則是不二的選擇,它同時支持Python和C++兩種編程語言,安裝容量不到200MB。

· Optimum-intel部署示例

9a8fdf0e9c39b11d386573af6859e78a.png

· GenAI API部署示例

1745984056116.jpg

這里可以修改device name的方式將模型輕松部署到NPU上。

1745984119078.jpg

· 此外Ollama package on Modelscope(https://www.modelscope.cn/models/Intel/ollama/summary) is ready to download now

1. 性能數據通過在 SKU1平臺上使用OpenVINO 框架 2025.1.0 版本進行測試。計算任務由集成顯卡(iGPU)完成。這些測試評估了在 INT4混合精度設置下 ,處理1K input 時的內存占用、首個token延遲和平均吞吐量。每次測試在預熱階段后執(zhí)行 3 次,選取中間值作為報告數據。(Sku1: Brand: Intel, OEM: n/a, Model: CSRD(Reference Design), CPU: Core Ultra 9-285H, Memory: 64GB LPDDR5-8400MHz, Storage: 1TB, OS: Windows 11, OS Version: 24H2 (26100.3775), Graphics: Intel Arc 140T GPU, Graphics Driver Version: 32.0.101.6737, Resolution: 2880 x 1800 200% DPI, NPU Driver Version: 32.0.100.3967, PC BIOS: -, Screen Size: 15″, Power Plan: Balanced, Power Mode (Win 11 Feature): Best Performance, Power App Setting (OEM’s Power App): -, VBS: OFF, Defender: Running, Long Duration Package Power Limit (W): 65, Short Duration Power Limit (W): 70, Key Software Version: Openvino 2025.2.0-dev20250427, Openvino-genai 2025.2.0.0-dev20250427, Openvino-tokenizers 2025.2.0.0-dev20250427, Transformers 4.49.0)

2. 性能數據通過在SKU2平臺上使用OpenVINO框架2025.1.0版本進行測試,計算任務由集成顯卡(iGPU)或神經處理單元(NPU)完成。測試評估了INT4混合精度、INT8通道權重精度及FP16精度設置下,處理1K input 時的內存占用、首個 token 延遲和平均吞吐量。每次測試在預熱階段后執(zhí)行 3 次,選取中間值作為報告數據。(Sku2: Brand: Intel, OEM: Lenovo, Model: Yoga Air 15s ILL9, CPU: Core Ultra 7-258V, Memory: 32GB LPDDR5-8533MHz, Storage: WD PC SN740 1TB, OS: Windows 11, OS Version: 24H2 (26100.3624), Graphics: Intel Arc 140V GPU, Graphics Driver Version: 32.0.101.6737, Resolution: 2880 x 1800 200% DPI, NPU Driver Version: 32.0.100.3967, PC BIOS: NYCN66WW, Screen Size: 15″, Power Plan: Balanced, Power Mode (Win 11 Feature): Best Performance, Power App Setting (OEM’s Power App): Extreme Performance, VBS: OFF, Defender: Running, Long Duration Package Power Limit (W): 30, Short Duration Power Limit (W): 37, Key Software Version: Openvino 2025.2.0-dev20250427, Openvino-genai 2025.2.0.0-dev20250427, Openvino-tokenizers 2025.2.0.0-dev20250427, Transformers 4.49.0)

3. 性能數據通過在 SKU3 上使用 OpenVINO 框架 2025.1.0 版本進行測試,計算任務在獨立顯卡上完成。測試評估了在 INT4混合精度、INT8量化和 FP16 精度設置下,處理1K input時的內存占用、首個token延遲和平均吞吐量。每次測試在預熱階段后執(zhí)行三次,選取中間值作為報告數據。(Sku3: Brand: Intel, Model: Desktop, CPU: Core i7-14700K, Memory: 32GB DDR5-5600MHz, Storage: SAMSUNG 980 PRO 1TB, OS: Windows 11, OS Version: 24H2 (26100.3775), Graphics: Intel Arc B580 GPU(vRAM=12GB), Graphics Driver Version: 32.0.101.6737, Resolution: 2560 x 1440, NPU Driver Version: n/a, PC BIOS: 2801, VBS: OFF, Defender: Running, Long Duration Package Power Limit (W): -, Short Duration Power Limit (W): -, Key Software Version: Openvino 2025.2.0-dev20250427, Openvino-genai 2025.2.0.0-dev20250427, Openvino-tokenizers 2025.2.0.0-dev20250427, Transformers 4.49.0)

4. 性能因使用情況、配置和其他因素而異。 欲了解更多信息,請訪問intel.com/performanceindex?;趯Φ诙⑻貭朅I增強SDV SoC GPU+NPU與MBL i7-13800HAQ CPU+GPU(關閉睿頻)的內部預測,AI性能最高可提升十倍。

分享到

songjy

相關推薦