MLX-LM 批次推論實戰：Prompt Template、抽樣參數與本機評測流程

Wed, 10 Jun 2026 11:06:00 +0800

一. 前言：聊天很酷，批次推論才是真的工作流
#

第一次把本地模型跑起來時，大家通常會先打開聊天介面。這很合理，因為你想確認模型能不能回答問題、中文會不會怪、速度是不是能接受。可是拍拍君要說一句有點掃興但很實用的話：真正讓本地 LLM 變成工具的，常常不是聊天，而是批次推論。例如把 200 篇短筆記整理成標籤、幫一批 issue 產生摘要、比較不同 prompt template 的輸出穩定度，或對同一組測試問題跑 temperature 參數實驗。聊天是即興對話；批次推論是可以版本控制、可以重跑、可以比較的實驗流程。如果你還沒看過 MLX-LM 的基本用法，可以先看前一篇 MLX-LM 實戰：在 Apple Silicon 上跑本地模型推論。那篇處理的是「怎麼跑起來」。今天這篇處理的是「跑起來之後，怎麼把它變成穩定的小型生產線」。我們會做一個小但完整的批次 runner：

Batch Inference on 每日拍拍

MLX-LM 批次推論實戰：Prompt Template、抽樣參數與本機評測流程

一. 前言：聊天很酷，批次推論才是真的工作流 #

一. 前言：聊天很酷，批次推論才是真的工作流
#