<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
  <channel>
    <title>Batch Inference on 每日拍拍</title>
    <link>https://dailypypy.org/tags/batch-inference/</link>
    <description>Recent content in Batch Inference on 每日拍拍</description>
    <generator>Hugo -- gohugo.io</generator>
    <language>zh-tw</language>
    <copyright>© 2026 每日拍拍</copyright>
    <lastBuildDate>Wed, 10 Jun 2026 11:06:00 +0800</lastBuildDate><atom:link href="https://dailypypy.org/tags/batch-inference/index.xml" rel="self" type="application/rss+xml" />
    <follow_challenge>
      <feedId>155076163427069952</feedId>
      <userId>154825760438254592</userId>
    </follow_challenge>
    
    
    <item>
      <title>MLX-LM 批次推論實戰：Prompt Template、抽樣參數與本機評測流程</title>
      <link>https://dailypypy.org/learn/mlx-lm-batch-inference/</link>
      <pubDate>Wed, 10 Jun 2026 11:06:00 +0800</pubDate>
      
      <guid>https://dailypypy.org/learn/mlx-lm-batch-inference/</guid>
      <description>&lt;!---
1440x768
prompt: masterpiece, best quality, highres, clean anime illustration, japanese anime style, soft shading, flat color design, 1girl, black hair, green eyes, white off-shoulder shirt, black short skirt, from above, sitting on stool, hand on chin thinking, serious focused look, looking at viewer, pale coral background, subtle floating JSONL cards and sampling slider shapes without text, neat composition, detailed eyes, cute and smart vibe, minimal background, polished illustration, no text
negative prompt: worst quality, bad eye, bad hand, extra limbs, manga, multiple views, monochrome, text, signature
follow-up note: 這篇是 `mlx-lm-local-models` 的具體後續，焦點放在可重跑的批次資料集、prompt template、sampling grid、JSONL 輸出與本機評測，不重複前文的安裝、第一個 prompt、聊天 CLI 與串流輸出教學。
---&gt;

&lt;h2 class=&#34;relative group&#34;&gt;一. 前言：聊天很酷，批次推論才是真的工作流 
    &lt;div id=&#34;一-前言聊天很酷批次推論才是真的工作流&#34; class=&#34;anchor&#34;&gt;&lt;/div&gt;
    
    &lt;span
        class=&#34;absolute top-0 w-6 transition-opacity opacity-0 ltr:-left-6 rtl:-right-6 not-prose group-hover:opacity-100&#34;&gt;
        &lt;a class=&#34;group-hover:text-primary-300 dark:group-hover:text-neutral-700&#34;
            style=&#34;text-decoration-line: none !important;&#34; href=&#34;#%e4%b8%80-%e5%89%8d%e8%a8%80%e8%81%8a%e5%a4%a9%e5%be%88%e9%85%b7%e6%89%b9%e6%ac%a1%e6%8e%a8%e8%ab%96%e6%89%8d%e6%98%af%e7%9c%9f%e7%9a%84%e5%b7%a5%e4%bd%9c%e6%b5%81&#34; aria-label=&#34;定位點&#34;&gt;#&lt;/a&gt;
    &lt;/span&gt;        
    
&lt;/h2&gt;
&lt;p&gt;第一次把本地模型跑起來時，大家通常會先打開聊天介面。
這很合理，因為你想確認模型能不能回答問題、中文會不會怪、速度是不是能接受。
可是拍拍君要說一句有點掃興但很實用的話：真正讓本地 LLM 變成工具的，常常不是聊天，而是批次推論。
例如把 200 篇短筆記整理成標籤、幫一批 issue 產生摘要、比較不同 prompt template 的輸出穩定度，或對同一組測試問題跑 temperature 參數實驗。
聊天是即興對話；批次推論是可以版本控制、可以重跑、可以比較的實驗流程。
如果你還沒看過 MLX-LM 的基本用法，可以先看前一篇 &lt;a href=&#34;../mlx-lm-local-models/&#34;&gt;MLX-LM 實戰：在 Apple Silicon 上跑本地模型推論&lt;/a&gt;。
那篇處理的是「怎麼跑起來」。
今天這篇處理的是「跑起來之後，怎麼把它變成穩定的小型生產線」。
我們會做一個小但完整的批次 runner：&lt;/p&gt;</description>
      <media:content xmlns:media="http://search.yahoo.com/mrss/" url="https://dailypypy.org/learn/mlx-lm-batch-inference/featured.png" />
    </item>
    
  </channel>
</rss>
