第 20 章 AI 推理与服务

20.1 推理运行时与 FFI
20.2 分词与张量
20.3 服务、批处理与流式

训练属于 Python 与 CUDA，可推理与服务这一层，Go 反而站住了脚。模型一旦定型，剩下的就是一个系统问题：把权重装进内存，把请求高效地喂给设备，把生成的 token 稳定地吐回客户端。本章先看本地推理运行时如何经由 cgo 接入，张量的内存所有权怎样在 Go 与 llama.cpp、ONNX Runtime 这类原生库之间划清；再看分词这件看似琐碎却处处是坑的事，BPE 如何把字节切成 token，为什么第 5 章关于字符串与字节的那套机制在这里至关重要；最后落到服务本身，批处理如何摊薄设备成本，流式输出与背压如何依赖通道与 context。 Ollama 这样用 Go 写就的推理服务，会作为贯穿全章的实证。