第 20 章 AI 推理与服务
训练属于 Python 与 CUDA,可推理与服务这一层,Go 反而站住了脚。 模型一旦定型,剩下的就是一个系统问题:把权重装进内存,把请求高效地喂给设备, 把生成的 token 稳定地吐回客户端。本章先看本地推理运行时如何经由 cgo 接入, 张量的内存所有权怎样在 Go 与 llama.cpp、ONNX Runtime 这类原生库之间划清; 再看分词这件看似琐碎却处处是坑的事,BPE 如何把字节切成 token, 为什么第 5 章关于字符串与字节的那套机制在这里至关重要; 最后落到服务本身,批处理如何摊薄设备成本,流式输出与背压如何依赖通道与 context。 Ollama 这样用 Go 写就的推理服务,会作为贯穿全章的实证。