痛點與隱性成本
多機編排可橫向擴展,但節奏不一會變成排錯工時。
- 冷啟動毛刺:首次解析 skills 慢,SLA 長尾。
- 版本漂移:手動更新致 schema 不一致,
doctor似隨機失敗。 - 探針過窄:僅看行程存活時,LB 仍可能打到 skills 未就緒節點。
決策矩陣:預熱策略與健康探針粒度
維運簡單與上線穩定之間取捨;細節見負載與故障轉移。
| 策略 | 適用 | 取捨 |
|---|---|---|
| 不預熱、僅重試 | 低流量內網 | 實作快;首包延遲由重試吸收 |
| 啟動後預熱腳本 | 正式多節點 | 啟動略慢;首任務失敗率大降 |
| 分散探針 | 除錯期 | 訊號細;LB 規則易漏組合 |
| 合併健康探針 | 對外/共享池 | gateway+skills+依賴單條判斷;LB 最簡 |
落地步驟(全網格同一 playbook)
可引用門檻(便於寫進 runbook)
下列數字可當團隊共識,減少口頭約定造成的誤會。
- 探針逾時:約冷啟動 p95 的 1.2~1.5 倍,起點常取 15~45 秒。
- 滾動:批次 25%/50%/100%,每批合併探針全綠再擴。
- 重試:初始間隔 2~5 秒、倍率 2、上限 2~5 分鐘,並設最大次數。
FAQ:openclaw doctor 常見項
Q:gateway 連線失敗?openclaw gateway status 查埠與 TLS;核對模板閘道主機名與角色綁定。
Q:skills 找不到?
依鎖檔重裝、清快取;拉倉憑證唯讀最小權;比對已解析版本檔。
Q:合併探針間歇紅燈?
冷啟動未完或外向限流;延長窗口、預熱後再掛流量,並查重試與探針並發。