运维笔记

01 k8sgpt：用 AI 自动诊断 Kubernetes 集群问题 k8sgpt 是一个开源的 K8s 智能诊断工具，能自动分析集群问题并给出修复建议。本文介绍安装配置、与本地 LLM 集成，以及在生产环境的最佳实践。 2025年4月1日 →
02 云原生供应链安全：SBOM、SLSA 与 Sigstore 实战软件供应链攻击已成为头号安全威胁。本文介绍如何在 CI/CD 流水线中集成 SBOM 生成、SLSA 合规、Cosign 镜像签名，构建可信的软件交付链。 2025年3月28日 →
03 LLMOps 实践：生产环境大模型服务的全生命周期管理随着 LLM 应用从 PoC 走向生产，如何稳定运行 AI 服务成为新挑战。本文介绍 LLMOps 核心实践，包括可观测性、Prompt 版本管理、成本控制和安全护栏。 2025年3月25日 →
04 Kubernetes 1.33 新特性解析：原地扩缩容、Gateway API GA 与安全增强 Kubernetes 1.33 带来多项重磅 GA 特性，包括 In-place Pod Resize、Gateway API 正式稳定、User Namespace 增强。本文逐一解析对生产运维的影响。 2025年3月22日 →
05 DeepSeek R1 与 Qwen3：开源大模型重塑 AI 格局 2025 年开源大模型迎来爆发，DeepSeek R1 和 Qwen3 以极低成本对标顶级闭源模型。本文分析技术突破、运维工程师如何选型，以及私有化部署的实践建议。 2025年3月20日 →
06 Cilium + Hubble 替换 Istio：服务网格的 eBPF 革命 Istio 的复杂性和性能开销让很多团队望而却步。基于 eBPF 的 Cilium Service Mesh 提供了更轻量的替代方案。本文对比两者差异，并给出从 Istio 迁移到 Cilium 的实战指南。 2025年3月18日 →
07 eBPF 与 Cilium 实战：告别 iptables，拥抱云原生网络 eBPF 是 2025 年云原生最具影响力的底层技术。本文介绍 eBPF 原理、Cilium 部署实战，以及如何用 Hubble 实现 L7 级别的网络可观测性。 2025年3月18日 →
08 DeepSeek/Qwen 在 Kubernetes 上的生产级部署指南如何在 Kubernetes 集群上稳定运行 DeepSeek R1 或 Qwen3 大模型？本文覆盖 GPU 资源调度、vLLM 推理引擎、自动扩缩容、监控告警的完整生产方案。 2025年3月15日 →
09 MCP 协议详解：给 AI Agent 装上标准接口 Model Context Protocol（MCP）是 Anthropic 推出的 AI 工具集成标准，本文深入解析其架构原理，并实战构建一个能操作 Kubernetes 集群的 MCP Server。 2025年3月15日 →
10 RAG 系统构建实践：给大模型接入私有知识库从零构建 RAG（检索增强生成）系统，将内部文档、Runbook、Wiki 接入大模型，实现智能知识问答。 2025年3月12日 →
11 Kubernetes 存储管理：PV、PVC 与 StorageClass 实战深入理解 K8s 存储体系，掌握 PersistentVolume、PVC 动态供给、StorageClass 配置及常见存储方案选型。 2025年3月8日 →
12 Shell 脚本自动化运维：从入门到实用掌握运维常用 Shell 脚本技巧，包括日志分析、批量操作、定时任务、告警脚本等实用场景。 2025年3月5日 →
13 Kubernetes HPA 与 VPA：自动扩缩容实战深入讲解 K8s 水平扩缩容（HPA）和垂直扩缩容（VPA）的配置与调优，实现应用资源的自动化管理。 2025年3月1日 →
14 AI 辅助运维：用 LLM 自动化故障诊断工作流探索如何将大语言模型集成到运维工作流中，实现告警自动分析、根因推断、修复建议生成，提升 MTTR。 2025年2月22日 →
15 CI/CD 流水线设计：GitLab CI 最佳实践从零设计一套生产级 GitLab CI/CD 流水线，涵盖代码检查、测试、构建、部署全流程，以及缓存优化和安全扫描。 2025年2月15日 →
16 Kubernetes 网络策略：NetworkPolicy 实战指南深入理解 K8s NetworkPolicy，通过实际案例掌握微服务间网络隔离、零信任网络的配置方法。 2025年2月8日 →
17 大模型私有化部署实践：Ollama + Open WebUI 完整指南在本地或私有服务器上部署开源大模型，实现数据不出内网的 AI 能力，涵盖 Ollama 部署、模型管理和 WebUI 配置。 2025年2月1日 →
18 Prometheus + Grafana 监控体系从零搭建手把手搭建基于 Prometheus 和 Grafana 的完整监控告警体系，覆盖指标采集、存储、可视化和告警配置。 2025年1月20日 →
19 Kubernetes 故障排查手册：Pod 异常状态全解析系统梳理 K8s 中 Pod 各种异常状态的原因与解决方法，包括 CrashLoopBackOff、OOMKilled、Pending 等。 2025年1月15日 →
20 Linux 系统性能排查：从 CPU 到磁盘的完整方法论系统性介绍 Linux 性能问题排查的思路与工具，涵盖 CPU、内存、磁盘 I/O、网络四个维度。 2025年1月10日 →