运维笔记
首页 文章 关于

所有文章

共 20 篇
  • 01 k8sgpt:用 AI 自动诊断 Kubernetes 集群问题 k8sgpt 是一个开源的 K8s 智能诊断工具,能自动分析集群问题并给出修复建议。本文介绍安装配置、与本地 LLM 集成,以及在生产环境的最佳实践。 2025年4月1日 →
  • 02 云原生供应链安全:SBOM、SLSA 与 Sigstore 实战 软件供应链攻击已成为头号安全威胁。本文介绍如何在 CI/CD 流水线中集成 SBOM 生成、SLSA 合规、Cosign 镜像签名,构建可信的软件交付链。 2025年3月28日 →
  • 03 LLMOps 实践:生产环境大模型服务的全生命周期管理 随着 LLM 应用从 PoC 走向生产,如何稳定运行 AI 服务成为新挑战。本文介绍 LLMOps 核心实践,包括可观测性、Prompt 版本管理、成本控制和安全护栏。 2025年3月25日 →
  • 04 Kubernetes 1.33 新特性解析:原地扩缩容、Gateway API GA 与安全增强 Kubernetes 1.33 带来多项重磅 GA 特性,包括 In-place Pod Resize、Gateway API 正式稳定、User Namespace 增强。本文逐一解析对生产运维的影响。 2025年3月22日 →
  • 05 DeepSeek R1 与 Qwen3:开源大模型重塑 AI 格局 2025 年开源大模型迎来爆发,DeepSeek R1 和 Qwen3 以极低成本对标顶级闭源模型。本文分析技术突破、运维工程师如何选型,以及私有化部署的实践建议。 2025年3月20日 →
  • 06 Cilium + Hubble 替换 Istio:服务网格的 eBPF 革命 Istio 的复杂性和性能开销让很多团队望而却步。基于 eBPF 的 Cilium Service Mesh 提供了更轻量的替代方案。本文对比两者差异,并给出从 Istio 迁移到 Cilium 的实战指南。 2025年3月18日 →
  • 07 eBPF 与 Cilium 实战:告别 iptables,拥抱云原生网络 eBPF 是 2025 年云原生最具影响力的底层技术。本文介绍 eBPF 原理、Cilium 部署实战,以及如何用 Hubble 实现 L7 级别的网络可观测性。 2025年3月18日 →
  • 08 DeepSeek/Qwen 在 Kubernetes 上的生产级部署指南 如何在 Kubernetes 集群上稳定运行 DeepSeek R1 或 Qwen3 大模型?本文覆盖 GPU 资源调度、vLLM 推理引擎、自动扩缩容、监控告警的完整生产方案。 2025年3月15日 →
  • 09 MCP 协议详解:给 AI Agent 装上标准接口 Model Context Protocol(MCP)是 Anthropic 推出的 AI 工具集成标准,本文深入解析其架构原理,并实战构建一个能操作 Kubernetes 集群的 MCP Server。 2025年3月15日 →
  • 10 RAG 系统构建实践:给大模型接入私有知识库 从零构建 RAG(检索增强生成)系统,将内部文档、Runbook、Wiki 接入大模型,实现智能知识问答。 2025年3月12日 →
  • 11 Kubernetes 存储管理:PV、PVC 与 StorageClass 实战 深入理解 K8s 存储体系,掌握 PersistentVolume、PVC 动态供给、StorageClass 配置及常见存储方案选型。 2025年3月8日 →
  • 12 Shell 脚本自动化运维:从入门到实用 掌握运维常用 Shell 脚本技巧,包括日志分析、批量操作、定时任务、告警脚本等实用场景。 2025年3月5日 →
  • 13 Kubernetes HPA 与 VPA:自动扩缩容实战 深入讲解 K8s 水平扩缩容(HPA)和垂直扩缩容(VPA)的配置与调优,实现应用资源的自动化管理。 2025年3月1日 →
  • 14 AI 辅助运维:用 LLM 自动化故障诊断工作流 探索如何将大语言模型集成到运维工作流中,实现告警自动分析、根因推断、修复建议生成,提升 MTTR。 2025年2月22日 →
  • 15 CI/CD 流水线设计:GitLab CI 最佳实践 从零设计一套生产级 GitLab CI/CD 流水线,涵盖代码检查、测试、构建、部署全流程,以及缓存优化和安全扫描。 2025年2月15日 →
  • 16 Kubernetes 网络策略:NetworkPolicy 实战指南 深入理解 K8s NetworkPolicy,通过实际案例掌握微服务间网络隔离、零信任网络的配置方法。 2025年2月8日 →
  • 17 大模型私有化部署实践:Ollama + Open WebUI 完整指南 在本地或私有服务器上部署开源大模型,实现数据不出内网的 AI 能力,涵盖 Ollama 部署、模型管理和 WebUI 配置。 2025年2月1日 →
  • 18 Prometheus + Grafana 监控体系从零搭建 手把手搭建基于 Prometheus 和 Grafana 的完整监控告警体系,覆盖指标采集、存储、可视化和告警配置。 2025年1月20日 →
  • 19 Kubernetes 故障排查手册:Pod 异常状态全解析 系统梳理 K8s 中 Pod 各种异常状态的原因与解决方法,包括 CrashLoopBackOff、OOMKilled、Pending 等。 2025年1月15日 →
  • 20 Linux 系统性能排查:从 CPU 到磁盘的完整方法论 系统性介绍 Linux 性能问题排查的思路与工具,涵盖 CPU、内存、磁盘 I/O、网络四个维度。 2025年1月10日 →
运维笔记 © 2026 保留所有权利