VMware vSphere
三層式架構教育訓練
ESXi vCenter HA / vMotion Backup Troubleshooting

講師:陳奕臺 Bob Chen  |  VMware VCP-DCV  |  ISO 27001 Lead Auditor

三層式架構概覽 VMware 3-Tier Architecture

Compute、Network、Storage 三層協同運作,由 vCenter 統一管理

Management Layer
vCenter Server集中管理平台
vSphere ClientWeb UI / API
Compute Layer
ESXi Host 1CPU / RAM
ESXi Host 2CPU / RAM
ESXi Host 3CPU / RAM
Network Layer
vSwitch / DVS虛擬交換器
VLAN / VXLAN網路隔離
Storage Layer
DatastoreVMFS / NFS
SAN / NAS共享存儲
ESXi 簡介 What is ESXi?

VMware 的 Hypervisor,直接安裝於實體硬體,無需底層 OS

Type 1 Hypervisor

VM1    VM2    VM3Guest OS + Applications
VMkernel (ESXi)資源排程與隔離
Physical HardwareCPU / RAM / NIC / HDD

核心特性

  • Bare-metal 安裝:直接跑在硬體上,效能最佳
  • VMkernel:負責 VM 資源排程與硬體溝通
  • vSphere Client:Web UI 管理介面
  • ESXi Shell / SSH:進階指令管理
  • High Availability:搭配 vCenter 支援 HA

支援的 VM 格式

  • VMDK(VMware 虛擬磁碟)
  • OVF / OVA(跨平台部署格式)
  • ISO(安裝媒體掛載)
ESXi 安裝需求 Hardware Requirements

安裝前確認硬體規格,建議使用 VMware HCL 認證設備

項目最低需求建議規格說明
CPU2 Core × 64-bit2 Socket × 8C以上需支援 Intel VT-x 或 AMD-V 虛擬化技術
RAM8 GB64 GB 以上實際依 VM 數量與規格決定,建議保留 20% 給 ESXi
Boot Storage8 GB (USB/SD)SSD 32 GB 以上建議使用 M.2 SSD 提升穩定性,避免使用低速 USB
Datastore依需求SSD/SAN 共享存儲VM 磁碟存放位置,建議與 Boot Storage 分開
網路卡 NIC1 × 1GbE2 × 10GbE 以上建議最少 2 張 NIC 做 NIC Teaming 備援
ESXi 版本ESXi 7.0ESXi 8.0 U2選擇對應 vCenter 版本,維持 N-2 版本相容性

⚠ 注意事項

  • 安裝前至 VMware Compatibility Guide (HCL) 確認硬體相容性
  • BIOS 需開啟 Virtualization Technology (VT-x/AMD-V)Hyper-Threading
  • Secure Boot、TPM 設定依環境決定是否啟用
ESXi 資源分配 Resource Allocation

CPU、RAM、Network、Storage 四大資源的分配原則

CPU 分配

  • vCPU Overcommit:建議 1:4 以內(1 pCore → 4 vCPU)
  • CPU Reservation:關鍵 VM 可鎖定保留資源
  • CPU Limit:限制 VM 最大 CPU 用量
  • CPU Share:設定 VM 之間的競爭優先順序
  • NUMA Awareness:大型 VM 需注意 NUMA 邊界

RAM 分配

  • Memory Balloon:低壓時 VMware Tools 回收閒置記憶體
  • Memory Swap:緊急時使用 Swap(效能最差,應避免)
  • Transparent Page Sharing (TPS):相同 OS 頁面去重
  • Reservation:HA 或關鍵 VM 鎖定保留 RAM
  • 建議實體 RAM 使用率 < 75%

Network 分配

  • vSwitch:Standard (VSS) 或 Distributed (DVS)
  • Port Group:依業務劃分 VLAN
  • VMkernel Port:管理、vMotion、iSCSI、Fault Tolerance 各自獨立
  • NIC Teaming:Active/Active 或 Active/Standby 備援

Storage 分配

  • VMFS:Block Storage(FC/iSCSI SAN)
  • NFS:File Storage(NAS)
  • vSAN:超融合架構,ESXi 本機磁碟組成叢集存儲
  • Thin vs Thick:Thin Provision 節省空間但需監控 Over-commit
  • 生產環境建議使用共享存儲,支援 HA/vMotion
vCenter 安裝設定 vCenter Installation

建議使用 VCSA(vCenter Server Appliance)— Linux-based,維護簡單

項目VCSA(建議)Windows vCenter
作業系統Photon OS(內建)需自備 Windows Server
資源需求最低 2 vCPU / 12 GB RAM需額外 Windows License
資料庫內建 PostgreSQL需外掛 SQL Server
維護難度 內建更新機制 需維護 OS + DB
VMware 支援官方主推,長期支援新版本已停止

VCSA 安裝步驟

① 下載 ISO
② Stage 1部署 OVA
③ Stage 2SSO 設定
④ 加入 ESXi
⑤ 完成
vCenter 管理架構 vCenter Hierarchy & Features

以邏輯層級管理所有 ESXi 主機與虛擬機

管理層級架構

vCenter ServerSSO Domain 根節點
Datacenter邏輯資料中心
ClusterHA / DRS 叢集
ESXi Host 1
ESXi Host 2
VM
VM
VM

主要功能

功能說明
DRS自動負載均衡,依資源使用率遷移 VM
HAHost 故障時自動在其他 Host 重啟 VM
vMotionLive migration,不停機遷移 VM
Storage vMotion線上遷移 VM 磁碟至其他 Datastore
Distributed Switch跨 Host 的集中式虛擬交換器管理
Content Library集中管理 ISO、OVF Template
vSphere Tags資源分類與自動化原則套用
Role & PermissionRBAC 角色與權限管理
vSphere HA High Availability

ESXi Host 發生故障時,自動在叢集其他 Host 重啟 VM

HA 運作流程

Host 1運作中
Host 2運作中
Host 3❌ 故障
↓ HA 偵測故障(~30秒)
Host 1VM-A 重啟
Host 2VM-B 重啟
Host 3離線

HA 先決條件

  • 需建立 vSphere Cluster
  • 所有 Host 需使用共享存儲(SAN/NAS/vSAN)
  • 需有足夠的 Failover 預留容量
  • VMware Tools 需安裝於 VM

HA 設定重點

設定項目說明建議值
Host Monitoring偵測 Host 心跳啟用
Admission Control保留 Failover 容量1 Host 容量
VM Restart PriorityVM 重啟優先順序依業務等級設定
VM Monitoring偵測 Guest OS 心跳啟用
Heartbeat Datastore備援心跳偵測設定 2 個以上
Isolation ResponseHost 網路隔離時 VM 處置Power Off
vMotion Live VM Migration

不停機將 VM 從一台 ESXi Host 遷移至另一台

vMotion 遷移流程

Source Host
VM 記憶體狀態完整複製
↓ ① 預複製記憶體(Pre-copy)
傳輸差異頁面持續追蹤變更的記憶體頁面
↓ ② Stun(極短暫暫停 <1ms)
Destination Host
VM 在目標 Host 恢復執行
↓ ③ 來源 VM 清除
Migration 完成 ✓

vMotion 需求

條件說明
共享存儲VM 磁碟須在兩台 Host 皆可存取的 Datastore
VMkernel Port來源與目標 Host 各需一個 vMotion 專用 VMkernel
相容 CPUCPU 世代需相容(或啟用 EVC Mode)
網路連通VM 所用的 Port Group 在目標 Host 也需存在
vCenter需透過 vCenter 執行,Host 間需在同一 Cluster 或 Cross-vCenter

vMotion 應用場景

  • ESXi Host 維護前撤離所有 VM(Maintenance Mode)
  • DRS 自動負載均衡觸發
  • 排程遷移(省電、資源調配)
HA vs vMotion 比較 Comparison

兩種技術互補,共同保障服務可用性

項目vSphere HAvMotion
目的Host 故障自動復原不停機主動遷移
觸發方式自動(偵測故障後)手動或 DRS 自動
停機時間有停機(分鐘級重啟)零停機(毫秒級切換)
使用情境非預期故障(Hardware Failure)預期維護、負載均衡
共享存儲需求必須必須
vMotion 網路需求不需要需要(建議 10GbE)
CPU 相容性不需要需要(或 EVC)
VM 資料遺失重啟前未寫入資料可能遺失無資料遺失

搭配使用建議

  • 啟用 HA 作為底線保護,確保 Host 故障時 VM 自動重啟
  • 啟用 DRS + vMotion 做動態負載均衡,維護前先 vMotion 撤離 VM
  • 關鍵業務可搭配 Fault Tolerance (FT) 達到零停機零資料遺失(限制:最多 4 vCPU)
備份與備援機制 Backup & Recovery

多層次備份策略,確保資料可恢復性與業務連續性

Snapshot 快照

Base Disk (VMDK)原始磁碟狀態
↓ 建立 Snapshot
Delta Disk (-000001.vmdk)記錄快照後的所有變更
還原 → 回到 Base
刪除 → 合併 Delta

Snapshot 注意事項

  • Snapshot ≠ 備份,不可長期保留(>72hr 影響效能)
  • Delta Disk 持續成長,需監控 Datastore 空間
  • 建議於更新/測試前建立,完成後立即刪除

RPO / RTO 定義

RPO(Recovery Point Objective)

可接受的最大資料遺失時間
例:RPO = 1hr → 最多損失 1 小時資料

RTO(Recovery Time Objective)

可接受的最大恢復時間
例:RTO = 4hr → 4 小時內必須恢復服務

備份方案比較

方案類型RPORTO適用情境
VM Snapshot狀態保存即時分鐘級短期操作保護
Veeam BackupImage-based 備份分鐘~小時<15 分鐘企業完整備份首選
vSphere Replication非同步複製分鐘~1hr分鐘級DR 站台複製
Site Recovery ManagerDR 自動化分鐘級<1 分鐘大規模 DR 切換
Storage Snapshot儲存陣列快照即時秒級存儲層保護
備份架構設計 Backup Architecture

以 Veeam Backup & Replication 為例的常見企業架構

Production Site
ESXi Host 1VM-A, VM-B
ESXi Host 2VM-C, VM-D
vCenter管理

CBT
Backup Server
Veeam B&R排程 / Job 管理
Backup Repository備份存儲位置

Replication
DR Site
ESXi / vCenterDR 環境
Offsite Repo異地備份

CBT(Changed Block Tracking)說明

  • ESXi 內建機制,追蹤 VM 磁碟的變更區塊
  • 增量備份只傳輸「上次備份後有變更的區塊」,大幅減少備份視窗與網路流量
  • 若 CBT 異常(Snapshot 殘留、強制關機),需執行 CBT Reset
基礎點檢清單 Operational Checklist

定期執行點檢,確保環境穩定,降低故障風險

每日 Daily

  • 確認 vCenter 告警(Alarms)無紅色
  • 確認所有 ESXi Host 狀態為 Connected
  • 確認 VM 運行狀態,無意外關機
  • 確認備份 Job 執行結果(成功/失敗)
  • 檢查 Datastore 使用率 < 80%
  • 確認 HA / DRS 叢集狀態正常

每週 Weekly

  • 確認 ESXi Host CPU / RAM 平均使用率趨勢
  • 清理過期 Snapshot(>7天)
  • 確認 NIC Teaming 備援狀態
  • 確認 Storage Path 狀態(Active/Standby)
  • 確認 vCenter / ESXi 是否有可用更新
  • 確認 VMware Tools 版本狀態
  • 確認備份 Repository 空間充足

每月 Monthly

  • 執行備份還原測試(DR Drill)
  • 確認 SSL 憑證有效期限
  • 確認 vCenter DB 大小與效能
  • 審查 Role & Permission 設定
  • 確認 ESXi 系統日誌無異常
  • 確認 UPS / 電源備援狀態
  • 更新容量規劃報告
常見問題與障礙排除 Troubleshooting

常見故障現象、原因分析與對應處置

現象可能原因排除步驟嚴重度
ESXi Host 變成 Not Responding Management Network 中斷、主機當機 ① Ping 管理 IP → ② SSH 登入測試 → ③ 查 vmkernel log → ④ IPMI/iDRAC 確認主機狀態 Critical
VM 無法啟動 (Failed to power on) Datastore 空間不足、資源不足、Snapshot 損壞 ① 確認 Datastore 空間 → ② 確認 CPU/RAM 容量 → ③ 檢查 vmware.log → ④ 移除孤立 Snapshot High
vMotion 失敗 vMotion 網路不通、CPU 不相容、Snapshot 存在 ① 確認 vMotion VMkernel 連通 → ② 確認 EVC Mode → ③ 確認 VM 無 Snapshot → ④ 查 vCenter event log Medium
Datastore 空間爆滿 Snapshot 未清理、VM 磁碟成長、Log 累積 ① 確認並刪除過期 Snapshot → ② 確認 Thin Disk 實際佔用 → ③ 移動 VM 至其他 Datastore High
HA 未觸發 Failover Admission Control 容量不足、Datastore Heartbeat 異常 ① 確認 Admission Control 設定 → ② 確認 Heartbeat Datastore 連通 → ③ 確認 vCenter 可連線至所有 Host Critical
vCenter 無法登入 SSO 服務異常、憑證過期、資料庫服務停止 ① SSH 登入 VCSA → ② 執行 service-control --status --all → ③ 重啟 vmware-vpxd → ④ 確認憑證有效期 Critical

關鍵 Log 位置

  • ESXi vmkernel:/var/log/vmkernel.log(Host 核心訊息)
  • ESXi hostd:/var/log/hostd.log(Host Agent 訊息)
  • vCenter vpxd:/var/log/vmware/vpxd/vpxd.log(vCenter 核心)
  • VM 開機 log:[Datastore] VM名稱/vmware.log
Q & A
問題與討論

感謝各位的參與,歡迎提問

Bob Chen nelsonchen0824@gmail.com VMware VCP-DCV