講師:陳奕臺 Bob Chen | VMware VCP-DCV | ISO 27001 Lead Auditor
Compute、Network、Storage 三層協同運作,由 vCenter 統一管理
VMware 的 Hypervisor,直接安裝於實體硬體,無需底層 OS
安裝前確認硬體規格,建議使用 VMware HCL 認證設備
| 項目 | 最低需求 | 建議規格 | 說明 |
|---|---|---|---|
| CPU | 2 Core × 64-bit | 2 Socket × 8C以上 | 需支援 Intel VT-x 或 AMD-V 虛擬化技術 |
| RAM | 8 GB | 64 GB 以上 | 實際依 VM 數量與規格決定,建議保留 20% 給 ESXi |
| Boot Storage | 8 GB (USB/SD) | SSD 32 GB 以上 | 建議使用 M.2 SSD 提升穩定性,避免使用低速 USB |
| Datastore | 依需求 | SSD/SAN 共享存儲 | VM 磁碟存放位置,建議與 Boot Storage 分開 |
| 網路卡 NIC | 1 × 1GbE | 2 × 10GbE 以上 | 建議最少 2 張 NIC 做 NIC Teaming 備援 |
| ESXi 版本 | ESXi 7.0 | ESXi 8.0 U2 | 選擇對應 vCenter 版本,維持 N-2 版本相容性 |
CPU、RAM、Network、Storage 四大資源的分配原則
建議使用 VCSA(vCenter Server Appliance)— Linux-based,維護簡單
| 項目 | VCSA(建議) | Windows vCenter |
|---|---|---|
| 作業系統 | Photon OS(內建) | 需自備 Windows Server |
| 資源需求 | 最低 2 vCPU / 12 GB RAM | 需額外 Windows License |
| 資料庫 | 內建 PostgreSQL | 需外掛 SQL Server |
| 維護難度 | 低 內建更新機制 | 高 需維護 OS + DB |
| VMware 支援 | 官方主推,長期支援 | 新版本已停止 |
以邏輯層級管理所有 ESXi 主機與虛擬機
| 功能 | 說明 |
|---|---|
| DRS | 自動負載均衡,依資源使用率遷移 VM |
| HA | Host 故障時自動在其他 Host 重啟 VM |
| vMotion | Live migration,不停機遷移 VM |
| Storage vMotion | 線上遷移 VM 磁碟至其他 Datastore |
| Distributed Switch | 跨 Host 的集中式虛擬交換器管理 |
| Content Library | 集中管理 ISO、OVF Template |
| vSphere Tags | 資源分類與自動化原則套用 |
| Role & Permission | RBAC 角色與權限管理 |
ESXi Host 發生故障時,自動在叢集其他 Host 重啟 VM
| 設定項目 | 說明 | 建議值 |
|---|---|---|
| Host Monitoring | 偵測 Host 心跳 | 啟用 |
| Admission Control | 保留 Failover 容量 | 1 Host 容量 |
| VM Restart Priority | VM 重啟優先順序 | 依業務等級設定 |
| VM Monitoring | 偵測 Guest OS 心跳 | 啟用 |
| Heartbeat Datastore | 備援心跳偵測 | 設定 2 個以上 |
| Isolation Response | Host 網路隔離時 VM 處置 | Power Off |
不停機將 VM 從一台 ESXi Host 遷移至另一台
| 條件 | 說明 |
|---|---|
| 共享存儲 | VM 磁碟須在兩台 Host 皆可存取的 Datastore |
| VMkernel Port | 來源與目標 Host 各需一個 vMotion 專用 VMkernel |
| 相容 CPU | CPU 世代需相容(或啟用 EVC Mode) |
| 網路連通 | VM 所用的 Port Group 在目標 Host 也需存在 |
| vCenter | 需透過 vCenter 執行,Host 間需在同一 Cluster 或 Cross-vCenter |
兩種技術互補,共同保障服務可用性
| 項目 | vSphere HA | vMotion |
|---|---|---|
| 目的 | Host 故障自動復原 | 不停機主動遷移 |
| 觸發方式 | 自動(偵測故障後) | 手動或 DRS 自動 |
| 停機時間 | 有停機(分鐘級重啟) | 零停機(毫秒級切換) |
| 使用情境 | 非預期故障(Hardware Failure) | 預期維護、負載均衡 |
| 共享存儲需求 | 必須 | 必須 |
| vMotion 網路需求 | 不需要 | 需要(建議 10GbE) |
| CPU 相容性 | 不需要 | 需要(或 EVC) |
| VM 資料遺失 | 重啟前未寫入資料可能遺失 | 無資料遺失 |
多層次備份策略,確保資料可恢復性與業務連續性
可接受的最大資料遺失時間
例:RPO = 1hr → 最多損失 1 小時資料
可接受的最大恢復時間
例:RTO = 4hr → 4 小時內必須恢復服務
| 方案 | 類型 | RPO | RTO | 適用情境 |
|---|---|---|---|---|
| VM Snapshot | 狀態保存 | 即時 | 分鐘級 | 短期操作保護 |
| Veeam Backup | Image-based 備份 | 分鐘~小時 | <15 分鐘 | 企業完整備份首選 |
| vSphere Replication | 非同步複製 | 分鐘~1hr | 分鐘級 | DR 站台複製 |
| Site Recovery Manager | DR 自動化 | 分鐘級 | <1 分鐘 | 大規模 DR 切換 |
| Storage Snapshot | 儲存陣列快照 | 即時 | 秒級 | 存儲層保護 |
以 Veeam Backup & Replication 為例的常見企業架構
定期執行點檢,確保環境穩定,降低故障風險
常見故障現象、原因分析與對應處置
| 現象 | 可能原因 | 排除步驟 | 嚴重度 |
|---|---|---|---|
| ESXi Host 變成 Not Responding | Management Network 中斷、主機當機 | ① Ping 管理 IP → ② SSH 登入測試 → ③ 查 vmkernel log → ④ IPMI/iDRAC 確認主機狀態 | Critical |
| VM 無法啟動 (Failed to power on) | Datastore 空間不足、資源不足、Snapshot 損壞 | ① 確認 Datastore 空間 → ② 確認 CPU/RAM 容量 → ③ 檢查 vmware.log → ④ 移除孤立 Snapshot | High |
| vMotion 失敗 | vMotion 網路不通、CPU 不相容、Snapshot 存在 | ① 確認 vMotion VMkernel 連通 → ② 確認 EVC Mode → ③ 確認 VM 無 Snapshot → ④ 查 vCenter event log | Medium |
| Datastore 空間爆滿 | Snapshot 未清理、VM 磁碟成長、Log 累積 | ① 確認並刪除過期 Snapshot → ② 確認 Thin Disk 實際佔用 → ③ 移動 VM 至其他 Datastore | High |
| HA 未觸發 Failover | Admission Control 容量不足、Datastore Heartbeat 異常 | ① 確認 Admission Control 設定 → ② 確認 Heartbeat Datastore 連通 → ③ 確認 vCenter 可連線至所有 Host | Critical |
| vCenter 無法登入 | SSO 服務異常、憑證過期、資料庫服務停止 | ① SSH 登入 VCSA → ② 執行 service-control --status --all → ③ 重啟 vmware-vpxd → ④ 確認憑證有效期 | Critical |
感謝各位的參與,歡迎提問