众所周知,PowerHA不单单是一个软件,还是一套成熟的解决方案。PowerHA技术能够提供高可用性、业务连续性和灾难恢复能力,是基于AIX/Power平台上主要的高可用解决方案。一直以来,为重要的生产环境保驾护航而被广泛使用。作为AIX/Power系统工程师,PowerHA的交付实施是一门必修课。
PowerHA的交付过程
结合多年临床项目经验,PowerHA的交付可以分为三个阶段,分别是:
规划设计阶段
配置实施阶段
测试验证阶段
规划设计阶段要点
- PowerHA为谁提供保护
为APP还是DB提供了高可用保护?
- 是否部署到PowerVM/LPAR环境
将HA的node部署到PowerVM虚拟化环境,还是非虚拟化的LPAR环境中?
- PowerHA版本选择
除了PowerHA的版本,还需要考虑所宿主的AIX版本。大家可以考虑先使用IBM FLRT工具找出当前推荐版本,然后再结合APP/DB对系统版本的要求或需求,并结合多路径软件的需求等,决策出最终目标的版本(最好经过实际的版本测试验证)。
- 网卡与IP地址
包括BootIP、ServiceIP、Persistence-IP、Netmon.cf;
网卡为虚拟网卡、物理网卡、还是etherchanel(LACP、NIB)?
Netmon.cf广泛使用于配置PowerHA 7.1以后的版本,主要用于:当节点间的IP网络心跳中断时,PowerHA可以通过Ping外部IP的方式,更有效地进行network/adapter故障判断。
- APP/Database的启停脚本
PowerHA所保护的Application/Database的启动或停止脚本,但这部分内容通常不是由AIX或PowerHA工程师提供的。
- PowerHA各组件的命名规则
包括ClusterName、Nodename、Appserver、IP-Lable、ResouceGroup等;
在已满足AIX/PowerHA对命名的规定(如长度、字符等)条件下,需要遵循客户的习惯和要求。
- 其它的特殊要求
如事件脚本定制、APP/DB的监控等。
- 外部存储(共享盘)与SAN交换机的配置要求
CAA盘的数量、大小,需要被两个节点所识别;
Sharevg磁盘的数量、大小,需要被哪些节点所识别;
如果HBA卡满足了SAN心跳的条件,需要交换端对指定端口进行ZONE的配置。
- 输出配置规划表
将上述信息进行汇总整理成规划表或规划方案。
PowerHA配置实施
AIX/PowerHA软件的安装与升级
安装升级完成后,在两个节点上分别运行halevel进行版本的检查,确认满足目标要求。
AIX系统层的配置与检查
− App/DB启停脚本部署与检查:确保在两个节点上启停脚本的位置、权限、ownership的正确性及一致性
− Sharevg中的共享磁盘属性检查,建议将reserve_policy修改为no_reserve;
− Sharevg卷组属性,确认auto varyon是关闭的且卷组类型为concurrent;
(运行smit chvg -> select sharevg)
− Sharevg与Filesystems的创建或导入;
− Sharevg的其它检查;FS_mount point、MajorNum、权限、ownership信息在两个节点上是一致的(卷组本身及其包含的LV、filesystems);
− CAA_repository_disk的识别;(分别在两个节点上运行cfgmgr命令,识别该共享盘)
− Etherchanel网卡的配置(optional);
网卡IP的配置、/etc/hosts、/etc/cluster/rhosts、netmon.cf;
(/etc/hosts文件内至少要有一个bootip使用的是主机名;netmon.cf文件内可以有多少记录,每记录的格式为:IREQD 源 目标IP,即在当前节点内从哪个源端ping到哪一个外部IP;)
PowerHA的配置
Topology的配置
− Cluster、Node、IP-network&IP-interface的定义:
(在某一个节点上运行smit cm_setup_menu ==> Setup a Cluster, Nodes and Networks)
− CAA-Repository disk的定义:
(smit cm_setup_menu ==>Define Repository Disk and Cluster IP Address)
− Verify&Synchronize:
(运行smit cm_cluster_nodes_networks并选择如下项)
Resources&RG的配置
− ApplicationServer的定义:
(smit cm_resources_menu ==> 选择Configure User Applications ==> 选择Application Controller Scripts==>选择 Add Application Controller Scripts)
− ServiceIP的定义:
(smit cm_resources_menu ==> 选择Configure Service IP Labels/Addresses ==> 选择Add a Service IP Label/Address)
− RG的定义:
(smit cm_resource_groups ==> 选择Add a Resource Group)
− 将Resources添加到RG里:
(smit cm_resource_groups ==> 选择Change/Show Resources and Attributes for a Resource Group)
− PesistenceIP的定义(optional)
(smit cm_manage_nodes ==> 选择Configure Persistent Node IP Label/Addresses ==>选择Add a Persistent Node IP Label/Address==> 选择目标节点)
− Verify&Synchronize
PowerHA测试项目
PowerHA服务的启停
(将两节点的HA服务拉起,运行smit clstart)
服务拉起后,运行cldump/clRGinfo/lssrc -ls clstrmgrES/ifconfig -a/lsvg -o/lspv等命令检查HA及其资源的状态。
节点宕的测试
(如:在主节点上或是跑应用数据库的节点上运行halt -q)
手工发起RG的移动
(smit cl_admin ==> Resource Group and Applications ==> Move Resource Groups to Another Node)
网卡宕的测试
其他测试:(如:在虚拟化环境中,进行虚拟层中VIOS间的切换测试,判断是否会对HA节点有所影响)
注:测试过程要进行记录,完成后最好要形成一个完整的测试报告。
领取专属 10元无门槛券
私享最新 技术干货