6972843:HOURLY TRACE FILE CREATED IN BDUMP FOR AUTO ADDM SLAVE ACTION
Oracle 10g RAC
Patch1:
7573282
10.2.0.4 RAC Recommended Patch Bundle #2 或
4637902 - OERI[kclfusion_1] in RAC , 此bug會導致rac node 其中一個節點crash...
在HP UX , Solaris sparc 都遇過crash 現象
--
Patch2:
Step:
#crsctl stop crs (兩個node都要停)
#crsctl set css diagwait 13 -force(兩個node都要下)
#crsctl start crs(兩個node都要下)
RAC nodes 在比較忙的時候,會因為cssd health check timeout 造成reboot現象,需放大
-bash-3.00$ ps -ef |egrep "crsd.bin|ocssd.bin|evmd.bin|oprocd"
oracle 1642 1310 0 May 10 ? 683:17 /oracle/crs102/bin/evmd.bin
root 1691 1312 0 May 10 ? 649:06 /oracle/crs102/bin/crsd.bin r
eboot
oracle 1933 1744 0 May 10 ? 123:41 /oracle/crs102/bin/ocssd.bin
root 1702 1311 0 May 10 ? 0:00 /bin/sh /etc/init.d/init.cssd
oprocd
root 1851 1702 0 May 10 ? 4:24 /oracle/crs102/bin/oprocd.bin run -t 1000 -m 10000 -hsi 5:10:50:75:90 -f
oracle 25286 25122 0 14:52:23 pts/1 0:00 egrep crsd.bin|ocssd.bin|evmd.bin|oprocd
修改完之後就會看到 -t 1000 -m 1000 的參數了...如果default則是 -t 1000 -m 500 -f
--
11g/ 12c RAC仍可能遇到, 需調整
於調整前請向您的hardware vendor 廠商確認(NetApp/ HDS/ Dell/ EMC...)
有的misscount 跟disktimeout 建議改為240
有的僅建議改disktimeout到160, 有的僅建議改misscount 到600為什麼會有這些差異呢? 猜想disktimeout 跟Disk Array的controller failover時間有關係
如果採用第三方cluster file system的話就會希望讓心跳機制交給cluster heartbeat管理, 而非grid infrastructure的disktimeout.
以下是Northern California Oracle Users Group所提供的建議值[root@db1 ~]# crsctl set css misscount 90 #default 30
[root@db1 ~]# crsctl set css disktimeout 600 #default 200
ref:
http://www.nocoug.org/download/2013-11/NOCOUG_201311_RAC_Attack_12c_Handbook.pdf
沒有留言:
張貼留言