近日遇到一个RAC问题,一个节点无法启动,经过分析后解决,解决过程如下。
11.2.0.3 RAC环境,其中一个节点instance启动失败,显示如下错误
[oracle@exadbmel04 ~]$ crsctl start res ora.dbm.db
CRS-2672: Attempting to start 'ora.dbm.db' on 'exadbmel04'
CRS-5017: The resource action "ora.dbm.db start" encountered the following error:
ORA-01078: failure in processing system parameters
ORA-01565: error in identifying file '+DATA_EXA/dbm/spfiledbm.ora'
ORA-17503: ksfdopn:2 Failed to open file +DATA_EXA/dbm/spfiledbm.ora
ORA-27140: attach to post/wait facility failed
ORA-27300: OS system dependent operation:invalid_egid failed with status: 1
ORA-27301: OS failure message: Operation not permitted
ORA-27302: failure occurred at: skgpwinit6
ORA-27303: additional information: startup egid = 1001 (oinstall), current egid = 1002 (dba)
. For details refer to "(:CLSN00107:)" in "/u01/app/11.2.0.3/grid/log/exadbmel04/agent/crsd/oraagent_oracle/oraagent_oracle.log".
CRS-2674: Start of 'ora.dbm.db' on 'exadbmel04' failed
CRS-2679: Attempting to clean 'ora.dbm.db' on 'exadbmel04'
CRS-2681: Clean of 'ora.dbm.db' on 'exadbmel04' succeeded
CRS-2528: Unable to place an instance of 'ora.dbm.db' as all possible servers are occupied by the resource
CRS-4000: Command Start failed, or completed with errors.
通过Sqlplus启动,遇到同样的错误
[oracle@exadbmel04 ~]$ . oraenv
ORACLE_SID = [oracle] ? dbm4
The Oracle base has been set to /u01/app/oracle
[oracle@exadbmel04 ~]$ sqlplus / as sysdba
SQL> startup mount;
ORA-01078: failure in processing system parameters
ORA-01565: error in identifying file '+DATA_EXA/dbm/spfiledbm.ora'
ORA-17503: ksfdopn:2 Failed to open file +DATA_EXA/dbm/spfiledbm.ora
ORA-27140: attach to post/wait facility failed
ORA-27300: OS system dependent operation:invalid_egid failed with status: 1
ORA-27301: OS failure message: Operation not permitted
ORA-27302: failure occurred at: skgpwinit6
ORA-27303: additional information: startup egid = 1001 (oinstall), current egid = 1002 (dba)
查看资源,可以看到ASM的实例都是正常的,包括diskgroup,但是实例exadbmel04未启动。
[oracle@exadbmel04 ~]$ crsctl status res -t
--------------------------------------------------------------------------------
NAME TARGET STATE SERVER STATE_DETAILS
--------------------------------------------------------------------------------
Local Resources
--------------------------------------------------------------------------------
ora.DATA_EXA.dg
ONLINE ONLINE exadbmel01
ONLINE ONLINE exadbmel03
ONLINE ONLINE exadbmel04
ora.DBFS_DG.dg
ONLINE ONLINE exadbmel01
ONLINE ONLINE exadbmel03
ONLINE ONLINE exadbmel04
ora.LISTENER.lsnr
ONLINE ONLINE exadbmel01
ONLINE ONLINE exadbmel03
ONLINE ONLINE exadbmel04
ora.RECO_EXA.dg
ONLINE ONLINE exadbmel01
ONLINE ONLINE exadbmel03
ONLINE ONLINE exadbmel04
ora.asm
ONLINE ONLINE exadbmel01
ONLINE ONLINE exadbmel03 Started
ONLINE ONLINE exadbmel04 Started
ora.gsd
......
--------------------------------------------------------------------------------
Cluster Resources
--------------------------------------------------------------------------------
......
ora.dbm.db
1 ONLINE ONLINE
2 ONLINE ONLINE
3 ONLINE ONLINE
4 ONLINE OFFLINE Instance Shutdown
......
通过查询ORA-27300错误,找到问题点。
这个问题是这个文件 $GI_HOME/bin/oracle 的权限不对,正确的权限应该是 "-rwsr-s--x".将权限修改正确,问题解决。
[oracle@exadbmel04 bin]$cd $GI_HOME/bin/
[oracle@exadbmel04 bin]$ ls -al oracle
-rwxr-xr-x 1 oracle oinstall 204170493 Jun 25 20:46 oracle
[oracle@exadbmel04 bin]$ chmod 6751 oracle
[oracle@exadbmel04 bin]$ ls -al oracle
-rwsr-s--x 1 oracle oinstall 204170493 Jun 25 20:46 oracle
启动实例,正常启动
[oracle@exadbmel04 ~]$ crsctl start res ora.dbm.db
CRS-2672: Attempting to start 'ora.dbm.db' on 'exadbmel04'
CRS-2672: Attempting to start 'ora.dbm.db' on 'exadbmel01'
CRS-2676: Start of 'ora.dbm.db' on 'exadbmel04' succeeded
CRS-2676: Start of 'ora.dbm.db' on 'exadbmel01' succeeded
使用sqlplus验证,数据库已经可以正常访问
[oracle@exadbmel04 ~]$ sqlplus / as sysdba
SQL> select instance_name,status from v$instance;
INSTANCE_NAME STATUS
---------------- ------------
dbm4 OPEN
SQL> select username from dba_users;
USERNAME
------------------------------
SYS
SYSTEM
DBSNMP
DBFS_TEST
OUTLN
MGMT_VIEW
FLOWS_FILES
MDSYS
ORDSYS
EXFSYS
WMSYS
......
遇到这种问题的可能,
1、是人为修改该文件的权限,
2、还有就是apply patch失败,apply patch的过程会有修改该文件权限为-rwxr-xr-x的动作,在apply patch完成后再修改回来,但是如果apply patch失败,就会导致该文件权限一直是错误的状态,需要手动修改回来。
最后分析 $GI_HOME/bin/oracle文件权限中的“S”,这个权限问题明白了,oracle的这个问题也就解释了。查询Linux权限,得到这样的解释
Linux 权限模型有两个专门的位,叫做“suid”和“sgid”。当设置了一个可执行程序
的“suid”这一位时,它将代表可执行文件的所有者运行,而不是代表启动程序的人运行。
现在,回到 /etc/passwd 问题。如果看一看 passwd 可执行文件,我们可以
看到它属于 root 用户:
$ ls -l /usr/bin/passwd
-rwsr-xr-x 1 root wheel 17588 Sep 24 00:53 /usr/bin/passwd
您还将注意到,这里有一个 s 取替了用户权限三元组中的一个 x。这表明,对于这个特殊程序,
设置了 suid 和可执行位。由于这个原因,当 passwd 运行时,它将代表 root 用户执行(
具有完全超级用户访问权),而不是代表运行它的用户运行。又因为 passwd 以 root 用户访
问权运行,所以能够修改 /etc/passwd 文件,而没有什么问题。
suid/sgid 告诫说明
我们看到了 suid 怎样工作,sgid 以同样的方式工作。它允许程序继承程序的组所有权,而不
是当前用户的程序所有权。
引用ITPUB的一个帖子,其中有相关问题及解析
http://www.itpub.net/forum.php?mod=viewthread&tid=1622940
这里面说的问题原因就是 $ORACLE_HOME/bin/oracle 和 $GI_HOME/bin/oracle下的oracle程序的权限都是这样设置的,并且他们的属组是不同的,所以在实际操作的连接过程中,需要相互调用对方oracle程序,来申请SGA内存区
可以看到下面各自的属组是不同的,如果需要使用对方的应用程序并且使用该应用程序的属组,那么,唯一的办法是使用"S"权限。
[root@rac1 ~]# su - oracle
[oracle@rac1 ~]$ cd $ORACLE_HOME
[oracle@rac1 dbhome_1]$ cd bin
[oracle@rac1 bin]$ ll oracle
-rwsr-s--x 1 oracle oinstall 232399431 May 14 13:47 oracle
[oracle@rac1 bin]$ ll sqlplus
-rwxr-x--x 1 oracle oinstall 9205 May 14 13:46 sqlplus
[root@rac1 ~]# su - grid
[grid@rac1 ~]$ cd $GRID_HOME
[grid@rac1 bin]$ pwd
/u01/app/11.2.0/grid/bin
[grid@rac1 bin]$ ll oracle
-rwsr-s--x 1 grid oinstall 203974257 May 11 09:30 oracle
[grid@rac1 bin]$ ll crsctl
-rwxr-xr-x 1 root oinstall 8133 May 11 12:35 crsctl
©著作权归作者所有:来自51CTO博客作者hsbxxl的原创作品,谢绝转载,否则将追究法律责任
sasmracOracle