Linux 运维的一些常见问题及解决方法

shell 脚本死活不执行

问题：某天研发某同事找我说帮他看看他写的shell脚本，死活不执行，报错。我看了下，脚本很简单，也没有常规性的错误，报“: bad interpreter: No such file or directory”错。一看这错，我就问他是否是在windows下编写的脚本，而后在上传到linux服务器的……果真。

缘由：在DOS/Windows里，文本文件的换行符为rn，而在nix系统里则为n，因此DOS/Windows里编辑过的文本文件到了nix里，每一行都多了个^M。

解决：1）从新在linux下编写脚本；2）vi :% s/r//g :% s/^{M//g （}M输入用Ctrl+v, Ctrl+m）

crontab 输出

问题：/var/spool/clientmqueue目录占用空间超过100G

缘由：cron中执行的程序有输出内容，输出内容会以邮件形式发给cron的用户，而sendmail没有启动因此就产生了/var/spool/clientmqueue目录下的那些文件，日积月累可能撑破磁盘

解决：

直接手动删除：ls |xargs rm -f
完全解决：在cron的自动执行语句后加上 >/dev/null 2>&1

telnet 很慢

问题：某天研发某同事说访问 memcached 服务异常，让咱们检查下看网络/服务/系统是否有异常。检查发现系统正常，服务正常，ping 也正常，但 telnet 很慢。同时发现该机器的 namesever 是不起做用的

缘由：because your PC doesn’t do a reverse DNS lookup on your IP then… when you telnet/ftp into your linux box, it’ll do a dns lookup on you

解决：

修改 /etc/hosts 使 hostname 和 ip 对应
在 /etc/resolv.conf 注释掉 nameserver 或者找一个“活的 ”nameserver

Read-only file system

问题：同事在mysql里建表建不成功，提示以下：mysql>create table wosontest (colddname1 char(1)); ERROR 1005 (HY000): Can’t create table ‘wosontest’ (errno: 30。经检查mysql用户权限以及相关目录权限没问题；用perror 30提示信息为：OS error code 30: Read-only file system

可能缘由：

文件系统损坏
磁盘又坏道
fstab文件配置错误，如分区格式错误错误 (将ntfs写成了fat)、配置指令拼写错误等

解决：

因为是测试机，重启机器后恢复
网上说用 mount 可解决

文件删了磁盘空间没释放

问题：某天发现某台机器df -h已用磁盘空间为90G，而du -sh /*显示全部使用空间加起来才30G，囧

缘由：可能某人直接用rm删除某个正在写的文件，致使文件删了但磁盘空间没释放的问题

解决：

最简单重启系统或者重启相关服务
干掉进程：/usr/sbin/lsof|grep deleted ora 25575 data 33u REG 65,65 4294983680 /oradata/DATAPRE/UNDOTBS009.dbf (deleted)，从lsof的输出中，咱们能够发现pid为25575的进程持有着以文件描述号（fd）为 33打开的文件/oradata/DATAPRE/UNDOTBS009.dbf。在咱们找到了这个文件以后能够经过结束进程的方式来释放被占用的空间：echo > /proc/25575/fd/33
删除正在写的文件通常用 cat /dev/null > file

find 文件

问题：在tmp目录下有大量包含picture_*的临时文件，天天晚上2:30对一天前的文件进行清理。以前在crontab下跑以下脚本，可是发现脚本效率很低，每次执行时负载猛涨，影响到其余服务_

#!/bin/sh
find /tmp -name “picture_*” -mtime +1 -exec rm -f {} ;

缘由：目录下有大量文件，用find很耗资源

解决：

#!/bin/sh
cd /tmp
time=`date -d “2 day ago” “+%b %d”`
ls -l|grep “picture” |grep “$time”|awk ‘{print $NF}’|xargs rm -rf

获取不了网关 mac 地址

问题：从2.14到3.65（映射地址2.141）网络不通，可是从3端的其余机器到3.65网络OK

缘由：

# arp
Address                  HWtype  HWaddress           Flags  Mask            Iface
192.168.3.254            ether   incomplet             CM                     bond0

表面现象是机器自动获取不了网关MAC地址，网络工程师说是网络设备的问题，具体不清

解决：arp绑定，arp -i bond0 -s 192.168.3.254 00:00:5e:00:01:64

问题：某天研发某同事说网站前端+1环境http没法启动，我上去看了下。报以下错

/etc/init.d/httpd start
Starting httpd: [Sat Jan 29 17:49:00 2011] [warn] module  antibot_module is already loaded, skipping
Use proxy forward as remote ip : true.
Antibot exclude pattern : .*.[(js|css|jpg|gif|png)]
Antibot seed check pattern : login
(98)Address already in use: make_sock: could not bind to  address [::]:7080
(98)Address already in use: make_sock: could not bind to  address 0.0.0.0:7080
no listening sockets available, shutting down
Unable to open log                                                       [FAILED]

缘由：

端口被占用：表面看是7080端口被占用，因而netstat -npl|grep 7080看了下发现7080没有占用
在配置文件中重复写了端口，若是在如下两个文件同时写了Listen 7080
- /etc/httpd/conf/http.conf
- /etc/httpd/conf.d/t.10086.cn.conf

解决：注释掉/etc/httpd/conf.d/t.10086.cn.conf的Listen 7080，重启，OK

too many open file终极解决方案

echo “” >> /etc/security/limits.conf
echo “*                soft   nproc          65535″ >>  /etc/security/limits.conf
echo “*                hard   nproc          65535″ >>  /etc/security/limits.conf
echo “*                soft   nofile         65535″ >>  /etc/security/limits.conf
echo “*                hard   nofile         65535″ >>  /etc/security/limits.conf
echo “” >> /root/.bash_profile
echo “ulimit-n   65535″ >> /root/.bash_profile
echo “ulimit  -u   65535″ >> /root/.bash_profile

最后重启机器或者执行

ulimit -u 655345 && ulimit -n 65535

ibdata1和 mysql-bin

问题：磁盘空间报警，经查发现ibdata1和mysql-bin日志占用空间太多（其中ibdata1超过120G，mysql-bin超过80G）

缘由：ibdata1是存储格式，在INNODB类型数据状态下，ibdata1用来存储文件的数据和索引，而库名的文件夹里的那些表文件只是结构而已。

innodb存储引擎有两种表空间的管理方式，分别是：

共享表空间（可拆分为多个小的表空间文件），这个是咱们目前多数数据库使用的方法；
独立表空间，每个表有一个独立的表空间（磁盘文件）

对于两种管理方式，各有优劣，具体以下：

共享表空间：
- 优势：能够将表空间分红多个文件存放到不一样的磁盘上（表空间文件大小不受表大小的限制，一个表能够分布在不一样步的文件上）
- 缺点：全部数据和索引存放在一个文件中，则随着数据的增长，将会有一个很大的文件，虽然能够把一个大文件分红多个小文件，可是多个表及索引在表空间中混合存储，这样若是对于一个表作了大量删除操做后表空间中将有大量空隙。对于共享表空间管理的方式下，一旦表空间被分配，就不能再回缩了。当出现临时建索引或是建立一个临时表的操做表空间扩大后，就是删除相关的表也没办法回缩那部分空间了
独立表空间：在配置文件（my.cnf）中设置： innodb_file_per_table
- 特色：每一个表都有自已独立的表空间；每一个表的数据和索引都会存在自已的表空间中
- 优势：表空间对应的磁盘空间能够被收回（Drop table操做自动回收表空间，若是对于删除大量数据后的表能够经过:alter table tbl_name engine=innodb;回缩不用的空间
- 缺点：若是单表增长过大，如超过100G，性能也会受到影响。在这种状况下，若是使用共享表空间能够把文件分开，但有一样有一个问题，若是访问的范围过大一样会访问多个文件，同样会比较慢。若是使用独立表空间，能够考虑使用分区表的方法，在必定程度上缓解问题。此外，当启用独立表空间模式时，须要合理调整innodb_open_files参数的设置

解决

ibdata1数据太大：只能经过dump，导出建库的sql语句，再重建的方法
mysql-bin Log太大：
- 手动删除：删除某个日志：mysql>PURGE MASTER LOGS TO ‘mysql-bin.010′; 删除某天前的日志：mysql>PURGE MASTER LOGS BEFORE ’2010-12-22 13:00:00′;
- 在/etc/my.cnf里设置只保存N天的bin-log日志 expire_logs_days = 30 //Binary Log自动删除的天数前端