精华内容
下载资源
问答
  • 一、查看日志和机器相关信息常用命令1、catcat 命令连接文件并打印到标准输出设备上,cat经常用来显示文件的内容,类似于下的type命令注意:当文件较大时,文本在屏幕上迅速闪过(滚屏),用户往往看不清所显示的内容...

    3329fb05782db0f6147d0b335857997e.gif

    一、查看日志和机器相关信息常用命令

    1cat

    cat 命令连接文件并打印到标准输出设备上,cat经常用来显示文件的内容,类似于下的type命令

    注意:当文件较大时,文本在屏幕上迅速闪过(滚屏),用户往往看不清所显示的内容。因此,一般用more等命令分屏显示。为了控制滚屏,可以按Ctrl+S键,停止滚屏;按Ctrl+Q键可以恢复滚屏。按Ctrl+C(中断)键可以终止该命令的执行,并且返回Shell提示符状态。

    2tail 

    tail命令  用于输入文件中的尾部内容。tail命令默认在屏幕上显示指定文件的末尾10行。如果给定的文件不止一个,则在显示的每个文件前面加一个文件名标题。如果没有指定文件或者文件名为“-”,则读取标准输入。

    常用参数:

    1

    2

    3

    -f或;--follow:显示文件最新追加的内容。“name”表示以文件名的方式监视文件的变化。“-f”“-fdescriptor”等效;

    -n——line=:输出文件的尾部N(N位数字)行内容。

    -s<秒数>——sleep-interal=<秒数>:与“-f”选项连用,指定监视文件变化时间隔的秒数;

    二、实际操作须知

    1、日志文件说明

    1

    2

    3

    4

    5

    6

    /var/log/message     //系统启动后的信息和错误日志,是Red Hat Linux中最常用的日志之一

    /var/log/secure      //与安全相关的日志信息

    /var/log/maillog    //与邮件相关的日志信息

    /var/log/cron       //与定时任务相关的日志信息

    /var/log/spooler    //UUCPnews设备相关的日志信息

    /var/log/boot.log   //守护进程启动和停止相关的日志消息

    2、查看系统信息

    1

    2

    3

    4

    5

    6

    7

    8

    9

    # uname -a                # 查看内核/操作系统/CPU信息

    # cat /etc/issue

    # cat /etc/redhat-release # 查看操作系统版本

    # cat /proc/cpuinfo       # 查看CPU信息

    # hostname                # 查看计算机名

    # lspci -tv               # 列出所有PCI设备

    # lsusb -tv               # 列出所有USB设备

    # lsmod                   # 列出加载的内核模块

    # env                     # 查看环境变量

    3、查看系统运行资源

    1

    2

    3

    4

    5

    6

    7

    # free -m                     # 查看内存使用量和交换区使用量

    # df -h                       # 查看各分区使用情况

    # du -sh <目录名>             # 查看指定目录的大小

    # grep MemTotal /proc/meminfo # 查看内存总量

    # grep MemFree /proc/meminfo  # 查看空闲内存量

    # uptime                      # 查看系统运行时间、用户数、负载

    # cat /proc/loadavg           # 查看系统负载

    4、查看系统磁盘和分区信息

    1

    2

    3

    4

    5

    # mount | column -t  # 查看挂接的分区状态

    # fdisk -l                  # 查看所有分区

    # swapon -s             # 查看所有交换分区

    # hdparm -i /dev/hda  # 查看磁盘参数(仅适用于IDE设备)

    # dmesg | grep IDE  # 查看启动时IDE设备检测状况

    5、查看网络信息

    1

    2

    3

    4

    5

    6

    # ifconfig        # 查看所有网络接口的属性

    # iptables -L     # 查看防火墙设置

    # route -n        # 查看路由表

    # netstat -lntp   # 查看所有监听端口

    # netstat -antp   # 查看所有已经建立的连接

    # netstat -s      # 查看网络统计信息

    6、查看进程

    1

    2

    # ps -ef   # 查看所有进程

    # top      # 实时显示进程状态

    7、查看用户信息

    1

    2

    3

    4

    5

    6

    # w                       # 查看活动用户

    # id <用户名>             # 查看指定用户信息

    # last                    # 查看用户登录日志

    # cut -d: -f1 /etc/passwd # 查看系统所有用户

    # cut -d: -f1 /etc/group  # 查看系统所有组

    # crontab -l              # 查看当前用户的计划任务

    8、查看服务

    1

    2

    # chkconfig –list           # 列出所有系统服务

    # chkconfig –list | grep on # 列出所有启动的系统服务

    9、查看系统安装程序

    1

    # rpm -qa   # 查看所有安装的软件包


    热评好文推荐:

    Nginx反向代理实例解决前端跨域、前后端分离问题

    Haproxy详解以及基于Haproxy的高可用实战

    linux运维工程师常见面试题

    基于HTTP搭建本地局域网YUM源

    容器和虚拟机区别

    展开全文
  • Linux的使用环境也日趋成熟,各种开源产品络绎不绝,大有百花齐放的盛景,那么当Linux落地企业,回归工作时,我们还要面对这Linux运维方面的诸多问题,今天我们特意组织一场有关Linux 在企业运用当中交流分享活动。...

    Linux的使用环境也日趋成熟,各种开源产品络绎不绝,大有百花齐放的盛景,那么当Linux落地企业,回归工作时,我们还要面对这Linux运维方面的诸多问题,今天我们特意组织一场有关Linux 在企业运用当中交流分享活动。本次活动内容丰富,在此我们进行一下系统的梳理。

    一 Linux选择

    选择一个适合自身企业的Linux版本系列和主流版本还是相对不容易的,下面我们来介绍一下在选择时各企业所参考的依据:

    RedHat和CentOS

    选择红帽子系列产品,以centos为主,主要考虑有几个方面:

    1. centos是redhat的编译版本,基本上没有什么大的变动
    2. 现在很多环境都是集群环境,包括web集群,中间件集群,rac群集等等,OS层面本身的高可用系数已经不是100%要求那么高了。
    3. 主流版本生命周期比较长,比较适合一个硬件的生命周期管理,基本上安装一次直到设备报废了。
    4. 批量安装部署方便,硬件和软件兼容性都挺好。
    5. 版本主要使用6版本,新上应用可以全面考虑升级使用7版本

    SuSe

    使用的Suse Linux Enterprise版,主要考虑因素如下:
    1、该发行版本性能和稳定性比较突出
    2、对客户的技术支持体系较为完备,服务响应较快(这基本上是最重要的因素)
    3、对开源社区如openstack等生态拥抱得也较好。
    4、版本主要是SUSE11 较多。

    二 安装部署

    方式:U盘,光盘和网络安装
    其中网络安装已经成为了目前批量部署的首选方式:主要工具有CobblerPXE+kickstart
    可以参考如下链接内容:
    http://www.cnblogs.com/mchina/p/centos-pxe-kickstart-auto-install-os.html

    三 初始化配置

    禁用服务

    
     
    1. chkconfig --level 35 iptables off
    2. chkconfig --level 35 ip6tables off
    3. service iptables stop
    4. chkconfig --level 35 postfix off

    禁用SeLinux

    
     
    1. vi /etc/selinux/config SELINUX=disabled

    配置YUM源配置

    
     
    1. [root@rhel63 yum.repos.d]# vi local.repo
    2. [local]
    3. name=local
    4. baseurl=file:///mnt/Server
    5. enabled=1
    6. gpgcheck=0

    可以配置为光盘,内部YUM源或EPEL等

    常用软件安装

    
     
    1. # yum install ftp telnet make imake gcc compat-libstdc++-33 gcc-c++ libstdc++ libXp kernel kernel-devel kernel-headers rsh ksh lsof openssh-clients -y
    2. # yum install iptraf.x86_64 unzip.x86_64 libaio.x86_64 eject sysfsutils dmidecode pciutils dstat lsscsi -y

    安装xwindows

    
     
    1. # yum groupinstall "X Window System" -y
    2. # yum groupinstall Desktop -y (可以不安装桌面)
    3. # yum install xorg-x11-apps -y (包含xclock)

    配置ntp

    
     
    1. */10 * * * * /usr/sbin/ntpdate 10.0.0.1

    Crontab 添加如上记录,指定内部ntp服务器

    SSH 登录设置

    修改ssh 禁用DNS 选项:

    
     
    1. echo "UseDNS no" >> /etc/ssh/sshd_config service sshd restart

    添加允许指定用户登录:

    
     
    1. echo "AllowUsers user1" >> /etc/ssh/sshd_config
    2. service sshd restart

    上传扫描工具

    
     
    1. rescan-scsi-bus.sh

    网络上有该脚本,下载自行使用

    修改历史记录格式

    
     
    1. echo "export HISTTIMEFORMAT='%F %T'" >> /etc/profile

    四 安全加固

    本次安全加固内容主要参考的是Redhat和Centos系列版本系统:
    参考链接
    http://www.centoscn.com/CentosSecurity/CentosSafe/2015/0315/4881.html

    注释掉系统不需要的用户和用户组

    注意:不建议直接删除,当你需要某个用户时,自己重新添加会很麻烦。

    
     
    1. cp /etc/passwd /etc/passwdbak #修改之前先备份
    2. vi /etc/passwd #编辑用户,在前面加上#注释掉此行
    3. #adm:x:3:4:adm:/var/adm:/sbin/nologin
    4. #lp:x:4:7:lp:/var/spool/lpd:/sbin/nologin
    5. #sync:x:5:0:sync:/sbin:/bin/sync
    6. #shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown
    7. #halt:x:7:0:halt:/sbin:/sbin/halt
    8. #uucp:x:10:14:uucp:/var/spool/uucp:/sbin/nologin
    9. #operator:x:11:0:operator:/root:/sbin/nologin
    10. #games:x:12:100:games:/usr/games:/sbin/nologin
    11. #gopher:x:13:30:gopher:/var/gopher:/sbin/nologin
    12. #ftp:x:14:50:FTP User:/var/ftp:/sbin/nologin#注释掉ftp匿名账号
    13. cp /etc/group /etc/groupbak #修改之前先备份
    14. vi /etc/group #编辑用户组,在前面加上#注释掉此行
    15. #adm:x:4:root,adm,daemon
    16. #lp:x:7:daemon,lp
    17. #uucp:x:14:uucp
    18. #games:x:20:
    19. #dip:x:40:

    关闭系统不需要的服务

    
     
    1. service acpid stop chkconfig acpid off #停止服务,取消开机启动 #电源进阶设定,常用在 Laptop 上
    2. service autofs stop chkconfig autofs off #停用自动挂载档桉系统与週边装置
    3. service bluetooth stop chkconfig bluetooth off #停用Bluetooth蓝芽
    4. service cpuspeed stop chkconfig cpuspeed off #停用控制CPU速度主要用来省电
    5. service cups stop chkconfig cups off #停用 Common UNIX Printing System 使系统支援印表机
    6. service ip6tables stop chkconfig ip6tables off #禁止IPv6
    7. 如果要恢复某一个服务,可以执行下面操作
    8. service acpid start chkconfig acpid on
    9. ## 禁止非root用户执行/etc/rc.d/init.d/下的系统命令禁止非root用户执行/etc/rc.d/init.d/下的系统命令
    10. chmod -R 700 /etc/rc.d/init.d/*
    11. chmod -R 777 /etc/rc.d/init.d/* #恢复默认设置

    给下面的文件加上不可更改属性,从而防止非授权用户获得权限

    
     
    1. chattr +i /etc/passwd
    2. chattr +i /etc/shadow
    3. chattr +i /etc/group
    4. chattr +i /etc/gshadow
    5. chattr +i /etc/services #给系统服务端口列表文件加锁,防止未经许可的删除或添加服务
    6. lsattr /etc/passwd /etc/shadow /etc/group /etc/gshadow /etc/services #显示文件的属性
    7. 注意:执行以上权限修改之后,就无法添加删除用户了。
    8. 如果再要添加删除用户,需要先取消上面的设置,等用户添加删除完成之后,再执行上面的操作
    9. chattr -i /etc/passwd #取消权限锁定设置
    10. chattr -i /etc/shadow
    11. chattr -i /etc/group
    12. chattr -i /etc/gshadow
    13. chattr -i /etc/services #取消系统服务端口列表文件加锁
    14. 现在可以进行添加删除用户了,操作完之后再锁定目录文件

    限制不同文件的权限

    
     
    1. chattr +a .bash_history #避免删除.bash_history或者重定向到/dev/null
    2. chattr +i .bash_history
    3. chmod 700 /usr/bin 恢复 chmod 555 /usr/bin
    4. chmod 700 /bin/ping 恢复 chmod 4755 /bin/ping
    5. chmod 700 /usr/bin/vim 恢复 chmod 755 /usr/bin/vim
    6. chmod 700 /bin/netstat 恢复 chmod 755 /bin/netstat
    7. chmod 700 /usr/bin/tail 恢复 chmod 755 /usr/bin/tail
    8. chmod 700 /usr/bin/less 恢复 chmod 755 /usr/bin/less
    9. chmod 700 /usr/bin/head 恢复 chmod 755 /usr/bin/head
    10. chmod 700 /bin/cat 恢复 chmod 755 /bin/cat
    11. chmod 700 /bin/uname 恢复 chmod 755 /bin/uname
    12. chmod 500 /bin/ps 恢复 chmod 755 /bin/ps

    禁止使用Ctrl+Alt+Del快捷键重启服务器

    
     
    1. cp /etc/inittab /etc/inittabbak
    2. vi /etc/inittab #注释掉下面这一行
    3. #ca::ctrlaltdel:/sbin/shutdown -t3 -r now

    使用yum update更新系统时不升级内核,只更新软件包

    注意:由于系统与硬件的兼容性问题,有可能升级内核后导致服务器不能正常启动,这是非常可怕的,没有特别的需要,建议不要随意升级内核。

    
     
    1. cp /etc/yum.conf /etc/yum.confbak
    2. 1、修改yum的配置文件 vi /etc/yum.conf 在的最后添加 exclude=kernel*
    3. 2、直接在yum的命令后面加上如下的参数:
    4. yum --exclude=kernel* update
    5. 查看系统版本 cat /etc/issue
    6. 查看内核版本 uname –a

    关闭Centos自动更新

    
     
    1. chkconfig --list yum-updatesd #显示当前系统状态
    2. yum-updatesd 0:关闭 1:关闭 2:启用 3:启用 4:启用 5:启用 6:关闭
    3. service yum-updatesd stop #关闭 开启参数为start
    4. 停止 yum-updatesd: [确定]
    5. service yum-updatesd status #查看是否关闭
    6. yum-updatesd 已停
    7. chkconfig --level 35 yum-updatesd off #禁止开启启动(系统模式为3、5)
    8. chkconfig yum-updatesd off #禁止开启启动(所有启动模式全部禁止)
    9. chkconfig --list yum-updatesd #显示当前系统状态
    10. yum-updatesd 0:关闭 1:关闭 2:启用 3:关闭 4:启用 5:关闭 6:关闭

    关闭多余的虚拟控制台

    我们知道从控制台切换到 X 窗口,一般采用 Alt-F7 ,为什么呢?因为系统默认定义了 6 个虚拟控制台,
    所以 X 就成了第7个。实际上,很多人一般不会需要这么多虚拟控制台的,修改/etc/inittab ,注释掉那些你不需要的。

    
     
    1. cp /etc/inittab /etc/inittabbak
    2. vi /etc/inittab
    3. # Run gettys in standard runlevels
    4. 1:2345:respawn:/sbin/mingetty tty1
    5. #2:2345:respawn:/sbin/mingetty tty2
    6. #3:2345:respawn:/sbin/mingetty tty3
    7. #4:2345:respawn:/sbin/mingetty tty4
    8. #5:2345:respawn:/sbin/mingetty tty5
    9. #6:2345:respawn:/sbin/mingetty tty6

    修改history命令记录

    
     
    1. cp /etc/profile /etc/profilebak
    2. vi /etc/profile
    3. 找到 HISTSIZE=1000 改为 HISTSIZE=50

    隐藏服务器系统信息

    在缺省情况下,当你登陆到linux系统,它会告诉你该linux发行版的名称、版本、内核版本、服务器的名称。
    为了不让这些默认的信息泄露出来,我们要进行下面的操作,让它只显示一个"login:"提示符。
    删除/etc/issue和/etc/issue.net这两个文件,或者把这2个文件改名,效果是一样的。

    
     
    1. mv /etc/issue /etc/issuebak
    2. mv /etc/issue.net /etc/issue.netbak

    优化Linux内核参数

    
     
    1. cp /etc/sysctl.conf /etc/sysctl.confbak
    2. vi /etc/sysctl.conf #在文件末尾添加以下内容
    3. net.ipv4.tcp_max_syn_backlog = 65536
    4. net.core.netdev_max_backlog = 32768
    5. net.core.somaxconn = 32768
    6. net.core.wmem_default = 8388608
    7. net.core.rmem_default = 8388608
    8. net.core.rmem_max = 16777216
    9. net.core.wmem_max = 16777216
    10. net.ipv4.tcp_timestamps = 0
    11. net.ipv4.tcp_synack_retries = 2
    12. net.ipv4.tcp_syn_retries = 2
    13. net.ipv4.tcp_tw_recycle = 1
    14. #net.ipv4.tcp_tw_len = 1
    15. net.ipv4.tcp_tw_reuse = 1
    16. net.ipv4.tcp_mem = 94500000 915000000 927000000
    17. net.ipv4.tcp_max_orphans = 3276800
    18. #net.ipv4.tcp_fin_timeout = 30
    19. #net.ipv4.tcp_keepalive_time = 120
    20. net.ipv4.ip_local_port_range = 10024 65535 #(表示用于向外连接的端口范围。缺省情况下很小:32768到61000 注意:这里不要将最低值设的太低,否则可能会占用掉正常的端口! )
    21. /sbin/sysctl -p #使配置立即生效

    系统优化

    
     
    1. cp /etc/profile /etc/profilebak2
    2. vi /etc/profile #在文件末尾添加以下内容
    3. ulimit -c unlimited
    4. ulimit -s unlimited
    5. ulimit -SHn 65535
    6. source /etc/profile #使配置立即生效
    7. ulimit -a #显示当前的各种用户进程限制

    服务器禁止ping

    
     
    1. cp /etc/rc.d/rc.local /etc/rc.d/rc.localbak
    2. vi /etc/rc.d/rc.local #在文件末尾增加下面这一行
    3. echo 1 > /proc/sys/net/ipv4/icmp_echo_ignore_all
    4. 参数0表示允许 1

    检查口令策略设置是否符合复杂度要求

    
     
    1. cp -p /etc/pam.d/system-auth /etc/pam.d/system-auth_bak
    2. vi /etc/pam.d/system-auth
    3. 可使用pam pam_cracklib module或pam_passwdqc module实现密码复杂度,两者不能同时使用
    4. password requisite pam_cracklib.so dcredit=-1 ucredit=-1 lcredit=-1 ocredit=-1 minclass=2 minlen=8
    5. password sufficient pam_unix.so md5 shadow nullok try_first_pass use_authtok

    检查登录提示-是否设置登录成功后警告Banner

    修改文件/etc/motd的内容,如没有该文件,则创建它。

    
     
    1. #echo " Authorized users only. All activity may be monitored and reported " > /etc/motd

    检查是否设置登录超时

    执行备份:

    
     
    1. cp -p /etc/profile /etc/profile_bak
    2. cp -p /etc/csh.cshrc /etc/csh.cshrc_bak

    修改/etc/csh.cshrc文件,添加如下行:

    
     
    1. set autologout=30

    改变这项设置后,重新登录才能有效

    五 多路径设置

    随着X86 环境的普及化,Linux 的市场占有率也越来越高,为了方便后续的设备管理我们和Linux 自带多路径软件的成熟化,我们在日常的设备多路径软件选择方面经常会首先考虑使用DM 软件,本次多路径设置主要是结合REDHAT和CENTOS自带软件DM--- Multipath
    参考链接:
    http://www.aixchina.net/Question/229227

    六 OS 系统异常性能指标获取

    CPU占用最高的10个进程

    
     
    1. ps axww -o user,pid,pcpu,pmem,start,time,comm | head -1;ps axww -o user,pid,pcpu,pmem,start,time,comm | grep -v PID | sort -nr -k 3 | head
    2. ps aux|head -1;ps aux|grep -v PID|sort -rn -k +3|head
    3. ps auxw|head -1;ps auxw|sort -rn -k3|head -10

    内存占用最高的10个进程

    
     
    1. ps axww -o user,pid,pcpu,pmem,start,time,comm | head -1 ;ps axww -o user,pid,pcpu,pmem,start,time,comm | grep -v PID | sort -nr -k 4 | head
    2. ps aux|head -1;ps aux|grep -v PID|sort -rn -k +4|head
    3. ps auxw|head -1;ps auxw|sort -rn -k4|head -10

    虚拟内存使用最多的前10个进程

    
     
    1. ps auxw|head -1;ps auxw|sort -rn -k5|head -10

    查看系统负载

    
     
    1. dstat --top-mem --top-io --top-cpu --nocolor 1 10

    统计当前连接数

    
     
    1. ss -an | grep -v "State" | awk '{++S[$1]} END {for(a in S) print a, S[a]}'
    2. netstat -tan | awk '/^tcp/ {++S[$NF]} END {for(a in S) print a, S[a]}'

    当前连接数最多的10个进程

    
     
    1. ss -tnp | grep -v "State" | awk '{print $6}' | awk -F '"' '{print $2}' | awk '{++S[$1]} END {for(a in S) print a, S[a]}' | sort -nr -k2 | head
    2. netstat -tnp | grep -v "Active" | grep -v "TIME_WAIT" | grep -v "State" | awk -F '/' '{print $NF}' | awk '{++S[$1]} END {for(a in S) print a, S[a]}' | sort -nr -k2 | head

    七 LVM日常使用

    LVM在日常运维工作当中占据着很大的比重,在此我列举LVM常见的日常操作及步骤。

    1. 添加一个磁盘到OS,格式化文件系统使用,参考如下: 扫描磁盘
      
       
      1. pvcreate /dev/sdb
      2. vgcreate -s 8M datavg /dev/sdb
      3. lvcreate -L 10G -n datalv datavg
      4. mkfs.ext3 /dev/datavg/datalv
      5. mount /dev/datavg/datalv /data
      6. lvextend -L 20G /dev/datavg/datalv
      7. resize2fs /dev/datavg/datavlv

      这个其中每个步骤就不在做详细解释,有兴趣的可以独自搜索

    2.文件系统的扩容和缩小(根文件系统缩小要相当的慎重)

    
     
    1. # lsscsi
    2. [1:0:0:0]cd/dvd NECVMWar VMware IDE CDR10 1.00 /dev/sr0
    3. [2:0:0:0]disk VMware Virtual disk 1.0 /dev/sda
    4. [2:0:1:0]disk VMware Virtual disk 1.0 /dev/sdb
    5. [2:0:2:0]disk VMware Virtual disk 1.0 /dev/sdc
    6. [2:0:3:0]disk VMware Virtual disk 1.0 /dev/sdd
    7.  
    8. # pvs
    9. PV VG Fmt Attr PSize PFree
    10. /dev/sda2 VolGroup lvm2 a-- 49.51g 0
    11. /dev/sdb VolGroup lvm2 a-- 50.00g 6.57g
    12.  
    13. # pvcreate /dev/sdc
    14. Writing physical volume data to disk "/dev/sdc"
    15. Physical volume "/dev/sdc" successfully created
    16.  
    17. # vgcreate datavg /dev/sdc
    18. Volume group "datavg" successfully created
    19.  
    20. # vgs
    21. VG #PV #LV #SN Attr VSize VFree
    22. VolGroup 2 2 0 wz--n- 99.50g 6.57g
    23. datavg 1 0 0 wz--n- 5.00g 5.00g
    24.  
    25. # lvcreate datavg -n datalv -L 3g
    26. Logical volume "datalv" created
    27.  
    28. # mkfs.ext4 /dev/datavg/datalv
    29. mke2fs 1.41.12 (17-May-2010)
    30. Filesystem label=
    31. OS type: Linux
    32. Block size=4096 (log=2)
    33. Fragment size=4096 (log=2)
    34. Stride=0 blocks, Stripe width=0 blocks
    35. 196608 inodes, 786432 blocks
    36. 39321 blocks (5.00%) reserved for the super user
    37. First data block=0
    38. Maximum filesystem blocks=805306368
    39. 24 block groups
    40. 32768 blocks per group, 32768 fragments per group
    41. 8192 inodes per group
    42. Superblock backups stored on blocks:
    43. 32768, 98304, 163840, 229376, 294912
    44. Writing inode tables: done
    45. Creating journal (16384 blocks): done
    46. Writing superblocks and filesystem accounting information:
    47. done
    48. This filesystem will be automatically checked every 27 mounts or
    49. 180 days, whichever comes first. Use tune2fs -c or -i to override.
    50.  
    51. # mkdir /datafs
    52. mount /dev/datavg/datalv /datafs/
    53.  
    54. # df -h
    55. Filesystem Size Used Avail Use% Mounted on
    56. /dev/mapper/VolGroup-lv_root
    57. 88G 3.8G 80G 5% /
    58. tmpfs 939M 0 939M 0% /dev/shm
    59. /dev/sda1 485M 33M 427M 8% /boot
    60. /dev/mapper/datavg-datalv
    61. 3.0G 69M 2.8G 3% /datafs

    在线扩容文件系统:

    
     
    1. # vgs datavg
    2. VG #PV #LV #SN Attr VSize VFree
    3. datavg 1 1 0 wz--n- 5.00g 2.00g
    4.  
    5. # lvextend -L 4G /dev/datavg/datalv
    6. Extending logical volume datalv to 4.00 GiB
    7. Logical volume datalv successfully resized
    8. [root@esayops ~]# resize2fs /dev/datavg/datalv
    9. resize2fs 1.41.12 (17-May-2010)
    10. Filesystem at /dev/datavg/datalv is mounted on /datafs; on-line resizing required
    11. old desc_blocks = 1, new_desc_blocks = 1
    12. Performing an on-line resize of /dev/datavg/datalv to 1048576 (4k) blocks.
    13. The filesystem on /dev/datavg/datalv is now 1048576 blocks long.
    14.  
    15. # df -h
    16. Filesystem Size Used Avail Use% Mounted on
    17. /dev/mapper/VolGroup-lv_root
    18. 88G 3.8G 80G 5% /
    19. tmpfs 939M 0 939M 0% /dev/shm
    20. /dev/sda1 485M 33M 427M 8% /boot
    21. /dev/mapper/datavg-datalv
    22. 4.0G 70M 3.7G 2% /datafs

    缩小文件系统:

    
     
    1. # lvs
    2. LV VG Attr LSize Pool Origin Data% Move Log Copy% Convert
    3. lv_root VolGroup -wi-ao-- 89.00g
    4. lv_swap VolGroup -wi-ao-- 3.94g
    5. datalv datavg -wi-a--- 4.00g
    6.  
    7. # umount /datafs
    8.  
    9. # df -h
    10. Filesystem Size Used Avail Use% Mounted on
    11. /dev/mapper/VolGroup-lv_root
    12. 88G 3.8G 80G 5% /
    13. tmpfs 939M 0 939M 0% /dev/shm
    14. /dev/sda1 485M 33M 427M 8% /boot
    15.  
    16.  
    17. # resize2fs /dev/datavg/datalv 2G
    18. resize2fs 1.41.12 (17-May-2010)
    19. Please run 'e2fsck -f /dev/datavg/datalv' first.
    20.  
    21. # e2fsck -f /dev/datavg/datalv
    22. e2fsck 1.41.12 (17-May-2010)
    23. Pass 1: Checking inodes, blocks, and sizes
    24. Pass 2: Checking directory structure
    25. Pass 3: Checking directory connectivity
    26. Pass 4: Checking reference counts
    27. Pass 5: Checking group summary information
    28. /dev/datavg/datalv: 11/262144 files (0.0% non-contiguous), 34382/1048576 blocks
    29.  
    30. # resize2fs /dev/datavg/datalv 2G
    31. resize2fs 1.41.12 (17-May-2010)
    32. Resizing the filesystem on /dev/datavg/datalv to 524288 (4k) blocks.
    33. The filesystem on /dev/datavg/datalv is now 524288 blocks long.
    34.  
    35. # mount /dev/datavg/datalv /datafs/
    36.  
    37. # df -h
    38. Filesystem Size Used Avail Use% Mounted on
    39. /dev/mapper/VolGroup-lv_root
    40. 88G 3.8G 80G 5% /
    41. tmpfs 939M 0 939M 0% /dev/shm
    42. /dev/sda1 485M 33M 427M 8% /boot
    43. /dev/mapper/datavg-datalv
    44. 2.0G 69M 1.9G 4% /datafs

    3 在线删除一个共享磁盘LUN

    
     
    1. pvremove
    2. multipath -f
    3. echo 1 > /sys/block/sdd/device/delete

    例如:

    
     
    1. [root@esayops /]# lsscsi -g
    2. [1:0:0:0] cd/dvd NECVMWar VMware IDE CDR10 1.00 /dev/sr0 /dev/sg0
    3. [2:0:0:0] disk VMware Virtual disk 1.0 /dev/sda /dev/sg1
    4. [2:0:1:0] disk VMware Virtual disk 1.0 /dev/sdb /dev/sg2
    5. [2:0:2:0] disk VMware Virtual disk 1.0 /dev/sdc /dev/sg3
    6. [2:0:3:0] disk VMware Virtual disk 1.0 /dev/sdd /dev/sg4

    删除一个不用的lun

    
     
    1. [root@esayops /]# echo 1 > /sys/block/sdd/device/delete
    2. [root@esayops /]# lsscsi
    3. [1:0:0:0] cd/dvd NECVMWar VMware IDE CDR10 1.00 /dev/sr0
    4. [2:0:0:0] disk VMware Virtual disk 1.0 /dev/sda
    5. [2:0:1:0] disk VMware Virtual disk 1.0 /dev/sdb
    6. [2:0:2:0] disk VMware Virtual disk 1.0 /dev/sdc

    删除环节:

    
     
    1. 1. Take the disk offline:
    2. cd /sys/block/sdb/device
    3. echo “offline” >state
    4.  
    5. 2. Delete from /dev
    6. echo 1 >delete
    7. You can make your own script with the name rmdev ??
    8.  
    9. #!/bin/ksh
    10. dev=$1
    11. [[ ! -d “$dev” ]] && echo “$dev does not exist” && exit 1
    12. echo “offline” >/sys/block/”$dev”/device/state
    13. echo 1 >/sys/block/”$dev”/device/delete

    八 Linux 运维命令掌握

    Linux 下面日常运维使用的命令有太多了,根据个人的情况进行适当的记忆。
    系统负载:top ,nmon,dstat 等
    网络:ss,netstat,route,diag,ping,ip,lsof 等
    io:dd,iostat,fio,nmon,dstat,pvs,lvs,vgs 等
    内存:free,dstat
    进程:ps,lsof 等
    配置:lscpu,lspci,dmidecode,lsscsi,udev 等
    设备识别:echo '---' ,rescan-scsi-bus.sh 等
    诊断:strace,ltrace
    比如还有find 如何结合xargs ,tree的使用,lsblk 等等,还有很多很多,需要长期的积累,当然主要使用还是配置查看,LVM设置,网络
    还有很多成熟的开源和商业产品进行管理,在此不一一列举,感觉可自行百度和google。

    目前主流的python,ruby这些语言工具可以根据自身情况选择一个掌握。

    九 诊断工具

    在日常的运维过程当中,不免要进行所谓的性能或者故障方面问题的诊断,工具和手段包罗万象,在此我列举一些日常使用的一些工具用于参考,

    
     
    1. Pstack truss pmap gdb strace strace -o ssh.strace -Ttt -p 1983
    2. ipcs 共享内存 ipcrm
    3. ldd
    4. logsave logsave /tmp/logsave.log ls 纪录命令的输出到文件
    5. lastlog 纪录用户最后的登录时间 lastb显示用户错误登录的纪录
    6. logwatch 监控分析日志信息
    7. grpck /etc/group
    8. pwck /etc/passwd
    9. pidstat pidof
    10. iostat -xdm 1
    11. blockdev
    12. curl 访问web 测试 比lynx好一点

    这里附上一幅Linux 开机流程图,这样很多人就可以更加清楚的了解了Linux在启动的整个流程,编译此类问题的解决。
    123.png

    123.png

    十 网络必杀技

    Netcat,SSH 几种隧道转发模式 ,lsof,dstat ,ethtool,iptraf,iperf,diag,route 和多个网卡路由及双网卡绑定技术值得了解,这些都是os层面运维网络方面经常会使用到的几个方面

    在日常较为常用的操作就是进行双网卡的绑定,下面分享一个绑定的具体流程:

    
     
    1. 1、cp /etc/sysconfig/network/ifcfg-eth0 /etc/sysconfig/network/ifcfg-eth0.bak
    2. cp /etc/sysconfig/network/ifcfg-eth0 /etc/sysconfig/network/ifcfg-bond0
    3.  
    4. 2、vi /etc/sysconfig/network/ifcfg-eth0,注释所有(除以下两行内容),并将值修改如下:
    5. BOOTPROTO='none'
    6. STARTMODE='off'
    7.  
    8. 3、cp /etc/sysconfig/network/ifcfg-eth0 /etc/sysconfig/network/ifcfg-eth1
    9.  
    10. 4、vi /etc/sysconfig/network/ifcfg-bond0,增加或更新如下内容,其他内容可注释:
    11. BOOTPROTO='static'
    12. IPADDR='192.168.1.100'
    13. NETMASK='255.255.255.0'
    14. STARTMODE='onboot'
    15. BONDING_MASTER='yes'
    16. BONDING_MODULE_OPTS='mode=0 miimon=100 use_carrier=0'
    17. BONDING_SLAVE0='eth0'
    18. BONDING_SLAVE1='eth1'
    19.  
    20. 说明:以上配置mode=0为负载均衡模式,如果需要配置成主备模式,BONDING_MODULE_OPTS配置如下:
    21. BONDING_MODULE_OPTS='mode=1 miimon=100 use_carrier=0 primary=eth0'
    22.  
    23. 5、rcnetwork restart,重启网络服务生效,并进行测试。
    24.  
    25. 6、cat /proc/net/bonding/bond0 可以查看bonding的状态。
    展开全文
  • 一、Linux 系统日常运维九大技能 1、安装部署 方式:U盘,光盘和网络安装 其中网络安装已经成为了目前批量部署的首选方式:主要工具有Cobbler和PXE+kickstart 可以参考如下链接内容: ...禁...

    一、Linux 系统日常运维九大技能

    1、安装部署

    方式:U盘,光盘和网络安装

    其中网络安装已经成为了目前批量部署的首选方式:主要工具有Cobbler和PXE+kickstart

    可以参考如下链接内容:

    http://www.cnblogs.com/mchina/p/centos-pxe-kickstart-auto-install-os.html

    2、初始化配置

    禁用服务

    禁用SeLinux

    配置YUM源配置

    可以配置为光盘,内部YUM源或EPEL等

    常用软件安装

    安装xwindows

    配置ntp

    Crontab 添加如上记录,指定内部ntp服务器

    SSH 登录设置

    修改ssh 禁用DNS 选项:

    添加允许指定用户登录:

    上传扫描工具

    网络上有该脚本,下载自行使用

    修改历史记录格式

    3、安全加固

    本次安全加固内容主要参考的是Redhat和Centos系列版本系统:

    参考链接
    http://www.centoscn.com/CentosSecurity/CentosSafe/2015/0315/4881.html

    注释掉系统不需要的用户和用户组

    注意:不建议直接删除,当你需要某个用户时,自己重新添加会很麻烦。

    关闭系统不需要的服务

    给下面的文件加上不可更改属性,从而防止非授权用户获得权限

    限制不同文件的权限

    禁止使用Ctrl+Alt+Del快捷键重启服务器

    使用yum update更新系统时不升级内核,只更新软件包

    注意:由于系统与硬件的兼容性问题,有可能升级内核后导致服务器不能正常启动,这是非常可怕的,没有特别的需要,建议不要随意升级内核。

    关闭Centos自动更新

    关闭多余的虚拟控制台

    我们知道从控制台切换到 X 窗口,一般采用 Alt-F7 ,为什么呢?因为系统默认定义了 6 个虚拟控制台,

    所以 X 就成了第7个。实际上,很多人一般不会需要这么多虚拟控制台的,修改/etc/inittab ,注释掉那些你不需要的。

    修改history命令记录

    隐藏服务器系统信息

    在缺省情况下,当你登陆到linux系统,它会告诉你该linux发行版的名称、版本、内核版本、服务器的名称。

    为了不让这些默认的信息泄露出来,我们要进行下面的操作,让它只显示一个"login:"提示符。

    删除/etc/issue和/etc/issue.net这两个文件,或者把这2个文件改名,效果是一样的。

    优化Linux内核参数

    系统优化

    服务器禁止ping

    检查口令策略设置是否符合复杂度要求

    检查登录提示-是否设置登录成功后警告Banner

    修改文件/etc/motd的内容,如没有该文件,则创建它。

    检查是否设置登录超时

    执行备份:

    修改/etc/csh.cshrc文件,添加如下行:

    改变这项设置后,重新登录才能有效

    5、多路径设置

    随着X86 环境的普及化,Linux 的市场占有率也越来越高,为了方便后续的设备管理我们和Linux 自带多路径软件的成熟化,我们在日常的设备多路径软件选择方面经常会首先考虑使用DM 软件,本次多路径设置主要是结合REDHAT和CENTOS自带软件DM--- Multipath

    参考:
    Linux 操作系统层面Multipath 配置使用技巧及注意事项(点击标题可读)

    6、系统异常性能指标获取

    CPU占用最高的10个进程

    内存占用最高的10个进程

    虚拟内存使用最多的前10个进程

    查看系统负载

    统计当前连接数

    当前连接数最多的10个进程

    6、LVM日常使用

    LVM在日常运维工作当中占据着很大的比重,在此我列举LVM常见的日常操作及步骤。

    1. 添加一个磁盘到OS,格式化文件系统使用,参考如下:

    扫描磁盘

    这个其中每个步骤就不在做详细解释,有兴趣的可以独自搜索

    2.文件系统的扩容和缩小(根文件系统缩小要相当的慎重)

    在线扩容文件系统:

    缩小文件系统:

    3. 在线删除一个共享磁盘LUN

    例如:

    删除一个不用的lun

    删除环节:

    7、Linux 运维命令掌握

    Linux 下面日常运维使用的命令有太多了,可以根据个人的情况进行适当的记忆。

    系统负载:top ,nmon,dstat 等

    网络:ss,netstat,route,diag,ping,ip,lsof 等

    io:dd,iostat,fio,nmon,dstat,pvs,lvs,vgs 等

    内存:free,dstat等

    进程:ps,lsof 等

    配置:lscpu,lspci,dmidecode,lsscsi,udev 等

    设备识别:echo '---' ,rescan-scsi-bus.sh 等

    诊断:strace,ltrace等

    比如还有find 如何结合xargs ,tree的使用,lsblk 等等,还有很多很多,需要长期的积累,当然主要使用还是配置查看,LVM设置,网络

    还有很多成熟的开源和商业产品进行管理,在此不一一列举,感觉可自行百度和google。

    目前主流的python,ruby这些语言工具可以根据自身情况选择一个掌握。

    8、诊断工具

    在日常的运维过程当中,不免要进行所谓的性能或者故障方面问题的诊断,工具和手段包罗万象,在此列举一些日常使用的工具用于参考。

    这里附上一幅Linux 开机流程图,这样很多人就可以更加清楚的了解了Linux在启动的整个流程,便于此类问题的解决。

    9、网络必杀技

    Netcat,SSH 几种隧道转发模式 ,lsof,dstat ,ethtool,iptraf,iperf,diag,route 和多个网卡路由及双网卡绑定技术值得了解,这些都是os层面运维网络方面经常会使用到的几个方面

    在日常较为常用的操作就是进行双网卡的绑定,下面分享一个绑定的具体流程:

    1、cp /etc/sysconfig/network/ifcfg-eth0 /etc/sysconfig/network/ifcfg-eth0.bak

    cp /etc/sysconfig/network/ifcfg-eth0 /etc/sysconfig/network/ifcfg-bond0

    2、vi /etc/sysconfig/network/ifcfg-eth0,注释所有(除以下两行内容),并将值修改如下:

    BOOTPROTO='none'

    STARTMODE='off'

    3、cp /etc/sysconfig/network/ifcfg-eth0 /etc/sysconfig/network/ifcfg-eth1

    4、vi /etc/sysconfig/network/ifcfg-bond0,增加或更新如下内容,其他内容可注释:

    说明:以上配置mode=0为负载均衡模式,如果需要配置成主备模式,BONDING_MODULE_OPTS配置如下:

    BONDING_MODULE_OPTS='mode=1 miimon=100 use_carrier=0 primary=eth0'

    5、rcnetwork restart,重启网络服务生效,并进行测试。

    6、cat /proc/net/bonding/bond0 可以查看bonding的状态。

     

    二、Linux 系统运维的网络知识总结

    1、系统运维中网络方面的规划与思考

    在很多公司,岗位职责都是很明确的,专职转岗,每人或者每组负责一块业务。系统运维岗基本上在IT架构上相对偏后一些,该岗位和网络管理岗基本上是平行的。因为今天咱们说的是系统运维方面网络方面的事情,或多或少都会和网络岗打交道,那么谈一点网络岗的内容就显得很有必要。

    系统运维建立在网络的基础之上,如果没有一个相对合理的网络架构,恐怕系统运维做起来也不是那么的顺手。一个公司基本上都会把网络和服务器独立开来,划分不同的区域摆放设备,很多时候都是物理隔离。服务器接入交换机大多是经过配线架连接起来和有的服务器机柜头柜安装网络交换机,是相对比较常见的两种方式。

    走线从侧面可以反映一个企业对IT的重视程度和投入,很多企业是做不到如图这么漂亮的效果的。这一切一切还要立足于预算,现在基本上没有预算啥事也干不了。

    大多数IT机房当初建立的时候,从设备混乱摆放到区域明确划分存放,又从区域功能明确到后来的后来的功能区域模糊,都反映了一个问题:计划赶不上变化。十年前还相当前卫的规划,到现在已经跟不上时代,这并不是谁的错,还是要求我们去适应去改变,业务引领变革,基础架构也需要做相应调整,所谓唯一不变的就是变。

    我心中企业目前现阶段相对比较理想的架构这样的,如图所示:

    这样一个传统企业典型的网络结构,保证每个核心节点都是双链路,链路异常自动切换,各种切换在这种典型的网络结构上都或多或少的简单或复杂,不尽相同。网络方面关注几个点:稳定,安全,自动化。业务系统组件也尽量避免单点问题。

    这样后端业务系统在连接网络层面稳定性就有了保障,在主机系统层面,尽量避免单独问题,消除性能瓶颈,异常能够自动告警自动修复得相对比较完美,当然这一切还要立足于预算。

    2、系统运维中网络方面操作梳理

    在系统运维中,经常涉及的网络方面的操作,一般由以下几个方面组成。

    1.设备上线,物理连线设置

    很多运维人员要从事从刚开始立项到项目上线再到后期运维的一条龙服务,每个环节都要自己亲自动手,这是好事也是坏事,好的是自己的环境一般会非常的熟悉,不好的是事必躬亲,不出活,业绩不明显。插个线都要自己来,你恐怕也没太多精力干其他的,这就是个矛盾体,自己把握就好。

    2.网络逻辑配置调整

    这一块内容就涉及到了具体的操作,你可以手工一步一步操作,也可以借助高大上的工具批量完成,这个要看企业的IT建设的能力。一个掩码一个点错误都会导致网络连接异常。如果自己有开发能力也可以使用脚本或语言写成成型的东西,平时多多积累,使用的时候就会方便很多。

    具体内容涉及:

    1) 配置ip,别名,设置个端口监听,绑定个网卡,设置个路由

    2) 划分个vlan,配置个trunk

    3) 测试个端口,配置个监控

    具体的操作过程在此不做过多的介绍,比如做个网卡绑定啊,测试个端口啊,这些操作网上有大批的文档可以查阅,本节内容就是描述在日常的Linux系统运维方面所涉及网络方面的操作,有一个整体的印象。

    3.性能分析与优化

    该部分内容相对不太容易操作,不是随随便都可以依葫芦画瓢就能完成,性能稳定分析和定位相对困难一些,很多场景都需要结合多个方面进行统一分析。这个需要一些工作经验的结论和沉淀,选择合适的工具,多方面配合往往会有比较好的效果。

    工欲善其事,必先利其器:

    熟练掌握该图上面的各种工具,基本上可以解决性能分析99%的工作,那剩下的1%的不是bug就是天灾。这里其实在说笑了,但这也说明一个好的工具有多么的重要。剩余就是要仔细认真,再好的工具,不会用也不行,态度是第一位的。

    3、系统运维过程中需要掌握的利器

    在上文中分享了一个图,该图涵盖的面比较广,本节内容主要针对网络方面进行一些梳理,分享一下在工作当中经常使用的利器。

    首先我们来分享一张目前Linux 系统性能查看调优工具图:

    这张图片基本上涵盖了Linux系统各个方面的性能工具,可以说相当的全面,下面我们看一下有关网络方面我们常用的命令或工具有哪些,这样有助于大家方便查看和使用。

    以上工具基本上在日常工作当中经常会使用到,每个工具都有其侧重点,这里列举的只是大量工具中的一小部分,因为每个人使用习惯不一样,各有侧重,选择适合自己就好,以上工具仅供参考。

    本文内容意在梳理分享,不在具体的工具使用方面做更加深入的讲解,因为每一个工具如果详细讲起来都会涉及大量篇幅,也不可能面面俱到,有兴趣的可以在社区或搜索引擎搜索之。

    推荐小工具:

    Dig,ethtool,iperf,iftop,dstat,mtr

    比如在你想知道两个主机之间的带宽是否能够到达相应的带宽,请使用iperf。想动态的查看目的地是否可到以及延迟等信息,请使用mtr。

    4、故障的诊断与分析

    故障诊断处理方面不是一两句话就可以说清楚的,很大程度上在于平时经验的积累,很多故障都是相互关联的,如何顺藤摸瓜,找到问题的最终原因,有一些方法可以借鉴。这里不具体描述解决那个问题用了什么方法,只是聊聊解决问题有哪些经验和技巧。

    分享一点小小的经验:

    a)平时要多问几个为什么

    b)故障是否可以重现,找到第一个场景,关注整体结合细节

    c)多方面相互参考,同事之间相互配合

    d)可以多做几个假设,直到推翻自己的想法

    e)自己的工具箱要有几个使用顺手的TOOLS,包括自己开发的

    以上只是一些解决问题的方法,具体问题还要具体分析。

    下面我们结合一个真实的案例来描述一下:在出现网络故障时,。我们如何想办法快速的排除问题。

    场景描述:

    某日下午,公司里内部的业务系统突然出现反应比较慢的问题,多个业务管理员过来描述问题现象。近期一段时间内曾出现过类似的问题,该类问题的原因是由于业务区的防火墙老旧,处理能力不足,导致CPU在短时间内使用率激增,超过了境界阈值很多,导致此类现象的发生。

     

    解决思路:

    1)初步定位

    又是类似问题的出现,肯定不是个别业务系统的问题,一看就是有共性的,问题应该是出现在网络设备上才对,这样才会造成大面积的问题,可是该防火墙一周前已经升级换代了,不应该有此类问题了。查看业务区域拓扑,因为拓扑已经在心中,直接搞起。

    2) 逐步排查

    首先登录新的防火墙,查看CPU使用率,一切正常,看来问题不在此。

    然后登录业务系统去交换机查看负载,一看果然是高,高达99%,我勒个去,配合网络管理员查看问题原因,查看各种性能信息,初步没有太合理的线索,不能精准定位问题。收集各种信息准备发给厂商支持。

    3) 协助排查

    多方回忆近期有无做过其他操作。

    网络方面: 一周前升级换代该区域防护墙

    主机方面: 昨天接入6太新设备,并做端口绑定bond

    4)再次排查

    由于该区域Windows主机设备均已经安装杀毒软件,病毒的可能性不大,Linux 病毒可能性就更小了,先初步忽略。 由于昨天上线6个主机设备,着重观察网络设备所连接端口,

    通过交换机和监控性能视图分析该端口今天出现流量过大的问题,端口饱和。由于影响业务面比较广,需要快速定位问题或者暂时消除影响。初步意见,交换机上线shutdown 这6台机器所连端口。持续观察了一段时间,交换机CPU 负载下来了,其他业务逐渐恢复。考虑到已经下班,暂时观察一下,明天看情况再做调整。并结合一下厂商意见。

    5) 第二日上班后,6台机器业务恢复,交换机CPU负载又上来了,但是其他业务没有影响,什么情况?再次进行梳理,找问题线索。

    6) 进一步排查

    网络管理员打开debug 查看信息,经过一段时间的分析梳理发现有12个mac 地址频繁的在两台交换机来回出现,核对mac 后,可以定位引起CPU过载的原因是这新上线的6台机器(每台机器两个端口bond),果断拔掉其中一个端口,交换机CPU负载很快下来,那么就可以能定位bond绑定有问题。

    7) 系统进一步排查

    我做了很多次bond了,就算这次换了一个高版本操作系统应该也没有问题啊,果断检查之,查看绑定模式,一看模式为0 ,当时一惊,不应该啊。进一步查看确实是模式配置错误了,当初我想设定的是模式6,后来不知道怎么写成0 了,以为其他机器都是拷贝过去的,所以都是模式0了,立马改之。重启网卡,一切看似正常,重新插入网线观察交换机CPU 负载很稳定。这次CPU高应该是这个引起的无疑了,这个锅扣到我脑袋上了。

    8)下午14:00,问题又出现了,这次交换机的cpu也不高了,什么情况,一脸懵逼的状态。

    再次排查,这次聚焦交换机,收集大量信息反馈给厂商,很快厂商给出的建议说是端口饱和丢包严重,影响了其他业务端口的正常使用,经过厂商进一步排查确认,该型号交换机虽然以前性能很好,但是已经属于老旧设备,该型号端口组背板能力只有1G,该组其他端口带宽总和已经超过了1G,属于交换机处理能力不足。

    9) 进一步协调该项目人员,调整大量交互端口成内网私有网段,单独使用一个千兆交换机做内部业务交互使用,外部访问还继续走这个交换机。最终这个问题得到解决。

    总结:

    此次事件引出三个问题:

    1.端口绑定不可马虎,需要仔细再仔细,并做验证

    2.预估业务端口网络流量不足,主机设备连线分配不合理

    3.交换机老旧,处理能力不足

    后续应该针对此类事情多多的总结,升级换代产品,深入了解业务特性

     

    原文地址:

    RedHat 和CentOS 日常运维运维十大关注

    http://www.talkwithtrend.com/Article/178137

    REDHAT和CENTOS 运维中网络知识汇总

    http://www.talkwithtrend.com/Article/244015

    展开全文
  • 我来答答题:数据中心运维可以分为两大类,其一是基础设施运维,其二是基础环境运维(IaaS类)下文逐步分解:一、基础设施运维:1.1机房管理方面:1.1.1机房人员出入管理(管理工具如:出入人员管理流程含出入申请审批...

    我来答答题:

    数据中心运维可以分为两大类,其一是基础设施运维,其二是基础环境运维(IaaS类)

    下文逐步分解:

    一、基础设施运维:

    1.1机房管理方面:

    1.1.1机房人员出入管理(管理工具如:出入人员管理流程含出入申请审批等)

    1.1.2机房设备出入管理(管理工具如:设备出入申请,设备双电要求最重要的是机房设备台账)

    1.1.3机房承重(通过控制入室设备重量可以降低承重风险)

    1.1.4机房环境温、湿管理(通过巡检记录加以管理)

    1.1.5机房电力管理(通过巡检记录加以管理)

    1.1.6机房的监控管理(通过进出机房人员的数量与1.1.1章节内的人员出入做比对)

    1.1.7机房线缆管理即网线(含存储线等)、光纤和电源线管理(其内容主要围绕着横平竖直,捆扎带松紧,电源线长度预留等)

    执行以上内容的人员素质不需要很高,但是,注意,管理以上执行者的领导(领队、带头人)在选择时至关重要。

    在关于机房基础设施的内容中往往会出现对基础设施的变更的操作,如,因业务需求在机房内放置了超过机房设计时规定的功率的设备,这个时候就需要协调机房方面对机房相关区域进行基础环境改造的工作,在改造完毕后设备进入运行过程中,一定要时时关注设备的运行状态,特别是注意设备运行的温度,我在工作中就出现过因为“认为环境变更完毕后”就可以放心使用的情况,结果出现设备温度高导致的一系列的联动反应。

    在工作执行中,本着不需要执行者“动脑”作为工作原则,即,制作完美的SOP,完整的交接班制度和可落地的工作流程及问题处理流程即可驱动,在此需要明示的是,注意执行者本人的工作素质,在项目中不要过于放手,要建立阶梯式管理机制(即,一个人最多管7七个人)必要时,或者成本可以控制时,可以采用一班两岗的工作模式,避免因为人员失误导致错误操作和漏报的情况,特别是在处理服务请求中的更换硬盘、内存、电源等等工作

    PS:特别注意夏天,空调工作效率会降低,注意,撰写应急预案

    1.2机房容灾方面

    制定机房应急预案,其中重点包括但不限于,空调故障时应急预案,单路电力故障时应急预案,环境温湿度高时应急预案等

    二、基础环境运维:

    基础环境运维实际可以分为周期性工作和非周期性工作,指导思想来自ITSM(itil)

    名词解释:

    周期性工作

    服务请求

    事件处理

    变更管理

    问题-风险跟踪记录

    2.1 周期性工作

    所谓的周期性工作,指的是周期的、重复的工作,比如:配置备份、账户回顾、配置回顾、更新各类系统的操作手册等等。别小看周期性的工作,其实它是运维工作权值较高的工作内容,怎么将周期性的工作合理而有效的运转起来呢?我们工作中将周期性工作纳入运维日历,将重复性的工作条带化规范化,通过制作SOP,检查SOP执行情况,执行团队反馈SOP使用情况,跟进SOP优化情况,进行周期性的、重复性工作的执行指导。 ----以上内容不知道有没有说透,要是没有请留言。

    2.2非周期性工作(主要含服务请求、事件处理、变更管理、问题-风险跟踪记录)

    本章节内容,主要围绕着流程、SOP、PDCA进行展开,那么咱们现在需要名词定义

    定义,服务请求、事件处理、变更管理,问题-风险跟踪记录,如果学习或了解过ITSM的工程师对以上的名字并不陌生,我也是,我认真的学习过上面的内容,我的同事、朋友也学习过,但是我们在针对以上名词进行探讨的时候却发生了很大的奇异,所谓的奇异就是我们各自理解的不一致,而且这个现象困扰了我们很久,举个例子,领导让我在AD上创建一个账号,让我来做时,这个操作其实是很简单的,但是我应该走什么流程呢?

    “执行者不需要动脑子”,通过这句话我恍然顿悟了,边界不清那么咱们就定义边界,怎么定义呢,这时候就引入了工作分类表,就是说,将运维工作量化,制作服务请求分类表,事件分类表,变更分类表,然后按照机房管理的内容照章工作即可----以上内容不知道有没有说透,要是没有请留言。

    上面的内容,如果搜索ITSM或者ITIL都会有非常多的内容,而且内容相对是便于理解的,但是,咱们在此需要认真的讨论什么ITIL到底对我们来讲带来了什么好处,他的介入对运维工作来讲解决了什么问题?

    下面章节,以本人对该内容的理解及经历,尽力描述:

    ------------------------------------

    以上工作其实都是基础性的工作,一般来讲,招聘一般的工程师就可完成,但是领导(牵头人,主管)需要懂以上工作并且有较高的工作能力和协调能力。

    运维工作远远不止以上内容,而且,我一直认为,运维工作与项目工作是不相伯仲的(之前有很长一段时间是看不上运维工作的),而且,能干高级运维经理的人一定能干高级的项目经理,但是反过来就不一定可以了

    以上内容2018年5月8日更新

    若有需要请提出,作者会进行优化

    感悟:技术不是万能的,学会低调、圆滑的处世才是真正的本事

    ----------------------------------------------

    展开全文
  • Linux- 日常运维-vmstat

    2018-10-24 00:11:59
    vmstat 查看cpu,内容,虚拟磁盘,交换分区 ,io,系统进程memory :内存swap:虚拟内存 vmstat 1 # 1值得是:每一秒钟,显示一次,动态显示,ctrl c 终止 vmstat 1 5 #每一秒钟,显示一次,总共显示5次显示出来的...
  • 从本次开始,我们开始逐步深入学习linux日常运维指令和维护工作,由于笔者能力有限,写的内容难免出现纰漏,还请批评指正,笔者会结合自身的系统维护遇到的一些问题总结一些相关经验帮助大家。先介绍...
  • 1、cat cat 命令连接文件并打印到标准输出设备上,cat经常用来显示文件的内容,类似于下的type命令注意:当文件较大时,文本在屏幕上迅速闪过(滚屏),用户往往看不清所显示的内容。因此,一般用more等命令分屏显示...
  • Linux操作系统随着发展变得更受欢迎了,现在很多互联网公司都开始使用Linux系统,也有不少人都想要通过学习加入运维行列...初中级运维日常涉及工作: 1、评估产品需求及发展需求,设计网站架构。 2、选择IDC公司、云
  • 第13章 linux系统管理技巧(日常运维管理技巧)这一章的内容是核心,以后会用的几率也是很大的,只要掌握必备的基础知识,做初级系统管理员是不成问题的。13.1监控系统的状态作为一个运维工程师、系统管理员,如果对...
  • 大家日常使用电脑听歌、打游戏娱乐或处理日常工作时,接触到最多的就是Windows操作系统,电脑如果不安装Windows系统是无法进行娱乐和工作的,所有的软件程序都必须运行在操作系统之上,但我们大众百姓常用的操作系统是...
  • 主要内容 Linux网络相关 firewalld和netfilter netfilter 5表5链 iptables语法 1.Linux网络相关 ifconfig类似与windows的ipconfig,不加任何选项和参数只打印当前网卡的IP相关信息(子网掩码、网关等)。设置ip...
  • Linux运维趋势》是专门针对Linux/Unix运维人员的电子杂志,在每个月提供资深运维人员的经验分享、国际运维业界的前沿动向介绍、日常运维技巧交流等内容
  • Linux运维趋势》是专门针对Linux/Unix运维人员的电子杂志,在每个月提供资深运维人员的经验分享、国际运维业界的前沿动向介绍、日常运维技巧交流等内容
  • Linux运维趋势》是专门针对Linux/Unix运维人员的电子杂志,在每个月提供资深运维人员的经验分享、国际运维业界的前沿动向介绍、日常运维技巧交流等内容
  • 主要内容: 1.rsync工具介绍 2.rsync常用选项 3.通过ssh同步 1.rsync工具介绍 在linux系统下数据备份的工具rsync. 从字面上的意思remote sync (远程同步)这样可以让您理解的更深刻一些。Rsync不仅可以...
  • 八组日常运维小技能

    2017-11-14 12:15:00
    操作系统的安装部署是运维工作当中必不可少的一项内容,在自动化运维的今天我们有很多好的工具可以借鉴和使用。主要有以下几种产品: Windows:WDS,SCCM,PXE+kickstart Linux:cobbler,PXE...
  • 主要内容: 1.linux任务计划cron 2.chkconfig工具 3.systemd管理服务 4.unit介绍 5.target介绍 1.linux任务计划cron cron任务计划功能的操作都是通过crontab这个命令来完成的。其中常用的选项有: -u :指定某个...
  • 日常运维(1)

    2018-08-24 22:25:34
    内容摘要 使用w查看系统负载 vmstat命令 top命令 sar命令 nload命令 监控io性能 free命令 ps命令 查看网络状态 Linux下抓包 Linux网络相关 一、使用w查看系统负载 使用w和uptime 可以查看系统负载。 ...
  • 日常运维(3)

    2018-08-29 22:05:02
    内容摘要: iptables规则备份和恢复 firewalld的9个zone firewalld关于zone的操作 firewalld关于service的操作 linux任务计划cron chkconfig工具 systemd管理服务 unit介绍 target介绍 一、netfilter——...
  • 日常运维(4)

    2018-08-31 21:46:14
    内容摘要 rsync工具介绍 rsync常用选项 rsync通过ssh同步 rsync通过服务同步 linux系统日志 screen工具 一、rsync工具介绍(数据备份) rsync不仅可以远程同步数据,而且还可以本地同步数据,它不同于cp或...
  • 前言 文档是个人学习尚硅谷Linux学习尚硅谷Linux...我是键盘侠,一名苦逼的大三狗,博客主要是记录日常学习的一些学习笔记,欢迎志同道合的朋友一起讨论Linux运维知识的内容,评论是一定会回复的,大家一起加油~ ...
  • 主要内容: 1. sync通过服务同步 2. linux系统日志 3. screen工具 1. sync通过服务同步 编辑配置文件vim /etc/rsyncd.conf 在最后一行加入以下rsyncd.conf样例: port=873 log file=/var/log/rsync.log pid file...
  • Linux运维趋势》是专门针对Linux/Unix运维人员的电子杂志,在每个月提供资深运维人员的经验分享、国际运维业界的前沿动向介绍、日常运维技巧交流等内容
  • Linux云计算集群架构师课程 学习一个服务的过程: 1、此服务器的概述:名字,功能,特点,端口号 2、安装 3、配置文件的位置 4、服务启动关闭脚本,查看端口 5、此服务的使用方法 6、修改配置文件,实战举例 7、排错...
  • Linux运维趋势》是专门针对Linux/Unix运维人员的电子杂志,在每个月提供资深运维人员的经验分享、国际运维业界的前沿动向介绍、日常运维技巧交流等内容
  • Linux运维趋势》是专门针对Linux/Unix运维人员的电子杂志,在每个月提供资深运维人员的经验分享、国际运维业界的前沿动向介绍、日常运维技巧交流等内容
  • Linux运维趋势》是专门针对Linux/Unix运维人员的电子杂志,在每个月提供资深运维人员的经验分享、国际运维业界的前沿动向介绍、日常运维技巧交流等内容
  • Linux运维趋势》是专门针对Linux/Unix运维人员的电子杂志,在每个月提供资深运维人员的经验分享、国际运维业界的前沿动向介绍、日常运维技巧交流等内容
  • 如果有的话,看文件内容,一般会提示OCR无法访问,或者心跳IP无法 正常绑定等信息。 2、如果/tmp目录下没有crsctl.xxxxx文件 此时查看ocssd.log文件,看是否能从中得到有价值的信息。 可能的问题:网络心跳不通...
  • Linux运维趋势》是专门针对Linux/Unix运维人员的电子杂志,在每个月提供资深运维人员的经验分享、国际运维业界的前沿动向介绍、日常运维技巧交流等内容

空空如也

空空如也

1 2 3 4 5 ... 10
收藏数 186
精华内容 74
关键字:

linux日常运维内容

linux 订阅