精华内容
下载资源
问答
  • 大数据集群运维 1:集群扩容均衡 1.1:hdfs均衡 bash /opt/client/HDFS/hadoop/sbin/start-balancer.sh -threshold 偏差值 例如: bash /opt/client/HDFS/hadoop/sbin/start-balancer.sh -threshold 10 这个命令中-...

    大数据集群运维

    1:集群扩容均衡

    1.1:hdfs均衡

    hdfs dfsadmin -setBalancerBandwidth 20971520 
    设置均衡的集群间速度:20M,可根据网速适当调整
    开始均衡:bash */HDFS/hadoop/sbin/start-balancer.sh -threshold 偏差值
    停止均衡:bash */HDFS/hadoop/sbin/stop-balancer.sh
    bash start-balancer.sh --help查看具体的命令使用情况
    均衡日志查看客户端logs的日志
    

    例如:
    bash /opt/client/HDFS/hadoop/sbin/start-balancer.sh -threshold 10
    这个命令中-threshold 参数值是 HDFS 达到平衡状态的磁盘使用率偏差值。如果各
    节点间磁盘使用率与所有节点磁盘使用率的平均值偏差小于 10%,则 HDFS 集群
    已经达到了平衡的状态。
    hdfs的目录存储。dn/存储数据。/nm/存储spark程序的运行日志

    1.2:kafka均衡

    执行 kafka-balancer.sh --run --zookeeper {ZooKeeper 集群业务 IP:zk_port}/kafka --
    bootstrap-server {Kafka 集群业务 IP: kafka_port } --throttle {throttle number} --
    consumer-config {consumer config file path} --show-details
    
    : 多个 ZooKeeper 集群业务 IP 之间使用“,”隔开。
    : “zk_port”为“ZooKeeper 服务配置”中的“clientPort”参数值。
    : “kafka_port”为“Kafka 服务配置”中的“sasl.port”参数值。
    : “throttle number”为均衡方案执行时的带宽限制,单位:bytes/sec。 
    : “consumer config file path”为配置文件“consumer.properties”所在的绝对路径。
    

    例如:
    kafka-balancer.sh --run --zookeeper
    192.168.0.10:24002,192.168.0.11:24002,192.168.0.12:24002/kafka --bootstrap-server
    192.168.0.10:21007, 192.168.0.11:21007, 192.168.0.12:21007 --throttle 10000000 –
    consumer-config consumer.properties --show-details

    1.3:es均衡

    curl -XGET "http://IP:Port/_cat/indices?pretty=true"
    
    展开全文
  • CDH前端CM监控不正常(未解决) Request to theService Monitorfailed. This may cause slow page responses.View the status of the Service Monitor. Request to theHost Monitorfailed....

    CDH前端CM监控不正常(未解决)

     

    Request to the Service Monitor failed. This may cause slow page responses. View the status of the Service Monitor.

    Request to the Host Monitor failed. This may cause slow page responses. View the status of the Host Monitor.

     

     

     

    检查event server 日志

    [root@ip-xxx cloudera-scm-eventserver]# pwd
    /var/log/cloudera-scm-eventserver
    [root@ip-xxx cloudera-scm-eventserver]# tail -f -n 1000 mgmt-cmf-mgmt-EVENTSERVER-ip-xxx.out

    日志显示

    2018-06-14 22:01:34,393 INFO com.cloudera.enterprise.ssl.SSLFactory: Using configured truststore for verification of server certificates in HTTPS communication.
    2018-06-14 22:01:34,814 INFO com.cloudera.cmf.BasicScmProxy: Using encrypted credentials for SCM
    2018-06-14 22:01:34,906 INFO com.cloudera.cmf.BasicScmProxy: Authenticated to SCM.
    2018-06-14 22:01:34,919 INFO com.cloudera.cmf.BasicScmProxy: Authentication to SCM required.
    2018-06-14 22:01:34,919 WARN com.cloudera.cmf.eventcatcher.server.EventCatcherService: No descriptor fetched from https://xxx:7183 on after 1 tries, sleeping...
    2018-06-14 22:01:36,990 INFO com.cloudera.cmf.BasicScmProxy: Using encrypted credentials for SCM
    2018-06-14 22:01:37,092 INFO com.cloudera.cmf.BasicScmProxy: Authenticated to SCM.
    2018-06-14 22:01:37,102 INFO com.cloudera.cmf.BasicScmProxy: Authentication to SCM required.
    2018-06-14 22:01:37,102 WARN com.cloudera.cmf.eventcatcher.server.EventCatcherService: No descriptor fetched from https://xxx:7183 on after 2 tries, sleeping...
    2018-06-14 22:01:39,169 INFO com.cloudera.cmf.BasicScmProxy: Using encrypted credentials for SCM
    2018-06-14 22:01:39,255 INFO com.cloudera.cmf.BasicScmProxy: Authenticated to SCM.
    2018-06-14 22:01:39,264 INFO com.cloudera.cmf.BasicScmProxy: Authentication to SCM required.
    2018-06-14 22:01:39,264 WARN com.cloudera.cmf.eventcatcher.server.EventCatcherService: No descriptor fetched from https://xxx:7183 on after 3 tries, sleeping...
    2018-06-14 22:01:41,340 INFO com.cloudera.cmf.BasicScmProxy: Using encrypted credentials for SCM
    2018-06-14 22:01:41,437 INFO com.cloudera.cmf.BasicScmProxy: Authenticated to SCM.
    2018-06-14 22:01:41,446 INFO com.cloudera.cmf.BasicScmProxy: Authentication to SCM required.
    2018-06-14 22:01:41,447 WARN com.cloudera.cmf.eventcatcher.server.EventCatcherService: No descriptor fetched from https://xxx:7183 on after 4 tries, sleeping...
    2018-06-14 22:01:43,512 INFO com.cloudera.cmf.BasicScmProxy: Using encrypted credentials for SCM
    2018-06-14 22:01:43,606 INFO com.cloudera.cmf.BasicScmProxy: Authenticated to SCM.
    2018-06-14 22:01:43,619 INFO com.cloudera.cmf.BasicScmProxy: Authentication to SCM required.
    2018-06-14 22:01:43,619 WARN com.cloudera.cmf.eventcatcher.server.EventCatcherService: No descriptor fetched from https://ip-172-31-2-173.cn-north-1.compute.internal:7183 on after 5 tries, sleeping...
    2018-06-14 22:01:45,620 ERROR com.cloudera.cmf.eventcatcher.server.EventCatcherService: Could not fetch descriptor after 5 tries, exiting.

     原因是我们使用的企业版的license过期,导致Cloudera Navigator不能使用,我们在TLS这里设置的等级涉及到收费功能,license过期导致不生效。

    转载于:https://www.cnblogs.com/RzCong/p/9186471.html

    展开全文
  • cdh集群中,使用root用户登陆,操作hdfs,无法删除hdfs上的文件: 图片如下: 排查原因是由于权限问题,排查思路和log如下: # hadoop fs -ls /tmp Found 3 items drwxrwxrwx - hdfs ...

    工作中遇到的问题记录

    kafka异常退出:

    解决思路:
    1、排查kafka log,log.dirs:
    2、日志如下:
    # pwd
    /data/log/kafka
    # ls -lh
    总用量 78M
    -rw-r--r-- 1 kafka kafka 78M 9月  18 14:18 kafka-broker-rc-nmg-kfk-rds-woasis1.log
    drwxr-xr-x 2 kafka kafka  10 5月  18 18:29 stacks

     183308 2017-09-16 08:16:00,397 INFO kafka.controller.RequestSendThread: [Controller-115-to-broker-115-send-thread], Controller 115 connected to rc-n        mg-kfk-rds-woasis1:9092 (id: 115 rack: null) for sending state change requests
     183309 2017-09-16 08:16:28,180 ERROR kafka.network.Acceptor: Error while accepting connection
     183310 java.io.IOException: 打开的文件过多
     183311         at sun.nio.ch.ServerSocketChannelImpl.accept0(Native Method)
     183312         at sun.nio.ch.ServerSocketChannelImpl.accept(ServerSocketChannelImpl.java:241)
     183313         at kafka.network.Acceptor.accept(SocketServer.scala:332)
     183314         at kafka.network.Acceptor.run(SocketServer.scala:275)
     183315         at java.lang.Thread.run(Thread.java:745)
    
    提示打开文件过多。
    解决方法:查看机器文件描述符大小。
    # ulimit -n



    cdh集群中,使用root用户登陆,操作hdfs,无法删除hdfs上的文件:

    图片如下:


    排查原因是由于权限问题,排查思路和log如下:

    # hadoop fs -ls /tmp
    Found 3 items
    drwxrwxrwx   - hdfs  supergroup          0 2017-09-18 11:07 /tmp/.cloudera_health_monitoring_canary_files
    -rw-r--r--   3 root  supergroup          0 2017-09-18 10:55 /tmp/a.txt
    drwx--x--x   - hbase supergroup          0 2017-08-02 19:05 /tmp/hbase-staging

    # hadoop fs -rm -r  /tmp/a.txt
    17/09/18 11:06:05 WARN fs.TrashPolicyDefault: Can't create trash directory: hdfs://nameservice1/user/root/.Trash/Current/tmp
    org.apache.hadoop.security.AccessControlException: Permission denied: user=root, access=WRITE, inode="/":hdfs:supergroup:drwxr-xr-x
    	at org.apache.hadoop.hdfs.server.namenode.DefaultAuthorizationProvider.checkFsPermission(DefaultAuthorizationProvider.java:281)
    	at org.apache.hadoop.hdfs.server.namenode.DefaultAuthorizationProvider.check(DefaultAuthorizationProvider.java:262)
    	at org.apache.hadoop.hdfs.server.namenode.DefaultAuthorizationProvider.check(DefaultAuthorizationProvider.java:242)
    	at org.apache.hadoop.hdfs.server.namenode.DefaultAuthorizationProvider.checkPermission(DefaultAuthorizationProvider.java:169)
    	at org.apache.hadoop.hdfs.server.namenode.FSPermissionChecker.checkPermission(FSPermissionChecker.java:152)
    	at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.checkPermission(FSNamesystem.java:6632)
    	at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.checkPermission(FSNamesystem.java:6614)
    	at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.checkAncestorAccess(FSNamesystem.java:6566)
    	at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.mkdirsInternal(FSNamesystem.java:4359)
    	at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.mkdirsInt(FSNamesystem.java:4329)
    	at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.mkdirs(FSNamesystem.java:4302)
    	at org.apache.hadoop.hdfs.server.namenode.NameNodeRpcServer.mkdirs(NameNodeRpcServer.java:869)
    	at org.apache.hadoop.hdfs.server.namenode.AuthorizationProviderProxyClientProtocol.mkdirs(AuthorizationProviderProxyClientProtocol.java:323)
    	at org.apache.hadoop.hdfs.protocolPB.ClientNamenodeProtocolServerSideTranslatorPB.mkdirs(ClientNamenodeProtocolServerSideTranslatorPB.java:608)
    	at org.apache.hadoop.hdfs.protocol.proto.ClientNamenodeProtocolProtos$ClientNamenodeProtocol$2.callBlockingMethod(ClientNamenodeProtocolProtos.java)
    	at org.apache.hadoop.ipc.ProtobufRpcEngine$Server$ProtoBufRpcInvoker.call(ProtobufRpcEngine.java:617)
    	at org.apache.hadoop.ipc.RPC$Server.call(RPC.java:1073)
    	at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:2086)
    	at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:2082)
    	at java.security.AccessController.doPrivileged(Native Method)
    	at javax.security.auth.Subject.doAs(Subject.java:415)
    	at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1698)
    	at org.apache.hadoop.ipc.Server$Handler.run(Server.java:2080)
    
    	at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method)
    	at sun.reflect.NativeConstructorAccessorImpl.newInstance(NativeConstructorAccessorImpl.java:57)
    	at sun.reflect.DelegatingConstructorAccessorImpl.newInstance(DelegatingConstructorAccessorImpl.java:45)
    	at java.lang.reflect.Constructor.newInstance(Constructor.java:526)
    	at org.apache.hadoop.ipc.RemoteException.instantiateException(RemoteException.java:106)
    	at org.apache.hadoop.ipc.RemoteException.unwrapRemoteException(RemoteException.java:73)
    	at org.apache.hadoop.hdfs.DFSClient.primitiveMkdir(DFSClient.java:3104)
    	at org.apache.hadoop.hdfs.DFSClient.mkdirs(DFSClient.java:3069)
    	at org.apache.hadoop.hdfs.DistributedFileSystem$18.doCall(DistributedFileSystem.java:957)
    	at org.apache.hadoop.hdfs.DistributedFileSystem$18.doCall(DistributedFileSystem.java:953)
    	at org.apache.hadoop.fs.FileSystemLinkResolver.resolve(FileSystemLinkResolver.java:81)
    	at org.apache.hadoop.hdfs.DistributedFileSystem.mkdirsInternal(DistributedFileSystem.java:953)
    	at org.apache.hadoop.hdfs.DistributedFileSystem.mkdirs(DistributedFileSystem.java:946)
    	at org.apache.hadoop.fs.TrashPolicyDefault.moveToTrash(TrashPolicyDefault.java:144)
    	at org.apache.hadoop.fs.Trash.moveToTrash(Trash.java:109)
    	at org.apache.hadoop.fs.Trash.moveToAppropriateTrash(Trash.java:95)
    	at org.apache.hadoop.fs.shell.Delete$Rm.moveToTrash(Delete.java:118)
    	at org.apache.hadoop.fs.shell.Delete$Rm.processPath(Delete.java:105)
    	at org.apache.hadoop.fs.shell.Command.processPaths(Command.java:317)
    	at org.apache.hadoop.fs.shell.Command.processPathArgument(Command.java:289)
    	at org.apache.hadoop.fs.shell.Command.processArgument(Command.java:271)
    	at org.apache.hadoop.fs.shell.Command.processArguments(Command.java:255)
    	at org.apache.hadoop.fs.shell.FsCommand.processRawArguments(FsCommand.java:118)
    	at org.apache.hadoop.fs.shell.Command.run(Command.java:165)
    	at org.apache.hadoop.fs.FsShell.run(FsShell.java:315)
    	at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70)
    	at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:84)
    	at org.apache.hadoop.fs.FsShell.main(FsShell.java:372)
    Caused by: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.AccessControlException): Permission denied: user=root, access=WRITE, inode="/":hdfs:supergroup:drwxr-xr-x
    	at org.apache.hadoop.hdfs.server.namenode.DefaultAuthorizationProvider.checkFsPermission(DefaultAuthorizationProvider.java:281)
    	at org.apache.hadoop.hdfs.server.namenode.DefaultAuthorizationProvider.check(DefaultAuthorizationProvider.java:262)
    	at org.apache.hadoop.hdfs.server.namenode.DefaultAuthorizationProvider.check(DefaultAuthorizationProvider.java:242)
    	at org.apache.hadoop.hdfs.server.namenode.DefaultAuthorizationProvider.checkPermission(DefaultAuthorizationProvider.java:169)
    	at org.apache.hadoop.hdfs.server.namenode.FSPermissionChecker.checkPermission(FSPermissionChecker.java:152)
    	at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.checkPermission(FSNamesystem.java:6632)
    	at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.checkPermission(FSNamesystem.java:6614)
    	at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.checkAncestorAccess(FSNamesystem.java:6566)
    	at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.mkdirsInternal(FSNamesystem.java:4359)
    	at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.mkdirsInt(FSNamesystem.java:4329)
    	at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.mkdirs(FSNamesystem.java:4302)
    	at org.apache.hadoop.hdfs.server.namenode.NameNodeRpcServer.mkdirs(NameNodeRpcServer.java:869)
    	at org.apache.hadoop.hdfs.server.namenode.AuthorizationProviderProxyClientProtocol.mkdirs(AuthorizationProviderProxyClientProtocol.java:323)
    	at org.apache.hadoop.hdfs.protocolPB.ClientNamenodeProtocolServerSideTranslatorPB.mkdirs(ClientNamenodeProtocolServerSideTranslatorPB.java:608)
    	at org.apache.hadoop.hdfs.protocol.proto.ClientNamenodeProtocolProtos$ClientNamenodeProtocol$2.callBlockingMethod(ClientNamenodeProtocolProtos.java)
    	at org.apache.hadoop.ipc.ProtobufRpcEngine$Server$ProtoBufRpcInvoker.call(ProtobufRpcEngine.java:617)
    	at org.apache.hadoop.ipc.RPC$Server.call(RPC.java:1073)
    	at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:2086)
    	at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:2082)
    	at java.security.AccessController.doPrivileged(Native Method)
    	at javax.security.auth.Subject.doAs(Subject.java:415)
    	at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1698)
    	at org.apache.hadoop.ipc.Server$Handler.run(Server.java:2080)
    
    	at org.apache.hadoop.ipc.Client.call(Client.java:1471)
    	at org.apache.hadoop.ipc.Client.call(Client.java:1408)
    	at org.apache.hadoop.ipc.ProtobufRpcEngine$Invoker.invoke(ProtobufRpcEngine.java:230)
    	at com.sun.proxy.$Proxy14.mkdirs(Unknown Source)
    	at org.apache.hadoop.hdfs.protocolPB.ClientNamenodeProtocolTranslatorPB.mkdirs(ClientNamenodeProtocolTranslatorPB.java:549)
    	at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    	at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)
    	at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    	at java.lang.reflect.Method.invoke(Method.java:606)
    	at org.apache.hadoop.io.retry.RetryInvocationHandler.invokeMethod(RetryInvocationHandler.java:256)
    	at org.apache.hadoop.io.retry.RetryInvocationHandler.invoke(RetryInvocationHandler.java:104)
    	at com.sun.proxy.$Proxy15.mkdirs(Unknown Source)
    	at org.apache.hadoop.hdfs.DFSClient.primitiveMkdir(DFSClient.java:3102)
    	... 21 more
    rm: Failed to move to trash: hdfs://nameservice1/tmp/a.txt: Permission denied: user=root, access=WRITE, inode="/":hdfs:supergroup:drwxr-xr-x
    

    解决方法:

    1、使用root用户,转到hdfs用户,执行删除命令:

    # su hdfs
    $ cd
    $ pwd
    /var/lib/hadoop-hdfs
    $ hadoop fs -ls /tmp
    Found 3 items
    drwxrwxrwx   - hdfs  supergroup          0 2017-09-18 11:32 /tmp/.cloudera_health_monitoring_canary_files
    -rw-r--r--   3 root  supergroup          0 2017-09-18 10:55 /tmp/a.txt
    drwx--x--x   - hbase supergroup          0 2017-08-02 19:05 /tmp/hbase-staging
    $ hadoop fs -rm -r  /tmp/a.txt
    17/09/18 11:33:06 INFO fs.TrashPolicyDefault: Moved: 'hdfs://nameservice1/tmp/a.txt' to trash at: hdfs://nameservice1/user/hdfs/.Trash/Current/tmp/a.txt
    $ hadoop fs -ls /tmp
    Found 2 items
    drwxrwxrwx   - hdfs  supergroup          0 2017-09-18 11:32 /tmp/.cloudera_health_monitoring_canary_files
    drwx--x--x   - hbase supergroup          0 2017-08-02 19:05 /tmp/hbase-staging
    

    成功删除/tmp/a.txt文件。

    2、在cm管理界面中, 查看权限配置情况,dfs.permissions:






    Hbase写入变慢的问题排查:

    目前配置硬件配置内存32G,:memstore:256M,hbase.hregion.max.filesize:10G (一个region最多管理10G的HFile)
    当写入的数据总量超过一定数量(1T)时,写入速度变慢。写入方式rowkey前加hash
    推测原因:
    对表预建了20个Region,随着数据量膨胀分裂到了160个,
    由于写入方式是完全随机写入到各个region中,因为region数量过多,大量时间浪费在等待region释放资源,获取region连接,释放连接。
    现在修改hbase.hregion.max.filesize为500G,避免region频繁分裂。使之恢复初始写入速度,修改后进行测试,查看写入慢的问题是否得到解决。
    查看hbase 某个rs的配置文件,已经修改成了500G:

    修改hadoop hdfs存储的副本数:

    默认情况下,hadoop存储的副本数为3,如果想节省磁盘空间,可以将副本数调小,hdfs-配置-dfs.replication

    cdh常用功能目录,方便日志排查:

    cdh安装日志目录:

    # pwd
    /var/log/cloudera-manager-installer
    # ls -lh
    total 28K
    -rw-r--r-- 1 root root    0 Sep  8 15:04 0.check-selinux.log
    -rw-r--r-- 1 root root  105 Sep  8 15:04 1.install-repo-pkg.log
    -rw-r--r-- 1 root root 1.5K Sep  8 15:04 2.install-oracle-j2sdk1.7.log
    -rw-r--r-- 1 root root 2.0K Sep  8 15:05 3.install-cloudera-manager-server.log
    -rw-r--r-- 1 root root   33 Sep  8 15:05 4.check-for-systemd.log
    -rw-r--r-- 1 root root 3.0K Sep  8 15:05 5.install-cloudera-manager-server-db-2.log
    -rw-r--r-- 1 root root 2.0K Sep  8 15:05 6.start-embedded-db.log
    -rw-r--r-- 1 root root   59 Sep  8 15:05 7.start-scm-server.log

    cloudera-scm-server-db数据库目录,密码文件:

    # pwd
    /var/lib/cloudera-scm-server-db/data
    # ls -lh
    total 88K
    drwx------ 10 cloudera-scm cloudera-scm 4.0K Sep  8 15:05 base
    -rw-------  1 cloudera-scm cloudera-scm  264 Sep  8 15:05 generated_password.txt
    drwx------  2 cloudera-scm cloudera-scm 4.0K Sep  8 16:55 global
    drwx------  2 cloudera-scm cloudera-scm 4.0K Sep  8 15:05 pg_clog
    -rw-------  1 cloudera-scm cloudera-scm 3.7K Sep  8 15:05 pg_hba.conf
    -rw-------  1 cloudera-scm cloudera-scm 1.6K Sep  8 15:05 pg_ident.conf
    drwx------  2 cloudera-scm cloudera-scm 4.0K Sep  8 15:05 pg_log
    drwx------  4 cloudera-scm cloudera-scm 4.0K Sep  8 15:05 pg_multixact
    drwx------  2 cloudera-scm cloudera-scm 4.0K Sep  8 16:55 pg_stat_tmp
    drwx------  2 cloudera-scm cloudera-scm 4.0K Sep  8 15:05 pg_subtrans
    drwx------  2 cloudera-scm cloudera-scm 4.0K Sep  8 15:05 pg_tblspc
    drwx------  2 cloudera-scm cloudera-scm 4.0K Sep  8 15:05 pg_twophase
    -rw-------  1 cloudera-scm cloudera-scm    4 Sep  8 15:05 PG_VERSION
    drwx------  3 cloudera-scm cloudera-scm 4.0K Sep  8 15:14 pg_xlog
    -rw-------  1 cloudera-scm cloudera-scm  17K Sep  8 15:05 postgresql.conf
    -rw-------  1 cloudera-scm cloudera-scm   62 Sep  8 15:05 postmaster.opts
    -rw-r--r--  1 cloudera-scm cloudera-scm   24 Sep  8 15:05 scm.db.list
    -rw-r--r--  1 cloudera-scm cloudera-scm    4 Sep  8 15:05 scm.db.list.20170908-150526
    # cat generated_password.txt 
    W8gEj3gZe1
    
    The password above was generated by /usr/share/cmf/bin/initialize_embedded_db.sh (part of the cloudera-manager-server-db package)
    and is the password for the user 'cloudera-scm' for the database in the current directory.
    
    Generated at 20170908-150526.
    # cat scm.db.list.20170908-150526
    scm
    # cat scm.db.list
    scm
    amon
    rman
    nav
    navms
    # cat PG_VERSION 
    8.4
    

    cloudera-scm-agent配置文件目录:

    # pwd
    /etc/cloudera-scm-agent
    # ls
    config.ini
    # cat config.ini 
    [General]
    # Hostname of the CM server.
    server_host=10.27.166.13
    
    # Port that the CM server is listening on.
    server_port=7182
    
    ## It should not normally be necessary to modify these.
    # Port that the CM agent should listen on.
    # listening_port=9000
    
    # IP Address that the CM agent should listen on.
    # listening_ip=
    
    # Hostname that the CM agent reports as its hostname. If unset, will be
    # obtained in code through something like this:
    #
    #   python -c 'import socket; \
    #              print socket.getfqdn(), \
    #                    socket.gethostbyname(socket.getfqdn())'
    #
    # listening_hostname=
    
    # An alternate hostname to report as the hostname for this host in CM.
    # Useful when this agent is behind a load balancer or proxy and all
    # inbound communication must connect through that proxy.
    # reported_hostname=
    
    # Port that supervisord should listen on.
    # NB: This only takes effect if supervisord is restarted.
    # supervisord_port=19001
    
    # Log file.  The supervisord log file will be placed into
    # the same directory.  Note that if the agent is being started via the
    # init.d script, /var/log/cloudera-scm-agent/cloudera-scm-agent.out will
    # also have a small amount of output (from before logging is initialized).
    # log_file=/var/log/cloudera-scm-agent/cloudera-scm-agent.log
    
    # Persistent state directory.  Directory to store CM agent state that
    # persists across instances of the agent process and system reboots.
    # Particularly, the agent's UUID is stored here.
    # lib_dir=/var/lib/cloudera-scm-agent
    
    # Parcel directory.  Unpacked parcels will be stored in this directory.
    # Downloaded parcels will be stored in <parcel_dir>/../parcel-cache
    # parcel_dir=/opt/cloudera/parcels
    
    # Enable supervisord event monitoring.  Used in eager heartbeating, amongst
    # other things.
    # enable_supervisord_events=true
    
    # Maximum time to wait (in seconds) for all metric collectors to finish
    # collecting data.
    max_collection_wait_seconds=10.0
    
    # Maximum time to wait (in seconds) when connecting to a local role's
    # webserver to fetch metrics.
    metrics_url_timeout_seconds=30.0
    
    # Maximum time to wait (in seconds) when connecting to a local TaskTracker
    # to fetch task attempt data.
    task_metrics_timeout_seconds=5.0
    
    # The list of non-device (nodev) filesystem types which will be monitored.
    monitored_nodev_filesystem_types=nfs,nfs4,tmpfs
    
    # The list of filesystem types which are considered local for monitoring purposes.
    # These filesystems are combined with the other local filesystem types found in
    # /proc/filesystems
    local_filesystem_whitelist=ext2,ext3,ext4
    
    # The largest size impala profile log bundle that this agent will serve to the
    # CM server. If the CM server requests more than this amount, the bundle will
    # be limited to this size. All instances of this limit being hit are logged to
    # the agent log.
    impala_profile_bundle_max_bytes=1073741824
    
    # The largest size stacks log bundle that this agent will serve to the CM
    # server. If the CM server requests more than this amount, the bundle will be
    # limited to this size. All instances of this limit being hit are logged to the
    # agent log.
    stacks_log_bundle_max_bytes=1073741824
    
    # The size to which the uncompressed portion of a stacks log can grow before it
    # is rotated. The log will then be compressed during rotation.
    stacks_log_max_uncompressed_file_size_bytes=5242880
    
    # The orphan process directory staleness threshold. If a diretory is more stale
    # than this amount of seconds, CM agent will remove it.
    orphan_process_dir_staleness_threshold=5184000
    
    # The orphan process directory refresh interval. The CM agent will check the
    # staleness of the orphan processes config directory every this amount of
    # seconds.
    orphan_process_dir_refresh_interval=3600
    
    # A knob to control the agent logging level. The options are listed as follows:
    # 1) DEBUG (set the agent logging level to 'logging.DEBUG')
    # 2) INFO (set the agent logging level to 'logging.INFO')
    scm_debug=INFO
    
    # The DNS resolution collecion interval in seconds. A java base test program
    # will be executed with at most this frequency to collect java DNS resolution
    # metrics. The test program is only executed if the associated health test,
    # Host DNS Resolution, is enabled.
    dns_resolution_collection_interval_seconds=60
    
    # The maximum time to wait (in seconds) for the java test program to collect
    # java DNS resolution metrics.
    dns_resolution_collection_timeout_seconds=30
    
    # The directory location in which the agent-wide kerberos credential cache
    # will be created.
    # agent_wide_credential_cache_location=/var/run/cloudera-scm-agent
    
    [Security]
    # Use TLS and certificate validation when connecting to the CM server.
    use_tls=0
    
    # The maximum allowed depth of the certificate chain returned by the peer.
    # The default value of 9 matches the default specified in openssl's
    # SSL_CTX_set_verify.
    max_cert_depth=9
    
    # A file of CA certificates in PEM format. The file can contain several CA
    # certificates identified by
    #
    # -----BEGIN CERTIFICATE-----
    # ... (CA certificate in base64 encoding) ...
    # -----END CERTIFICATE-----
    #
    # sequences. Before, between, and after the certificates text is allowed which
    # can be used e.g. for descriptions of the certificates.
    #
    # The file is loaded once, the first time an HTTPS connection is attempted. A
    # restart of the agent is required to pick up changes to the file.
    #
    # Note that if neither verify_cert_file or verify_cert_dir is set, certificate
    # verification will not be performed.
    # verify_cert_file=
    
    # Directory containing CA certificates in PEM format. The files each contain one
    # CA certificate. The files are looked up by the CA subject name hash value,
    # which must hence be available. If more than one CA certificate with the same
    # name hash value exist, the extension must be different (e.g. 9d66eef0.0,
    # 9d66eef0.1 etc). The search is performed in the ordering of the extension
    # number, regardless of other properties of the certificates. Use the c_rehash
    # utility to create the necessary links.
    #
    # The certificates in the directory are only looked up when required, e.g. when
    # building the certificate chain or when actually performing the verification
    # of a peer certificate. The contents of the directory can thus be changed
    # without an agent restart.
    #
    # When looking up CA certificates, the verify_cert_file is first searched, then
    # those in the directory. Certificate matching is done based on the subject name,
    # the key identifier (if present), and the serial number as taken from the
    # certificate to be verified. If these data do not match, the next certificate
    # will be tried. If a first certificate matching the parameters is found, the
    # verification process will be performed; no other certificates for the same
    # parameters will be searched in case of failure.
    #
    # Note that if neither verify_cert_file or verify_cert_dir is set, certificate
    # verification will not be performed.
    # verify_cert_dir=
    
    # PEM file containing client private key.
    # client_key_file=
    
    # A command to run which returns the client private key password on stdout
    # client_keypw_cmd=
    
    # If client_keypw_cmd isn't specified, instead a text file containing
    # the client private key password can be used.
    # client_keypw_file=
    
    # PEM file containing client certificate.
    # client_cert_file=
    
    ## Location of Hadoop files.  These are the CDH locations when installed by
    ## packages.  Unused when CDH is installed by parcels.
    [Hadoop]
    #cdh_crunch_home=/usr/lib/crunch
    #cdh_flume_home=/usr/lib/flume-ng
    #cdh_hadoop_bin=/usr/bin/hadoop
    #cdh_hadoop_home=/usr/lib/hadoop
    #cdh_hbase_home=/usr/lib/hbase
    #cdh_hbase_indexer_home=/usr/lib/hbase-solr
    #cdh_hcat_home=/usr/lib/hive-hcatalog
    #cdh_hdfs_home=/usr/lib/hadoop-hdfs
    #cdh_hive_home=/usr/lib/hive
    #cdh_httpfs_home=/usr/lib/hadoop-httpfs
    #cdh_hue_home=/usr/share/hue
    #cdh_hue_plugins_home=/usr/lib/hadoop
    #cdh_impala_home=/usr/lib/impala
    #cdh_llama_home=/usr/lib/llama
    #cdh_mr1_home=/usr/lib/hadoop-0.20-mapreduce
    #cdh_mr2_home=/usr/lib/hadoop-mapreduce
    #cdh_oozie_home=/usr/lib/oozie
    #cdh_parquet_home=/usr/lib/parquet
    #cdh_pig_home=/usr/lib/pig
    #cdh_solr_home=/usr/lib/solr
    #cdh_spark_home=/usr/lib/spark
    #cdh_sqoop_home=/usr/lib/sqoop
    #cdh_sqoop2_home=/usr/lib/sqoop2
    #cdh_yarn_home=/usr/lib/hadoop-yarn
    #cdh_zookeeper_home=/usr/lib/zookeeper
    #hive_default_xml=/etc/hive/conf.dist/hive-default.xml
    #webhcat_default_xml=/etc/hive-webhcat/conf.dist/webhcat-default.xml
    #jsvc_home=/usr/libexec/bigtop-utils
    #tomcat_home=/usr/lib/bigtop-tomcat
    
    ## Location of Cloudera Management Services files.
    [Cloudera]
    #mgmt_home=/usr/share/cmf
    
    ## Location of JDBC Drivers.
    [JDBC]
    #cloudera_mysql_connector_jar=/usr/share/java/mysql-connector-java.jar
    #cloudera_oracle_connector_jar=/usr/share/java/oracle-connector-java.jar
    #By default, postgres jar is found dynamically in $MGMT_HOME/lib
    #cloudera_postgresql_jdbc_jar=
    

    cloudera-scm-server配置文件目录:

    # pwd
    /etc/cloudera-scm-server
    # ls
    db.mgmt.properties  db.properties  db.properties.~1~  db.properties.~2~  db.properties.20170908-150526  db.properties.bak  log4j.properties
    #默认元数据库用户名密码配置
    # cat db.properties
    # Auto-generated by scm_prepare_database.sh on Fri Sep  8 17:28:27 CST 2017
    #
    # For information describing how to configure the Cloudera Manager Server
    # to connect to databases, see the "Cloudera Manager Installation Guide."
    #
    com.cloudera.cmf.db.type=mysql
    com.cloudera.cmf.db.host=10.27.166.13
    com.cloudera.cmf.db.name=cmf
    com.cloudera.cmf.db.user=用户名
    com.cloudera.cmf.db.password=密码
    com.cloudera.cmf.db.setupType=EXTERNAL
    
    # cat db.mgmt.properties 
    # Auto-generated by initialize_embedded_db.sh
    #
    # 20170908-150526
    #
    # These are database credentials for databases
    # created by "cloudera-scm-server-db" for
    # Cloudera Manager Management Services,
    # to be used during the installation wizard if
    # the embedded database route is taken.
    #
    # The source of truth for these settings
    # is the Cloudera Manager databases and
    # changes made here will not be reflected
    # there automatically.
    #
    com.cloudera.cmf.ACTIVITYMONITOR.db.type=postgresql
    com.cloudera.cmf.ACTIVITYMONITOR.db.host=hostname:7432
    com.cloudera.cmf.ACTIVITYMONITOR.db.name=amon
    com.cloudera.cmf.ACTIVITYMONITOR.db.user=amon
    com.cloudera.cmf.ACTIVITYMONITOR.db.password=密码
    com.cloudera.cmf.REPORTSMANAGER.db.type=postgresql
    com.cloudera.cmf.REPORTSMANAGER.db.host=hostname:7432
    com.cloudera.cmf.REPORTSMANAGER.db.name=rman
    com.cloudera.cmf.REPORTSMANAGER.db.user=rman
    com.cloudera.cmf.REPORTSMANAGER.db.password=密码
    com.cloudera.cmf.NAVIGATOR.db.type=postgresql
    com.cloudera.cmf.NAVIGATOR.db.host=hostname:7432
    com.cloudera.cmf.NAVIGATOR.db.name=nav
    com.cloudera.cmf.NAVIGATOR.db.user=nav
    com.cloudera.cmf.NAVIGATOR.db.password=密码
    com.cloudera.cmf.NAVIGATORMETASERVER.db.type=postgresql
    com.cloudera.cmf.NAVIGATORMETASERVER.db.host=hostname:7432
    com.cloudera.cmf.NAVIGATORMETASERVER.db.name=navms
    com.cloudera.cmf.NAVIGATORMETASERVER.db.user=navms
    com.cloudera.cmf.NAVIGATORMETASERVER.db.password=密码
    

    集群组件安装目录:

    # pwd
    /opt/cloudera/parcels
    # ls -lh
    total 8.0K
    lrwxrwxrwx  1 root root   26 Sep  8 18:02 CDH -> CDH-5.9.0-1.cdh5.9.0.p0.23
    drwxr-xr-x 11 root root 4.0K Oct 21  2016 CDH-5.9.0-1.cdh5.9.0.p0.23
    lrwxrwxrwx  1 root root   25 Sep 11 09:57 KAFKA -> KAFKA-2.2.0-1.2.2.0.p0.68
    drwxr-xr-x  6 root root 4.0K Jul  8 07:09 KAFKA-2.2.0-1.2.2.0.p0.68

    parcel软件包的存放位置:

    # pwd
    /opt/cloudera/parcel-repo
    # ls -lh
    total 1.5G
    -rw-r----- 1 cloudera-scm cloudera-scm 1.4G Sep  8 16:12 CDH-5.9.0-1.cdh5.9.0.p0.23-el6.parcel
    -rw-r----- 1 cloudera-scm cloudera-scm   41 Sep  8 16:12 CDH-5.9.0-1.cdh5.9.0.p0.23-el6.parcel.sha
    -rw-r----- 1 cloudera-scm cloudera-scm  56K Sep  8 16:13 CDH-5.9.0-1.cdh5.9.0.p0.23-el6.parcel.torrent
    -rw-r----- 1 cloudera-scm cloudera-scm  70M Sep  8 19:55 KAFKA-2.2.0-1.2.2.0.p0.68-el6.parcel
    -rw-r----- 1 cloudera-scm cloudera-scm   41 Sep  8 19:55 KAFKA-2.2.0-1.2.2.0.p0.68-el6.parcel.sha
    -rw-r----- 1 cloudera-scm cloudera-scm 2.9K Sep  8 19:55 KAFKA-2.2.0-1.2.2.0.p0.68-el6.parcel.torrent
    

    hbase gc时间过长警告:

    解决方法:

    查看hbase-配置-hbase.hregion.memstore.flush.size,该值默认为128MB,如果报gc警告,可适当调小。



    展开全文
  • Hadoop大数据平台运维杂记;议程;Hadoop集群使用情况介绍;系统结构;Apache Hadoop与CDH版本关系;CDH为什么更好;CDH3u3重大改善;CDH3u4重大改善;Cloudera Manager;Cloudera Training;Hadoop成长之路;事故一 伤不起的...
  • 大数据应用人才培养系列教材 大数据系统运维 刘 鹏 张 燕 总主编 姜才康 主编 陶建辉 副主编 大数据应用人才培养系列教材 第三章 故障管理 3.1 集群结构 3.2 故障报告 3.3 故障处理 3.4 故障后期管理 习题 3.1 集群...
  • 本文整理自SACC2021中国系统架构师大会,是网易金川老师视频直播的文字版本,他分享的主题是“网易大数据平台运维实战”各位SACC观众,大家好,感谢各位参加本次智能运维实践会场的最后一场...

    本文整理自SACC2021中国系统架构师大会,是网易金川老师视频直播的文字版本,他分享的主题是“网易大数据平台运维实战”

    各位SACC观众,大家好,感谢各位参加本次智能运维实践会场的最后一场分享会。算是压轴出场吧,也希望本次的分享能给大家带来一些实用的干货,特别是对于有重构服务平台需求的朋友。 

    简单自我介绍一下,我叫金川,来自网易杭州研究院,目前所在的部门是大数据基础设施组,负责大数据平台SRE的相关工作。如果在分享过程中有任何问题,大家可以先在评论栏中留言,在事后的QA环节会为大家统一做解答。

    我本次的分享的内容包括以下几个部分:

    首先,介绍网易的大数据应用现状;

    其次,说明下网易大数据管控平台的现状,内部暂定的名称是EasyOps。取使用方便灵活之意;

    再者,介绍通用的大数据服务运维框架;

    然后,说明基于Prometheus套件的通用的大数据监控报警实现;

    最后,大数据平台运维实战经验分享。

    这里列举了目前我们的大数据平台支撑的互联网产品矩阵,大头主要是云音乐、严选这2个,同时内部还有其他待孵化的产品线,这里就不做举例了。

    平台使用的技术栈底层是Hadoop生态系统,大概有22多个组件;中台是网易自研的有数,大概27个组件。我们离线集群分为6个,此外实时集群也有2个主要是运行sparkstreaming或flink作业。

    这里是我们有数中台的一些功能模块,具体的使用的介绍这里不做展开,有兴趣的朋友请关注网易有数公众号,针对各个模块都有详细的文章介绍。

    接下来,介绍下我们使用的大数据管控平台EasyOps。之所以要重新做一套管控工具,是因为我们在使用开源的Ambari系统来部署和管理大数据平台时,遇到了的各类问题。新的管控平台就是要解决这些问题,当然这也是一个逐渐迭代的过程,不会是一蹴而就的事情。

    这页是EasyOps管控平台关于HDFS服务的一个实例的详情页面,这里包括了该实例所属的各类组件和节点。左侧是所有的服务列表,右侧是服务详情,上方是关于服务的一个概要报表。

    接下来是管控平台的主机页面,我们可以看到接入的所有主机,然后是主机支持的若干操作。

    这个是主机的详情页,这里可以看到这台主机上安装的所有服务和组件,包括主机本身的一些报表。细心的同学可能会看出右图的监控报表和NodeExporter很像,是的,我们监控主机状态用的就是Node Exporter,关于监控的实现,我们在后面会进行介绍,这里暂且不表。

    这里是我们的服务配置页面,可以支持常规的配置组、变更历史切换和任意的配置下发功能。

    这是我们基于Grafana的Dashboard大盘,汇总了所有相关服务的监控仪表盘。

    接下来为大家介绍下通用的大数据服务运维框架,具备一些开发资源的团队可以在短时间内完成一个可用的服务运维平台,这里我们会分这么几个区块来给大家介绍。

    一个通用的服务运维平台往往会包括以下操作:

    其他服务的特异性操作,譬如HDFS数据迁移,HDFS数据均衡,YARN的队列或任务操作等等

    以服务安装流程为例,说明一下整个流程……

    这个通用的运维框架是以Ansible技术栈为基础,包括以上三个主要的功能模块。

    我们使用Ansible Runner目录结构来组织Playbooks,基本的结构见上图,在playbook目录下面是各个组件或服务的运维操作的入口。

    在roles下以服务名创建目录,目录下创建defaults,tasks,templates,vars目录。

    defaults:用于存放默认的变量值,必须创建main.yml文件,调用role时会自动加载

    tasks: 所有的任务脚本存放的目录,必须创建main.yml,当调用role时,会调用main.yml

    templates: 用于存放templates模板,生成配置文件

    vars: 用于存放动态的变量值,需要include对应的变量文件才会加载

    平台的前端我们使用的技术方案是……

    平台后端的技术栈是……

    整个平台的架构图如上……

    以之前提到的Ansible的服务安装调用逻辑为例,说明下整个调用流程……

    服务的配置管理分为以上几个部分:

    上图是YARN服务的配置管理,可以看到变更的历史记录。

    关于配置文件的参数变更,我们有这么一个场景,需要能支持任意参数的配置透传。我们定义了一套流程来解决上述问题,上面就是一个调用图例。

    为什么要有配置透传?很简单,因为开发懒,不想每次服务版本变更增加配置参数后,还需要进行一次适配。而是按照规范,为特定的配置文件实现动态配置添加策略。

    接下来我们介绍下通用的大数据服务监控报警框架,它基于Prometheus/Grafana等组件实现;内部使用的TSDB是基于InfluxDB改造后的NTSDB。

    所以很明显,在集群模式下Prometheus服务是我们监控的核心模块,为此我们针对分布式和高可用问题,定制了一套架构,下面是分布式读写实现。

    这里是Prometheus的高可用架构,所有采集端的prometheus均由prometheusMonitor进行监控。当一个prometheus无法提供服务时,会先由watchdog进行重启;如果依旧无法提供服务,alarmManager会进行报警,调用Ansible的相关接口,拉取无法提供服务的prometheus的完整配置文件,然后在合适的主机上创建新的实例。

    上图是我们的度量采集方案,有些服务自己就暴露了prometheus的度量接口,譬如Neo4j,Grafana,Prometheus等,这类服务我们直接通过prometheus抓取相关监控数据即可。JVM服务我们使用的是micrometer插件(https://micrometer.io/)。

    接下来是我们自定义的日志监控流程,日志采集可以使用filebeat,logstash等已有的组件,但我们有内部的一个DSAgent方案。通过日志采集,流入到kafka,然后我们会有定制的日志分析逻辑,譬如分析异常日志,聚合度量等,消费后的数据会分流至ES,NTSDB或者MySQL等存储,用于可视化或者报警平台逻辑。

    我们的报表系统基于Grafana定制而成。

    报警我们可以直接使用Grafana的Alert模块来实现,通过导入定制的Alert规则,可以方便对集群的通用性指标统一添加监控报警。

    简单,易用,方便移植。使用Grafana更加通用

    除此之外我们参考Prometheus的AlertManger组件,改造了Prometheus,用它来实现更灵活的自定义报警逻辑。

    接下来我们进入最后一个环节,运维经验的交流。我这边会以这么几块内容来说明我们的平台在演进过程中的问题和思路。

    从网络架构、存算分离、服务上云等方面来介绍平台的演进过程,这些方面的演进最终目标还是达成成本优化。最后从系统、服务等方面介绍一些性能优化的改进点

    大数据HADOOP业务相较于常规业务在流量方面有很大的区别,hadoop业务因数据分析、离线计算等需求会对东西向的流量有非常大的需求,但是又因其数据存储功能同时也会存在大量其他业务的数据存储到hadoop服务器中导致南北向的流量也非常大。要满足这样的流量模型的需求就需要有一个大收敛比的网络架构,spine leaf架构恰好能满足这点。(使用老架构,解决ARP的广播问题,而且隔离性好)

    Spine类似三层架构中的核心交换机,但形态有所变化:高端口密度高吞吐量的三层交换机替代了大型框式核心交换机,4台spine设备为一个pod节点,结合ARP转路由使用将网络的压力从集中式负载于核心交换机,变成给许多的leaf交换机来均衡分担。

    存储分离在上云过程中一直有提高,这个对于整体的成本优化有明显的好处,我们自己内部的评估就是同等存储和计算规格条件下,使用存储分离可以节省至少20%的成本,同时任务的性能也能得到较大提升。

    这里我们主要使用HDFS Router/Federation架构,以及Yarn的Node Label等特性来实现。

    最后说到服务上云的实践,这里是我们云上实践的部署架构图。大数据上云一般来说最大的困难还是存储接口的问题,主流的云存储方案,包括s3,obs,oss等等。

    为了提供统一的底层接入环境,我们引入Alluxio来作为中间层来屏蔽底层的存储细节,从而上层的计算框架和平台只需要做稍微的参数适配来实现通用的云上部署逻辑。

    最后说到性能优化,我这里不会说到一些具体的细节,概要的来说,我们可以参考以上的几个原则来进行优化。

    最后是本次的QA环节,大家有没有问题?上面的二维码是网易有数的公众号,我们会定期发布网易大数据的相关技术文章和产品介绍,感兴趣的朋友可以关注一下。

    今天的分享就到这里,非常感谢大家的聆听。谢谢大家!

     

     

    分享,点赞,在看,安排一下?

    展开全文
  • 大数据应用人才培养系列教材 大数据系统运维 刘 鹏 张 燕 总主编 姜才康 主编 陶建辉 副主编 大数据应用人才培养系列教材 第四章 性能管理 4.1 性能分析 4.2 性能监控工具 4.3 性能优化 习题 4.1 性能分析 第四章 ...
  • 大数据常见运维问题汇总 其他安装问题: 1.IDEA安装与配置 https://blog.csdn.net/qq_27093465/article/details/77449117 2.IntelliJ IDEA 修改maven为阿里云仓库 ...
  • 集群资源管理 4.CDH集群hdfs运维实战经验分享 5.HBase运维思路和技巧 6.HBase运维实战案例分析 7.YARN运维实战技巧 8.CDH集群yarn运维实战经验分享 9.CDH版本对比 10.CDP新特性演示 11.CM和CDH的升级 12.添加节点和...
  • 部分大数据平台运维题及答案

    千次阅读 多人点赞 2018-12-09 22:31:35
    大数据平台运维 HDFS题: 1.在HDFS文件系统的根目录下创建递归目录“1daoyun/file”,将附件中的BigDataSkills.txt文件,上传到1daoyun/file目录中,使用相关命令查看文件系统中1daoyun/file目录的文件列表信息,将...
  • 大数据平台运维实战案例分享 第一季 任老师,Cloudera管理/开发/分析...
  • 大数据运维简介: 1、从工作职责的运维和实施看: 运维工程师最基本的职责都是负责服务的稳定性,确保服务可以7*24H不间断地为用户提供服务,负责维护并确保整个服务的高可用性,同时不断优化系统架构提升部署...
  • 大数据平台运维之HDFS

    2020-04-20 22:28:55
    大数据系列之运维(自主搭建的大数据平台) (1)HDFS运维 在 HDFS 文件系统的根目录下创建递归目录“1daoyun/file”,将附件中的BigDataSkills.txt 文件,上传到 1daoyun/file 目录中,使用相关命令查看文件系统中...
  • 大数据组件运维工具之HBase

    千次阅读 2020-07-01 11:02:54
    HBase作为当前比较热门和广泛使用的NoSQL数据库,由于本身设计架构和流程上比较复杂,对大数据经验较少的运维人员门槛较高,本文对当前HBase上已有的工具做一些介绍以及总结。 写在前面的说明: 1)由于HBase...
  • 先自我包装一下,本人是这个实在人。由于要生存,就面临着找工作。学习期间学校C#语言,但是对这个技术不是很感兴趣,也很少写代码。...是做反恐情报侦察,大数据系统运维工作的,接下来我就说说...
  • 首页是向导页,以路线图的方式引导你进行集群配置和集群监控 1.2 配置管理 1.2.1 全局配置 用于配置全局参数和服务,包括数据保留配置、告警服务、告警配置和数据库配置等 修改全局参数 1.2.2 数据库配置 用于...
  • 此模块用于在监控过程中针对集群不合理的指标值(全局参数控制)进行预警 2.1.1 告警配置 查看告警阈值 点击参数,可调整告警阈值 2.1.2 告警服务启停 点击“启动”后,告警服务会启动并及时发送告警邮件 每...
  • 大数据组件运维常用命令

    千次阅读 2018-03-31 18:02:18
    storm貌似没有提供停止集群的命令,我一般是通过kill命令直接杀死 kill - 9 $( ps -ef| grep nimbus| awk '{print $2}' ) kill - 9 $( ps -ef| grep supervisor | awk '{print $2}' ) 操作命令:...
  • 作者:秦海龙,杭州以数科技有限公司大数据工程师。Java及Scala语言,Hadoop生态、Spark大数据处理技术爱好者。  责编:郭芮,关注大数据领域,寻求报道或投稿请联系guorui@csdn.net。 公安行业存在数以万计...
  • 1. Hadoop集群有三个节点,分别是master、slave1、slave2, 其中master节点充当master角色,slave1和slave2充当slave角色。要题目要求,填写命令,实现Hadoop完全分布集群搭建。安装文件hadoop-2.7.4.tar.gz存放在/...
  • 上海大数据集群搭建与运维竞赛手册(中职)
  • 第一天 hadoop的基本概念 伪分布式hadoop集群安装 hdfs mapreduce 演示  01-hadoop职位需求状况.avi  02-hadoop课程安排.avi  03-hadoop应用场景.avi  04-hadoop对海量数据处理的解决思路.avi  05-...
  • 1. 背景Hadoop的HDFS集群非常容易出现机器与机器之间磁盘利用率不平衡的情况,比如集群中添加新的数据节点。当HDFS出现不平衡状况的时候,将引发很多问题,比如MR程序无法很好地利用本地计算的优势,机器之间无法...
  • 以存储为例,针对不同的存储有不同的选择,比如就流数据来说,就可以直接使用高吞吐量的分布式消息系统Apache Kafka,企业团队可以很便捷地将Kafka部署到AC2上,并学习如何优化Kafka集群。第二个选择是可以用Amazon ...
  • 大数据平台运维------CM与CDH的升级

    千次阅读 2018-03-17 23:38:39
    1. 升级说明 CM与CDH的升级过程有点类似与安装过程,这里我们也是采用...2、CM管理页面中点集群、升级集群,一直下一步: 3、选择下好的parcel包对应版本 4、一路下一步即可 注意检查是否有失败的步骤,若有,手动重启

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 29,964
精华内容 11,985
关键字:

大数据集群运维