精华内容
下载资源
问答
  • 9i以后可能大家都喜欢通过设置fast_start...但是仍然有两个参数一直影响着我们的checkpoint,就是log_checkpoint_intervallog_checkpoint_timeoutlog_checkpoint_interval Oracle8.1版本后log_checkpoint_interval...

    9i以后可能大家都喜欢通过设置fast_start_mttr_target来控制instance recovery的粒度。但是仍然有两个参数一直影响着我们的checkpoint,就是log_checkpoint_interval和log_checkpoint_timeout   
    log_checkpoint_interval 
    Oracle8.1版本后log_checkpoint_interval指的是两次checkpoint之间操作系统数据块的个数。checkpoint时Oracle把内存里修改过的数据块用DBWR写到物理文件,用LGWR写到日志(在8i的时候lgwr进程在兼有ckpt进程的作用,呵呵。为了减轻我们本来就可能在高压情况下疲于奔命的LGWR兄弟的负担,Oracle引入了ckpt来更新我们的控制文件和数据文件头的SCN信息)。   
    一般UNIX操作系统的数据块为512bytes。   
    从性能优化的角度来说,建议log_checkpoint_interval=redologfilesizebytes/512bytes,根据我们的online redo file的大小来指定我们数据块的个数.假设LOG_CHECKPOINT_INTERVAL 设置为2000,也就是说,当产生的日志量1m之后,就会触发一个checkpoint。我们可以通过设置log_checkpoints_to_alert =true进行观察测试。
    from concept:
    LOG_CHECKPOINT_INTERVAL specifies the frequency of checkpoints(用来指定检查点发生的频率) in terms of the number of redo log file blocks that can exist between an incremental checkpoint and the last block written to the redo log. This number refers to physical operating system blocks, not database blocks.
    Regardless of this value, a checkpoint always occurs when switching from one online redo log file to another. Therefore, if the value exceeds the actual redo log file size, checkpoints occur only when switching logs. Checkpoint frequency is one of the factors that influence the time required for the database to recover from an unexpected failure.  
    log_checkpoint_timeout   
    Oracle8.1版本后log_checkpoint_timeout指的是两次checkpoint之间时间秒数(单位是秒)。   
    Oracle建议不用这个参数来控制,因为事务(transaction)大小不是按时间等量分布的(事务的长短并不是最重要的,重要的是我们的业务逻辑和数据的完整性)。那么我们用log_checkpoint_interval参数控制会更好一些。   
     我们可以通过log_checkpoint_timeout=0来禁用此参数或者按默认的900。   
    LOG_CHECKPOINT_TIMEOUT specifies (in seconds) the amount of time that has passed since the incremental checkpoint at the position where the last write to the redo log (sometimes called the tail of the log) occurred. This parameter also signifies that no buffer will remain dirty (in the cache) for more than integer seconds.
    Specifying a value of 0 for the timeout disables time-based checkpoints. Hence, setting the value to 0 is not recommended unless FAST_START_MTTR_TARGET is set.

    展开全文
  • predict.py: error: unrecognized arguments: model_name=BMN config=./configs/bmn.yaml log_interval=1 weights=data/dataset/bmn/BMN.pdparams filelist=data/dataset/bmn/infer.list use_gpu=True 解决方案: ...

    在这里插入图片描述

    问题:
    DALI is not installed, you can improve performance if use DALI
    usage: predict.py [-h] [–model_name MODEL_NAME] [–config CONFIG]
    [–use_gpu USE_GPU] [–weights WEIGHTS]
    [–batch_size BATCH_SIZE] [–filelist FILELIST]
    [–log_interval LOG_INTERVAL] [–infer_topk INFER_TOPK]
    [–save_dir SAVE_DIR] [–video_path VIDEO_PATH]
    predict.py: error: unrecognized arguments: model_name=BMN config=./configs/bmn.yaml log_interval=1 weights=data/dataset/bmn/BMN.pdparams filelist=data/dataset/bmn/infer.list use_gpu=False

    解决方案:
    weights=./models/bmn/BMN 不用写pdparams后缀

    问题:
    predict.py: error: unrecognized arguments: model_name=BMN config=./configs/bmn.yaml log_interval=1 weights=./data/dataset/bmn/BMN filelist=./data/dataset/bmn/infer.list use_gpu=False

    解决方案:
    格式错误,改为:

    python predict.py --model_name=BMN --config=./configs/bmn.yaml --log_interval=1 --weights=./data/dataset/bmn/BMN --filelist=./data/dataset/bmn/infer.list --use_gpu=False

    展开全文
  • 目录官方解释group_wait(default: 30s)group_interval(default: 5m)repeat_interval(default: 4h)实验参数告警过程结论注意参考 官方解释 group_wait(default: 30s) How long to initially wait to send a ...

    官方解释

    group_wait(default: 30s)

    How long to initially wait to send a notification for a group of alerts. Allows to wait for an inhibiting alert to arrive or collect more initial alerts for the same group. (Usually ~0s to few minutes.)
    一组告警第一次发送之前等待的时间。用于等待抑制告警,或等待同一组告警采集更多初始告警后一起发送。(一般设置为0秒 ~ 几分钟)

    group_interval(default: 5m)

    How long to wait before sending a notification about new alerts that are added to a group of alerts for which an initial notification has already been sent. (Usually ~5m or more.)
    一组已发送初始通知的告警接收到新告警后,再次发送通知前等待的时间(一般设置为5分钟或更多)

    repeat_interval(default: 4h)

    How long to wait before sending a notification again if it has already been sent successfully for an alert. (Usually ~3h or more).
    一条成功发送的告警,在再次发送通知之前等待的时间。 (通常设置为3小时或更长时间)。


    实验

    参数

    group_wait: 10s
    group_interval: 30m
    repeat_interval: 50m
    

    告警过程

    1. alertmanager收到告警后,等待group_wait(10s),发送第一次通知
    2. 未达到group_interval(30m 10s),休眠
    3. 达到group_interval(30m 10s)时,小于repeat_interval(50m 10s),休眠
    4. 到下一个group_interval(60m 10s),大于repeat_interval(50m 10s),发送第二次通知

    Firing(0s) - 第一次通知(10s) - 第二次通知(60m 10s)


    结论

    1. 当repeat_interval小于group_interval时,repeat_interval不影响告警
    2. 当repeat_interval大于group_interval,且不为group_interval倍数,影响告警
    3. 当repeat_interval大于group_interval,且为group_interval倍数,可能影响告警(*注)

    注:
    当repeat_interval大于group_interval,且为group_interval倍数时,可能发生两种情况:

    1. 在repeat_interval时发出告警
    2. 在repeat_interval + group_interval时发出告警(原因是如果repeat_interval是group_interval的倍数,则在需要发出通知时会同时判断两个值,程序耗时 + 网络耗时会导致对比结果不准确)

    补充

    根据这篇文章对alertmanager高可用实现的描述:

    当AlertManager启动时,它会首先从cluster.peer参数指定的地址和端口进行Push/Pull:即首先将本节点的状态信息(全部的Silence以及Notification Log)发送到对端,再从对端拉取状态信息并与本节点的状态信息合并:例如,对于从对端拉取到的静默规则,如果有本节点不存在的规则则直接添加,若是规则在本节点已存在但是更新时间更晚,则用对端规则覆盖已有的规则。对于Notification Log的做法类似。最终,集群中的所有AlertManager都会有同样的静默规则以及Notification Log。

    如果此时用户在某个AlertManager请求增加新的静默规则呢?根据Gossip协议,该实例应该从集群中选取几个实例,将新增的静默规则发送给它们。而当这些实例收到广播信息时,一方面它会合并这一新的静默规则同时再对其进行广播。最后,整个集群都会接收到这一新添加的静默规则,实现了最终一致性。

    不过,Notification Log的同步并没有静默规则这么容易。我们可以假设如下场景:由于高可用的要求,Prometheus会向每个AlertManager发送告警实例。如果该告警实例不属于任何之前已有的Alert Group,则会新建一个Group并最终创建一个相应的Notification Log。而Notification Log是在通知完成之后创建的,所以在这种情况下,针对同一个告警发送了多次通知。

    为了避免这种情况的发生,社区给出的解决方案是错开各个AlertManager发送通知的时间。如上文的整体架构图所示,Notification Pipeline在进行去重之前其实还有一个Wait阶段。该阶段会将对于告警的通知处理暂停一段时间,不同的AlertManager实例等待的时间会因为该实例在整个集群中的位置有所不同。根据实例名进行排序,排名每靠后一位,默认多等待15秒。

    假设集群中有两个AlertManager实例,排名靠前的实例为A0,排名靠后的实例为A1,此时对于上述问题的处理如下:

    1. 假设两个AlertManager同时收到告警实例并同时到达Notification Pipeline的Wait阶段。在该阶段A0无需等待而A1需要等待15秒。
    2. A0直接发送通知,生成相应的Notification Log并广播
    3. A1等待15秒之后进入去重阶段,但是由于已经同步到A0广播的Notification Log,通知不再发送

    当集群中排名靠前的alertmanager由于某种原因导致通知发送失败时,后续实例会等待一段时间再尝试发送,此时也会影响最终收到告警的时间。


    参考

    1. 关于 Alertmanager 中 group_interval 与 repeat_interval 上的一些坑
    2. issue:Some troubles about group_interval, group_wait and repeat_interval
    3. Prometheus告警模型分析
    展开全文
  • # │ │ │ │ │ 7 is also Sunday on some systems) # │ │ │ │ │ # │ │ │ │ │ # * * * * * 示例 每天00:45 schedule_interval='45 00 * * *' 每天08:01,09:01,10:01 到 22:01 schedule_interval...

    1、airflow dags文件airflow.py更新dagid后要重新 airflow initdb

    后台执行

    airflow webserver &
     
    airflow scheduler &
    

    2、 错误:The scheduler does not appear to be running. Last heartbeat was received 3 d

    需要重新执行airflow scheduler
    

    start_date 开始时间

    参考:https://blog.csdn.net/OldDirverHelpMe/article/details/106843857

    Airflow调度程序的时候第一次执行的时间为:start_date+schedular_interval

    schedule_interval 间隔周期

    cron:
    参考:https://blog.csdn.net/jsklnice/article/details/114375306

    # ┌───────────── minute (0 - 59)
    # │ ┌───────────── hour (0 - 23)
    # │ │ ┌───────────── day of the month (1 - 31)
    # │ │ │ ┌───────────── month (1 - 12)
    # │ │ │ │ ┌───────────── day of the week (0 - 6) (Sunday to Saturday;
    # │ │ │ │ │                                   7 is also Sunday on some systems)
    # │ │ │ │ │
    # │ │ │ │ │
    # * * * * * <command to execute>
    
    示例
    
    每天00:45
     schedule_interval='45 00 * * *'
    
    每天08:01,09:01,10:01 到 22:01
    schedule_interval='01 08-22/1 * * *'
    
    每个周六的23:45
    schedule_interval='45 23 * * 6'
    
    每天01:00, 01:05, 01:10, 直到 03:55
    schedule_interval='*/5 1,2,3 * * *'
    

    timedelta:

    from datetime import timedelta
    timedelta(minutes=3)
    timedelta(hours=3)
    timedelta(days=3)
    
    # coding: utf-8
    import airflow
    from airflow import DAG
    from airflow.operators.python_operator import PythonOperator
    from airflow.operators.bash_operator import BashOperator
    from datetime import timedelta,datetime as datetime1
    import datetime as datetime2
     
    dt = datetime1.now()-datetime2.timedelta(hours=1)
     
    # 定义默认参数
    default_args = {
        'owner': 'fjk',  # 拥有者名称
        'depends_on_past': True,   # 是否依赖上一个自己的执行状态
        'start_date': datetime1(dt.year,dt.month,dt.day,dt.hour)
        #'start_date': airflow.utils.dates.days_ago(2),
    }
     
    # 定义DAG
    dag = DAG(
        dag_id='20007_as_h',  # dag_id
        default_args=default_args,  # 指定默认参数
        #schedule_interval='*/5 * * * *',  # 执行周期,依次是分,时,天,月,年,此处表示每个整点执行
        schedule_interval=timedelta(hours=1)
    )
     
    """
    2.通过BashOperator定义执行bash命令的任务
    """
     
    t1 = BashOperator(   #将模型的文本就行参数的修改
        task_id='task1',
        depends_on_past=True,
        bash_command='sed -ie "s/(start)/$(date -d "10 minute ago" +"%Y-%m-%d %H:00:00")/g" /opt/model/20007_tj_h_as.txt&&sed -i "s/(end)/$(date -d "10 minute ago" +"%Y-%m-%d %H:59:59")/g" /opt/model/20007_tj_h_as.txt&&sed -i "s/(ip)/172.21.1.237/g" /opt/model/20007_tj_h_as.txt&&sed -ie "s/(start)/$(date -d "12 hour ago" +"%Y-%m-%d %H:%M:00")/g" /opt/model/20007_yc_as_h.txt&&sed -i "s/(end)/$(date -d now +"%Y-%m-%d %H:%M:00")/g" /opt/model/20007_yc_as_h.txt&&sed -i "s/(ip)/172.21.1.237/g" /opt/model/20007_yc_as_h.txt',
        dag=dag
    )
     
    # 进行统计模型的启动
     
    t2 = BashOperator(   #通过BashOperator定义执行bash命令的任务
        task_id='task2',
        depends_on_past=True,
        bash_command='sh /topsec/spark-2.3.0-hadoop2.7/bin/spark-submit --jars /opt/spark-launcher.jar --class io.xknow.spark.ContainerOperatorLauncher spark-internal --context /opt/software/context.txt --operatorJarHome /user/patronus/operators/SPARK --process /opt/model/20007_tj_h_as.txt >> /opt/log/20007_tj_h_as.log 2>&1',
        dag=dag
    )
     
    # 进行预测模型的启动
    t3 = BashOperator(   #通过BashOperator定义执行bash命令的任务
        task_id='task3',
        depends_on_past=True,
        bash_command='sh /topsec/spark-2.3.0-hadoop2.7/bin/spark-submit --jars /opt/spark-launcher.jar --class io.xknow.spark.ContainerOperatorLauncher spark-internal --context /opt/software/context.txt --operatorJarHome /user/patronus/operators/SPARK --process /opt/model/20007_yc_as_h.txt >> /opt/log/20007_yc_as_h.log 2>&1',
        dag=dag
    )
     
    t4 = BashOperator(   #将模型的文本就行参数的修改
        task_id='task4',
        depends_on_past=True,
        bash_command='rm -rf /opt/model/20007_tj_h_as.txt&&mv /opt/model/20007_tj_h_as.txte /opt/model/20007_tj_h_as.txt&&rm -rf /opt/model/20007_yc_as_h.txt&&mv /opt/model/20007_yc_as_h.txte /opt/model/20007_yc_as_h.txt',
        dag=dag
    )
     
    t1 >> t2 >> t3 >> t4
    
    展开全文
  • 默认情况下ElasticSearch索引的refresh_interval为1秒,这意味着数据写1秒才就可以被搜索到。 因为上述表现,所以称ElasticSearch是近实时搜索引擎。 如果需要调整数据刷新方案,则有三种途径: 设置数据刷新间隔:...
  • Pytorch打怪路(二)pytorch进行mnist训练和测试

    万次阅读 多人点赞 2018-02-02 21:18:04
    if batch_idx % args.log_interval == 0: # 准备打印相关信息,args.log_interval是最开头设置的好了的参数 print('Train Epoch: {} [{}/{} ({:.0f}%)]\tLoss: {:.6f}'.format( epoch, batch_idx * len(data), ...
  • Oracle Redo Log和CheckPoint详解

    千次阅读 2021-03-12 16:49:42
    Oracle Redo Log和CheckPoint详解1.Redo Log1.1.REDO LOG 的作用1.2.update事务流程1.3.LogBuffer写入Redo Log的条件:1.4.LGWR写的具体过程:1.5.redo log的6种状态2.CheckPoint2.1.CheckPoint主要作用:2.2....
  • 怎么样修改SCHEDULE的repeat_interval

    千次阅读 2016-08-15 14:42:44
     select log_id,log_date ,owner,job_name,job_subname,status from DBA_SCHEDULER_JOB_LOG where job_name = 'J_DEL_AUD'  LOG_ID LOG_DATE OWNER JOB_NAME JOB_SUBNAME STATUS ---------- ----------...
  • log_checkpoint_interval=10000 举例。意思很简单,就是经过 10000 个 redo block 后就引发 checkpoint, 这样恢复时,就绝对是在这 10000 个 redo block 中。    但是这样做有个缺点,就是因为 redo block ( os ...
  • spdlog 代码分析

    千次阅读 2019-06-19 13:23:48
    spdlog 源码解析 ##记日志两种模式: 同步: 对于basic_file_sink, 日志每次调用fwrite写入到文件缓存,即使同步模式,也需要flush_every来定时flush,否则crash 时有丢失日志风险 异步: log写日志就是把日志...
  • The function also accepts a number of customization options, such as the file rotation interval and size limits. 下个例子中将更详细的应用这个函数 运行结果: 可以看到,日志信息被记录到sample....
  • clickhouse配置查询记录query_log

    千次阅读 2021-04-16 17:27:01
    文章目录前言配置query_log 前言 最近在使用clickhouse中,看到官方文档上可以配置query_log,但是文档上写的配置比较模糊,特此记录一下具体配置方法,以下配置针对的是集群中所有机器。 配置 打开clickhouse的...
  • ERROR Failed to clean up log for __consumer_offsets-30 in dir D:\kafka_2.13-2.5.0\kafka-logs due to IOException (kafka.server.LogDirFailureChannel) java.nio.file.FileSystemException: D:\kafka_2.13-...
  • 修改HANA DB的log mode

    千次阅读 2014-03-09 23:33:05
    Each log volume contains the file logsegment_directory.dat and one or more log segment files (logsegment__.dat). Currently only one log partition is supported for each service, so the default file n
  • Log .e ( "TAG" , "COLOR is : " + debugger .getEncoderColorFormat ()) ; mediaFormat .setInteger (MediaFormat .KEY _I_FRAME_INTERVAL, 5 ) ; mMediaCodec .configure (mediaFormat, null, null, ...
  • Log4J2 新一代日志系统配置

    千次阅读 2017-11-02 17:50:12
    我的配置 log4j2.xml ../71Netlogs  fileName="${LOG_HOME}/71Net.log" filePattern="${LOG_HOME}/%d{yyyy-MM-dd}-%i.log"> fileName="${LOG_HOME}/Error/error.log" ...
  • http://kafka.apache.org/documentation.html#configuration log.flush.interval.messages = Long.MaxValue log.flush.interval.ms = Long.MaxValue
  • 日志框架(四)Log4j2

    万次阅读 2021-01-12 16:53:43
    日志框架(四)Log4j2 Apache Log4j 2是对Log4j的升级版,参考了logback的一些优秀的设计,并且修复了一些问题,因此带来了一些重大的提升,主要有: 异常处理,在logback中,Appender中的异常不会被应用感知到,...
  • mosquitto 参数配置

    2015-02-22 23:21:40
    mosquitto 参数配置 1.retry_interval 当QoS为1或2的消息已经被发送后,mosquitto在一段时间内仍未接收到客户端的反馈消息,将重新发送消息。 默认为20秒 2.s...
  • ClickHouse(system.query_log表)开启慢sql查询 开启慢sql查询日志方法: 打开各个ClickHouse实例的users.xml文件,在默认配置最上层profile(如default)中加入: <log_queries>1</log_queries> 注意:...
  • tensorflow 1.6 修改checkpoint的saver机制

    千次阅读 2019-06-14 11:23:55
    **结论:**修改train()的save_interval_secs的值来修改定时保存的值,0为取消定时保存。 3.无法获取最小loss的checkpoint: 这个最开始想要用earlystop的方法,但由于对模型训练过程中的收敛过程一无所知,也就不...
  • AngularJS中$interval的用法

    千次阅读 2019-08-13 22:21:24
    在AngularJS中$interval用来处理间歇性处理一些事情。最常用的是: var app = angular.module("app",[]); app.controller("AppCtrl", function($q. $interval){ var timer = $interval(function(){ }...
  • 首先,什么是FAST_START_MTTR_TARGET。参数FAST_START_MTTR_TARGET是指允许DBA指定数据库进行崩溃恢复需要的秒数。MTTR(mean time to restoration)指平均...参数log_checkpoint_interval设定了恢复过程中将要被读的
  • 2017年11月,elastic发布了最新的elastic stack 6.0.0版本,整个版本做了不少的改动,大家可以查阅官方的release note和break change...在filebeat 5.x的版本中,如果你想在一个filebeat agent上收集不同的log,然后pub
  • 自动清理过期mysql从库 log_bin日志

    千次阅读 2018-03-01 16:50:40
    relay-log = /data/mysql/mysql-relay-bin.log log_bin = /data/mysql/mysql-bin.log 一段时间后发现日志量比较大,占据大量磁盘空间。从库同步的日志都保留未清除。 但是 处理: 命令行进入mysql, 输入命令 ...
  • Log Aggregation Status TIME_OUT的缘起

    千次阅读 2017-12-09 21:32:19
    在spark on yarn运行中,有时会发现spark程序运行完毕后,spark的运行界面没有信息,或者找不到相关的运行信息了,经仔细查看NodeManager UI,出现如下信息:Log Aggregation Status TIME_OUT原来NodeManager可以在...
  • Linux内核log等级与printk打印消息控制

    千次阅读 2017-03-07 14:30:51
    Linux预定义的内核log等级与printk打印消息控制
  • kafka-logsize-exporter 项目源码github Installation下载项目并解压Getting Startedpip install -r requirements.txt vim cluster.conf # 集群别名 [kafka1003] # zookeeper地址 zk = 127.0.0.1:2128/kafka1003 # ...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 133,760
精华内容 53,504
关键字:

log_interval