• 论文解读系列：On robust mean variance portfolios(2)


Navigator

On robust mean variance portfolios(1)
Robust MV model
Robust MV model as follows, which we refer to the problem as RMVP2:

max

⁡

x

min

⁡

r

∈

U

r

r

T

x

+

(

W

0

−

e

T

x

)

R

s

.

t

.

x

T

Σ

x

≤

t

2

\max_x\min_{r\in U_r}r^Tx+(W_0-e^Tx)R\\ s.t.\quad x^T\Sigma x\leq t^2

for an appropriately selected positive number

t

t

, the model can be reformulated into

max

⁡

x

r

^

T

x

+

(

W

0

−

e

T

x

)

R

−

γ

∥

Σ

1

/

2

x

∥

2

s

.

t

.

x

T

Σ

x

≤

t

2

\max_x \hat{r}^Tx+(W_0-e^Tx)R-\gamma\lVert\Sigma^{1/2}x\rVert_2\\ s.t.\quad x^T\Sigma x\leq t^2

or equivalently based on the equation

r

^

T

x

−

e

T

x

R

=

μ

^

T

x

\hat{r}^Tx-e^TxR=\hat{\mu}^Tx

max

⁡

x

μ

^

T

x

+

W

0

R

−

γ

∥

Σ

1

/

2

x

∥

2

s

.

t

.

x

T

Σ

x

≤

t

2

Proposition 2: If

H

≥

γ

H\geq \gamma

then RMVP2 admits the unique optimal solution

x

∗

=

t

H

Σ

−

1

μ

^

x^*=\frac{t}{H}\Sigma^{-1}\hat{\mu}

If

H

<

γ

H<\gamma

then it is optimal for an RMVP2 investor to keep all initial wealth in the riskless asset. Proof: the Lagrange function using a non-negative multiplier

λ

\lambda

:

L

(

x

,

λ

)

=

μ

^

T

x

+

W

0

R

−

γ

∥

Σ

1

/

2

x

∥

2

+

λ

(

t

2

−

x

T

Σ

x

)

L(x, \lambda)=\hat{\mu}^Tx+W_0R-\gamma\lVert\Sigma^{1/2}x\rVert_2+\lambda(t^2-x^T\Sigma x)

the optimal solution

x

∗

x^*

can be obtained according to the first-order condition and Slater condition

x

∗

=

(

σ

2

σ

λ

+

γ

)

Σ

−

1

μ

^

x^*=(\frac{\sigma}{2\sigma\lambda+\gamma})\Sigma^{-1}\hat{\mu}

The definition of

σ

\sigma

reveal that

σ

2

=

σ

2

(

2

σ

λ

+

γ

)

2

H

2

\sigma^2=\frac{\sigma^2}{(2\sigma\lambda+\gamma)^2}H^2

Assuming the constraint to be active and observing that

σ

=

t

\sigma=t

, we have

λ

=

H

−

γ

2

t

\lambda=\frac{H-\gamma}{2t}

which is non-negative provided that

H

≥

γ

H\geq \gamma

. If

H

<

γ

H<\gamma

then the only feasible choice for

λ

\lambda

is zero along with a dual objective function value equal to

W

0

R

W_0R

which is attained in the primal by a riskless portfolio, i.e.

x

∗

=

0

x^*=0

. The robust MV portfolio is identical to the MV portfolio obtained as a solution to the problem

max

⁡

x

μ

^

T

x

+

W

0

R

s

.

t

.

x

T

Σ

x

≤

t

2

That is, the investor maximizing robust expected return under a variance constraint makes a MV portfolio choice when his/her confidence in the estimation of the mean is high, i.e.

γ

\gamma

is smaller than

H

H

.(这种情况下对均值的置信程度很高).
Corollary 1: Let

H

≥

γ

H\geq \gamma

.Then
choosing a maximum variance

t

=

T

−

W

0

R

H

−

γ

t=\frac{T-W_0R}{H-\gamma}

, the RMVP2 investor holds an optimal portfolio identical to the RMVP1 investor with a target wealth equal to

T

T

.choosing a minimum target wealth equal to

T

=

W

0

R

+

t

(

H

−

γ

)

T=W_0R+t(H-\gamma)

the RMVP1 investor holds an optimal portfolio identical to the RMVP2 investor with a variance cap equal to

t

2

t^2

.
Consider the following problem

max

⁡

x

min

⁡

r

∈

U

r

r

T

x

+

(

W

0

−

e

T

x

)

R

−

ρ

2

x

T

Σ

x

\max_x\min_{r\in U_r}r^Tx+(W_0-e^Tx)R-\frac{\rho}{2}x^T\Sigma x

where

ρ

\rho

is a positive scalar. Expanding the inner

m

i

n

min

problem from the point of worst-case, we have

max

⁡

x

r

^

T

x

+

(

W

0

−

e

T

x

)

R

−

γ

∥

Σ

1

/

2

x

∥

2

\max_x \hat{r}^Tx+(W_0-e^Tx)R-\gamma\lVert\Sigma^{1/2}x\rVert_2

which refer to as RMVP3.
Proposition 3: If

γ

ρ

<

H

\gamma\rho<H

then RMVP3 admits the unique optimal solution

x

∗

=

(

H

−

γ

ρ

ρ

H

)

Σ

−

1

μ

^

x^*=(\frac{H-\gamma\rho}{\rho H})\Sigma^{-1}\hat{\mu}

If

γ

ρ

>

H

\gamma\rho>H

then it is optimal for RMVP3 investor to keep all initial wealth in the riskless asset. Proof: The function is strictly concave.(RMVP3问题是非凸优化), the first-order necessary conditions yield the candidate solution:

x

=

(

σ

γ

+

σ

ρ

)

Σ

−

1

μ

^

x=(\frac{\sigma}{\gamma+\sigma\rho})\Sigma^{-1}\hat{\mu}

Developing the right-hand side, we obtain a quadratic equation

ρ

2

σ

2

+

2

γ

ρ

σ

+

γ

2

−

H

2

=

0

\rho^2\sigma^2+2\gamma\rho\sigma+\gamma^2-H^2=0

with the positive root

σ

+

=

H

−

γ

ρ

ρ

2

\sigma_+=\frac{H-\gamma\rho}{\rho^2}

provided that

γ

ρ

<

H

\gamma\rho<H

.
展开全文
• 无偏估计是参数的样本估计量的期望值等于参数的真实值。 ... 比如我要对某个学校一个年级的上千个学生估计他们的平均水平（真实值，上帝才知道的数字），那么我决定抽样来计算。...我抽出一个10个人的样本，可以计算...

无偏估计是参数的样本估计量的期望值等于参数的真实值。

比如我要对某个学校一个年级的上千个学生估计他们的平均水平（真实值，上帝才知道的数字），那么我决定抽样来计算。
我抽出一个10个人的样本，可以计算出一个均值。那么如果我下次重新抽样，抽到的10个人可能就不一样了，那么这个从样本里面计算出来的均值可能就变了，对不对？
因为这个均值是随着我抽样变化的，而我抽出哪10个人来计算这个数字是随机的，那么这个均值也是随机的。但是这个均值也会服从一个规律（一个分布），那就是如果我抽很多次样本，计算出很多个这样的均值，这么多均值们的平均数应该接近上帝才知道的真实平均水平。 如果你能理解“样本均值”其实也是一个
随机变量，那么就可以理解为这个随机变量的
期望是真实值，所以
无偏（这是无偏的定义）；而它又是一个随机变量，只是
估计而不精确地等于，所以是无偏估计量。

为什么分母从n变成n-1之后，就从【有偏估计】变成了【无偏估计】？

转载于:https://www.cnblogs.com/huangshiyu13/p/6829252.html
展开全文
• m1.lme4 = lmer(yield ~ variety*nitrogen + (1|block/mainplot), data = oats) summary(m1.lme4) anova(m1.lme4) lmer函数使用和lm是类似的，一般变量表示固定效应，括号内竖线右侧的 person 表示它是一个 随机...

———————————————————————————

线性混合模型与普通的线性模型不同的地方是除了有固定效应外还有随机效应。

笔者认为一般统计模型中的横截面回归模型中大致可以分为两个方向：一个是交互效应方向（调节、中介效应）、一个是随机性方向（固定效应、随机效应）。

两个方向的选择需要根据业务需求:
交互效应较多探究的是变量之间的网络关系，可能会有很多变量，多变量之间的关系；
而随机性探究的是变量自身的关联，当需要着重顾及某变量存在太大的随机因素时（这样的变量就想是在寻在内生变量一样，比如点击量、不同人所在地区等）才会使用。具体见：
笔记︱横截面回归模型中的两大方向（交互效应+随机性）

___________________________________________________________________________________

一、线性混合模型理论

普通的线性回归只包含两项影响因素，即固定效应（fixed-effect）和噪声（noise）。噪声是我们模型中没有考虑的随机因素。而固定效应是那些可预测因素，而且能完整的划分总体。例如模型中的性别变量，我们清楚只有两种性别，而且理解这种变量的变化对结果的影响。

那么为什么需要 Mixed-effect Model？因为有些现实的复杂数据是普通线性回归是处理不了的。例如我们对一些人群进行重复测量，此时存在两种随机因素会影响模型，一种是对某个人重复测试而形成的随机噪声，另一种是因为人和人不同而形成的随机效应（random effect）。如果将一个人的测量数据看作一个组，随机因素就包括了组内随机因素（noise）和组间随机因素（random effect）。这种嵌套的随机因素结构违反了普通线性回归的假设条件。

你可能会把人员（组间的随机效应）看作是一种分类变量放到普通线性回归模型中，但这样作是得不偿失的。有可能这个factor的level很多，可能会用去很多自由度。更重要的是，这样作没什么意义。因为人员ID和性别不一样，我们不清楚它的意义，而且它也不能完整的划分总体。也就是说样本数据中的路人甲，路人乙不能完全代表总体的人员ID。因为它是随机的，我们并不关心它的作用，只是因为它会影响到模型，所以不得不考虑它。因此对于随机效应我们只估计其方差，不估计其回归系数。

混合模型中包括了固定效应和随机效应，而随机效应有两种方式来影响模型，一种是对截距影响，一种是对某个固定效应的斜率影响。前者称为 Random intercept model，后者称为 Random Intercept and Slope Model。Random intercept model的函数结构如下

Yij = a0 + a1*Xij +  bi + eij
a0: 固定截距a1: 固定斜率b: 随机效应（只影响截距）X: 固定效应e: 噪声

混合线性模型有时又称为多水平线性模型或层次结构线性模型由两个部分来决定，固定效应部分+随机效应部分.
(以上内容来源于数据挖掘入门与实战公众号)

1、模型简述

混合线性模型有时又称为多水平线性模型或层次结构线性模型由两个部分来决定，固定效应部分+随机效应部分。

2、协方差结构

来源于论文混合线性模型的应用（该论文涉及到两个案例），为了减少混合线性模型中方差协方差矩阵中参数的个数，统计学家提供了一些方差协方差矩阵（Y）的系统结构模式供实际工作应用。常见的协方差结构有：

3、与普通线性回归模型以及广义线性模型的区别（参考经管之家论坛帖子）

（1）线性回归模型，适用于自变量X和因变量Y为线性关系，具体来说，画出散点图可以用一条直线来近似拟合。一般线性模型要求观测值之间相互独立、残差(因变量)服从正态分布、残差(因变量)方差齐性
（2）线性混合模型，在线性模型中加入随机效应项，消了观测值之间相互独立和残差(因变量)方差齐性的要求。

（3）广义线性模型，是为了克服线性回归模型的缺点出现的，是线性回归模型的推广。首先自变量可以是离散的，也可以是连续的。离散的可以是0-1变量，也可以是多种取值的变量。广义线性模型又取消了对残差(因变量)服从正态分布的要求。残差不一定要服从正态分布，可以服从二项、泊松、负二项、正态、伽马、逆高斯等分布，这些分布被统称为指数分布族。
关于分布：因变量的分布有放宽，但是自变量没有分布的要求

与线性回归模型相比较，有以下推广：
a、随机误差项不一定服从正态分布，可以服从二项、泊松、负二项、正态、伽马、逆高斯等分布，这些分布被统称为指数分布族。
b、引入联接函数$g(\cdot )$。因变量和自变量通过联接函数产生影响。根据不同的数据，可以自由选择不同的模型。大家比较熟悉的Logit模型就是使用Logit联接、随机误差项服从二项分布得到模型。

（4）与分层线性模型（HLM）的区别。
介于线性模型与分层线性模型之间，线性混合模型平行地以加入解释变量的形式加入了随机效应，分层线性模型是以系数项为二层回归引入了随机效应。分层线性模型较之线性混合模型更具随机性。

___________________________________________________________________________________

二、R语言中的线性混合模型

来自博客R中的线性混合模型介绍（翻译博客）（来自科学网邓飞博客）原来来自：http://www.r-bloggers.com/linear-mixed-models-in-r/

1、nlme lme4 Asreml包

R中有很多软件包可以做混合线性模型，这里我只介绍nlme、lme4和ASreml（对！ASreml是商业版，但是还有对应的R包），这些都是基于Reml的算法，当然还有一些包是基于贝叶斯的算法，这部分在其他章节介绍。

几个包的介绍：

包优点缺点nlme这是一个比较成熟的R包，是R语言安装时默认的包，它除了可以分析分层的线性混合模型，也可以处理非线性模型。在优势方面，个人认为它可以处理相对复杂的线性和非线性模型，可以定义方差协方差结构，可以在广义线性模型中定义几种分布函数和连接函数。它的短板：1、随机效应的定义过于呆板2、数据量大时速度很慢3、默认情况下不能处理系谱数据4、不能处理多元数据。lme4lme4包是由Douglas Bates开发，他也是nlme包的作者之一，相对于nlme包而言，它的运行速度快一点，对于睡觉效应·随机效应的结构也可以更复杂一点，但是它的缺点也和nlme一样1、不能处理协方差和相关系数结构2、它可以与构建系数的包连接，比如mmpedigree包，但是结合比较脆弱。ASReml-RASReml-R是ASReml的R版本，它的优点：1、可以处理复杂的随机因子结构2、可以处理多元数据3、可以处理系谱数据4、可以处理大批量的数据主要的缺点：1、它是收费的，当然它对于不发达国家的科研机构是免费的，不过需要申请和被审核。它的用户主要是育种公司、科研机构等，它可以在各种平台上运行，包括Windows、Linux、OS X等。

2、R语言案例

数据来源：一个传统的裂区数据来说明不同软件包的用法，这个数据oats是在MASS包中，是研究大麦品种和N肥处理的裂区试验，其中品种为主区，肥料为裂区。

library(MASS)
data(oats)
names(oats) = c('block', 'variety', 'nitrogen', 'yield')

3、nlme包

用这个包很简单，y-变量写在左边，然后是固定因子，然后是随机因子，注意1|block/mainplot是裂区试验残差的写法，因为里面有两个残差。代码如下：

library(nlme)
m1.nlme = lme(yield ~ variety*nitrogen,
random = ~ 1|block/mainplot,
data = oats)

summary(m1.nlme)

方差分析结果为：

anova(m1.nlme)
numDF denDF   F-value p-value
(Intercept)          1    45 245.14333  <.0001
variety              2    10   1.48534  0.2724
nitrogen             3    45  37.68561  <.0001
variety:nitrogen     6    45   0.30282  0.9322

如果假设认为这些调查对象是同质的，也就是个体间没有差异性，那么可以将数据完全汇集（complete pooling）到一起，直接利用lm函数进行回归。但这个混合效应模型的同质假设往往不成立，数据汇集导致过度简化。另一种思路是假设研究的异质性，将不同的个体分别进行回归，从而得到针对特定个体的估计值，这称为不汇集（no pooling）。但这种方法导致每个回归所用到的样本减少，从而难以估计统计量的标准差。
多层回归模型的思路是前两者的折中，所以又称为部分汇集（partial pooling）。在R语言中我们使用mgcv包中的lmer函数来完成这项工作。首先载入faraway包以便读取psid数据集，然后加载mgcv包，再将年份数据中心化以方便解释模型，最后用lmer函数进行建模。

4、lme4包

lme4包的语法也相似，随机效应有着和nlme相同的语法，不同的是lme4包它的结果给出了随机效应的标准差，而不是方差。

library(lme4)
m1.lme4 = lmer(yield ~ variety*nitrogen + (1|block/mainplot),
data = oats)

summary(m1.lme4)
anova(m1.lme4)

lmer函数使用和lm是类似的，一般变量表示固定效应，括号内竖线右侧的person表示它是一个随机效应，它与模型中其它变量相加，而且与年份cyear变量相乘，影响其斜率。这就是一个随机效应模型。如果认为随机效应只影响模型截距，那么固定效应回归模型可以用下面的公式

5、ASReml-R包

它的功能很强大，用在这里有些杀鸡用牛刀的感觉。
代码如下：

library(asreml)
m1.asreml = asreml(yield ~ variety*nitrogen,
random = ~ block/mainplot,
data = oats)
summary(m1.asreml)\$varcomp
wald(m1.asreml)

___________________________________________________________________________________

三、线性混合模型解读

1、难点

建模前提：数据服从正态分布的假设；
固定、随机效应变量选择：哪些变量归类到随机效应（相关性比较强，而且不是主要研究对象,同时自身存在一定随机性，比如搜索点击数据，自身就不受控制，存在很多随机因素）；固定效应（主要研究的解释变量）。
协方差结构的选择：可以利用AIC、BIC指标来判断，常见的有8个协方差结构。

2、案例一：论文《混合线性模型的应用》的案例解读

模型为：成绩（被解释变量）=性别（固定效应）+地区（随机效应）
协方差结构的选择：将随机参数向量的方差协方差矩阵设置为无结构型。

剩余误差ε的方差估计值为105.06，地区随机效应的方差估计值g=25.95，但无统计学意义，表示地区间的变异不大（ 由于样本含量较小之故）。比较这 2 个值的大小反映考试成绩在同一地区内学生间的变异大于地区间的变异。为了更好地解释模型，仍将地区随机效应保留在模型中。

一个学生的考试成绩的总方差为105.06+25.95，可以估计出组内相关系ρ=25.95/（105.06+25.95）=0.1980，这表示同一地区学生考试成绩的聚集性达到近,20%。

固定效应变量性别对学生考试影响的参数估计值为9.911，具有统计学意义。男生的平均成绩预报值为69.4分，女生的平均成绩预报值为69.4+9.91=79.31分。这一预报值是控制地区变异后的结果，不同于模型中的条件平均预报值。
3、案例二：分析不同手术方案病人的前蛋白含量在手术前后变化情况（论文《混合线性模型的应用》的案例解读）

协方差结构的选择：在分析协变量的效应前，先要选择一个合适的方差协方差矩阵。 在配合的8种协方差结构中， 综合考虑协方差参数个数及信息量指标值，特别是BIC以具有2个参数AR（1）的 ,AR（1）效果最好。 故选用AR（1）作为本例的方差协方差结构。

———————————————————————————

展开全文
• 另一个提升小目标检测性能的方法是 fine-tune CNN-B on up-sampled low resolution images to yield CNN-B-FT，由此得出结论是： the filters learned on high-resolution images can be useful for recognizing low...
An Analysis of Scale Invariance in Object Detection – SNIP  Code will be made available at http://bit.ly/2yXVg4c
小伙伴们，知道 Larry S. Davis 是谁吗？
本文主要对目标检测中的尺度问题进行深入分析，如何实现多尺度目标检测，尤其是小目标检测。  结论：1）combining them with features from shallow layers would not be good for detecting small objects
1 Introduction  在图像分类这个问题上，深度学习的进步飞速，top-5 error on ImageNet classification 从 15% 降到 2%，这是一个 super-human level performance 在1000类图像分类问题上。但是在目标检测这个问题上，最好的检测器在 COCO 检测器只有 62%，即使在 50%的重合率上。那么为什么目标检测比图像分类难这么多了？
目标在图像中的大尺度变化范围，尤其是小目标检测的挑战是目标检测诸多难点中的显著一个。有意思的是在 ImageNet (classification) vs COCO (detection) 其中等尺度目标在图像中的占比分别是 0.554 and 0.106 respectively。所以在COCO 中大部分目标在图像中小于 1% 的面积。更糟糕的是在 COCO 最小最大10%的目标在图像中的占面积比是 0.024 and 0.472 respectively（导致尺度相差近20倍）。这种大尺度范围的变化导致目标检测需要 enormous and represents an extreme challenge to the scale invariance properties of convolutional neural networks，更糟糕的是我们的检测器一般都是在图像分类数据库上预训练，再进行微调得到的，但是检测和分类中的目标尺度差异很大，这有导致了一个大的 domain-shift 。本文首先提出上述问题的证据，然后提出一个 Scale Normalization for Image Pyramids 来解决这个问题。
前人是如何解决这个多尺度问题的了？1） 使用多尺度特征做检测，2）dilated/deformable convolution用于增加大目标的感受野，3） independent predictions at layers of different resolutions，4）context，5）多尺度训练，6）多尺度检测
虽然这些思路提升了目标检测的性能的，但是下面的问题仍然没有被解决？  1）放大图像对于目标检测的性能至关重要吗？尽管检测数据库中图像的尺寸大多是 480x640，为什么在实际中将图像放大到 800x1200？我们可以 在ImageNet 预训练时对小尺寸图像可以采用小的 strides，然后在检测数据库中微调来提升小目标的检测 吗？  2）当我们对预训练的分类模型在检测上进行微调得到一个检测器时，在对输入图像尺寸归一化后，训练的目标尺度需要限定在一个小的范围吗（from 64x64 to 256x256）， 或者是 在放大输入图像后，需要对所有尺度目标参与训练吗？ (from 16x16 to 800x1000, in the case of COCO)
2 Related Work  Scale space theory 提倡学习尺度不变的特征来解决这个多度问题。
当前CNN模型中的 deeper layers 具有较大的 strides (32 pixels)，这导致了输入图像对应了一个 very coarse representation，这时的小目标检测很难做。为了解决这个问题，有人使用 dilated/atrous convolutions 来增加 feature map 的尺寸。Dilated/deformable 卷积也保留了预训练网络的 weights and receptive fields，所以对大目标检测性能没有下降。 在训练时将图像放大 1.5 to 2 ，在 inference 是 输入图像放大 4 倍 也是一个常用的增加 feature map 的尺寸的方法。因为考虑输入图像的网络层 feature map 的尺寸大，所以有人讲各个网络层的 feature map 结合起来做检测，也有分别在这些 feature map 上做检测。 方法如 FPN,Mask-RCNN,RetinaNet 采用了一个 pyramidal representation，将多网络层 feature map 结合起来检测。但是当目标尺寸为 25x25 像素时，即使在训练时放大 2倍，目标也只有 50x50 像素。通常在图像分类预训练的图像尺寸为 224x224，the high level semantic features (at conv5) generated even by feature pyramid networks will not be useful for classifying small objects (a similar argument can be made for large objects in high resolution images). 所以 将 shallow layers 的特征结合起来做检测，对于小目标检测效果不好。 尽管 feature pyramids 有效的综合了多卷积层特征图信息，但是对于very small/large objects 检测效果不是很好。
最近在文献【15】中提出一个金字塔方式检测人脸，对每个尺度的目标梯度 back-propagated，对于不同尺寸目标在分类层使用不同的滤波器。这个方法只适用于人脸检测，不适用于广义的目标检测 ， because training data per class in object detection is limited and the variations in appearance, pose etc. are much larger compared to face detection。 这里我们的思路是 selectively back-propagate gradients for each scale and use the same filters irrespective of the scale of the object, thereby making better use of training data
3 Image Classification at Multiple Scales  首先我们来分析一下 the effect of domain shift，这是由 训练和检测图像尺寸不一样导致的：一般训练的图像尺寸是 800x1200 ，inference 的图像尺寸是 1400x2000（为了检测小目标）
首先我们对 original ImageNet database图像进行降采样 获得不同尺寸的图像 48x48, 64x64, 80x80, 96x96 and 128x128，然后再归一化到 224x224，用这个尺寸训练一个 CNN网络 referred to as CNN-B，我们得到的结论是： as the difference in resolution between training and testing images increases, so does the drop in performance，所以 testing on resolutions on which the network was not trained is clearly sub-optimal, at least for image classification
基于上述观察结果，一个提升小目标检测性能的方法就是 pre-train classification networks with a different stride on ImageNet，毕竟 在 CIFAR10 [17] (which contains small objects) 最好的网络结构不同于 ImageNet 上的。这个思路训练得到的网络为 CNN-S，明显比 CNN-B 要好。所以： it is tempting to pre-train classification networks with different architectures for low resolution images and use them for object detection for low resolution objects.
另一个提升小目标检测性能的方法是 fine-tune CNN-B on up-sampled low resolution images to yield CNN-B-FT，由此得出结论是： the filters learned on high-resolution images can be useful for recognizing low-resolution images as well
上面两个思路我们都可以提升小目标检测，我们如何选择了？放大图像比使用多个网络结构要好  Since pre-training on ImageNet (or other larger classification datasets) is beneficial and filters learned on larger object instances help to classify smaller object instances, upsampling images and using the network pre-trained on high resolution images should be better than a specialized network for classifying small objects.
首先预训练是有帮助的，毕竟可以给网络参数提供合理的初始化。第二就是大目标的训练样本 有助于 小目标的分类。为什么了？ 主要是样本的多样性可以提升分类器性能。如果去除这些大中目标训练样本，小目标分类器的性能的会下降，毕竟大中目标在整个训练数据库中占比很大。  所以 放大输入图像+使用高分率图像预训练 要优于 专门针对小目标训练一个分类器
4 Background  我们使用了 Deformable-RFCN [7] detector 作为我们的基准检测器。
5 Data Variation or Correct Scale?  这里我们主要分析 图像尺寸、目标尺寸、尺度范围对检测器性能的影响  This section analyses the effect of image resolution, the scale of object instances and variation in data on the performance of an object detector.
800all 对应的训练图像尺寸为 800x1200  1400all 对应的训练图像尺寸为 1400x2000  1400 <80px 对应 在 1400x2000 尺寸上训练，将大、中目标去除  MST： randomly sampled images at multiple resolutions during training  SNIP： training is only performed on objects that fall in the desired scale range and the remainder are simply ignored during back-propagation
结论：  1） 1400all 比 800all 效果要好，但是这种提升很小，为什么了？ training at higher resolutions scales up small objects for better classification, but blows up the medium-to-large objects which degrades performance. 照顾了小目标，没能照顾上大中目标  2） 1400 <80px 效果最差，为什么了？失去了太多的重要训练样本  We lost a significant source of variation in appearance and pose by ignoring medium-to-large objects (about 30% of the total object instances) that hurt performance more than it helped by eliminating extreme scale objects  3） MST 性能和 800all 相当
We conclude that it is important to train a detector with appropriately scaled objects while capturing as much variation across the object instances as possible
SNIP    只训练合适尺寸的目标样本，太小太大的目标都不要，输入图像多尺度，总有一个尺寸是合适的。
7 Datasets and Evaluation

展开全文
• The Dynamics of the Shape of the Yield Curve: Empirical Evidence, Economic Interpretations and Theoretical Foundations 收益率曲线形态的动力学：实证证据、经济学解释和理论基础 INTRODUC...
•  Sample variance can also be applied to the estimation of the variance of a continuous distribution from a sample of that distribution. The  sample variance  of a random variable demonstrates two ...
• This will yield around B/3 predictions for the ith observation. In order to obtain a single prediction for the ith observation, we can average these predicted responses (if regression is the goal) ...
• qsort(for(i )yield i)::: pivot :: qsort(for(i <- tail if i >= pivot)yield i) } 静态类型 Scala是具备类型系统，通过编译时的检查，保证代码的安全性和一致性。类型系统具体支持以下特性： 泛型类 ...
• 前言现在已经有很多公司在使用HikariCP了，HikariCP还成为了SpringBoot默认的连接池，伴随着SpringBoot和微服务，HikariCP 必将迎来广泛的普及。下面陈某...
• fit(X).transform(X) will not yield the expected results, use fit_transform(X) instead. whiten : bool, optional (default False) When True (False by default) the components_ vectors are ...
• Batch Normalization；论文年份：2015；论文被引：20238(21/08/2020)
• Choosing max_features < n_features leads to a reduction of variance and an increase in bias. Note: the search for a split does not stop until at least one valid partition of the node samples ...
• fold cross-validation using k = 5 or k = 10, as these values have been shown empirically to yield test error rate estimates that suffer neither from excessively high bias nor from very high variance. ...
• Our attentional models yield a boost of up to 5.0 BLEU over non-attentional systems which already incorporate known techniques such as dropout. For English to German translation, we achieve new state...
• More Results Changelog Fully Convolutional Networks for Semantic Segmentation Abstract Convolutional networks are powerful visual models that yield hierarchies of features. We show that convolutional...
• Because the Hessian vector product require very low variance estimation, which leads to batch size larger than 1000. But  some rare cases  happen when 2nd order methods with small batch size works.
• 文章作者：Tyan 博客：noahsnail.com &nbsp;|&nbsp; CSDN &nbsp;|&nbsp; 简书 ...声明：作者翻译论文仅为学习，如有侵权请联系作者删除博文，谢谢！...Batch Normalization: Acceleratin...
• 一、CNN的引入在人工的全连接神经网络中，每相邻两层之间的每个神经元之间都是有边相连的。当输入层的特征维度变得很高时，这时全连接网络需要训练的参数就会增大很多，计算速度就会变得很慢，例如一张黑白的 28×28...
• ## 最新Hive函数

千次阅读 2017-11-23 18:35:55
LanguageManual UDF
• ## HIVE全部函数详解

万次阅读 2017-09-13 18:04:28
Larger values will yield better accuracy, but use more memory. Example usage: SELECT context_ngrams(sentences(lower(review)), array("i", "love", null, null), 10) FROM movies would attempt to ...
• 因为Scala有声明点变型(declaration site variance)注释（annotation），公共库的作者——特别是集合——必须有丰富的注释器。这些注释对共享代码的可用性很重要，但滥用也会很危险。 不可变(invariants)是Scala...
• ## CFA一级知识点总结

千次阅读 2017-09-10 16:00:00
债券的maturity和yield之间的关系叫做yield curve！  Maturity   对于投资者来说，callable bond和prepayable bond的不利之处有几个： 1.现金流难以估计 2.当再投资风险增大的时候，也就是利率降低的...
• measures the total variance in the response Y, and can be thought of as the amount of variability inherent in the response before the regression is performed. In contrast, RSS measures the amount of ...
• ATY: Assembly Test Yield Total Yield 直通率 TPM: Total Productivity Maintenance PM: Product Manager; Project Manager ECR: Engineering Change Request 工程变更申请 ECO: Engineering Change ...
• 4.SAP variance 1.成本的概念 标准成本=标准价格 * 标准数量 + 作业价格 * 标准数量计划成本=计划价格 * 计划数量 + 作业价格 * 计划数量实际成本=实际价格 * 实际数量 + 作业价格 * 实际数量目标成本=标准价格 * ...
• Favorable Variance --有利差异 Finite Capacity Scheduling(FCS)--有限能力计划 Finite Forward Scheduling--有限顺排计划 Finite Loading --有限排负荷 Final Assembly Schedule(FAS)--总装...
• ## [管理]ERP专业术语

千次阅读 2012-03-12 17:08:35
ERP的全称是enterprise resource planning,企业资源计划。现在很多公司，尤其是中大型企业，基本上都上了ERP系统，ERP可以很好地为公司服务，其诸多优点在这就不赘述了。 NO Abbr aa CC 1 ABM Activity-based ...
• 4.SAP variance 1.成本的概念 标准成本=标准价格 * 标准数量 + 作业价格 * 标准数量 计划成本=计划价格 * 计划数量 + 作业价格 * 计划数量 实际成本=实际价格 * 实际数量 + 作业价格 * 实际数量 目标成本=...

...