• 多因素分析模型解决方法Finally, all data were cleansed and ready to analyze. Andy started overenthusiastically to visualize the data to get a first impression of the data. He had many dimensions and ...

多因素分析模型解决方法

Finally, all data were cleansed and ready to analyze. Andy started overenthusiastically to visualize the data to get a first impression of the data. He had many dimensions and variables such that he spent several days visually analyzing them and determining the best methods to apply. At the end of that week, the team manager told him that he would need a draft presentation about the outcomes next Tuesday because the team manager had to present it in one week to a steering committee.
最后，所有数据都已清洗并准备分析。 Andy热情洋溢地开始可视化数据以获得对数据的第一印象。 他具有许多维度和变量，因此他花了几天的时间对它们进行可视化分析并确定最佳的应用方法。 在该周结束时，团队经理告诉他，下周二他将需要一份关于结果的演示文稿草稿，因为团队经理必须在一周内将其提交给指导委员会。
Andy told him that he has no results yet. But there was no space for negotiations. On Tuesday, conclusions had to be delivered and integrated into a PowerPoint presentation.
安迪告诉他，他还没有结果。 但是没有谈判的空间。 在星期二，必须提交结论并将其集成到PowerPoint演示文稿中。
Hastily, Andy produced some regression analyses and integrated them into the presentation.
仓促地，安迪进行了一些回归分析并将其整合到演示中。
After the steering committee meeting, the team manager told him that the project would not be carried on.
在指导委员会会议之后，团队经理告诉他该项目将不会继续进行。
Andy was very frustrated. That was his second project, and the second time it ended with the same decision. He has chosen this position because of the potential for doing great data science work on a large amount of data available.
安迪非常沮丧。 那是他的第二个项目，第二次以相同的决定结束。 他之所以选择此职位，是因为他有潜力对大量可用数据进行出色的数据科学工作。

This story is a real case, and it is not an atypical situation in corporations. I assume that some of you have already experienced a similar situation, too.
这个故事是真实的案例，在公司中不是典型情况。 我想你们当中有些人也已经经历过类似的情况。
The reason that this happens is not your skills.
发生这种情况的原因不是您的技能。
When thrown into a data science project in a corporate environment, the situation is different from the previous learning context.
在公司环境中投入数据科学项目时，情况与以前的学习环境不同。
My experience is that most data scientists struggle to manage the project, given the many corporate constraints and expectations.
我的经验是，鉴于许多公司的限制和期望，大多数数据科学家都在努力管理项目。
More than a few data scientists are disappointed and frustrated after the first projects and looking for another position.
在进行第一个项目并寻找另一个职位后，许多数据科学家感到失望和沮丧。
Why?
为什么？
They are trained in handling data, technical methods, and programming. Nobody ever taught them in project, stakeholder, or corporate data management or educated them about corporate business KPIs.
他们接受过处理数据，技术方法和编程方面的培训。 没有人曾在项目，利益相关者或公司数据管理方面教过他们，也没有教过他们有关公司业务KPI的知识。
It is the lack of experience with unspoken corporate practices.
这是缺乏对潜行企业实践的经验。
Unfortunately, there are more potential pitfalls in that area than with all your technical skills.
不幸的是，与您所有的技术技能相比，该领域存在更多的潜在陷阱。
If you know the determining factors, you can plan your data science tasks accordingly, pursue satisfying projects, and steer your work.
如果您知道决定因素，则可以相应地计划数据科学任务，追求令人满意的项目并指导工作。
In the following, I give you the eight most important drivers for the model approach selection in the corporate environment and how to mitigate them.
在下文中，我为您提供了在企业环境中选择模型方法以及如何减轻它们的八个最重要的驱动因素。

1.时间，时间表和截止日期 (1. Time, timelines, and deadlines)
What you need to know
你需要知道的
Corporations have defined project processes. Stage-gate or steering committee meetings are part of that where outcomes must be presented. Presentations have to be submitted a few days in advance and must contain certain expected information. Also, corporates are always under pressure to deliver financial results. That leads to consistently tight deadlines. These processes are part of the corporate culture, unspoken, and supposed that the employee knows them.
公司已经定义了项目流程。 阶段性会议或指导委员会会议是必须提出成果的会议的一部分。 演示文稿必须提前几天提交，并且必须包含某些预期的信息。 而且，企业总是承受着交付财务成果的压力。 这导致持续的时间紧迫。 这些流程是企业文化的一部分，是不言而喻的，并且假定员工知道它们。
如何解决？
问，问，问。 询问里程碑，例如制定项目决策的会议日期。
Set up a time budget. Start at the milestone’s date and calculate backward a project schedule.
设置时间预算。 从里程碑的日期开始，然后向后计算项目进度表。
Include not only your tasks but also the surrounding actions, like coordination meetings, presentations, and deadlines for submitting the presentations. Do not forget that there is a review round for each presentation, and you have to consider adding a few days in advance of submission. Include time margins for unexpected tasks and troubleshooting.
不仅包括您的任务，还包括周围的动作，例如协调会议，演示文稿以及提交演示文稿的截止日期。 别忘了每个演示文稿都有一个审核回合，您必须考虑在提交前几天添加。 包括用于意外任务和故障排除的时间余量。
Only then, choose the approaches for the ability to perform it within the determined schedule. Choose methods that can be run quickly and where you are familiar. After having a few successful results, and hopefully, still time, start experimenting with more complex and new methods.
只有这样，才能在确定的时间表内选择执行该功能的方法。 选择可以在您熟悉的地方快速运行的方法。 在取得了一些成功的结果之后，希望还有时间，可以开始尝试使用更复杂和新的方法。
Example
例
Human Resources (HR) urgently needed the patterns of HR management’s key success factors towards the business departments and people. Setting up the schedule based on the deadline, we decided only to perform simple linear regression without considering any interdependencies of such key success factors, e.g., the level of education and the attended training pieces. We focused on fitting accurately simpler models and having single contribution factors with high reliability identified.
人力资源部(HR)迫切需要人力资源管理模式对业务部门和人员的关键成功因素。 根据截止日期制定时间表，我们决定只进行简单的线性回归，而没有考虑这些关键成功因素之间的相互依赖性，例如教育水平和参加的培训项目。 我们专注于精确拟合更简单的模型，并确定具有高可靠性的单一贡献因子。
2.模型和结果所需的准确性 (2. Accuracy needed of the models and the results)
What you need to know
你需要知道的
The available and ready to use data determine the accuracy of a model. So, the level of detail of a model and the granularity of the data must match. The same is true for the expectations of the granularity of the outcome. The method must match expectations. Any mismatch will give unreliable results.
可用和准备使用的数据确定模型的准确性。 因此，模型的详细程度和数据的粒度必须匹配。 对于结果粒度的期望也是如此。 该方法必须符合期望。 任何不匹配都会导致不可靠的结果。
如何解决？
Select the model according to the granularity of the available data. Do not waste your time to fit a very detailed and accurate model when there is no proper data. Aggregating data and using a less granular model gives more reliable results when not having good quality data.
根据可用数据的粒度选择模型。 如果没有适当的数据，请不要浪费时间来拟合非常详细和准确的模型。 当没有高质量的数据时，聚合数据并使用粒度较小的模型可以提供更可靠的结果。
When the level of accuracy needed for decision making does not match the level that can be achieved by the data, you have to escalate it as early as possible. Do not try to make something up. Only transparent communication helps, prevent surprises, and manages expectations. Otherwise, you will be blamed.
当决策所需的准确度与数据所能达到的准确度不匹配时，您必须尽早升级。 不要试图弥补。 只有透明的沟通才能帮助，防止意外并管理期望。 否则，您将受到责备。
Example
例
When we analyzed the influencing patterns for nursing homes’ profitability, the granular data had been too inhomogeneous, and the results made no economic sense. So, we aggregated the data and applied simpler models. Based on the results, the authority could already make essential decisions and put guidelines in place for future data management and collection.
当我们分析养老院盈利能力的影响模式时，粒度数据太不均匀，结果没有经济意义。 因此，我们汇总了数据并应用了更简单的模型。 根据结果​​，主管部门可能已经做出了重要决定，并为将来的数据管理和收集制定了指导方针。
3.方法的相关性 (3. The relevance of the methods)
What you need to know
你需要知道的
The right problem must be solved with a suitable method. The question to be answered must be clear. It should not permit any ambiguity. Also, the form of the outcomes must be comparable with other internal and external analyses. Both point the direction of the relevant methodology that should be used.
正确的问题必须用适当的方法解决。 必须回答的问题必须清楚。 它不应该有任何歧义。 而且，结果的形式必须与其他内部和外部分析具有可比性。 两者都指出了应使用的相关方法的方向。
如何解决？
Make sure that you understand the question that has to be answered. Please do not assume it! Ask! It does not help when you have a solution with the most accurate method but to the wrong question.
确保您了解必须回答的问题。 请不要假设！ 问！ 如果您有使用最准确方法的解决方案，但是对于错误的问题，则无济于事。
Based on that, you can determine if it falls into the descriptive, predictive, or prescriptive field. If the most influential factors are looked for, choose descriptive methods. When the question is to forecast, choose a predictive approach, and only when optimized decision-making under the various effects is the aim, choose prescriptive models. Do not try to be creative. My experience is that it goes in most cases wrong.
基于此，您可以确定它是否属于描述性，预测性或规范性字段。 如果寻找最有影响力的因素，请选择描述性方法。 当要预测问题时，请选择一种预测方法，只有当在各种影响下优化决策为目标时，才选择规定性模型。 不要尝试发挥创造力。 我的经验是，在大多数情况下，这是错误的。
Example
例
Three years ago, my former team opposed heavily against me and had pushed to implement a new trendy time series method for asset return forecasts. Finally, they just executed it — oh yeah, I was angry, but we could not move back because of the deadline. For three years, they struggled to get adequate results without making a lot of adjustment efforts. Recently, one of my former team members told me that they finally moved back to the old model because the new model had included several features not relevant for the outcome but added to much noise.
三年前，我的前团队强烈反对我，并推动实施一种新的趋势时间序列方法来进行资产收益预测。 最后，他们只是执行了它-哦，是的，我很生气，但是由于截止日期，我们不能退缩。 三年来，他们一直在不进行大量调整的情况下努力获得足够的结果。 最近，我的一位前团队成员告诉我，他们终于回到了旧模型，因为新模型具有与结果无关的几个功能，但增加了很多噪音。
4.数据准确性 (4. Accuracy of data)
What you need to know
你需要知道的
The accuracy of the data restricts the pool of possible methods. Very accurate methods do not bring any value when used with less accurate data. The error term will be high. Again, the accuracy of the data and the accuracy of methods must match. Bad quality affects the results — garbage in, garbage out.
数据的准确性限制了可能方法的集合。 当使用不太准确的数据时，非常准确的方法不会带来任何价值。 错误项将很高。 同样，数据的准确性和方法的准确性必须匹配。 不良的质量会影响结果-垃圾进场，垃圾出场。
如何解决？
Understand the data as well as the requirements of the models. Do not just apply methods for try and error reasons. Do not just replicate methods because it has given excellent results in other, similar cases. You need to tailor them to the requirements of the data accuracy.
了解数据以及模型的要求。 不要仅出于尝试和错误原因而应用方法。 不要仅仅复制方法，因为它在其他类似情况下也能提供出色的结果。 您需要根据数据准确性的要求定制它们。
Example
例
In optimizing the operating room capacities of two hospitals, we had to apply two different approaches. In one hospital, granular data for every time point of action, e.g., beginning of anesthesia, entering the operating room, beginning of the surgery, and so on, were available. The data was of good quality because of real-time electronic recording.
为了优化两家医院的手术室容量，我们不得不采用两种不同的方法。 在一家医院中，可以获得每个动作时间点的详细数据，例如麻醉开始，进入手术室，手术开始等。 由于实时电子记录，因此数据质量很高。
In the other hospital, the data was recorded manually and sometimes with hours of delays, and thus, the data was very imprecise. E.g., the data has shown eight surgeries in six operating rooms in parallel.
在另一家医院中，数据是手动记录的，有时会有数小时的延迟，因此，数据非常不准确。 例如，数据显示在六个手术室中并行进行了八次手术。
In the first case, we could fit the granular time series and agent-based models and consider the data’s seasonality. In contrast, in the second case, we had to rebuild the models and work with regression analysis and smoothing out inconsistencies before using them as an input for a less granular agent-based model.
在第一种情况下，我们可以拟合粒度时间序列和基于代理的模型，并考虑数据的季节性。 相反，在第二种情况下，我们不得不重建模型并进行回归分析并消除不一致性，然后才将它们用作基于粒度较小的基于代理的模型的输入。
5.数据可用性和使数据可立即使用的成本 (5. Data availability and cost to make data ready to use)
What you need to know
你需要知道的
How often I have heard ‘we would have the perfect model when we could have this and this data, but unfortunately, we cannot access them in due time.’ A fact is that today, corporates are only able to use between 12% and about 30% of their data. In the discussions I have, companies state mostly, that they are using around 20% of their data. The cost to access them is, in most cases, too high, and no equivalent business case is available. If no business case covers the cost of making the data available, you will not get the data in due time.
我经常听到“我们拥有完善的模型，而我们可以拥有这些数据，但是不幸的是，我们无法在适当的时候访问它们”。 一个事实是，如今，企业只能使用其12％到30％的数据。 在我进行的讨论中，公司大多声明他们正在使用大约20％的数据。 在大多数情况下，访问它们的成本太高，并且没有等效的业务案例可用。 如果没有任何商业案例可以负担使数据可用的成本，则您将无法在适当的时候获得数据。
如何解决？
Before having all your thoughts around the fancy models, you could apply, clarify, what data is available in due time, and the cost of getting them. Just because ‘the data is available’ in a company, it does not mean that it is available in a reasonable time frame and at a reasonable cost.
在对奇特的模型有所有想法之前，您可以应用，澄清，在适当的时候可用的数据以及获取它们的成本。 仅仅因为“数据可以在公司中使用”，并不意味着可以在合理的时间范围内以合理的成本获得数据。
Prioritize the data based on the other seven drivers given in this article, and make in each case a cost-benefit analysis: what is the additional benefit from the business perspective when having the data compared to what is the cost of getting them. Never ask, ‘can you give me all data?’. It shows that you have no understanding of the corporate’s business processes, and you will be de-prioritized when you need support, e.g., from IT.
根据本文中给出的其他七个驱动因素对数据进行优先级排序，并分别进行成本效益分析：从业务角度来看，获取数据的额外好处是什么？与获取数据的成本相比，这是什么？ 永远不要问，“您能给我所有数据吗？”。 它表明您不了解公司的业务流程，并且在需要支持时(例如，从IT部门获得支持)，您将失去优先权。
Example
例
We had been unexpectedly faced with storage format issues in the pattern recognition work on a global bank’s intra-day liquidity data. The data of one of the required data sets of transactions from the prior year were archived on magnetic tapes. Thus, it would have taken several months until the data had been available due to release cycles and transformation into accessible formats. We had to assess alternative data and adjust the models.
在一家全球银行的日内流动性数据的模式识别工作中，我们曾出乎意料地面临存储格式问题。 上一年所需的交易数据集之一的数据已存储在磁带上。 因此，由于发布周期和转换为可访问的格式，可能要花几个月的时间才能获得数据。 我们必须评估替代数据并调整模型。
6.数据隐私和机密性 (6. Data privacy and confidentiality)
What you need to know
你需要知道的
Customer data are often confidential. Data privacy is regulated by laws, e.g., the GDPR in the EU or the CCPA in the State of California. Financial institutions have their own regulations to protect so-called CID data — client identifying data. Access to such data have only authorized people, and data scientists are rarely amongst them. The data can only be used in anonymized, encrypted, or aggregated forms and after approval from the data owners, security officer, and legal counsel.
客户数据通常是机密的。 数据隐私受法律规范，例如欧盟的GDPR或加利福尼亚州的CCPA。 金融机构有自己的法规来保护所谓的CID数据-客户识别数据。 只有经过授权的人员才能访问此类数据，而数据科学家很少在其中。 数据只能以匿名，加密或聚合的形式使用，并且必须经过数据所有者，安全员和法律顾问的批准。
如何解决？
Before you start with the project, clarify if any personal data that fall under these restrictions are involved in your data science project. If yes, address it as early as possible, on one side with the IT, because they have eventually already encryption tools to deal with that, on the other side with the legal counsel. Only after having all approvals, and appropriate encryption, work with the data. I have seen many projects that could not be performed not because of the data privacy acts but because it was addressed to late and there was not enough time to get the approvals and encrypt the data in due time.
在开始该项目之前，请弄清楚数据科学项目中是否涉及任何受这些限制的个人数据。 如果是，请尽早在IT部门解决此问题，因为他们最终已经拥有加密工具来处理该问题，而在另一方面与法律顾问联系。 仅在获得所有批准和适当的加密之后，才能使用数据。 我已经看到许多无法执行的项目不是因为数据隐私行为，而是因为它已经解决了，而且没有足够的时间来获得批准并在适当的时候对数据进行加密。
Example
例
In a project where credit card transaction data had to be used for third party service analytics, the lawyers needed seven months to clarify and approve the data use. The clarification contained not only the legal aspects but also the way of encryption, the aggregation level that should be used, and technical requirements like access rights and containerization of software.
在一个必须将信用卡交易数据用于第三方服务分析的项目中，律师需要七个月的时间来澄清和批准数据使用。 澄清不仅包含法律方面，还包含加密方式，应使用的聚合级别以及诸如访问权限和软件容器化之类的技术要求。
7.资源，基础架构和工具可用性 (7. Resources, infrastructure, and tools availability)
What you need to know
你需要知道的
Projects in a corporate environment have many different departments involved: IT, the business, an innovation team, or an internal consulting group. All are involved in several projects in parallel, and their time is limited.
公司环境中的项目涉及许多不同部门：IT，业务，创新团队或内部咨询小组。 所有这些都同时参与多个项目，并且时间有限。
You need storage and computational power. Corporate rules about software installation are in place, and corresponding approvals are required. If a tool costs and needs a license, a corporate approval process exists. As a data scientist, you do not only need Python and Jupyter Notebook but most probably other tools like Tableau or Alteryx. Some companies require containers like Docker. And some tools are not permitted per corporate policy.
您需要存储和计算能力。 有关软件安装的公司规则已到位，并且需要相应的批准。 如果工具成本高昂且需要许可证，则存在公司批准流程。 作为数据科学家，您不仅需要Python和Jupyter Notebook，而且还可能需要其他工具，例如Tableau或Alteryx。 一些公司需要像Docker这样的容器。 并且某些公司政策不允许使用某些工具。
如何解决？
Clarify the tools and infrastructure before you start with the actual project. Estimate the storage and computational power needed, and ensure that it will be available. Clarify the corporate’s policy about data science software, and what tools are available. Inform the people from the other departments early about the upcoming support needed to plan some dedicated time. When working in an already existing data science team, you can clarify this first with your line manager. But even in an established data science team, do not assume that everything you will need for a project is in place.
在开始实际项目之前，请先弄清工具和基础结构。 估计所需的存储和计算能力，并确保将可用。 阐明公司有关数据科学软件的政策以及可用的工具。 尽早通知其他部门的人们有关计划一些专用时间所需的即将到来的支持。 在已经存在的数据科学团队中工作时，您可以先与您的直属经理进行澄清。 但是，即使在已建立的数据科学团队中，也不要假设项目所需的一切都已经就绪。
Example
例
While working on a large amount of transactional data in a bank, we needed more computational and storage power. We worked in a private cloud environment, and typically, it takes only a few minutes to a few hours until the capacity is added. However, because we worked with client identifying data, in a so-called red zone environment, a virtual zone with very restrictive security, the infrastructure needs to be ‘red zone’ certified by the security officer. And this has then taken two weeks.
在银行中处理大量交易数据时，我们需要更多的计算和存储能力。 我们在私有云环境中工作，通常只有几分钟到几小时才能添加容量。 但是，由于我们与客户识别数据一起使用，因此在所谓的红色区域环境中，即具有非常严格的安全性的虚拟区域，因此基础架构需要经过安全人员的“红色区域”认证。 然后这花了两个星期。
8.公司的产品和项目管理关键绩效指标 (8. Product and project management KPIs of the company)
What you need to know
你需要知道的
Corporates measure the product and project management with KPIs. There are quantitative measures like a net present value for short-term projects or a break-even point for products. And there are qualitative benefits like a shortened time to market, the learning of a project that can be leveraged to other projects, etc. Decisions and approvals of projects are based on such metrics.
企业使用KPI衡量产品和项目管理。 有一些量化指标，例如短期项目的净现值或产品的收支平衡点。 并且具有质量上的好处，例如缩短上市时间，学习可以被其他项目利用的项目等。项目的决策和批准均基于此类指标。
如何解决？
It does no matter how great the results of your data science work are; it should always be translated into the company’s KPIs. So, clarify with your line manager what are the steering measures of the company. Translate your outcomes into these metrics and communicate what the benefits for the company are. My experience is that the decision-makers stop fewer projects, more are implemented into the company’s processes, and finally, it builds a lot of trust in the data science team’s work.
无论您的数据科学工作成果多么出色，它都没有关系。 应始终将其转换为公司的KPI。 因此，请与您的直线经理一起说明公司的指导措施是什么。 将您的结果转化为这些指标，并传达给公司带来什么好处。 我的经验是，决策者停止了较少的项目，在公司的流程中实施了更多的项目，最后，它对数据科学团队的工作赢得了很大的信任。
Example
例
One department of a life sciences company tried for months to get internal funding for their intended data science projects, even thought, data, and data science are pillars in the company’s strategy. They finally ask me to support them. We found out that the finance department has investment templates for projects, including the company’s metrics. So, we asked them for that template and assembled all the data science blueprints into such temples. After the next presentation round, they got 60% of all their projects approved. The trigger was that the executive committee could now compare it with the company’s KPIs and other projects’ performance.
一家生命科学公司的一个部门几个月来一直在努力为其预期的数据科学项目获得内部资金，甚至思想，数据和数据科学也是公司战略的Struts。 他们终于要我支持他们。 我们发现财务部门具有用于项目的投资模板，包括公司的指标。 因此，我们要求他们提供该模板，并将所有数据科学蓝图组装到这样的模板中。 在下一轮演示之后，他们获得了所有项目的60％的批准。 触发因素是执行委员会现在可以将其与公司的KPI和其他项目的绩效进行比较。

连接点 (Connecting the Dots)
Many data scientists are not aware that working in a corporate environment involves up to 80% of other tasks than setting up models and analyze data. And you are eventually, a bit frustrated when you read all my comments.
许多数据科学家并不了解在企业环境中进行工作除了建立模型和分析数据外还涉及多达80％的其他任务。 当您阅读我的所有评论时，最终您会感到沮丧。
But knowing the above factors and addressing them early enough, and pro-actively puts you back into the driver seat and avoids bad surprises. The goal is to gain as much freedom as possible for our tasks. It increases project success, and you can keep free time for doing experiments with more complex and new approaches.
但是了解上述因素并及早解决它们，并主动将您带回驾驶员座位，并避免出现意外情况。 目标是为我们的任务获得尽可能多的自由。 它可以提高项目的成功率，并且您可以保留空闲时间来使用更复杂和新的方法进行实验。
Data scientists are not trained in managing such factors and often do not expecting them. Managing them properly is more important than all your detailed technical knowledge.
数据科学家没有接受过管理此类因素的培训，并且往往不期望它们。 正确管理它们比您所有详细的技术知识更重要。
All my tips and tricks to address these determining factors are neither rocket science nor a secret. But it is vital to raise your awareness of them. I hopefully can enable you to have more control and more fun with your projects.
我针对这些决定性因素的所有技巧都不是火箭科学也不是秘密。 但是，提高对它们的认识至关重要。 我希望可以使您对项目有更多的控制权和更多的乐趣。

翻译自: https://towardsdatascience.com/8-determining-factors-for-the-selection-of-the-model-approach-7d06d893d0ca

多因素分析模型解决方法

展开全文
• 当代西方经济学认为，经济学的基本方法是分析经济变量之间的函数关系，建立经济模型，从中引申出经济原则和理论，进行预测、决策和监控。在经济领域，数学的运用首要的问题是实用性和实践性问题，即能否用所建立的...

数学与经济学息息相关，可以说每一项经济学的研究、决策，都离不开数学的应用。特别是自从诺贝尔经济学奖创设以来，利用数学工具来分析经济问题得到的理论成果层出不穷，经济学中使用数学方法的趋势越来越明显。当代西方经济学认为，经济学的基本方法是分析经济变量之间的函数关系，建立经济模型，从中引申出经济原则和理论，进行预测、决策和监控。在经济领域，数学的运用首要的问题是实用性和实践性问题，即能否用所建立的模型去概括某一经济现象或说明某一经济问题。因而，数学模型分析已成为现代经济学研究的基本趋向，经济数学模型在研究许多特定的经济问题时具有重要的不可替代的作用，在经济学日益计量化、定量分析的今天，数学模型方法显得愈来愈重要。
一、经济数学模型的基本内涵
数学模型是数学思想精华的具体体现，是对客观实际对象的数学表述，它是在一定的合理假设前提下，对实际问题进行抽象和简化，基于数学理论和方法，用数学符号、数学命题、图形、图表等来刻画客观事物的本质属性及其内在联系。当数学模型与经济问题有机地结合在一起时，经济数学模型也就产生了。所谓经济数学模型，就是把实际经济现象内部各因素之间的关系以及人们的实践经验，归结成一套反映数量关系的数学公式和一系列的具体算法，用来描述经济对象的运行规律。所以，经济数学模型是对客观经济数量关系的简化反映，是经济现象和经济过程中客观存在的量的依从关系的数学描述，是经济分析中科学抽象和高度综合的一种重要形式。
经济数学模型是研究分析经济数量关系的重要工具，它是经济理论和经济现实的中间环节。它在经济理论的指导下对经济现实进行简化，但在主要的本质方面又近似地反映了经济现实，所以是经济现实的抽象。经济数学模型能起明确思路、加工信息、验证理论、计算求解、分析和解决经济问题的作用，特别是对量大面广、相互联系、错综复杂的数量关系进行分析研究，更离不开经济数学模型的帮助。运用经济数学建模来分析经济问题，预测经济走向，提出经济对策已是大势所趋。
在经济数学模型中，用到的数学非常广泛，有些还相当精深。其中包括线性规划、几何规划、非线性规划、不动点定理、变分发、控制理论、动态规划、凸集理论、概率论、数理统计、随机过程、矩阵论、微分方程、对策论、多值函数、机智测度等等，它们应用于经济学的许多部门，特别是数理经济学和计量经济学。
二、建立经济数学模型的基本步骤
1.模型准备。首先要深入了解实际经济问题以及与问题有关的背景知识，对现实经济现象及原始背景进行细致观察和周密调查，以获取大量的数据资料，并对数据进行加工分析、分组整理。
2.模型假设。通过假设把实际经济问题简化，明确模型中诸多的影响因素，并从中抽象最本质的东西。即抓住主要因素，忽略次要因素，从而得到原始问题的一个简化了的理想化的自然模型。
3.模型建立。在假设的基础上，根据已经掌握的经济信息，利用适当的数学工具来刻画变量之间的数学关系，把理想化的自然模型表述成为一个数学研究的题材——经济数学模型。
4.模型求解。使用已知的数学知识和观测数据，利用相关数学原理和方法，求出所建模型中各参数的估计值。
5.模型分析。求出模型的解后，对解的意义进行分析、讨论，即这个解说明了什么问题？是否达到了建模的目的？根据实际经济问题的原始背景，用理想化的自然模型的术语对所得到的解进行解释和说明。
6.模型检验。把模型的分析结果与经济问题的实际情况进行比较，以考察模型是否符合问题实际，以此来验证模型的准确性、合理性和实用性。如果模型与问题实际偏差较大，则须调整修改。
三、建立经济数学模型应遵从的主要原则
1.假设原则。假设是某一理论所适用的条件，任何理论都是有条件的、相对的。经济问题向来错综复杂，假设正是从复杂多变因素中寻求主要因素，把次要因素排除在外，提出接近实际情况的假设，从假设中推出初步结论，然后再逐步放宽假设条件，逐步加进复杂因素，使高度简化的模型更接近经济运行实际。作假设时，可以从以下几方面来考虑：关于是否包含某些因素的假设；关于条件相对强弱及各因素影响相对大小的假设；关于变量间关系的假设；关于模型适用范围的假设等等。
2.最优原则。最优原则可以从两方面来考虑：其一是各经济变量和体系上达到一种相对平衡，使之运行的效率最佳；其次是无约束条件极值存在而达到效率的最优、资源配置的最佳、消费效用或利润的最大化。由于经济运行机制是为了实现上述目标的最优可能性，我们在建立经济数学模型时必须紧紧围绕这一目标函数进行。
3.均衡原则。即经济体系中变动的各种力量处于相对稳定，基本上趋于某一种平衡状态。在数学中所表述的观点是几个函数关系共同确定的变量值，它不单纯是一个函数的变动去向，而是整个模型所共有的特殊结合点，在该点上整个体系变动是一致的，即达到一种经济联系的平衡。如需求函数和供给函数形成的均衡价格和数量，使市场处于一种相对平衡状态，从而达到市场配置的最优。
4.数、形、式结合原则。数表示量的大小，形表示量的集合，式反映了经济变量的联系及规律，三者之间形成了逻辑的统一。数学中图形是点的轨迹，点是函数的特殊值，因而也是函数和曲线的统一。可以认为经济问题是复杂经济现象中的一个点，函数则是经济变量之间的相互依存、相互作用关系，图形就是经济运行的规律和机制。所以，数、形、式是建模的主要工具和手段，是解决客观经济问题的三个要素。
5.抽象与概括的原则。抽象是思维的延伸，概括是思维的总结，抽象原则揭示了善于从纷繁复杂的经济现象延伸到经济本质，挖掘其本质的反映，概括是经济问题的纵横比较与分析，以便把握其本质属性，揭示其规律。
四、构建和运用经济数学模型应注意的问题
经济数学模型是对客观经济现象的把握，是相对的、有条件的。经济研究中应用数学方法时，必须以客观经济活动的实际为基础，以最初的基本假设为条件，一旦突破了最初的基本假设，就需要研究探索使用新的数学方法；一旦脱离客观经济实际，数学的应用就失去了意义。因此，在构建和运用经济数学模型时须注意到：
1.首先对所研究的经济问题要有明确的了解，细致周密的调查。分析经济问题运行的规律，获取相关的信息和数据，明确各经济变量之间的数量关系。如果条件不太明确，则要通过假设来逐渐明确，从而简化问题。
2.明确建模的目的。出于不同的目的，所建模型可能会有很大的差异。建模目的可能是为了描述或解释某一经济现象；可能是预报某一经济事件是否发生，或者发展趋势如何；还可能是为了优化管理、决策或控制等。总之，建立经济数学模型是为了解决实际经济问题，所以建模过程中不仅要建立经济变量之间的数学关系表达式，还必须清楚这些表达式在整个模型中的地位和作用。
3.在经济实际中只能对可量化的经济问题进行数学分析和构建数学模型，对不可量化的事物只能建造模型概念，而模型概念是不能进行数量分析的。尽管经济模型是反映事物的数量关系的，但必须从定性开始，离开具体理论所界定的概念，就无从对事物的数量进行分析和讨论。
4.不同数学模型的求解一般涉及不同的数学分支的专门知识，所以建模时应尽可能利用自己熟悉的数学分支知识。同时，也应征对问题学习了解一些新的知识，特别是计算机科学的发展为建模提供了强有力的辅助工具，熟练掌握一些数学或经济软件如Matlab、Mathematic、Lindo也是必不可少的。
5.根据调查或搜集的数据建立的模型，只能算作一个“经验公式”，只能对经济现象做出粗略大致的描述，据此公式计算出来的数据只能是个估计值。同时，模型相对于客观实际不可避免的产生一定误差，一方面要根据模型的目的确定误差允许的范围；另一方面，要分析误差来源，若误差过大，须寻找补救方案。
6.用所建经济数学模型去说明或解释处于动态中的经济现象时，必须注意时空条件的变化，必须考虑不可量化因素的影响作用以及在一定条件下次要因素转变为主要因素的可能性。

展开全文
• 本文主要介绍了面板数据模型的几种常用的模型设定及其参数估计方法，以及模型选择的检验方法。


文章目录
面板数据模型经济数据模型面板数据模型的基本形式混合回归模型的基本形式固定效应模型的基本形式随机效应模型的基本形式
固定效应模型的参数估计最小二乘虚拟变量估计法 LSDV一阶差分法 FD固定效应转换法 FE
随机效应模型的参数估计随机效应模型与固定效应模型的选择豪斯曼检验实证研究中的模型选择问题

面板数据模型
经济数据模型
在介绍面板数据之前，我们先回顾一下计量经济学中涉及的各类数据类型。
横截面数据，Cross-sectional Data ，指在特定的时点上，对个人、家庭、企业、城市、省份、国家或一系列其他单位采集的样本所构成的数据集。
通常假定样本是从总体中随机抽样而得到的，常用指标集

i

=

1

,

2

,

⋯

,

n

i=1,2,\cdots,n

表示随机样本。计量分析的结果与数据的排序无关。
时间序列数据，Time-series Data ，指由一个或几个变量不同时间的观测值所构成，或是由同一观测个体在不同时点上所观测的数据构成。
时间序列的数据前后之间具有相关性。常用时间指标集

t

=

1

,

2

,

⋯

,

T

t=1,2,\cdots,T

表示有序样本数据，不满足随机样本的设定。
混合截面数据，Pooled Cross-sections Data ，指既有横截面数据的特点，又有时间序列数据特点的数据。为了扩大样本容量，可以将数据合并成一个混合截面数据。
Cross-section 与 Time-series 同时存在，需引入两组指标集

i

=

1

,

2

,

⋯

,

n

i=1,2,\cdots,n

和

t

=

1

,

2

,

⋯

,

T

t=1,2,\cdots,T

分别表示随机样本和时间序列。在计量分析过程中，需要引入表示时间变化的虚拟变量以扩大样本容量。不同时间点上的截面个体可能不一样。例如：2008年，随机抽取一组家庭针对某些变量做调查；2010年，再随机抽取一组新家庭做调查。
面板数据，Panel Data，指将横截面数据域时间序列数据结合起来的数据，即对横截面中的观测个体在时间上进行连续观测所得到的数据。
不同时点上相同截面个体，即只在第一期做随机抽样，后面都在观察这一组样本的数据。例如：收集同一组公司不同时点的财务信息。面板数据通常能够研究决策行为或结果中滞后的重要性，所以反映的信息更有意义。由于面板数据要求对同一组个体在不同时期进行重复观测，因此面板数据的收集成本更大。
面板数据模型的基本形式
面板数据模型同时包含了截面和时间两个维度，设

i

=

1

,

2

,

⋯

,

n

i=1,2,\cdots,n

表示截面个体，

t

=

1

,

2

,

⋯

,

T

t=1,2,\cdots,T

表示时间。面板数据模型的基本形式为

y

i

t

=

f

(

x

1

i

t

,

x

2

i

t

,

⋯

,

x

k

i

t

)

+

u

i

t

,

y_{it}=f(x_{1it},x_{2it},\cdots,x_{kit})+u_{it} \ ,

模型误差一般可以认为由三部分组成：

u

i

t

=

α

i

+

λ

t

+

ε

i

t

,

u_{it}=\alpha_i+\lambda_t+\varepsilon_{it} \ ,

α

i

\alpha_i

表示个体效应、非观测效应、固定效应，表示那些不随时间改变的影响因素，如个人的消费习惯、企业文化、经营风格等。

λ

t

\lambda_t

表示时间效应，用于控制随时间改变的影响，如用于表示技术进步的时间趋势项。

ε

i

t

\varepsilon_{it}

表示特异性误差、时变误差，是整个模型的随机误差项。
在这里将

α

i

\alpha_i

和

λ

t

\lambda_t

设定为干扰项，因为

α

i

\alpha_i

和

λ

t

\lambda_t

在多数情况下都是无法直接观测或难以量化的，因此也就无法作为解释变量进入模型。使用截面分析的模型往往会引起遗漏变量的问题。一般地，我们不考虑时间效应，或者说将

λ

t

\lambda_t

的作用并入了

ε

i

t

\varepsilon_{it}

中。此时，我们可以设定线性的面板数据模型为

y

i

t

=

α

i

+

β

1

x

1

i

t

+

β

2

x

2

i

t

+

⋯

+

β

k

x

k

i

t

+

ε

i

t

.

y_{it}=\alpha_i+\beta_1x_{1it}+\beta_2x_{2it}+\cdots+\beta_kx_{kit}+\varepsilon_{it} \ .

其中

α

i

+

ε

i

t

=

u

i

t

\alpha_i+\varepsilon_{it}=u_{it}

，并且假设

ε

i

t

∼

N

(

0

,

σ

ε

2

)

\varepsilon_{it}\sim N(0,\,\sigma_{\varepsilon}^2)

。
根据

α

i

\alpha_i

的不同状态，我们可以将面板数据模型分为三类：混合回归模型，固定效应模型，随机效应模型。其差异主要反映在对个体效应的处理上。
混合回归模型就是由混合截面数据构成的计量经济学模型。正如我们在经济数据模型中介绍的，这里的混合回归模型严格来说并不属于面板数据模型，它是面板数据模型的一种退化形式。当对所有的截面个体

i

i

，个体效应

α

i

\alpha_i

均相等时，模型退化为混合回归模型。
混合回归模型的基本形式

y

i

t

=

α

+

β

1

x

1

i

t

+

β

2

x

2

i

t

+

⋯

+

β

k

x

k

i

t

+

ε

i

t

.

y_{it}=\alpha+\beta_1x_{1it}+\beta_2x_{2it}+\cdots+\beta_kx_{kit}+\varepsilon_{it} \ .

i

=

1

,

2

,

⋯

,

n

;

t

=

1

,

2

,

⋯

,

T

.

i=1,2,\cdots,n \ ; \ \ \ \ t=1,2,\cdots,T \ .

混合回归模型假设所有的横截面个体在各个不同的时期的截距和斜率都是相同的，这样可以直接把面板数据混合在一起，或是直接收集不同时间点上的不同截面个体数据，即混合截面数据。
混合回归模型可以直接用 OLS 方法进行参数估计。
固定效应模型的基本形式

y

i

t

=

α

i

+

β

1

x

1

i

t

+

β

2

x

2

i

t

+

⋯

+

β

k

x

k

i

t

+

ε

i

t

.

y_{it}=\alpha_i+\beta_1x_{1it}+\beta_2x_{2it}+\cdots+\beta_kx_{kit}+\varepsilon_{it} \ .

i

=

1

,

2

,

⋯

,

n

;

t

=

1

,

2

,

⋯

,

T

.

i=1,2,\cdots,n \ ; \ \ \ \ t=1,2,\cdots,T \ .

固定效应模型的每一个截面个体具有不同的截距项（常数项）。即

α

i

\alpha_i

概括了影响着

y

i

t

y_{it}

但不随着时间而变化的所有无法观测的因素。
固定的含义：

α

i

\alpha_i

是个常数。虽然每个截面个体具有不同的截距项，但是每个截面个体的截距项并不随着时间而变化。即在时间上是固定的，只和个体相关。
由于

α

i

\alpha_i

表现出个体异质性，观测不到，所以一般假设

a

i

a_i

与

x

i

t

x_{it}

相关：

C

o

v

(

α

i

,

x

i

t

)

≠

0

{\rm Cov}(\alpha_i,\,x_{it})\neq 0

。
随机效应模型的基本形式

y

i

t

=

α

i

+

β

1

x

1

i

t

+

β

2

x

2

i

t

+

⋯

+

β

k

x

k

i

t

+

ε

i

t

.

y_{it}=\alpha_i+\beta_1x_{1it}+\beta_2x_{2it}+\cdots+\beta_kx_{kit}+\varepsilon_{it} \ .

i

=

1

,

2

,

⋯

,

n

;

t

=

1

,

2

,

⋯

,

T

.

i=1,2,\cdots,n \ ; \ \ \ \ t=1,2,\cdots,T \ .

其中，截距项

α

i

\alpha_i

是一个随机变量，设其均值为

E

(

α

i

)

=

α

{\rm E}(\alpha_i)=\alpha

，则可以将

α

i

\alpha_i

写为

α

i

=

α

+

v

i

.

\alpha_i=\alpha+v_i \ .

这里的

v

i

v_i

是一个随机变量，满足零均值假设和同方差假设。随机效应的含义为，假设个体间的差异是随机的，反应在随机干扰项的设定上。
一般假设这种随机的个体间差异与

x

i

t

x_{it}

无关：

C

o

v

(

α

i

,

x

i

t

)

=

C

o

v

(

v

i

,

x

i

t

)

=

0

{\rm Cov}(\alpha_i,\,x_{it})={\rm Cov}(v_i,\,x_{it}) = 0

。
由于随机效应模型具有多种随机误差项，因此我们需要提出一系列的随机效应模型的方差结构假定：

E

(

v

i

)

=

E

(

ε

i

t

)

=

0

,

∀

i

,

t

.

{\rm E}(v_i)={\rm E}(\varepsilon_{it})=0 \ , \ \ \ \ \forall\ i,\,t \ .

C

o

v

(

v

i

,

ε

i

t

)

=

0

∀

i

,

t

.

{\rm Cov}(v_i,\,\varepsilon_{it})=0 \, \ \ \ \ \forall\,i,\,t \ .

C

o

v

(

ε

i

t

,

ε

i

s

)

=

0

∀

i

,

s

≠

t

.

{\rm Cov}(\varepsilon_{it},\,\varepsilon_{is})=0 \, \ \ \ \ \forall \, i,\,s\neq t \ .

V

a

r

(

v

i

∣

X

)

=

σ

v

2

,

∀

i

.

{\rm Var}(v_i|X)=\sigma_v^2 \ , \ \ \ \ \forall\,i \ .

V

a

r

(

ε

i

t

∣

X

)

=

σ

ε

2

,

∀

i

,

t

.

{\rm Var}(\varepsilon_{it}|X)=\sigma_\varepsilon^2 \ , \ \ \ \ \forall\,i,\,t \ .

从上到下依次为：假设两种随机误差项

v

i

v_i

和

ε

i

t

\varepsilon_{it}

均满足零均值假设，假设两种随机误差项

v

i

v_i

和

ε

i

t

\varepsilon_{it}

相互独立，假设时变误差

ε

i

t

\varepsilon_{it}

不具有序列相关性，假设两种随机误差项

v

i

v_i

和

ε

i

t

\varepsilon_{it}

均满足同方差假设。
由于两种随机误差项均不可观测，因此我们常常将两者写在一起。设

u

i

t

=

v

i

+

ε

i

t

u_{it}=v_i+\varepsilon_{it}

，根据上述假设条件可以得到：

E

(

u

i

t

u

i

s

)

=

σ

v

2

,

∀

i

,

s

≠

t

.

{\rm E}(u_{it}u_{is})=\sigma_v^2 \ , \ \ \ \ \forall \, i,\,s\neq t \ .

E

(

u

i

t

2

)

=

σ

v

2

+

σ

ε

2

,

∀

i

,

t

.

{\rm E}(u_{it}^2)=\sigma_v^2+\sigma_\varepsilon^2 \ , \ \ \ \ \forall\,i,\,t \ .

C

o

r

r

(

u

i

t

u

i

s

)

=

σ

v

2

σ

v

2

+

σ

ε

2

,

∀

i

,

s

≠

t

.

{\rm Corr}(u_{it}u_{is})=\frac{\sigma_v^2}{\sigma_v^2+\sigma_\varepsilon^2} \ , \ \ \ \ \forall \, i,\,s\neq t \ .

对于个体

i

i

，设

u

i

T

=

(

u

i

1

,

u

i

2

,

⋯

,

u

i

T

)

\boldsymbol{u}_i^{\rm T}=(u_{i1},u_{i2},\cdots,u_{iT})

，我们可以写出随机误差项的协方差矩阵：

E

(

u

i

u

i

T

)

=

[

σ

v

2

+

σ

ε

2

σ

v

2

σ

v

2

⋯

σ

v

2

σ

v

2

σ

v

2

+

σ

ε

2

σ

v

2

⋯

σ

v

2

⋮

⋮

⋮

⋱

⋮

σ

v

2

σ

v

2

σ

v

2

⋯

σ

v

2

+

σ

ε

2

]

T

×

T

=

σ

ε

2

I

+

σ

v

2

1

≜

Ω

.

{\rm E}(\boldsymbol{u_i}\boldsymbol{u_i}^{\rm T})=\left[ \begin{array}{ccccc} \sigma_v^2+\sigma_\varepsilon^2 & \sigma_v^2 & \sigma_v^2&\cdots & \sigma_v^2 \\ \sigma_v^2 & \sigma_v^2+\sigma_\varepsilon^2 & \sigma_v^2 &\cdots & \sigma_v^2 \\ \vdots & \vdots & \vdots & \ddots & \vdots\\ \sigma_v^2 & \sigma_v^2& \sigma_v^2 &\cdots& \sigma_v^2+\sigma_\varepsilon^2 \\ \end{array} \right]_{T\times T} =\sigma_\varepsilon^2\boldsymbol{I}+\sigma_v^2\boldsymbol{1}\triangleq\boldsymbol\Omega \ .

固定效应模型的参数估计
最小二乘虚拟变量估计法 LSDV
由于固定效应模型假设存在着“个体效应”，每个截面个体都有其单独的截距项。这就相当于在经典的线性回归模型中，通过加法方式引入

n

−

1

n-1

个虚拟变量来代表不同的个体。如果省略模型的常数项

β

0

\beta_0

，则引入

n

n

个虚拟变量。
如果一元的固定效应模型设定为

y

i

t

=

α

i

+

β

1

x

i

t

+

ε

i

t

.

y_{it}=\alpha_i+\beta_1x_{it}+\varepsilon_{it} \ .

假设上式为含截距项的模型，因此我们可以引入

n

−

1

n-1

个虚拟变量： KaTeX parse error: Undefined control sequence: \ at position 215: …\ \cdots \ \ \ \̲ ̲D_{n-1}=\left\{… 此时我们的虚拟变量模型设定为：

y

i

t

=

α

i

+

β

1

x

i

t

+

γ

1

D

1

+

γ

2

D

2

+

⋯

+

γ

n

−

1

D

n

−

1

+

ε

i

t

.

y_{it}=\alpha_i+\beta_1x_{it}+\gamma_1D_1+\gamma_2D_2+\cdots+\gamma_{n-1}D_{n-1}+\varepsilon_{it} \ .

对上式进行 OLS 回归，我们可以得到 LSDV 估计量

β

^

1

\hat\beta_1

。
该模型还可以用来检验应该选择混合回归模型还是固定效应模型。利用受约束回归模型和

F

F

检验，约束条件为

γ

1

=

γ

2

=

⋯

=

γ

n

−

1

=

0

\gamma_1=\gamma_2=\cdots=\gamma_{n-1}=0

。如果接受原假设，则认为不存在个体异质性，此时应该选择混合回归模型。如果拒绝原假设，则认为存在个体异质性，此时应该选择固定效应模型。
一阶差分法 FD
在固定效应模型中，截距项

α

i

\alpha_i

表示的个体异质性是一个常数，且并不随着时间而变化。因此，我们可以通过差分的方式消去模型中的个体异质性，从而可以使用 OLS 进行回归。
考虑一元的情况，假设固定效应模型设定如下：

y

i

t

=

α

i

+

β

1

x

i

t

+

ε

i

t

.

y_{it}=\alpha_i+\beta_1x_{it}+\varepsilon_{it} \ .

写出一阶滞后的情况：

y

i

,

t

−

1

=

α

i

+

β

1

x

i

,

t

−

1

+

ε

i

,

t

−

1

.

y_{i,t-1}=\alpha_i+\beta_1x_{i,t-1}+\varepsilon_{i,t-1} \ .

两式相减得到一阶差分方程：

Δ

y

i

t

=

β

1

Δ

x

i

t

+

Δ

ε

i

t

.

\Delta y_{it}=\beta_1\Delta x_{it}+\Delta \varepsilon_{it} \ .

可以看到，非观测效应

α

i

\alpha_i

被差分掉了，因此上述模型只要满足经典假设便可以通过 OLS 回归进行参数估计。由一阶差分方程得到的 OLS 估计量称为一阶差分估计量

β

^

1

,

f

d

\hat\beta_{1,fd}

。
为了保证

β

^

1

,

f

d

\hat\beta_{1,fd}

的一致性，需假定

Δ

X

i

t

\Delta X_{it}

与

Δ

ε

i

t

\Delta\varepsilon_{it}

无关：

C

o

v

(

Δ

X

i

t

,

Δ

ε

i

t

)

=

0

.

{\rm Cov}(\Delta X_{it},\,\Delta\varepsilon_{it})=0 \ .

需要注意的是，一阶差分法可能会存在

Δ

ε

i

t

\Delta\varepsilon_{it}

和

Δ

ε

i

,

t

−

1

\Delta\varepsilon_{i,t-1}

相关的问题。
固定效应转换法 FE
又称为除时间均值法、固定效应估计法、组内变换法。当

n

n

很大时，利用 LSDV 回归会损失大量的自由度，可以考虑对模型进行变化，消去常数项，再用变换后的模型进行回归。该模型的另一好处是可以消除

α

i

\alpha_i

与其他解释变量的相关性。
仍然考虑一元的情况：

y

i

t

=

α

i

+

β

1

x

i

t

+

ε

i

t

.

y_{it}=\alpha_i+\beta_1x_{it}+\varepsilon_{it} \ .

对每个横截面个体

i

i

求方程在时间上的均值（组间均值）：

y

ˉ

i

=

α

i

+

β

1

x

ˉ

i

+

ε

ˉ

i

.

\bar{y}_i=\alpha_i+\beta_1\bar{x}_i+\bar\varepsilon_i \ .

两个模型相减得到：

y

i

t

−

y

ˉ

i

=

β

1

(

x

i

t

−

x

ˉ

i

)

+

ε

i

t

−

ε

ˉ

i

.

y_{it}-\bar{y}_i=\beta_1(x_{it}-\bar{x}_i)+\varepsilon_{it}-\bar\varepsilon_i \ .

经过变换后的模型即可通过混合 OLS 进行参数估计。基于除时间均值变量的混合 OLS 估计量被称为固定效应估计量

β

^

1

,

f

e

\hat\beta_{1,fe}

。
随机效应模型的参数估计
随机效应模型将固定效应模型的个体异质性归入到随机误差项中，因此更加灵活，也具有更加复杂的随机误差项的结构。此时我们需要通过变换，构造出符合基本假设的随机误差项。因此我们使用 GLS 进行参数估计。
仍然考虑一元的随机效应模型：

y

i

t

=

β

0

+

β

1

x

i

t

+

u

i

t

.

y_{it}=\beta_0+\beta_1x_{it}+u_{it} \ .

假设该模型含有截距项，设

u

i

t

=

v

i

+

ε

i

t

u_{it}=v_i+\varepsilon_{it}

为模型的非观测误差。
定义：

λ

=

1

−

σ

ε

σ

ε

2

+

T

σ

v

2

\lambda=1-\displaystyle\frac{\sigma_\varepsilon}{\sqrt{\sigma_\varepsilon^2+T\sigma_v^2}}

，

y

ˉ

i

=

1

T

∑

t

=

1

T

y

i

t

\bar{y}_i=\displaystyle\frac{1}{T}\sum_{t=1}^Ty_{it}

，

x

ˉ

i

=

1

T

∑

t

=

1

T

x

i

t

\bar{x}_i=\displaystyle\frac{1}{T}\sum_{t=1}^Tx_{it}

。我们可以做如下变换：

y

i

t

−

λ

y

ˉ

i

=

β

0

(

1

−

λ

)

+

β

1

(

x

i

t

−

λ

x

ˉ

i

)

+

u

i

t

−

λ

u

ˉ

i

.

y_{it}-\lambda\bar{y}_i=\beta_0(1-\lambda)+\beta_1(x_{it}-\lambda\bar{x}_i)+u_{it}-\lambda\bar{u}_i \ .

可以验证此时的随机误差项不存在序列相关性：

C

o

v

(

u

i

t

−

λ

u

ˉ

i

,

u

i

s

−

λ

u

ˉ

i

)

=

0

{\rm Cov}(u_{it}-\lambda\bar{u}_i,\,u_{is}-\lambda\bar{u}_i)=0

。对变换后的方程进行 OLS 回归得到 GLS 估计量

β

^

1

,

r

e

\hat\beta_{1,re}

，也被称作随机效应估计量。在满足

E

(

u

i

t

∣

x

i

t

)

=

0

{\rm E}(u_{it}|x_{it})=0

假设条件下，随机效应估计量是有效的。
随机效应模型与固定效应模型的选择
豪斯曼检验
这里的豪斯曼检验并非内生性检验，而是随机效应检验。检验的基本思路：如果

C

o

v

(

α

i

,

x

i

t

)

≠

0

{\rm Cov}(\alpha_i,\,x_{it})\neq0

，则 GLS 估计量是有偏和非一致的，但是固定效应估计量是无偏且一致的。所以，如果模型的异质性与解释变量之间是正交的，则应将模型设定为随机效应模型，否则设定为固定效应模型。
这里的正交指的是：若

E

(

X

Y

)

=

0

{\rm E}(XY)=0

，则称随机变量

X

X

和

Y

Y

正交。

H

0

H_0

：个体异质性与

x

i

t

x_{it}

不相关。

H

1

H_1

：个体异质性与

x

i

t

x_{it}

相关。
用矩阵和向量的形式，构造 Wald 统计量：

W

=

(

β

^

f

e

−

β

^

r

e

)

T

[

V

a

r

(

β

^

f

e

−

β

^

r

e

)

]

−

1

(

β

^

f

e

−

β

^

r

e

)

∼

χ

2

(

k

)

.

W=\left(\hat{\boldsymbol\beta}_{fe}-\hat{\boldsymbol\beta}_{re}\right)^{\rm T}\left[{\rm Var}\left(\hat{\boldsymbol\beta}_{fe}-\hat{\boldsymbol\beta}_{re}\right)\right]^{-1}\left(\hat{\boldsymbol\beta}_{fe}-\hat{\boldsymbol\beta}_{re}\right)\sim\chi^2(k) \ .

其中

k

k

是解释变量的个数。
如果拒绝原假设，则选择固定效应模型；如果接受原假设，则选择随机效应模型。
实证研究中的模型选择问题
固定效应模型仅适用于所抽到的横截面单位，不适用于样本以外的单位。即如果所抽取的样本本身是总体，例如从全国抽取所有的省份，那么固定效应模型就是一个合理的面板数据模型。如果想以样本结果对总体进行推断分析，那么应该选用随机效应模型，即把反映个体差异的特定常数项看作是跨个体成员的随机分布更为合适。例如从全国抽取部分省，固定效应模型便仅适用于所抽到的个体成员单位，而不适用于样本之外的其他单位，这时采用随机效应模型就较为合适。
展开全文
• 文章目录导航放宽基本假定的模型4.1异方差性一、异方差的类型二、实际经济生活中的异常差性三、异方差性的后果四、异方差性检验五、异方差的修正1.加权最小二乘法2.异方差稳健标准误法4.2序列相关性二、实际经济问题...
导航
上一章：多元线性回归模型

文章目录
导航放宽基本假定的模型4.1异方差性一、异方差的类型二、实际经济生活中的异常差性三、异方差性的后果四、异方差性检验五、异方差的修正1.加权最小二乘法2.异方差稳健标准误法

4.2序列相关性二、实际经济问题中的序列相关性三、序列相关性的后果四、序列相关性的检验五、序列相关的补救六、虚假序列相关问题
4.3多重共线性一、多重共线性二、实际经济问题中的共线性三、多重共线性的后果四、多重共线性的检验五、克服多重共线性的方法
4.4随机解释变量问题一、随机解释变量问题二、实际经济问题中的随机解释变量问题三、随机解释变量的后果四、工具变量法

放宽基本假定的模型
●前述计量经济学模型的回归分析，是在对线性回归模型提出若干基本假定的条件下，应用普通最小二乘法得到了无偏且有效的参数估计量。但是，在实际的计量经济学问题中，完个满足这些基本假定的情况并小多见。不满足基本假定的情况，称为基本假定违背，主要包括: ①随机干扰项序列存在异方差性 ②随机干扰项序列存在序列相关性 ③解释变量之间存在多重共线性 ④解释变量是随机变量且与随机干扰项相关
4.1异方差性
●对于不同的样本点，随机干扰项的方差不再是常数，而是互不相同，则认为出现了异方差性。
一、异方差的类型
●异方差的类型： ①单调递增型:αi2可随X的增大而增大 ②单调递减型: αi2可随X的增大而减小 ③复杂型: αi2与X的变化呈复杂形式
图示：

二、实际经济生活中的异常差性
●一般经验告诉我们，对于采用截面数据作样本的计量经济学问题，由于在不同样本点上解释变量以外的其他因素的差异较大，所以往往存在异方差性。
三、异方差性的后果
●计量经济学模型一旦出现异方差性，如果仍采用普通最小二乘法估计模型参数，会产生一系列不良的后果。
①参数估计量非有效 当计量经济学模型出现异方差性时，其普通最小二乘法参数估计量仍然具有线性、无偏性，但不具有有效性。
②变量的显著性检验失去意义 对于一元线性回归模型：  β1的最小二乘估计有：
可以证明，存在异方差的情况下正确的β1估计值的方差为：  而普通最小二乘法仍按下式给出β1估计值的方差估计：  只有同方差性满足时，上面二式才能相等。否则普通最小二乘法给出的估计结果就会出现偏误。在有偏误的方差基础上构造的t检验也就失去了意义。
③模型的预测失效 当模型出现异方差性时，仍然使用普通最小二乘估计量，将导致预测区间偏大或偏小，预测功能失效。
四、异方差性检验
●异方差检验思路：异方差性，即相对于不同的样本点，也就是相对于不同的解释变量观测值，随机干扰项具有不同的方差。那么检验异方差性，也就是检验随机干扰项的方差与解释变量观测值之间的相关性。
●随机干扰项方差的表示：一般处理方法是首先采用普通最小二乘法估计模型，以求得随机干扰项的“近似估计量”。
●异方差检验方法：
①图示检验法
②帕克(Park)检验与戈里瑟检验

③G-Q检验 G-Q检验以F检验为基础，适用于样本容量较大，异方差为单调递增或单调递减的情况。其基本思想是:先按某解释变量对样本排序，再将排序后的样本一分为二，对两个子样分别进行普通最小二乘回归，然后利用两个子样的残差平方和之比构造F统计量进行异方差检验。
④怀特(White)检验
G-Q检验需要按某一被认为有可能引起异方差的解释变量观测值的大小排序，因此，可能需对各个解释变量进行轮流试验，而且，该方法只能检验单调递增或单调递减型异方差。怀特检验则不需要排序，且对任何形式的异方差都适用。

n*R
2 ~ chi-square(k)

则可在大样本下,对统计量n*R2进行相应的卡方检验。

五、异方差的修正
1.加权最小二乘法
●加权最小二乘法也称为广义最小二乘法。因为加权最小二乘法具有比普通最小二乘法更普遍的意义，或者说普通最小二乘法只是加权最小二乘法中权恒取1时的一种特殊情况。 ●加权最小二乘法是对原模型加权，使之变成一个新的不存在异方差性的模 型，然后采用普通最小二乘法估计其参数。加权的基本思想是:在采用普通最小二乘法时，对较小的残差平方ei2赋予较大的权数，对较大的ei2赋予较小的权数，以对残差提供的信息的重要程度作一番校正，提高参数估计的精度。 ●由于加权最小二乘法中的权，或者说原模型中μ的方差与各X间适当的函 数关系是估计出来的，因此这一广义最小二乘法也称为可行的广义最小二乘法, 由广义最小二乘法得到的原模型中的估计量称为可行的广义最小二乘估计量。
2.异方差稳健标准误法
●在存在异方差时，异方差稳健标准误法虽不能得到有效的估计量，但由于可以得到普通最小二乘估计量正确的方差估计，从而使得以估计量方差为基础的各种统计检验不再失效、建立的预测区间也更加可信，因此异方差稳健标准误法就成为在不能较好地实施加权最小二乘法时，消除异方差性不良后果的主要手段。
4.2序列相关性
●多元线性回归模型的基本假设之一是模型的随机干扰项相互独立或不相 关。如果模型的随机干扰项违背了相互独立的基本假设，称为存在序列相关性。
二、实际经济问题中的序列相关性
●实际经济问题中，序列相关性产生的原因主要来自以下三个方面：
①经济变量固有的惯性：大多数经济时间数据都有一个明显的特点，就是它的惯性，表现在时间序列数据不同时间的前后关联上。
②模型设定偏误：所谓模型设定偏误是指所设定的模型“不正确”，主要表现在模型中丢掉了重要的解释变量或模型函数形式有偏误。
③数据的编造：在实际经济问题中，有时为了需要，有些数据是通过已知数据生成的。因此，新生成的数据与原数据间就有了内在的联系，表现出序列相关性。
三、序列相关性的后果
●计量经济学模型旦出现序列相关性，如果仍采用普通最小二乘法估计模型参数，会产生许多不良后果：
①参数估计量非有效 当计量经济学模型出现序列相关性时，其普通最小二乘参数估计量仍然具有线性无偏性，但不具有有效性。
②变量的显著性检验失去意义 对于一元线性回归模型：  的最小二乘估计有：  可以证明存在一阶序列相关的情况下正确的β1估计值的方差为：  而普通最小二乘法仍按下式给出β1的方差估计：  显然，只有序列无关性满足时，上面二式才能相等。否则普通最小二乘法给出的估计结果就会出现偏误。在有偏误的方差基础上构造的t检验也就失去了意义。
③模型的预测失效 区间预测与参数估计量的方差有关，在方差估计有偏误的情况下，预测估计就不准确，预测精度降低。所以，当模型出现序列相关性时，它的预测功能失效。
四、序列相关性的检验
●序列相关性检验的共同思路：首先采用普通最小二乘法估计模型，以求得随机干扰项的“近似估计量”，然后通过分析这些“近似估计量”之间的相关性以达到判断随机干扰项是否具有序列相关性的目的。
●序列相关性检验方法： ①图示法

②回归检验法
对方程进行估计并进行显著性检验，如果存在某一种函数形式，使得方程显著成立，则说明原模型存在序列相关性。回归检验法的优点是一旦确定了模型存在序列相关性，也就同时知道了相关的形式，而且它适用于任何类型的序列相关性问题的检验。
③D.W检验法
D.W检验法的假设条件：  杜宾和瓦森针对原假设H0:ρ=0,即μt不存在一阶自回归，构造如下统计量：  该统计量的分布与出现和给定样本中的X值有复杂的关系，因此其精确的分布很难得到。但杜宾和瓦森针成功地导出了临界值的上限dU与下限dL，且这些上下限只与样木容量n，和解释变量的个数k有关，而与解释变量的取值无关。
检验时，只须计算该统计量的值，再根据样本容量n和解释变量个数k，查D. W分布表，得到上限dU与下限dL.然后按照下列准则考察计算得到的D. W.值，以判断模型的自相关状态:  从判断准则中看到，存在一个不能确定的D. W.值区域，这是这种检验方法的一大缺陷。而且DW检验只能检验一阶自相关，并且对存在滞后被解释变量的模型无法检验。
④拉格朗日乘数(LM)检验 拉格朗日乘数检验克服了D. W检验的缺陷，适合于高阶序列相关及模型中存在滞后被解释变量的情形。它是由布劳殊((Hceusch)与戈弗雷(Qodfrey)于1978年提出的，也称为GB检验。
如果怀疑随机干扰项存在p阶序列相关:  拉格朗日乘数检验就可用来检验如下受约束回归方程:  约束条件为:  如果约束条件H0为真，则LM统计量服从大样本下自由度为p的渐近卡方分布：  其中，n,R2分别为如下辅助回归的样本容量与可决系数：  如果计算的LM统计量的值超过临界值(显著性水平α下，自由度为p的卡方分布的临界值)，则拒绝约束条件为真的原假设，表明可能存在直到p阶的序列相关性。
五、序列相关的补救
●序列相关的补救方法： ①广义最小二乘法 ②广义差分法 ③序列相关稳健误差法: 与存在异方差时的情形相类似，序列相关稳健标准误法虽不能得到有效的 估计量，但由手可以得到普通最小二乘估计量正确的方差估计，从而使得以估计量方差为基础的各种统计检验不再失效、建立的预测区间也更加可信，因此序列相关稳健标准误法就成为在不能较好地实施广义最小二乘法时，消除异方差性不良后果的主要手段。
●随机干扰项相关系数的估计

六、虚假序列相关问题
●由于随机干扰项的序列相关往往是在模型设定中遗漏了重要的解释变量 或对模型的函数形式设定有误时出现的，这种情形可称为虚假序列相关，应在模型设定中排除。
4.3多重共线性
一、多重共线性
●如果某两个或多个解释变量之间出现了相关性，则称为存在多重共线性。 ●多重共线性可以分为完全共线性和近似共线性。完全共线性的情况并不多见，般出现的是在一定程度上的共线性，即近似共线性。
二、实际经济问题中的共线性
●一般地，产生多重共线性的主要原因有以下三个方面： ①经济变量相关的共同趋势：时间序列样本中发生多重共线性的主要原因在于许多基本经济变量存在相关的共同趋势。 ②滞后变量的引入 ③样本资料的限制：由于完全符合理论模型所要求的样本数据较难收集，在现有数据条件下，特定样本可能存在某种程度的多重共线性
三、多重共线性的后果
●计量经济学模型一旦出现多重共线性，如果仍采用普通最小二乘法估计模 型参数，会产生下列不良后果: ①完全共线性下参数估计量不存在 ②近似共线性下普通最小二乘法参数估计量的方差变大 ③参数估计量的经济含义不合理 ④变量的显著性检验和预测功能失去意义
四、多重共线性的检验
●检验多重共线性是否存在 ①对两个解释变量的模型，采用简单相关系数法 求出X1与X2的简单相关系数r，若|r|接近1，则说明两变量存在较强的多重共线性。
②对多个解释变量的模型，采用综合统计检验法 若在普通最小二乘法下，模型的R2与F值较大，但各参数估计值的t检验值较小，说明各解释变量对Y的联合线性作用显著，但各解释变量间存在共线性而使得它们对Y的独立作用不能分辨，故t检验不显著。
●判明存在多重共线性的范围
①判定系数检验法

②逐步回归法 以Y为被解释变量，逐个引入解释变量，构成回归模型，进行模型估计。根据拟合优度的变化决定新引入的变量是否可以用其他变量的线性组合代替，而不是作为独立的解释变量。如果拟合优度变化显著，则说明新引入的变量是一个独立解释变量；如果拟合优度变化很不显著，则说明新引入的变量不是一个独立解释变量，它可以用其他变量的线性组合代替，也就是说它与其他变量之间存在共线性的关系。
五、克服多重共线性的方法
●如果模型被证明存在多重共线性，则需要发展新的方法估计模型，最常用的方法有三类:
①排除引起共线性的变量：找出引起多重共线性的解释变量，将它排除出去，是最为有效地克服多重共线性问题的方法，所以逐步回归法得到了最为广泛的应用。但是，需要特别注意的是，当排除了某个或某些变量后，保留在模型中的变量的系数的经济意义将发生变化，其估计值也将发生变化。
②差分法：对于以时间序列数据为样本，以直接线性关系为模型关系形式的计量经济学模型，将原模型变换为差分模型。可以有效地消除存在于原模型中的多重共线性。这是由经济时间序列数据的内在性质决定的。一般讲，增量之间的线性关系远比总量之间的线性关系弱一些。
③减小参数估计量的方差：多重共线性的主要后果是参数估计量具有较大的方差。可以采取适当方法减小参数估计量的方差，虽然没有消除模型中的多重共线性，却能消除多重共线性造成的后果。岭回归法，就是以引入偏误为代价，减小参数估计量的方差。
4.4随机解释变量问题
●单方程线性计量经济学模型假设解释变量是确定性变量，并且与随机干扰项不相关。违背这一基本假设的问题被称为随机解释变量问题。
一、随机解释变量问题
●对于随机解释变量问题可以分为以下3种情况： ①随机解释变量与随机干扰项独立 ②随机解释变量与随机干扰项同期无关但异期相关 ③随机解释变量与随机干扰项同期相关
●如果某解释变量是确定性变量，则该解释变量一定与随机误差项独立。如果解释变量是随机变量，若随机解释变量与随机误差项同期无关，这时随机解释变量被称为是同期外生的，若随机解释变量与随机误差项既不同期相关，也不异期相关，则称该随机解释变量是严格外生的。
二、实际经济问题中的随机解释变量问题
●在实际经济问题中，经济变量往往都具有随机性。但是在单方程计量经济学模型中，凡是外生变量都被认为是确定性的。于是随机解释变量问题主要表现于用滞后被解释变量作为模型的解释变量的情况。
三、随机解释变量的后果
●如果随机解释变量与随机干扰项呈正相关：则在抽取样本时，容易出现X值较小的点在总体回归线下方，而X值较大的点在总体回归线上方的情况，因此，拟合的样本回归线则可能低估截趾项，而高估斜率项。 如图：
如果随机解释变量与随机干扰项呈负相关：则往往导致拟合的样本回归线高估截距项而低估斜率项。 如图：

●随机解释变量X与随机干扰项μ的关系不同，参数普通最小二乘估计量的统计性质也会不同，同样分三种不同情况: ①随机解释变量X与随机干扰项μ相互独立，得到的参数估计量仍然是无偏一致估计量。 ②随机解释变量X与随机干扰项μ同期不相关，而异期相关，得到的参数估计最有偏，但却是一致的。 ③随机解释变量X与随机干扰项μ同期相关，得到的参数估计量是有偏且非一致。 需要说明的是，如果模型中带有滞后被解释变量作为解释变量，则当该滞后被解释变量与随机干扰项同期相关时，普通最小二乘估计量是有偏的且非一致的，即使同期无关，其普通最小二乘估计量也是有偏的，因为此时肯定出现异期相关。
四、工具变量法
●模型中出现随机解释变量并且与随机干扰项相关时，普通最小二乘估计量是有偏的。如果随机解释变量与随机干扰项异期相关，则可以通过增大样本容量的办法来得到一致的估计量；但如果是同期相关，即使增大样本容量也无济于事这时，最常用的估计方法是工具变量法。
●工具变量的选取 工具变量，顾名思义是在模型估计过程中被作为工具使用，以 “替代”与随机干扰项相关的随机解释变量。如果选Z作为Xj的工具变量，Z必须满足以下条件: ①与所替代的随机解释变量高度相关:Cov(Z,Xj)≠0 ②与随机干扰项不相关: Cov(Z,μ)=0 ③与模型中其他解释变量不相关，以避免出现多重共线性。
●尽管工具变量估计法在大样本下具有一致性，但容易验证在小样本下工具变量法估计量仍是有偏的.
●对于工具变量法，有3点需要特别指出：
①经常产生一种误解，以为采用工具变量法是将原模型中的随机解释变量换成工具变量，即改变了原来的模型。实际上，工具变量法并没有改变原模型，只是在原模型的参数估计过程中用工具变最“替代”随机解释变量。 或者说，上述工具变量法估计过程可等价地分解成下面两个阶段的普通最小二乘回归:
②如果一个随机解释变量可以找到多个相互独立的工具变量，人们希望充分利用这些工具变量的信息，就形成了广义矩方法(GMM)
③要找到与随机干扰项不相关而又与随机解释变量相关的工具变量并不是一件很容易的事。但如果考虑到随机解释变量与随机干扰项相关的主要来源是由于同期测量误差引起的，就可以用滞后一期的随机解释变量作为原解释变量的工具变量。
展开全文
• 财政收入影响因素分析及预测模型
• 1 试卷说明测试目标：因子模型是量化股票组合投资领域的基本工具，介绍性的资料很。但学习这些资料之后，甚至一些老手也很难判断自己掌握到什么程度，或是在哪些方面有所缺失。因此，我们几位从业者合力整理了...
• 文章目录导航经典单方程计量 经济模型：专门问题5.1虚拟变量模型一、虚拟变量的引入二、虚拟变量的设置原则5.2滞后变量模型一、滞后变量模型二、分布滞后模型的参数估计三、自回归模型的参数估计四、格兰杰因果...
• 多层线性模型和面板数据模型笔记（待完善，持续更） [toc] 一、多层线性模型Hierarchical Linear Model 1 传统回归分析模型 Yi=β0+β1Xi+εiY_i=\beta_0+\beta_1X_i+\varepsilon_iYi​=β0​+β1​Xi​+εi​ 其中...
• 尤其对网络膨胀、经济激励措施、罚没机制、取款周期、攻击媒介和最坏情况等主题进行了深入的探讨。 随着以太坊 2.0 参与者的激增，正当其时且至关重要的是，我们可以收集到不同的观点从而选出最佳的解决方案。开源...
• 顾名思义，因子模型是指使用个因子，综合考量各因素而建立的选股模型，其假设股票收益率能被一组共同因子和个股特异因素所解释。 因子模型的优点在于，它能通过有限共同因子来有效地筛选数量庞大的个股，在大...
• 本文通过经济计量模型和因子分析方法对湖北省经济增长因素进行了定量分析。探讨了资本因素、制度因素和劳动力因素经济增长的贡献。通讨对湖北省实际经济数据的分析、测算，得到了一些有意义的结论，并提出了相应的...
• 通过选择2011年至2015年美国各州的截面数据，分析了财产犯罪与社会经济因素之间的关系。研究表明：1）失业率，家庭收入中位数和教育... 2）经济决定因素应包括在犯罪活动模型中，但经济模型不能解释犯罪率的总体变化。
• 影响存货经济批量的主要因素包括：变动进货费用（与进货批量成反向变化）；变动储存成本（与进货批量成同向变化）；允许缺货时的缺货成本（与进货批量成反向变化）。 由于存货购进以及管理过程中的条件不同，因此，...
• 本文选择向量自回归模型，简称VAR模型，是一种常用的计量经济模型，加粗样式1980年由克里斯托弗·西姆斯（Christopher Sims）提出。VAR模型是用模型中所有当期变量对所有变量的若干滞后变量进行回归。VAR模型用来...
• 知识点： 1、变量间的关系分为函数关系与相关关系。 相关系数是对变量间线性相关程度的度量。 2、现代意义的回归是一...4、随机扰动项是被解释变量实际值与条件均值的偏差，代表排除在模型以外的所有因素对Y的影响。 5
• 科学、合理地预测地方财政收人，对于克服年度地方预算收支规模确定的随意性和盲目性，正确处理地方财政与经济的相互关系具有十分重要的意义。 某市作为改革开放的前沿城市，其经济发展在全国经济中的地位举足轻重。...
• 过去有关采用病虫害综合治理（IPM）的研究分析了非空间因素（社会，经济，制度和管理因素等）在影响农民采用IPM决策方面的意义，而本研究还分析了空间因素这些非空间因素来解决这些问题-i。 空间因素是否会严重影响...
• 转 股票因子模型的回归检验 作者：石川，量信投资创始合伙人，清华大学学士、硕士，麻省理工学院博士；精通各种概率模型和统计方法，擅长不确定性随机系统的建模及优化。知乎专栏：...
• 尤其对网络膨胀、经济激励措施、罚没机制、取款周期、攻击媒介和最坏情况等主题进行了深入的探讨。 随着以太坊 2.0 参与者的激增，正当其时且至关重要的是，我们可以收集到不同的观点从而选出最佳的解决方案。开源...
• 计量经济学第1章习题计量经济学第1章习题第1 章 经济计量学的特征及研究范围一、名词解释1.... 计量经济模型：二、单项选择题1．计量经济学是一门 ( )学科。A 数学B 经济C 统计D 测量2. 同一统计指...
• 基于经济性与可靠度提出了雷达装备维修方式决策模型，讨论了不同寿命分布雷达装备部件维修方式的决策，通过仿真分析得到了不同部件维修方式方案，对于合理选取维修方式，充分发挥装备维修保障资源效能具有现实意义
• 此外，本教程还简要演示了用R对GLM模型进行的层次扩展。最后，还讨论了GLM框架中的更分布和链接函数。 本教程包含以下结构。 1. 准备工作。 2. 介绍GLM。 3. 加载教育数据。 4. 数据准备。 5. 二元（伯努利）...
• 新能源产业的发展对促进河北省经济发展具有重要意义,河北省新能源产业集群初具规模,提升产业集群竞争力成为推动河北省新能源产业快速发展的重要因素。文章以GEM模型为分析框架,通过对相关因素的分析,找到制约河北省...
• ## 浅谈CAPM和因子模型

千次阅读 2019-08-04 22:49:58
在讲因子模型之前，我们需要先了解一下CAPM模型。 CAPM模型是从均值-方差效用理论导出的一个均衡模型，其假定人们都是理性的，都具有一样的均值-方差偏好形式，即都喜欢高收益低方差，且homogeneous。那么就可以...
• 一、空间滞后模型 1.空间滞后模型的形式 空间滞后模型（spatial lag model，SLM）描述的是空间...为空间矩阵，是空间计量经济模型的核心，具体表达为： 其中 ????????????描述了第 ????个截面个体与第J个...
• 聚英国际|芯片设计专家郭龙飞：Filecoin经济模型报告要点解析 出品：链世纪财经 8月30日，由链世纪财经、聚英国际主办，大陆节点、聚英国际商学院协办的链世纪财经对话分布式存储No.7在“有播”和“一直播”平台同步...
• 机理和机制 机理，是指事物变化的理由与道理，从机理的概念分析，机理包括形成要素和形成要素之间的关系两个方面。其原理是指为实现某一特定功能，一定的系统结构...机理模型和非机理模型 机理模型（白箱）：根据对象
• ## 评价模型

万次阅读 多人点赞 2018-07-11 22:35:30
评价模型 HeartGo 关注2017.01.19 12:10* 字数 4802 阅读 2941评论 0喜欢 6数据挖掘之评价模型层次分析法(AHP)基本思想：是定性与定量相结合的准则决策、评价方法。将决策的有关元素分解成目标层、准则层和...
• ## 均值方差模型

万次阅读 多人点赞 2019-12-20 10:39:09
从前，有一个年轻人，叫哈里·马科维兹（Harry Markowitz），彼时他正在芝加哥大学攻读经济学博士学位，一次偶然的机会他在办公室门外等待见导师、准备讨论博士论文时遇到了一个股票经纪人，和股票经纪人的一番交谈...

...