引言
1.棉花产量统计何其难。数学界有一个哥德巴赫猜想,棉花界也有一道难解的数学题,国家的棉花年产量究竟有多少?新疆的棉花产量究竟有多少?这道难题困扰着棉花界的人士。
中国的棉花总产量从500万吨到800万吨跨度不断变化,但确切数字是多少,我们有多种答案,就拿2014棉花年度为例,生产、收购、加工等环节基本结束,我们仍然困扰着这个答案。
2.统计失真问题源于样本和方法。棉花产量统计失真,主要源于统计口径与统计方法。棉花产量究竟是多少?对于这个问题权威部门也没有一个统一的说法,国家统计局、中国棉花协会、发改委、农业部、美国农业部(USDA)、国际棉花咨询委员会(ICAC)等不同的渠道有不同的版本发布。以2014年新疆棉产量预测,从367万吨到450万吨之间有多个版本和渠道发布,跨度较大,不但业外困惑,业内也是众说纷纭。
统计失真问题,既有样本影响因素,也有统计口径因素,还有人为因素,当然统计方法也非常重要。
本文作者韩金在棉花加工领域从事多年研究,中国人民大学侯圆圆是统计方面的专家,王鸣泉是中国联通大数据分析方面的专家,三人一块共同对棉花采集数据进行了建模分析。
第一节:数据来源
一、技术基础
由于数据平台系统做到了全覆盖,因此每日加工量汇总数据真实,根据已发生的记载数据,预测未来日期的加工量,从而达到分析预测整个新疆的棉花总产量,有着很重要的研究价值和社会价值,本文就从新疆棉花产量的每日加工量统计,通过建立数据模型,来分析预测新疆2014年度棉花总产量。
目前已经实现了棉花加工、检验数据信息化。每包棉花依据加工数据编成条码,作为棉包身份证进行统计。专业纤检机构逐包HVI仪器化检验,形成公检电子证书。
新疆所有棉花加工企业的加工、检验数据的采集、存储、管理及业务操作都由北京中棉机械成套设备有限公司的棉包条码信息管理系统实现。
二、数据平台和模型作用
1.以棉包条码信息系统作为数据终端,通过网络技术实现数据集中存储形成数据平台,实现数据价值。准确采集全国收购、加工、检验、批次数据,为政府部门、行业协会等提供产量等宏观数据服务。
2.围绕新疆棉花产量统计难题,各种数据滞后,调控、经营决策不合理的现状,建立科学合理的数据模型。形成集加工、检验、仓储、物流、纺织等各环节信息支撑系统,实现棉花全产业链信息化。
3.建立棉花现代物流体系需要的信息流,围绕中央一号文件要求的农产品价格形成机制试点,形成新疆目标价格补贴试点按照产量发放补贴的依据。
4.以平台为中心围绕棉花产业链开发应用服务,与现有交易平台形成对接,按照详细质量指标实现精准购棉,建立适合国产棉使用的计算机辅助配棉系统,实现纺织企业国产棉精细化用棉。
三、数据平台现状
本分析仅从采集到的加工数据,通过建模分析,得出预测和分析结论。
四、数据收集
本数据建模采用的数据来源,全部来自2014年9月1日建成的全国加工检验综合数据平台系统,系统覆盖了全疆846家400型棉花加工厂的1118条生产线。由于生产线作业采集,企业全覆盖,因此数据来源真实可靠。
由于样本不包含200型小厂,因此根据采集样本得出的总预测产量理论上会小于实际新疆总产量。为保证数据真实,我们抓取了数据平台的截图来证明数据来源(见图1)。
图1 产量统计系统登录窗口
第二节:数据的整理和显示
一、数据整理
由于数据分收购数据、加工数据、检验数据、入库数据几类,为便于分析,我们仅以全新疆加工数据为样本进行分析。
我们截取汇总了从2014年9月18日开始加工的每日新疆加工日增量更新数据见表1,来进行决策和预测分析。
二、数据显示
1.直方图
按照月份进行分组,计算组距,如图2所示。
图2 按月统计加工量
图3 日加工量折线图
通过图3的折线图,可以清晰地揭示出每日加工量的增量在时间序列上的变化规律,通过早期的数据分布规律,我们可以依据时间序列变量及日加工量之间的对应关系,对未来时间的数据进行预测分析,这也是我们课题研究的意义所在。
对异常数据进行适当削峰处理,可以得到图4 曲线,其中M代表月份。
第三节:数据建模
我们分别采用excel自带的数据分析工具,先对采集数据进行描述性统计再进行检验假设,限于篇幅,假设检验步骤省略。从回归假设检验看,回归模型的R方达到了0.906,ANOVA分析也表现显著,因此模型的拟合效果良好。再看系数,所有参数系数都非常显著,因此该二次模型成立。
第四节:数据分析
依据上述模型,根据时间轴与产量作散点图,棉花产量随时间递减,加上上述检验假设,模型的拟合曲线与真实增量的散点图如图5所示,可以看出模型的拟合效果良好,数据符合二次曲线。
图5 二次函数散点曲线图
根据趋势线得出曲线方程:y=ax2+bx+c
数据列表如表2,累计汇总为3660124吨。
第五节:数据修正
图6 30天实际加工量散点图
该散点图特质除了具备二次曲线下降的趋势外,是否更符合线性关系呢?
数据模型的最关键点在于找到二次曲线与线性回归的拐点,依据线性假设和回归分析,根据趋势,我们做线假设,假设线性方程:y=ax+b。
为此,欲求新疆棉花总产量,首先需要预测出12月18日以后的每日增量。因此为x赋值
9
3、94……并代入到二次函数中求解产量y,计算的终止条件是y≤0。
表3 线性回归函数
第六节:决策结论
427万吨的数学模型预测产量,我们认为有其合理性。考虑到样本的覆盖性,我们增加考虑因素,影响产量变动的主要因素有:
2.未被覆盖的400型大包未参与公检部分。因为目标价格补贴政策出台较晚,部分纺织自用棉加工企业没有入库参与公检,但由于系统包含了纺织自用棉的统计,尽管不参与入库公检,但不影响数据采集,数据系统中加工量的统计还是完整的。
3.入库数量和检验数量佐证模型。截止到12月18日,加工分会成员单位北京中棉机械成套有限公司统计新疆全疆皮棉的加工量是353万吨,从我们掌握的新疆入库数据看,截至同日新疆棉花入库336.5万吨,这和我们模型计算的情况是吻合的。收购情况也符合预测,整体看新疆南北疆采摘基本结束了,无论加工还是入库,地方上下降明显,明显结束早于上年同期,突出表现在兵团企业仍在持续,与目标价格补贴兵地之间籽棉流动减少有关。同期检验量是309.5万吨,符合加工量大于入库量,入库量大于检验量的规律。
分析结论
综上,我们根据数学模型计算的新疆棉花产量为427万吨左右。考虑调整因素,预计新疆产量为430万吨左右。