当前位置:首页 > 【原创】SPSS基于逻辑回归和聚类模型的交通出行分析报告论文附代码数据
基于逻辑回归和聚类模型的交通出行分析
一、绪论部分
1.1、研究背景
城市交通拥挤、交通事故、环境污染已是全世界面的共同问题,并成为制约各城市社会和经济进一步发展的瓶颈问题。但由于受到了经济条件、技术条件、环境条件、空间条件等制约,单纯依靠增加投资、进行大规模交通基础设施建设解决城市交通问题的传统方法,已不能适应城市交通的迅速发展。
相对于其他出行,通勤出行在时间和空间上具有更大的恒定性,其时间安排 是影响城市居民其他活动和出行的选择。从某种意义而言,通勤活动也是其他活动的基础。特别是随着城市居民就业范围的扩大,通勤出行的数量不仅迅速增加,而且也日益的复杂化。特别是由于通勤出行集中在一定的高峰期和一定的区域,使得早、晚高峰通勤时段的交通拥堵,成为城市交通问题最为突出的问题。
1.2、研究目的
通过运用决策树和Logistic回归方法,找出影响通勤交通方式选择的因素,建立合适的模型,对出行方式问题进行分析以及提供一些合理化的建议。
1.3、研究意义
了解不同特点人员的出行方式,并根据找到的一些影响因素,采取相应的出行需求管理措施,对缓解城市交通拥挤、提高通勤者的出行质量,更具有现实的意义。
1.4、研究方法
主要采用决策树和Logistic回归方法对数据进行分析。
二、数据挖掘的相关理论
要在DSS中成功的实施数据挖掘并不是一蹴而就的,而是一个循序渐进、不断调整的过程。一般来说,DSS中的数据挖掘主要包括以下几个步骤[17](如图3所示):
(1)确定分析和预测目标。DSS在进行数据挖掘时,首先需要明确商业目标,即你想通过数据挖掘解决什么问题,达到什么目的。另外,还要将准备解决的问题转化为可以测量的目标,即数据挖掘的成功准则。另外,作为数据挖掘的第一个步骤,还必须考虑其它因素,如可用的技术、资金、人才和时间等资源。
(2)数据选择。对基础数据进行了解和选择,比如从哪里获得数据、是否建立数据仓库、是否直接使用内部数据等问题。通过数据选择可以对基础数据建立基
本的可信度。
(3)数据准备。对选择的数据进行必要的预处理、转换,以消除数据噪音,提高数据的完整性、准确性和可信度。
(4)模型构造。这是数据挖掘的关键阶段,这一阶段的主要工作有:根据挖掘的商业目标,选择相应的数据挖掘技术,建立培训数据和测试数据,利用训练数据采用相应算法建立模型和模型解释。
(5)模型评估和校验。使用测试数据对建立的模型进行测试、计算误差率,如未达到预期目标,则根据误差原因,重新回到模型构造或数据选择阶段,重复相关过程,直至找到满意的模型。如果是商业目标确定的不符合实际,就需要重新审视最初的商业目标定义。
(6)部署和应用。建立满意的模型后,就可以在整个企业内部署和应用模型。另外,在应用的过程中还要不断的测试模型的成功概率,从而来完善模型。
确定分析和预订目标 N Y 数据不足噪音大 数据选择 数据准备 N Y 模型不准确 模型构造 模型评估检验 是否达到预定目标 N Y 部署应用
图1 数据挖掘步骤
三、建模前的准备过程
3.1、数据来源
本次分析的数据使用调查数据已统计到“数据.xlsx”表中。
3.2、指标选取
本次分析一共选取了12个指标3000个样本,分别是:居住地离上班地的距离、个人年收入、家庭年收入、年龄、性别、家庭拥有汽车的数量、受教育水平、工作类型、家里人口数量、家里未成年人数量、房屋拥有类型、房屋居住面积、主要通勤出行方式。
3.3、指标介绍
Distance:居住地离上班地的距离(公里) Pincome:个人年收入(万元) Hincome:家庭年收入(万元) Age:年龄
Gender:性别(0:女;1:男) Car:家庭拥有汽车的数量
Education:教育水平(1:初中及以下;2:高中;3:专科;4:本科;5:研究生)
Job:工作类型(1:公司职员;2:工厂工人;3:公务员;4:个体;5:事业单位;6:其他)
People:家里人口数量 Children:家里未成年人数量
Housing:房屋拥有类型(0:租房;1:买房) Area:房屋居住面积(平方米)
Mode:主要通勤出行方式(1:汽车;2:公共交通;3:电动自行车;4:其他)
但是小区的编号忘记记录下来。
3.4、数据审核
图2 数据审核
由上表,可得:本次分析的数据都是有效的,不存在缺失值。
3.5、描述性统计量
图3 数据描述
由上表,可得:距离、个人收入、年收入、拥有汽车数量、教育水平、工作类型、家里人口数量、未成年人数量、房屋居住面积这8个变量的均值分别为:11.8597、8.59、19.593333、1.19、41.66、.82、2.98、121.85,可以看出这8个连续性变量不存在量纲上的差异,因此在后面的分析中,不需要进行标准化处理。同时,这8个变量之间存在较强的线性相关性,说明变量之间存在严重的多重共线性,可以考虑对变量进行降维后在进行分析。
Distance、Pincome、Hincome、Age、Car、People、Children、Area、为数值型变量,Gender、Education、Job 、Housing、Mode是定类型变量
四、数据的建模与仿真
建模方法的相关理论的简单介绍和具体的建模过程和模型结果。建模过程即需要交代模型中重要参数的设置,具体模型,模型的评价。如果同时用多个模型对同一个问题进行建模,则需要对模型进行比较和选择。
4.1逻辑回归
Logistic回归与多重线性回归实际上有很多相同之处,最大的区别就在于它们
共分享92篇相关文档