当前位置：首页 > 【原创】SPSS基于逻辑回归和聚类模型的交通出行分析报告论文附代码数据

【原创】SPSS基于逻辑回归和聚类模型的交通出行分析报告论文附代码数据

62 次阅读
3 次下载
2025/5/24 4:26:50

基于逻辑回归和聚类模型的交通出行分析

一、绪论部分

1.1、研究背景

城市交通拥挤、交通事故、环境污染已是全世界面的共同问题，并成为制约各城市社会和经济进一步发展的瓶颈问题。但由于受到了经济条件、技术条件、环境条件、空间条件等制约，单纯依靠增加投资、进行大规模交通基础设施建设解决城市交通问题的传统方法，已不能适应城市交通的迅速发展。

相对于其他出行，通勤出行在时间和空间上具有更大的恒定性，其时间安排是影响城市居民其他活动和出行的选择。从某种意义而言，通勤活动也是其他活动的基础。特别是随着城市居民就业范围的扩大，通勤出行的数量不仅迅速增加，而且也日益的复杂化。特别是由于通勤出行集中在一定的高峰期和一定的区域，使得早、晚高峰通勤时段的交通拥堵，成为城市交通问题最为突出的问题。

1.2、研究目的

通过运用决策树和Logistic回归方法，找出影响通勤交通方式选择的因素，建立合适的模型,对出行方式问题进行分析以及提供一些合理化的建议。

1.3、研究意义

了解不同特点人员的出行方式，并根据找到的一些影响因素，采取相应的出行需求管理措施，对缓解城市交通拥挤、提高通勤者的出行质量，更具有现实的意义。

1.4、研究方法

主要采用决策树和Logistic回归方法对数据进行分析。

二、数据挖掘的相关理论

要在DSS中成功的实施数据挖掘并不是一蹴而就的，而是一个循序渐进、不断调整的过程。一般来说，DSS中的数据挖掘主要包括以下几个步骤[17](如图3所示)：

(1)确定分析和预测目标。DSS在进行数据挖掘时，首先需要明确商业目标，即你想通过数据挖掘解决什么问题，达到什么目的。另外，还要将准备解决的问题转化为可以测量的目标，即数据挖掘的成功准则。另外，作为数据挖掘的第一个步骤，还必须考虑其它因素，如可用的技术、资金、人才和时间等资源。

(2)数据选择。对基础数据进行了解和选择，比如从哪里获得数据、是否建立数据仓库、是否直接使用内部数据等问题。通过数据选择可以对基础数据建立基

本的可信度。

(3)数据准备。对选择的数据进行必要的预处理、转换，以消除数据噪音，提高数据的完整性、准确性和可信度。

(4)模型构造。这是数据挖掘的关键阶段，这一阶段的主要工作有：根据挖掘的商业目标，选择相应的数据挖掘技术，建立培训数据和测试数据，利用训练数据采用相应算法建立模型和模型解释。

(5)模型评估和校验。使用测试数据对建立的模型进行测试、计算误差率，如未达到预期目标，则根据误差原因，重新回到模型构造或数据选择阶段，重复相关过程，直至找到满意的模型。如果是商业目标确定的不符合实际，就需要重新审视最初的商业目标定义。

(6)部署和应用。建立满意的模型后，就可以在整个企业内部署和应用模型。另外，在应用的过程中还要不断的测试模型的成功概率，从而来完善模型。

确定分析和预订目标 N Y 数据不足噪音大数据选择数据准备 N Y 模型不准确模型构造模型评估检验是否达到预定目标 N Y 部署应用

图1 数据挖掘步骤

三、建模前的准备过程

3.1、数据来源

本次分析的数据使用调查数据已统计到“数据.xlsx”表中。

3.2、指标选取

本次分析一共选取了12个指标3000个样本，分别是：居住地离上班地的距离、个人年收入、家庭年收入、年龄、性别、家庭拥有汽车的数量、受教育水平、工作类型、家里人口数量、家里未成年人数量、房屋拥有类型、房屋居住面积、主要通勤出行方式。

3.3、指标介绍

Distance：居住地离上班地的距离（公里） Pincome：个人年收入（万元） Hincome：家庭年收入（万元） Age：年龄

Gender：性别（0：女；1：男） Car：家庭拥有汽车的数量

Education：教育水平（1：初中及以下；2：高中；3：专科；4：本科；5：研究生）

Job：工作类型（1：公司职员；2：工厂工人；3：公务员；4：个体；5：事业单位；6：其他）

People：家里人口数量 Children：家里未成年人数量

Housing：房屋拥有类型（0：租房；1：买房） Area：房屋居住面积（平方米）

Mode：主要通勤出行方式（1：汽车；2：公共交通；3：电动自行车；4：其他）

但是小区的编号忘记记录下来。

3.4、数据审核

图2 数据审核

由上表，可得：本次分析的数据都是有效的，不存在缺失值。

3.5、描述性统计量

图3 数据描述

由上表，可得：距离、个人收入、年收入、拥有汽车数量、教育水平、工作类型、家里人口数量、未成年人数量、房屋居住面积这8个变量的均值分别为：11.8597、8.59、19.593333、1.19、41.66、.82、2.98、121.85，可以看出这8个连续性变量不存在量纲上的差异，因此在后面的分析中，不需要进行标准化处理。同时，这8个变量之间存在较强的线性相关性，说明变量之间存在严重的多重共线性，可以考虑对变量进行降维后在进行分析。

Distance、Pincome、Hincome、Age、Car、People、Children、Area、为数值型变量，Gender、Education、Job 、Housing、Mode是定类型变量

四、数据的建模与仿真

建模方法的相关理论的简单介绍和具体的建模过程和模型结果。建模过程即需要交代模型中重要参数的设置，具体模型，模型的评价。如果同时用多个模型对同一个问题进行建模，则需要对模型进行比较和选择。

4.1逻辑回归

Logistic回归与多重线性回归实际上有很多相同之处，最大的区别就在于它们

版权认领

下载文档10.00 元 加入VIP免费下载

推荐下载

本文作者：...

共分享92篇相关文档

文档简介：

基于逻辑回归和聚类模型的交通出行分析一、绪论部分 1.1、研究背景城市交通拥挤、交通事故、环境污染已是全世界面的共同问题，并成为制约各城市社会和经济进一步发展的瓶颈问题。但由于受到了经济条件、技术条件、环境条件、空间条件等制约，单纯依靠增加投资、进行大规模交通基础设施建设解决城市交通问题的传统方法，已不能适应城市交通的迅速发展。相对于其他出行，通勤出行在时间和空间上具有更大的恒定性，其时间安排是影响城市居民其他活动和出行的选择。从某种意义而言，通勤活动也是其他活动的基础。特别是随着城市居民就业范围的扩大，通勤出行的数量不仅迅速增加，而且也日益的复杂化。特别是由于通勤出行集中在一定的高峰期和一定的区域，使得早、晚高峰通勤时段的交通拥堵，成为城市交通问题最为突出的问题。 1.2、研究目的通过运用

【原创】SPSS基于逻辑回归和聚类模型的交通出行分析报告论文附代码数据

相关文档

相关推荐