Kết luận
Dự đoán mật độ giao thông là một phần của Hệ thống giao thông thông minh, được
xây dựng để phục vụ mục đích hỗ trợ người tham gia giao thông lựa chọn được hành trình
phù hợp. Phương thức dự đoán mật độ giao thông đang được phát triển và tích hợp thêm
các phương thức khác để có thể dự đoán chính xác hơn. Luận văn “Áp dụng mô hình
phân lớp vào dự đoán mật độ giao thông” đã tiến hành khảo sát về mô hình phân lớp với
Các bộ phân lớp khác nhau và áp dụng mô hình vào các dữ liệu thực nghiệm để đạt được
các kết quả như mong muốn.
Kết quả đạt được trong luận văn:
Giới thiệu được về Hệ thống giao thông thông minh và hệ thống con là Hệ
thống dự đoán mật độ giao thông dựa trên mô hình Cây quyết định.
Khảo sát và thống kê các mật độ độ giao thông trong khoảng thời gian nhất
định.
Nghiên cứu, tìm hiểu các hướng để tiếp cận mô hình phân lớp với cây quyết
định.
Chạy ra kết quả dự đoán mật độ giao thông cao với dữ liệu thực nghiệm, góp
phần tăng độ quan trọng của Hệ thống dự đoán mật độ giao thông trong Hệ
thống giao thông thông minh.
Những điều cần khắc phục:
Việc áp dụng các sự cố (mưa, bão, ) vào dự đoán mật độ giao thông mới chỉ
ở mức độ đơn giản, phần lớn chỉ là tăng hoặc giảm mật độ.
Hướng phát triển tương lai
Trong thời gian tới, luận văn sẽ tiếp tục nghiên cứu về viếc áp dụng mô hình phân
lớp vào dự đoán mật độ giao thông. Đồng thời nghiên cứu kỹ hơn việc áp dụng các sự cố
(mưa, bão, ) vào công tác dự đoán. Đi kèm việc nghiên cứu là bổ sung thêm các mô
hình phân lớp khác để kết quả đầu ra đa dạng hơn và có sự so sánh nhất định giữa các mô
hình.
52 trang |
Chia sẻ: yenxoi77 | Lượt xem: 681 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Luận văn Áp dụng mô hình phân lớp vào dự đoán mật độ giao thông, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
hức lớn đối với các nhà chức trách.
An toàn, nhanh nhẹn, hiệu quả, năng suất, năng lượng và môi trường, và sự hài
lòng của khách hàng là những thế mạnh của hệ thống ITS.
Hệ thống quản lý giao
thông thông minh
Hệ thống quản lý
khách hàng thông
minh
Hệ thống phương tiện
giao thông công cộng
thông minh
An toàn Giới hạn tốc độ
Quản lý làn đường
Quản lý tai nạn
Hệ thống cảnh báo
Camera giám sát
Xe tự động
Kiểm soát tốc độ
thông minh
Quản lý trọng tải
Hệ thống định vị
Hướng dẫn đỗ xe
Kiểm soát hành
trình
Hệ thống hộp đen
Xe tự động
Hệ thống bến đỗ
Cảnh báo khoảng
cách
Quản lý theo đội
Hệ thống định vị
Vé điện tử
Camera giám sát
Phương tiện vận
chuyển cao tốc
Xe tự động
Kiểm soát tốc độ
thông minh
Cảnh báo khoảng
cách
Di động
và hiệu
quả
Giới hạn tốc độ
Quản lý làn đường
Quản lý tai nạn
Hệ thống cảnh báo
Camera giám sát
Đo khoảng cách
đường nối
Điều khiển phương
tiện
Hệ thống định vị
Hướng dẫn đỗ xe
Kiểm soát hành
trình
Hệ thống cảnh báo
Xe ưu tiên
Quản lý theo đội
Hệ thống định vị
Vé điện tử
Hệ thống tương tác
Phương tiện vận
chuyển cao tốc
Thông tin thời gian
thực
18
Thu phí điện tử
Thông tin thồi gian
thực
Hướng dẫn đỗ xe
Sự thảo
mãn của
khách
hàng
Camera giám sát
Quản lý làn đường
Hệ thống cảnh báo
Thu phí điện tử
Thông tin thồi gian
thực
Hướng dẫn đỗ xe
Hệ thống định vị
Hướng dẫn đỗ xe
Thông tin thồi gian
thực
Thu phí điện tử
Hệ thống bến đỗ
Hệ thống cảnh báo
Thông tin thồi gian
thực
Hệ thống tương tác
Vé điện tử
Camera giám sát
Bảng 2.1: Dự đoán mật độ giao thông với hệ thống giao thông thông minh
Dấu thể hiện hệ thống được tích hợp với chức năng Dự đoán mật độ giao thông
2.1.1 Hệ thống quản lý giao thông thông minh
Chính phủ và các cơ quan phụ trách giao thông chịu trách nhiệm về việc cung cấp
các cơ sở hạ tầng và cơ sở hạ tầng hệ thống liên quan đến việc tăng cường an toàn giao
thông. Hệ thống đường cao tốc và đường thứ cấp nói chung là khác nhau. Ví dụ về các cơ
sở hạ tầng liên quan đến hệ thống ITS là:
Giới hạn tốc độ: Các bảng hiệu thông báo chủ yếu được sử dụng để cảnh báo
về giới hạn tốc độ được áp dụng trên một con đường. Mục đích là để giảm tốc
độ trước khi tắc nghẽn xuất hiện, điều này sẽ dẫn đến một dòng chảy giao
thông đồng nhất và hiệu quả hơn.
Quản lý làn đường: làn dành riêng cho xe tải, xe buýt thường được sử dụng ở
các nước phát triển để giảm lượng phương tiện lưu thông trên các hệ thống
đường bộ vốn chỉ dành riêng cho xe máy và ô tô.
Quản lý sự cố: Các sự cố xảy ra khi tham gia giao thông sẽ tác động tiêu cực
đối với việc xử lý lưu lượng giao thông của một con đường. Thủ tục xử lý sự cố
tốt hơn sẽ có thể hạn chế mật độ xảy ra sự cố trên các tuyến đường. Hơn nữa,
dự báo nguy cơ xảy ra sự cố cũng sẽ giúp làm sáng tỏ vụ việc nhanh hơn.
Hệ thống Cảnh báo: Các hệ thống này có thể cung cấp một số loại thông tin
(như sương mù, ùn tắc, tai nạn, v.v.). Có một số hệ thống thông tin (dựa trên
GPS) có thể được sử dụng cho sự phát triển của hệ thống cảnh báo.
Camera giám sát: Closed Circuit Television (CCTV) máy quay ghi lại video
hoặc ảnh chụp các tình huống được xác định trước đó. Mục tiêu chung là các
19
luồng giao thông sẽ được sử dụng để phân tích các tài liệu video tự động và đưa
ra các kết quả phân tích giao thông.
Tự động nhận dạng xe (AVI): Xu hướng chung là nhận dạng xe tự động được
thực hiện bằng thẻ để thực thi luật giao thông.
Quản lý tốc độ thông minh (ISA): là một tên gọi chung cho các hệ thống, trong
đó tốc độ của một chiếc xe được theo dõi thường xuyên trong một khu vực nhất
định. Khi xe vượt quá giới hạn tốc độ, tốc độ được tự động điều chỉnh hoặc một
cảnh báo về tốc độ sẽ được gửi đến cho người lái xe.
Quản lý tải tọng (WIM): hỗ trợ công nghệ để kiểm tra xe tải về tải trọng của xe
xem có vượt quá tải trọng cho phép không.
Kiểm soát giao thông: Bộ điều khiển giao thông được sử dụng để điều tiết
luồng giao thông tại nút giao thông.
Thu phí tự động (ETC): Được thực hiện tại một hoặc nhiều điểm trên lộ trình
giao thông, mục đích là để thu lệ phí một cách tự động. Làn đường và mức giá
lý tưởng của làn đường được thực hiện bằng cách sử dụng một hệ thống tự
động.
Hệ thống thông tin thời gian thực: Hệ thống thông tin thời gian thực sử dụng dữ
liệu thu thập bởi các trung tâm quản lý giao thông để thông báo cho người sử
dụng đường của sự cố, sự chậm trễ v.v.
Hướng dẫn đậu xe: hệ thống hướng dẫn đậu xe, dựa trên hệ thống định vị, cung
cấp trình điều khiển với các thông tin liên về các chỗ trống trong bãi đậu xe.
2.1.2 Hệ thống thông tin hành khách thông minh
Ngành công nghiệp xe hơi thế giới đã được bổ sung thêm một số hệ thống giao
thông thông minh (ITS) trong các xe riêng. Các hệ thống tập trung vào an toàn, thực thi
và kiểm soát, tính di động và hiệu quả, trước và trên chuyến đi. Các hệ thống này cũng hỗ
trợ trong việc thực hiện các hệ thống bán vé và giá cả. Việc này không nhằm mục đích cố
gắng để có một danh sách đầy đủ của hệ thống, mà nó được phát triển và đưa vào thị
trường với các tính năng đầy đủ nêu trên để có thể giúp người dùng có thể tham gia giao
thông thuận tiện hơn.
Hệ thống được tích hợp trong phương tiện cá nhân sẽ bao gồm các hệ thống sau:
Hệ thống Định vị: hệ thống điện tử, cung cấp thông tin về các tuyến đường tới
các tài xế.
Hệ thống kiểm soát hành trình (CC): Hệ thống điều khiến đảm bảo tốc độ
không vượt quá giới hạn.
20
Hệ thống Cảnh báo: Hệ thống cảnh báo liên quan đến xe bao gồm hệ thống
chống va chạm (sử dụng bộ cảm biến), các hệ thống thời tiết (thông qua đài
phát thanh, hệ thống định vị v.v.), cảnh báo ùn tắc, tiết kiệm nhiên liệu (còn gọi
là econometer), bẫy tốc độ cảnh báo (thông qua màn hình LCD hiển thị hoặc
âm thanh), v.v.
Hệ thống hộp đen: Những hệ thống này đã được sử dụng trong ngành hàng
không trong nhiều năm, nhưng trong môi trường đường bộ là ý tưởng mới. Mục
đích là để phân tích tình trạng xe và cảnh báo lái xe nếu vấn đề có thể xảy ra.
Một ứng dụng có thể được phân tích tình trạng của chiếc xe tải để có thể cảnh
báo lái xe nếu hành vi hệ thống phân tích chỉ ra rằng người lái xe đang ngủ,
hoặc đang trong trạng thái thể chất không tốt để có thể lái xe.
Tự động nhận dạng xe (AVI): Xu hướng chung là nhận dạng xe tự động được
thực hiện bằng thẻ. Các tính năng nhân dạng của một thẻ có thể giúp việc thực
thi luật giao thông.
Hệ thống Bến đỗ: cảm biến được sử dụng để đo khoảng cách của một chiếc xe
với các xe khác hoặc các đối tượng khác trong bãi đậu xe. Sử dụng hệ thống
Bến đỗ, người dùng có thể đậu xe của mình chính xác hơn. Hơn nữa, có thể đậu
xe một cách an toàn hơn trong những không gian nhỏ.
Cảnh báo khoảng cách: Bảng cảm biến được sử dụng để cảnh báo trình điều
khiển xe mà họ đang nhận được quá gần với các loại xe khác. Hệ thống sẽ cảnh
báo khoảng cách và tốc độ xe cho tài xế.
Hệ thống thông tin hành khách thông minh là hệ thống hướng dẫn đậu xe, ISA, hệ
thống thông tin thời gian thực, thu phí tự động ETC (bao gồm cả giá đường).
2.1.3 Hệ thống giao thông công cộng thông minh
Một số hệ thống đã hoặc đang được phát triển để tăng cường giao thông công
cộng. Những hệ thống này bao gồm:
Quản lý theo nhóm: Các hệ thống dựa trên công nghệ định vị và liên kết phản
hồi với những hoạt động đã được định nghĩa trước đó. Các nhà điều hành sẽ có
thể theo dõi các phương tiện, phân tích hành vi của lái xe và thực hiện các bước
nếu hành vi của lái xe là không đạt yêu cầu.
Bán vé điện tử: Bán vé điện tử sẽ nâng cao hiệu quả của một hệ thống giao
thông công cộng (thanh toán được thực hiện nhanh hơn) và sẽ cung cấp một
môi trường an toàn hơn (ID người dùng có sẵn và nó sẽ khó khăn hơn cho bọn
21
tội phạm để lại vô danh). Hơn nữa, từ một điểm kỹ thuật giao thông của xe, vé
điện tử cung cấp cơ hội để cải thiện việc thu thập dữ liệu nhu cầu đi lại.
Hệ thống vận chuyển cao tốc: Đây là hệ thống dẫn đường có khả năng duy trì
tốc độ hoạt động vượt quá 200 km/h. Ví dụ: tàu cao tốc đầu tiên được sử dụng
tại Nhật Bản khoảng 30 năm trước đây. Sau đó phương tiện cao tốc này đã
được ứng dụng rộng rãi ở các nước Châu Âu nhờ lợi ích vượt trội của nó.
Ưu tiên giao thông công cộng (PTP): Các hệ thống giảm thiểu các tác động tiêu
cực của đèn giao thông cho giao thông công cộng. Nhiều hệ thống kiểm soát
giao thông, như phân đường, theo dõi chu kỳ và hệ thống tối ưu hoá di chuyển
có thể ưu tiên giao thông công cộng tại các nút giao. Các phương tiện giao
thông công cộng cũng có thể được xác định (ví dụ qua thẻ).
Thông tin thời gian thực: Liên quan đến giao thông công cộng, thông tin thời
gian thực có thể được sử dụng để quản lý nhu cầu đi lại của người dân (Travel
Demand Management - TDM). TDM tìm cách gây tác động đến hành vi của
con người và khuyến khích một sự thay đổi từ tư nhân đến giao thông công
cộng. Hệ thống ITS hỗ trợ để tạo ra sự thay đổi này.
Hệ thống tích hợp: Để tăng cường sự hấp dẫn của giao thông công cộng so với
các xe tư nhân (ví dụ, thời gian du lịch, thời gian chờ đợi tại các điểm dừng,
v.v.) phải được cải thiện. Tài xế có được thông tin về giao thông công cộng
thông qua việc đăng ký dịch vụ, sẽ giúp cải thiện thời gian đi lại. Tích hợp hệ
thống sẽ làm giảm thời gian chờ đợi.
2.2 Lợi ích của Hệ thống giao thông thông minh
Để thu thập được hiệu quả của các biện pháp ITS, dữ liệu từ các nghiên cứu khác
nhau đã được thu thập và so sánh.
Các kết quả của những nghiên cứu này đã được thu thập được bằng cách sử dụng
linh động các mô hình khác nhau. Hơn nữa, một số nghiên cứu chỉ ra nhu cầu của việc sử
dụng Hệ thống giao thông thông minh sẽ ngày càng tăng lên trong tương lai.
Ngoài ra, thời gian nghiên cứu của các nghiên cứu khác nhau, nên đã có những ảnh
hưởng nhất định đến kết quả. Mặc dù có những khác biệt, một kết quả chung về tác động
của các biện pháp ITS đã được tìm ra.
Trong một nghiên cứu được thực hiện bởi Ludmann và cộng sự vào năm 1997 [8],
100% số xe đã được trang bị hệ thống hành trình. Ước tính, sử dụng mô hình Pelops, đã
được thực hiện cho đường cao tốc cũng như giao thông đô thị. Hai hệ thống khác nhau đã
22
được thử nghiệm (lần thử nghiệm thứ hai đã trôi chảy). Những thay đổi về tốc độ và lưu
lượng giao thông được tính toán. Tốc độ trung bình trong kịch bản đầu tiên giảm 13%,
trong khi tốc độ tăng 6% trong lần thử nghiệm thứ hai. Cả hai kịch bản cho thấy sự gia
tăng trong kết quả đầu ra (12% -14%).
Hồ sơ động được áp dụng cho đường cao tốc. Tampere và các cộng sự đã tìm thấy
một sự gia tăng đáng kể trong sức chứa của các con đường (chỉ ra bởi các kết quả thu
được). Trong nghiên cứu này, ba làn đường cao tốc truyền thống đã được thay thế bởi bốn
làn xe nhỏ hơn với tốc độ tối đa, đã khiến cho sự tăc nghẽn xảy ra thấp hơn trong giờ cao
điểm. Sự gia tăng công suất dự kiến 20% là rất hứa hẹn. Các nghiên cứu được thực hiện
bởi Stemerding và các cộng sự vào năm 1990 [9, chương 1] đã chỉ ra rằng sự gia tăng lưu
lượng giao thông tổng thể nằm trong khoảng 5%. Trong nghiên cứu này, tốc độ tối đa
giảm từ 100 km/h đến 70 km/h. Sự giảm (4%) trong số các điểm dừng là một dấu hiệu
cho thấy tình hình an toàn giao thông đã được cải thiện. Nói chung, thời gian đi lại đã
được giảm (lên đến 41%). Trong một trường hợp khác, thời gian đi lại tăng 16%.
Điều khiển động thông tin tuyến đường là Hệ thống thông báo hiệu (Variable
Message Signs - VMS), thông báo cho người lái xe về tắc nghẽn trước, chủ yếu là trên
đường cao tốc và thời gian đi dự kiến. Các nghiên cứu của Van Straaten vào năm 2001
cho thấy rằng các loại Hệ thống báo hiểu đã giúp giảm mức độ nghiêm trọng của tình
trạng tắc nghẽn. Thời gian di chuyển trung bình giảm lên đến 42%. Kết quả này là đáng
kể. Mặc dù không rõ là bao nhiêu người tham gia giao thông làm theo các gợi ý, nhưng đã
ít tuyến đường bị tắc nghẽn, nghiên cứu này chỉ ra rằng tỷ lệ phần trăm là đủ cao để tạo
sự khác biệt.
Những tác động của một hệ thống quản lý đường cao tốc là rất hứa hẹn, việc giảm
lượng phương tiện tham gia giao thông trong khoảng thời gian dự kiến lên đến 48% là rất
đáng kể. Theo thống kê của Thomas vào năm 2001 [10] đã chỉ ra Sự gia tăng ước tính
công suất của đường cao tốc (thông lượng) lên đến 25%, đây là một chỉ số đáng chú ý.
Kết quả xuất hiện rất tích cực vì một hệ thống quản lý đường cao tốc là một sự kết hợp
các biện pháp:
Thông báo tín hiệu.
Nâng cao hệ thống thông tin di động, chẳng hạn như trong xe, giám sát.
Thu phí tự động hoặc thanh toán tiền vé điện tử.
Camera giám sát (quản lý sự cố) và nhận dạng xe.
Báo cáo Radio, tuần tra trên không và như vậy.
23
Câu hỏi đặt ra là làm thế nào để cân đối nỗ lực và chi phí để cung cấp các gói này
một cách hợp lý.
Làn xe chở khách (High Occupancy Vehicle - HOV) được tạo ra trên đường cao
tốc, tập trung vào một sự thay đổi trong thời gian đi lại. Theo nghiên cứu của Dahlgen vào
năm 1998 và Johnston vào năm 1996 đã cùng chỉ ra thời gian đi lại ước tính giảm lên đến
8% khi có một làn xe chở khách riêng trên đường cao tốc. Tuy nhiên, trong nhiều trường
hợp, thời gian đi lại, đặc biệt là cho người không đi làn HOV, tăng lên. Trong nghiên cứu
được tiến hành bởi Johnston vào năm 1996 sự gia tăng này là lên đến 200%.
Đồng nhất giới hạn tốc độ luôn luôn dẫn đến giao thông đồng nhất hơn trên một hệ
thống đường cao tốc.
Mục đích chính của hệ thống Thích ứng tốc độ thông minh (Intelligent Speed
Adaptation - ISA) là cải thiện an toàn đường bộ. Vì nó giúp lái xe không vượt quá tốc độ
giới hạn trong hệ thống bắt buộc theo mô hình, tốc độ trung bình của xe giảm (34% của
xe vượt quá giới hạn tốc độ trước khi sự ra đời của ISA). Các mô hình đã được thực hiện
đối với một mạng lưới các đường cao tốc và một số giới hạn của đường phụ.
Làn trả phí là làn xe chuyên dụng trên đường cao tốc, nơi tập hợp các điểm thu phí.
Quá trình thu phí chủ yếu sử dụng các thiết bị điện tử. Các tác dụng ước tính của làn nói
chung là tích cực. Nghiên cứu của Schoemakers và các cộng sự vào năm 2000 chỉ ra thời
gian đi lại nhìn chung đã giảm 33%. Các trình thiết bị điều khiển không tăng thời gian đi
lại của phương tiện.
Làn xe cao tốc là làn đường trên của một đường cao tốc mà chỉ mở cửa cho giao
thông trong giờ cao điểm. Chúng thường được sử dụng trong các hướng khác nhau trong
suốt buổi sáng và buổi tối cao điểm. Làn cao tốc giảm nguy cơ tắc nghẽn và giữ cho dòng
di chuyển đồng nhất hơn. Các nghiên cứu của Stemerding đã chỉ ra Các thông số tăng
khoảng 5% trong giờ cao điểm.Tình hình an toàn giao thông được cải thiện đôi chút.
WESTRA và Bosch cũng điều tra những ảnh hưởng của làn xe cao điểm. Họ nhận thấy
tổng thời gian đi lại trên toàn bộ mạng lưới giao thông đã giảm khoảng 21%. Tuy nhiên,
họ cũng chỉ ra rằng tổng thời gian đi lại trên một số các bộ phận của mạng lưới giao thông
tăng 40% trong thời gian du lịch. Nghiên cứu của Bosch vào năm 2003 tìm thấy một
thông mà thay đổi từ -5% đến + 6%. Nghiên cứu này xác định nguy cơ cao tăng thời gian
di chuyển (giữa -9% đến + 50%).
Nói chung có thể kết luận rằng biện pháp ITS cải thiện rõ việc quản lý luồng giao
thông trên đường cao tốc và thường tạo ra môi trường an toàn hơn.
24
2.3 Vai trò của Dự đoán mật độ giao thông trong Hệ thống giao thông thông
minh
Trong Hệ thống giao thông thông minh (ITS), việc dự đoán mật độ giao thông
đóng một vai trò rất quan trọng. Các kết quả dự đoán mật độ giao thông được ITS sử dụng
cho các chức năng:
Giới hạn tốc độ: hệ thống sẽ dựa vào mật độ giao thông được dự đoán trên một
khung đường và một khung giờ để định ra tốc độ tối đa lưu thông trên khung
đường và khung giờ đó là an toàn nhất.
Quản lý làn đường: đối với các hệ thống giao thông tiên tiến, làn đường thường
đường chia làm nhiều làn nhỏ và việc phân bố làn đường sẽ được thay đổi thích
hợp.
Hệ thống cảnh báo: khi có dự đoán một khung đường sẽ xảy ra ùn tắc, hệ thống
sẽ thực hiện gửi tin nhắn cánh bảo cho người tham gia giao thông để họ có lựa
chọn đường đi phù hợp.
Kiểm soát hành trình: việc dự đoán được mật độ giao thông sẽ giúp hệ thống
xây dựng được một hành trình phù hợp cho người tham gia giao thông, giúp
luồng giao thông được trôi chảy hơn.
Dự đoán mật độ giao thông là tiền đề để xây dựng nên các chức năng khác. Một
trong những ưu điểm của việc dự đoán là tính chủ động. Hệ thống và người tham gia giao
thông có thể chủ động đưa ra các định hướng di chuyển nhằm mục đích chung là việc
giao thông được thuận lợi.
25
Chương 3: Xây dựng mô hình dự đoán mật độ giao thông
Phương pháp dự báo tình trạng giao thông ngắn hạn có thể được giải quyết bằng
một số giải pháp như sau:
+ Phương pháp thống kê: dựa vào thông tin về trạng thái giao thông của ngày hôm
trước để dự báo cho ngày hôm sau. Phương pháp này có ưu điểm là đơn giản, dựa trên
thực tế là trong các giờ làm việc là cố định không thay đổi nên thông thường tình trạng
giao thông là ổn định theo các khung giờ, ngoại trừ một số trường hợp bất thường xảy ra
(như có sự kiện được tổ chức có thể dẫn đến cấm một số tuyến phố, dẫn đến một số tuyến
khác phải gánh thêm lưu lượng của người tham gia giao thông trên các tuyến bị cấm).
Nhưng phương pháp này có một số nhược điểm là không quản lý được một số tham số
động như ngày cuối tuần (một số lượng lớn người sẽ được nghỉ làm và sẽ thay đổi lưu
lượng giao thông), ngày nghỉ (một số lượng lớn người có thể về quê nên sẽ có một số
tuyến sẽ tăng lưu lượng, sau đó lưu lượng giao thông nội thành sẽ giảm trong những ngày
nghỉ, và đến hết giai đoạn nghỉ thì sẽ có một số tuyến tăng lưu lượng vì người đi làm quay
lại thủ đô làm việc).
+ Phương pháp dùng luật: xây dựng một số luật kết hợp với thông tin thống kê để
ước lượng lưu lượng. Ví dụ, dùng thông tin thống kê của ngày làm việc làm tham số ước
lượng cho ngày làm việc, ngày nghỉ ước lượng cho ngày nghỉ, Ưu điểm của phương
pháp này cũng là đơn giản, tuy nhiên nó vẫn có nhược điểm là phương pháp tĩnh không
quản lý được một số tham số động như thời tiết, hay sự ùn tắc cục bộ của một số tuyến
đường liên quan.
+ Phương pháp dùng học máy (Machine learning): có rất nhiều phương pháp học
máy, tuy nhiên có một lớp giải thuật có thể ứng dụng cho bài toán dự đoán lưu lượng giao
thông là các giải thuật phân lớp. Khi ta xác định một số mức của lưu lượng như: cấp 1
(tắc nghẽn), mức 2 (rất đông, vận tốc di chuyển chậm < 12km/h), mức 3 (đường đông,
vận tốc di chuyển vừa phải từ 12km/h – 25km/h), mức 4 (đường thoáng, tốc độ di chuyển
từ 25km/h đến 35km/h), mức 5 (đường rất thoáng tốc độ di chuyển > 35km/h), thì ta có
thể xây dựng một bộ phân lớp để xác định trạng thái giao thông của một tuyến đường
thuộc vào mức nào nếu ta coi mỗi mức tương ứng với một lớp. Ưu điểm của phương pháp
này là động, nó thay đổi theo tình trạng thực tế của các tham số đầu vào, do vậy trong
luận văn này, tác giả lựa chọn đi theo hướng này.
Việc dự đoán mật độ giao thông cần phải dựa vào nhiều nguồn thông tin khác
nhau. Mỗi nguồn thông tin là một điều kiện cũng như một căn cứ để từ đó xác định ra mật
26
độ giao thông tại một thời điểm. Để có thể có được dự đoán chính xác nhất, chúng ta cần
phải căn cứ các thông tin đã có (ngày, giờ, cung đường gì ,) để từ đó đưa ra được dự
đoán chính xác nhất. Khi có được một tập hợp các thông tin là chúng ta đã có được một
tập dữ liệu, để có thể từ tập dữ liệu này phân tích và đưa ra các kết quả dự đoán ta có thể
sử dụng mô hình phân lớp dữ liệu. Quá trình phân lớp dữ liệu là quá trình mà từ một tập
dữ liệu mẫu có sẵn, hệ thống sẽ phân tích, tìm ra các thuộc tính tương đồng để xây dựng
mô hình và đưa ra các kết quả phân lớp chính xác. Kết quả phân lớp ở đây sẽ chính là mật
độ giao thông mà chúng ta đang hướng đến.
3.1 Bài toán phân lớp dữ liệu
Là quá trình phân lớp một đối tượng dữ liệu vào một hay nhiều lớp cho trước nhờ
một mô hình phân lớp mà mô hình này được xây dựng dựa trên một tập hợp các đối tượng
dữ liệu đã được gán nhãn từ trước gọi là tập dữ liệu học (tập huấn luyện).
Quá trình phân lớp còn được gọi là quá trình gán nhãn cho các đối tượng dữ
liệu.Như vậy, phân lớp cũng là tiên đoán lại lớp của nhãn.
Có nhiều bài toán phân lớp dữ liệu, như phân lớp nhị phân, phân lớp đa lớp, phân
lớp đa trị,. Phân lớp nhị phân là quá trình tiến hành việc phân lớp dữ liệu vào một trong
hai lớp khác nhau dựa vào việc dữ liệu đó có hay không một số đặc tính theo quy định của
bộ phân lớp. Phân lớp đa lớp là quá trình phân lớp với số lượng lớp lớn hơn hai.
Trong phân lớp đa trị, mỗi đối tượng dữ liệu trong tập huấn luyện cũng như các đối
tượng mới sau khi được phân lớp có thể thuộc vào từ hai lớp trở lên.
Với ví dụ là bài toán Dự đoán mật độ Giao thông. Mỗi một đối tượng dữ liệu trong
tập huấn luyện là một trường hợp giao thông với một số điều kiện nhất định. Các dữ liệu
huấn luyện sẽ không đơn giản chỉ là thông tin tại một thời điểm mà một bộ huấn luyện sẽ
ra rất nhiều thời điểm khác nhau. Một lớp chính là một tập hợp các dữ liệu được đánh giá
theo giá trị bao gồm từ 1 đến 5 tương ứng với mật độ giao thông từ thưa thớt cho tới đông
đúc. Mỗi một dữ liệu phân lớp sẽ có các giá trị khác nhau, dựa vào các giá trị này , áp
dụng các thuật toán phân lớp sẽ phân tích dữ liệu đầu vào và phân các giá trị đó vào các
lớp tương ứng.
Việc dự đoán mật độ giao thông có 3 hướng tiếp cận chính là thông qua quy luật,
mô hình hóa và học máy. Trong phương pháp tiếp cận thì học máy có nhiều ưu điểm như
không mất thời gian đưa ra các luật, học từ dữ liệu huấn luyện, dễ dàng mở rộng và tái
cấu trúc. Các bộ phân loại thường sử dụng trong phương pháp học máy là Support Vector
27
Machine(SVM), Naive Bayes, J48, Neural Network,Maximum Entropy, Decision Tree,
Nearest-Neighbors, Sparse Network of Winnows(SNoW).
Trong luận văn nghiên cứu này, tôi sẽ sử dụng mô hình chính là Decision Tree để
học dữ liệu mẫu và đưa ra các dự đoán về mật độ giao thông từ các dữ liệu mẫu.
3.2 Mô hình dự đoán mật độ giao thông
Quá trình phân lớp dữ liệu thường gồm hai bước: Xây dựng mô hình và Sử dụng
mô hình
3.2.1 Mô hình đề xuất
Mục tiêu: xây dựng một mô hình mô tả một tập các lớp dữ liệu hay các khái niệm
định trước.
Một mô hình sẽ được xây dựng dựa trên việc phân tích các đối tượng dữ liệu đã
được gán nhãn từ trước. Tập các mẫu dữ liệu này còn được gọi là tập dữ liệu huấn luyện
(training data set).
Ta có mô hình áp dụng với bài toán mật độ Giao thông
Tạo DL thực
nghiệm
Chia dữ liệu
training và test
MODEL
Thực hiện phân
lớp
30%
(Testing)
70%
(Tranning)
Kế quả phân
lớp
DATA
Huấn luyện
Hình 1:Mô hình dự đoán mật độ giao thông
3.2.2 Sử dụng mô hình
Sử mô hình đã xây dựng ở bước trước để phân lớp dữ liệu mới.
28
Trong mô hình phân lớp, thuật toán phân lớp giữ vai trò trung tâm, quyết định tới
sự thành công của mô hình phân lớp. Do vậy chìa khóa của vấn đề phân lớp dữ liệu là tìm
ra được một thuật toán phân lớp nhanh, hiệu quả, có độ chính xác cao và có khả năng mở
rộng được. Trong đó khả năng mở rộng được của thuật toán được đặc biệt trú trọng và
phát triển.
Một số kỹ thuật phân lớp được sử dụng và phát triển với đề tại Dự đoán mật độ
giao thông:
Kỹ thuật phân lớp Super Vector Machine(SVM)
Kỹ thuật phân lớp Naïve Bayes
Kỹ thuật phân lớp J48 (Decision Tree)
Kỹ thuật phân lớp Neural Network
Với kỹ thuật phân lớp SVM kernel sẽ được sử dụng trong mô hình là Polynomial
Kernel. Trong học máy, Polynomial Kernel là một hàm kernel được SVM sử dụng, nó thể
hiện sự tương đồng của các vector (mẫu huấn luyện) trong không gian đặc trưng trên đa
thức của các biến và cho phép học theo mô hình phi tuyết tính.
Mỗi kỹ thuật phân lớp có ưu điểm và đặc điểm riêng. Độ chính xác của các kỹ
thuật cũng khác nhau.
3.3 Các bước xây dựng mô hình Dự đoán mật độ giao thông
3.3.1 Bước 1: Tạo dữ liệu thực nghiệm
a. Lựa chọn đặc tính để sinh dữ liệu
Do số liệu cụ thể liên quan đến các đoạn đường, thời điểm tắc đường thường
không được công bố nên chúng ta không có số liệu thật để kiểm thử chương trình.
Tuy nhiên, như đã trình bày ở các chương trước đó, dữ liệu liên quan đến địa điểm
tắc đường thường có tính quy luật, nên dựa vào các quy luật này ta có thể sinh ra bộ dữ
liệu sát với số liệu thật.
Cụ thể các thông tin được dựa vào để sinh số liệu bao gồm:
Các trường hợp tắc đường thường xuất hiện ở trên những cung đường nhất
định, vậy nên Tên đường chính là 1 thông tin để xác định tình hình mật độ
giao thông.
29
Các trường hợp tắc đường thường xuất hiện trong những ngày nhất định trong
nằm (ngày lễ, ngày nghỉ, ) vậy nên thời gian Ngày/Tháng là 1 thông tin để
xác định mật độ giao thông.
Trong một ngày, mật độ giao thông ở các khoảng thời gian là khác nhau, nhưng
tình trạng tắc đường thường chỉ xuất hiện ở những khung giờ nhất định, vậy
nên Giờ là 1 thông tin để xác định mật độ giao thông.
Trong một tuần, mật độ giao thông ở các ngày trong tuần là khác nhau, thứ 2
đầu tuần sẽ đông hơn và các ngày trong tuần sẽ có mật độ giao thông cao hơn
các ngày thứ 7 và chủ nhật. Vậy nên Ngày trong tuần là 1 thông tin để xác
định mật độ giao thông
Mật độ giao thông trên 1 cung đường thường giống nhau ở cùng khoảng thời
gian, ví dụ khoảng 5h sáng ở cung đường A mật độ giao thông thường ở mức
thấp. Tuy nhiên trong một số trường hợp đột biến phát sinh (do thời tiết, do sửa
chữa, do tai nạn giao thông,) mà mật độ thỉnh thoảng sẽ có sự đột biến khác
với những ngày còn lại. Tỉ lệ phát sinh đột biến được lựa chọn là 20%. Như vậy
việc sinh mật độ giao thông tại 1 thời điểm trên 1 cung đường sẽ có tỉ lệ 20%
đột biến so với các ngày còn lại.
Như vậy, các Đặc tính (Attribute) được lựa chọn để xây dựng bộ kiểm thử bao
gồm:
Tên cung đường (RoadId)
Ngày (Date)
Tháng (Month)
Giờ (Hour)
Ngày trong tuần (Day)
Trong đó Trạng thái giao thông (state) chính là mục tiêu phân lớp mà bài toán Dự
đoán mật độ giao thông hướng đến.
b. Thực hiện sinh dữ liệu
Phần mềm Excel được sử dụng để xây dựng bộ dữ liệu và số class (mật độ tắc
đường) được lựa chọn ở đây là 6.
Dựa vào các đặc tính được lựa chọn để sinh dữ liệu, các bước để sinh dữ liệu bao
gồm:
30
Sinh thông tin giờ: một ngày có 24 giờ (0h -> 23h), thông tin dữ liệu của 1
ngày bất kỳ sẽ phải có thông tin của đẩy đủ 24 giờ. Tức là mỗi một ngày sẽ
phải có 24 bản ghi dữ liệu tương ứng với trạng thái của 24h.
Sinh thông tin ngày: một tháng có từ 30->31 ngày, thông tin của 1 tháng bất kỳ
sẽ phải có đầy đủ thông tin của các ngày trong tháng đó. Do đó sẽ cần phải sinh
thông tin cho khoảng 31 x 24 = 744 bản ghi dữ liệu. Như vậy mỗi tháng sẽ phải
có khoảng 744 bản ghi đại diện cho mật độ của đường tại 744 thời điểm.
Sinh thông tháng: 1 năm có 12 tháng, như vậy, thông tin của 1 năm sẽ có
khoảng 12 x 744 = 8928 bản ghi đại diện cho mật độ của 8928 thời điểm trong
năm.
Sinh thông tin đường: do ta sẽ sinh thông tin đại diện của mật độ tắc đường
trong 1 năm nên mỗi một đường sẽ cần sinh khoảng 8928 bản ghi đại diện cho
các thời điểm tắc đường trong năm. Giả sử ta có N cung đường, thì bộ dữ liệu
sinh sẽ cần có khoảng N x 8928 bản ghi đại diện cho các thời điểm của N cung
đường trong năm
Sinh thông tin mật độ giao thông: mật độ giao thông dựa vào khoảng thời gian
trong ngày để đánh giá, do đó một ngày sẽ được chia làm các khung giờ khác
nhau để đánh mật độ giao thông. Cụ thể:
o Từ 0h -> 5h độ tắc đường sẽ là 1 tuy nhiên khoảng 20% tỉ lệ phát sinh độ tắc
đường là 2 do có sự cố bất thường. Công thức Excel sinh độ tắc đường
khung giờ này như sau:
IF(AND(D2>=0,D2<=5),IF(RANDBETWEEN(1,5)=1,RANDBETWEEN(1,2),1)
o Từ 6h -> 8h độ tắc đường sẽ là 5 tuy nhiên khoảng 20% tỉ lệ phát sinh độ tắc
đường là 6 do có sự cố bất thường. Công thức Excel sinh độ tắc đường
khung giờ này như sau:
IF(AND(D2>=6,D2<=8),IF(RANDBETWEEN(1,5)=1,RANDBETWEEN(5,6),5)
o Từ 9h -> 10h độ tắc đường sẽ là 3 tuy nhiên khoảng 20% tỉ lệ phát sinh độ
tắc đường là 4 do có sự cố bất thường. Công thức Excel sinh độ tắc đường
khung giờ này như sau:
IF(AND(D2>=9,D2<=10),IF(RANDBETWEEN(1,5)=1,RANDBETWEEN(3,4),3)
31
o Từ 11h -> 12h độ tắc đường sẽ là 4 tuy nhiên khoảng 20% tỉ lệ phát sinh độ
tắc đường là 5 do có sự cố bất thường. Công thức Excel sinh độ tắc đường
khung giờ này như sau:
IF(AND(D2>=11,D2<=12),IF(RANDBETWEEN(1,5)=1,RANDBETWEEN(4,5),4)
o Từ 13h -> 16h độ tắc đường sẽ là 1 tuy nhiên khoảng 20% tỉ lệ phát sinh độ
tắc đường là 2 do có sự cố bất thường. Công thức Excel sinh độ tắc đường
khung giờ này như sau:
IF(AND(D2>=13,D2<=16),IF(RANDBETWEEN(1,5)=1,RANDBETWEEN(2,3),2)
o Từ 17h -> 19h độ tắc đường sẽ là 4 tuy nhiên khoảng 20% tỉ lệ phát sinh độ
tắc đường là 5 và 6 do có sự cố bất thường. Công thức Excel sinh độ tắc
đường khung giờ này như sau:
IF(AND(D2>=17,D2<=19),IF(RANDBETWEEN(1,5)=1,RANDBETWEEN(4,6),4)
o Từ 20h -> 22h độ tắc đường sẽ là 2 tuy nhiên khoảng 20% tỉ lệ phát sinh độ
tắc đường là 3 do có sự cố bất thường. Công thức Excel sinh độ tắc đường
khung giờ này như sau:
IF(AND(D2>=20,D2<=22),IF(RANDBETWEEN(1,5)=1,RANDBETWEEN(2,3),2
o Các khoảng thời gian không nằm trong tính toán sẽ đặt là 1 và sẽ random
khoảng 20% độ tắc là 2. Ta có công thức sinh mật độ tắc đường toàn bộ như
sau:
="S"& IF((IF(AND(E7>=0,E7<=5),IF(RANDBETWEEN(1,5)=1,2,1),
IF(AND(E7>=6,E7<=8),IF(RANDBETWEEN(1,5)=1,IF(D7="SU",2,3),2),
IF(AND(E7>=9,E7<=10),IF(RANDBETWEEN(1,5)=1,4,5),
IF(AND(E7>=11,E7<=12),IF(RANDBETWEEN(1,5)=1,5,6),
IF(AND(E7>=13,E7<=16),IF(RANDBETWEEN(1,5)=1,5,4),
32
IF(AND(E7>=17,E7<=19),IF(RANDBETWEEN(1,5)=1,IF(D7="SU",2,5),6),
IF(AND(E7>=20,E7<=22),IF(RANDBETWEEN(1,5)=1,3,2),IF(RANDBETWEEN(1
,5)=1,2,1)))))))) +
IF(ISNA(VLOOKUP(DATEVALUE(MID(B7,2,2)&"/"&C7),ngaynghi!$A$1:$B$9,
2,FALSE)),0,VLOOKUP(DATEVALUE(MID(B7,2,2)&"/"&C7),ngaynghi!$A$1:$
B$9,2,FALSE))) = 0, 1,
IF((IF(AND(E7>=0,E7<=5),IF(RANDBETWEEN(1,5)=1,2,1),
IF(AND(E7>=6,E7<=8),IF(RANDBETWEEN(1,5)=1,IF(D7="SU",2,3),2),
IF(AND(E7>=9,E7<=10),IF(RANDBETWEEN(1,5)=1,4,5),
IF(AND(E7>=11,E7<=12),IF(RANDBETWEEN(1,5)=1,5,6),
IF(AND(E7>=13,E7<=16),IF(RANDBETWEEN(1,5)=1,5,4),
IF(AND(E7>=17,E7<=19),IF(RANDBETWEEN(1,5)=1,IF(D7="SU",2,5),6),
IF(AND(E7>=20,E7<=22),IF(RANDBETWEEN(1,5)=1,3,2),IF(RANDBETWEEN(1
,5)=1,2,1)))))))) +
IF(ISNA(VLOOKUP(DATEVALUE(MID(B7,2,2)&"/"&C7),ngaynghi!$A$1:$B$9,
2,FALSE)),0,VLOOKUP(DATEVALUE(MID(B7,2,2)&"/"&C7),ngaynghi!$A$1:$
B$9,2,FALSE))) =
7,6,IF(AND(E7>=0,E7<=5),IF(RANDBETWEEN(1,5)=1,2,1),
IF(AND(E7>=6,E7<=8),IF(RANDBETWEEN(1,5)=1,IF(D7="SU",2,3),2),
IF(AND(E7>=9,E7<=10),IF(RANDBETWEEN(1,5)=1,4,5),
IF(AND(E7>=11,E7<=12),IF(RANDBETWEEN(1,5)=1,5,6),
IF(AND(E7>=13,E7<=16),IF(RANDBETWEEN(1,5)=1,5,4),
IF(AND(E7>=17,E7<=19),IF(RANDBETWEEN(1,5)=1,IF(D7="SU",2,5),6),
IF(AND(E7>=20,E7<=22),IF(RANDBETWEEN(1,5)=1,3,2),IF(RANDBETWEEN(1
,5)=1,2,1))))))))))
Notes: Trong đó D2 là cell chứa thông tin giờ.
c. Thực hiện sinh dữ liệu với thông tin ngày nghỉ lễ
Ngoài các yếu tố như giờ giấc, ngày trong tuần, mật độ giao thông còn bị ảnh
hưởng bởi một yếu tố nữa là ngày nghỉ. Tùy từng đặc trưng của riêng các ngày nghỉ lễ (lễ
tết, noel, ngày nhà giáo Việt Nam, ) mà mật độ giao thông cũng sẽ có các sự biến đổi
khác nhau. Để bám sát với thực tế hơn, dữ liệu thực nghiệm sẽ được bổ sung thêm thông
tin ngày nghỉ. Trong luận văn này, ngoài dữ liệu thực nghiệm thông thường, tác giả sẽ
thực nghiệm với dữ liệu có bổ sung thêm thông tin xét đến các ngày nghỉ lễ để có thể đưa
33
ra được các đánh giá và so sánh chi tiết hơn khi áp dụng mô hình phân lớp vào dự đoán
mật độ giao thông.
Trong một năm sẽ có rất nhiều ngày nghỉ lễ và các ngày nghỉ lễ này mật độ giao
thông thường có tính quy luật. Ví dụ, ngày 1/1 hằng năm là ngày tết theo Dương lịch. Với
ngày nghỉ này mọi người thường nghỉ ngơi đi du lịch hoặc về quê từ hôm trước, nên trên
một số tuyến đường vào ngày này mật độ giao thông sẽ giảm mạnh. Ngày 8/3 là ngày
quốc tế phụ nữ, đây là ngày lễ nhưng không phải ngày nghỉ, ngày này mọi người thường
ra đường rất nhiều để đi ăn, liên hoan, tụ tập bạn bè nên mật độ giao thông trong ngày này
trên một số tuyến đường sẽ tăng mạnh. Ngày 30/4 là ngày nghỉ đầu tiên trong đợt nghỉ lễ
thống nhất đất nước, có nhiều thời gian nên 30/4 mọi người sẽ về quê hoặc bắt đầu đi du
lich vào ngày này nên mật độ sẽ tăng. Như vậy, với quy luật có thể nhận thấy được, ta có
thể tập hợp các thông tin lại và đưa ra một danh sách các ngày nghỉ lễ và biến động quy
luật của nó. Dữ liệu ngày nghỉ này sẽ được đưa thêm vào điều kiện sinh dữ liệu thực
nghiệm để tăng các tình huống xảy ra.
Để sinh dữ liệu với thông tin ngày nghỉ lễ, ta tạo một sheet trong file excel sinh dữ
liệu thực nghiệm với thông tin là các ngày nghỉ lễ trong năm. Cụ thể, ta tạo thêm sheet
[ngaynghi] với nội dung như sau:
Trong đó:
- Cột A: thông tin ngày nghỉ lễ
- Cột B: biến động mật độ giao thông trong ngày
34
Dựa vào bảng này, ta có thông tin quy luật biến động giao thông và các ngày nghỉ
và ngày lẽ như sau:
- Ngày 1/1 mật độ giao thông sẽ giảm 1 so với bình thường
- Ngày 8/3 mật độ giao thông sẽ tăng 1 so với bình thường
- Ngày 30/4 mật độ giao thông sẽ tăng 1 so với bình thường
Như vậy khi tạo dữ liệu thực nghiệm trên excel, ta sẽ sử dụng công thức sau để lấy
biến động mật độ giao thông:
IF(ISNA(VLOOKUP(DATEVALUE(MID(B5,2,2)&"/"&C5),ngaynghi!$A$1:$B$
9,2,FALSE)),0,VLOOKUP(DATEVALUE(MID(B5,2,2)&"/"&C5),ngaynghi!$A
$1:$B$9,2,FALSE))
Công thức tính trên thể hiện các tính mật độ thực nghiệm theo ngày. Trường hợp
ngày thực nghiệm nằm trong danh sách nghỉ lễ trong sheet [ngaynghi] như đã xây dựng,
kết quả trả về sẽ là 1 hoặc -1 tùy thuộc vào định nghĩa biến động mật độ giao thông trong
sheet [ngaynghi]. Trường hợp ngày thực nghiệm không nằm trong danh sách ngày nghỉ
lễ, biến động mật độ giao thông sẽ trả về 0. Kết hợp với công thức tính mật độ như ở mục
b cùng chương, ta sẽ xây dựng được bộ dữ liệu có thêm tính chất ngày nghỉ lễ.
3.3.2 Bước 2: Chia dữ liệu training và test
Phương tức test 70-30 là phương thức test mà Bộ dữ liệu huấn luyện được chia làm
2 phần:
70% dữ liệu được sử dụng để tranning
20% dữ liệu được sử dụng để test
Ta có các tập dữ liệu tranning và test như sau:
Tool sử dụng: Weka (Waikato Environment for Knowledge Analysis)
Dữ liệu tranning:
o Số lượng data: 53568
o Số Attribute: 4
o Số class: 6
35
Hình 2: Test 70-30 – Dữ liệu training
Dữ liệu test:
o Số lượng data test: 15000
o Số Attribute: 4
o Số class: 5
Hình 3: Test 70-30 – Dữ liệu Test
3.3.3 Bước 3: Huấn luyện
Sau khi có được dữ liệu thực nghiêm ta sẽ tiến hành huấn luyện dữ liệu trên công
cụ Weka.
Từ màn hình giao diện Weka Explorer ta chọn openfile và chọn file dữ liệu có
định dạng arff được sử dụng để làm dữ liệu huấn luyện:
36
Hình 4: Lựa chọn bộ dữ liệu huấn luyện
Sau khi chọn xong bộ dữ liệu huấn luyện, màn hình Process sẽ hiển thị đầy đủ
thông tin của tập dữ liệu:
Hình 5: Thông tin dữ liệu huấn luyện
Chi tiết các thông tin huấn luyện như sau:
Hình 6: Thông tin tập Quan hệ hiện tại
o Tên tập quan hệ: boTestNew
37
o Số thể hiện: 53568
o Số Attributes: 5
Thông tin chung các Attribute như sau:
Hình 7: Thông tin các Attributes
Có 5 Attribute: RoadId, Date, Month, Hour, State
Thông tin chi tiết của các Attribute như sau:
Hình 8: Thông tin chi tiết của các Attributes
Với trạng thái mật độ giao thông là:
o S1: có 13079 bản ghi dữ liệu
o S2: có 15486 bản ghi dữ liệu
o S3: 6392 bản ghi dữ liệu
o S4: 9763 bản ghi dữ liệu
o S5: 7018 bản ghi dữ liệu
o S6: 1830 bản ghi dữ liệu
3.3.4 Bước 4: Thực hiện phân lớp
Để thực hiện phân lớp dữ liệu với WEKA, từ màn hình WekaExplore chọn tab
Classify.
38
Ta có giao diện màn hình thực hiện phân lớp như sau:
Hình 9: Màn hình phân lớp dữ liệu
Trên màn hình thực hiện phân lớp sẽ có các lựa chọn sau:
Chọn bộ dữ liệu huấn luyện
Hình 10: Chức năng chọn bộ phân lớp
Tại chức năng này, ta sẽ chọn bộ phân lớp muốn sử dụng. Tương ứng với các
mô hình phần lớp, ta lựa chọn các bộ phân lớp trong WEKA như sau:
o Mô hình phân lớp SVM: bộ phân lớp SMO
o Mô hình phân lớp Navie Bayes: bộ phân lớp NavieBayes
o Mô hình phân lớp với cây quyết định: bộ phân lớp J48
o Mô hình phân lớp Neural Network: bộ phân lớp MultilayerPerceptron
Lựa chọn phương thức test
39
Hình 11: Các phương thức test
Các phương thức test bao gồm:
o Use training set: sử dụng bộ training làm dữ liệu test.
o Supplied test set: sử dụng một bộ test riêng, bộ test này sẽ là 20% bộ dữ liệu
được cắt ra từ dữ liệu thực nghiệm.
o Cross-validation: chia bộ dữ liệu huấn luyện làm các phần nhỏ hơn, mỗi
phần nhỏ sẽ được sử dụng để test, kết quả test sẽ là kết quả trung bình của
các phần này.
o Percentage split: cắt bộ dữ liệu huấn luyện theo một tỷ lệ % nhất định để
làm bộ dữ liệu test.
Kết quả test
40
Hình 12: Kết quả output phân lớp dữ liệu
3.4 Kết quả thực nghiệm
3.4.1 Cài đặt môi trường thực nghiệm
Thực nghiệm được tiến hành trên máy chủ Windows 10 có cấu hình được trình bày
trong Bảng 4.2
STT Thông số phần cứng
1 CPU
Intel(R) Core(TM) i5-5200U CPU @ 2.20GHz (4
CPUs), ~2.2GHz
2 RAM 12Gb
3 SSD 500Gb
Thông số phần mềm
4 Hệ điều hành Windows 10
5 Công cụ
WEKA (Waikato Environment for Knowledge
Analysis)
6 Gói hỗ trợ
Bảng 3.1: Cấu hình máy chủ trong thực nghiệm
3.4.2 Thực nghiệm test 70-30
a. Mô hình Decision Tree
Kết quả test:
Chi tiết độ chính xác phân lớp
Precision Recall F-Measure Class
81.2% 100.0% 89.6% S1
79.9% 80.0% 79.9% S2
81.3% 52.5% 63.8% S3
78.3% 96.3% 86.4% S4
80.2% 63.8% 71.1% S5
79.7% 82.6% 81.1% S6
Avg 75.3% 80.0% 77.6%
Bảng 3.2: Test 70-30 - Kết quả test mô hình Decision Tree
41
b. Mô hình Super Vector Machines (SVM)
Kết quả test:
Chi tiết độ chính xác phân lớp
Precision Recall F-Measure Class
50.9% 84.4% 63.5% S1
43.7% 81.7% 56.9% S2
34.9% 2.6% 4.8% S3
80.9% 13.2% 22.7% S4
23.1% 5.8% 9.3% S5
79.7% 82.6% 81.1% S6
Avg 39.3% 46.5% 42.6%
Bảng 3.3: Test 70-30 - Kết quả test mô hình SVM
c. Mô hình Naive Bayes
Kết quả test:
Chi tiết độ chính xác phân lớp
Precision Recall F-Measure Class
67.6% 84.4% 75.1% S1
51.9% 81.7% 63.5% S2
44.9% 7.5% 12.9% S3
78.7% 93.4% 85.4% S4
76.4% 41.4% 53.7% S5
55.6% 55.6% 55.6% S6
Avg 53.8% 62.9% 58.0%
Bảng 3.4: Test 70-30 - Kết quả test mô hình Naïve Bayes
d. Mô hình Neural Network
Kết quả test:
Chi tiết độ chính xác phân lớp
Precision Recall F-Measure Class
80.3% 83.8% 82.0% S1
72.0% 80.6% 76.1% S2
80.3% 82.5% 81.4% S3
79.4% 94.9% 86.5% S4
42
81.4% 64.1% 71.7% S5
79.1% 85.7% 82.3% S6
Avg 76.4% 77.2% 76.8%
Bảng 3.5: Test 70-30 - Kết quả test mô hình Neural Network
e. So sánh các kết quả chạy của SVM, Navies Bayes, J48 và Neural
Network với số phân lớp là 6
Decision
Tree
SVM Navie
Bayes
Neural
Network
Precision 75.3% 39.3% 53.8% 76.4%
Recall 80.0% 46.5% 62.9% 77.2%
F-Measure 77.6% 42.6% 58.0% 76.8%
Bảng 3.6: Test 70-30 - So sánh kết quả phân lớp sử dụng SVM, Navies Bayes, J48 và
Neural Network với bộ phân lớp là 6.
3.4.3 Thực nghiệm Test Cross validation với dữ liệu thông thường
Phương tức test Cross là phương thức test mà Bộ dữ liệu huấn luyện được chia làm
nhiều phần khác nhau. Các phần này gọi là các Folds, mỗi một folds sẽ được sử dụng để
làm 1 bộ test. Kết quả test Cross là kết quả test trung bình của các Folds:
Dữ liệu thông thường trong bộ test này là dữ liệu không có thông tin ngày nghỉ lễ.
Ta có các tập dữ liệu tranning và test như sau:
Tool sử dụng: Weka (Waikato Environment for Knowledge Analysis)
Folds: 10
Dữ liệu tranning:
o Số lượng data: 17856
o Số Attribute: 5
o Số class: 6
43
Hình 13: Test Cross Validation – Dữ liệu training
a. Mô hình Decision Tree
Kết quả test:
Chi tiết độ chính xác phân lớp
Precision Recall F-Measure Class
81.0% 100.0% 89.5% S1
81.1% 97.9% 88.7% S2
81.3% 52.5% 63.8% S3
80.6% 89.6% 84.9% S4
66.1% 18.9% 29.4% S5
79.4% 100.0% 88.5% S6
Avg 78.6% 80.0% 79.3%
Bảng 3.7: Test Cross Validation - Kết quả test mô hình Decision Tree
b. Mô hình Super Vector Machines (SVM)
Kết quả test:
44
Chi tiết độ chính xác phân lớp
Precision Recall F-Measure Class
52.3% 85.8% 65.0% S1
44.7% 82.5% 58.0% S2
34.9% 2.6% 4.8% S3
81.0% 11.3% 19.8% S4
22.6% 7.5% 11.3% S5
24.1% 29.5% 26.5% S6
Avg 40.1% 47.2% 43.4%
Bảng 3.8: Test Cross Validation - Kết quả test mô hình SVM
c. Mô hình Naive Bayes
Kết quả test:
Chi tiết độ chính xác phân lớp
Precision Recall F-Measure Class
75.1% 100.0% 85.8% S1
46.0% 79.2% 58.2% S2
44.9% 7.5% 12.9% S3
59.4% 70.0% 64.3% S4
2.6% 73.1% 5.0% S5
56.2% 56.1% 56.1% S6
Avg 58.8% 63.0% 60.8%
Bảng 3.9: Test Cross Validation - Kết quả test mô hình Naïve Bayes
d. Mô hình Neural Network
Kết quả test:
Chi tiết độ chính xác phân lớp
Precision Recall F-Measure Class
81.0% 97.6% 88.5% S1
80.6% 91.7% 85.8% S2
67.8% 57.4% 62.2% S3
80.3% 88.0% 84.0% S4
81.4% 64.1% 71.7% S5
79.1% 85.7% 82.3% S6
Avg 76.4% 77.2% 76.8%
45
Bảng 3.10: Test Cross Validation - Kết quả test mô hình Neural Network
e. So sánh các kết quả chạy của SVM, Navies Bayes, J48 và Neural
Network với số phân lớp là 6
Decision
Tree
SVM Navie Bayes Neural
Network
Precision 78.6% 40.1% 58.8% 76.4%
Recall 80.0% 47.2% 63.0% 77.2%
F-Measure 79.3% 43.4% 60.8% 76.8%
Bảng 3.11: Test Cross - So sánh kết quả phân lớp sử dụng SVM, Navies Bayes, J48 và
Neural Network.
46
3.4.4 Thực nghiệm Test Cross validation với dữ liệu có xét đến ngày nghỉ lễ
Đẻ bám sát với thực tết hơn, ngoài thực nghiệm test với dữ liệu thông thường, ta
còn thực hiện test với dữ liệu có thông tin các ngày nghỉ lễ đã được xây dựng ở chương
trước.
Phương thức test được lựa chọn là Test Cross validation với bộ dữ liệu có chứa
thông tin ngày nghỉ lễ:
a. Mô hình Decision Tree
Kết quả test:
Chi tiết độ chính xác phân lớp
Precision Recall F-Measure Class
79.4% 100.0% 88.5% S1
79.4% 77.2% 78.3% S2
41.3% 52.5% 46.2% S3
4.1% 78.8% 7.8% S4
79.8% 79.8% 79.8% S5
79.4% 100.0% 88.5% S6
Avg 74.3% 79.4% 76.8%
Bảng 3.12: Test Cross Validation - Kết quả test mô hình Decision Tree
b. Mô hình Super Vector Machines (SVM)
Kết quả test:
Chi tiết độ chính xác phân lớp
Precision Recall F-Measure Class
51.2% 75.0% 60.9% S1
32.1% 76.5% 45.2% S2
32.1% 12.3% 17.8% S3
71.2% 0.3% 0.6% S4
22.6% 7.5% 11.3% S5
23.2% 29.5% 26.0% S6
Avg 39.9% 40.2% 40.0%
Bảng 3.13: Test Cross Validation - Kết quả test mô hình SVM
c. Mô hình Naive Bayes
Kết quả test:
47
Chi tiết độ chính xác phân lớp
Precision Recall F-Measure Class
60.6% 54.0% 57.1% S1
40.8% 56.7% 47.5% S2
33.1% 29.4% 31.1% S3
65.5% 92.5% 76.7% S4
66.3% 54.2% 59.6% S5
70.4% 6.1% 11.2% S6
Avg 54.1% 51.3% 52.7%
Bảng 3.14: Test Cross Validation - Kết quả test mô hình Naïve Bayes
d. Mô hình Neural Network
Kết quả test:
Chi tiết độ chính xác phân lớp
Precision Recall F-Measure Class
80.5% 80.5% 80.5% S1
69.8% 69.8% 69.8% S2
17.7% 17.7% 17.7% S3
79.4% 87.2% 83.1% S4
75.5% 75.5% 75.5% S5
79.5% 79.5% 79.5% S6
Avg 79.5% 79.5% 79.5%
Bảng 3.15: Test Cross Validation - Kết quả test mô hình Neural Network
3.4.5 Biểu đồ so sánh kết quả thực nghiệm giữa dữ liệu bình thường và dữ
liệu có xét đến ngày nghỉ lễ
48
Biểu đồ 1: So sánh Dữ liệu thông thường và Dữ liệu có ngày nghỉ lễ
Dựa vào biểu đô ta thấy với
- Dữ liệu thông thường, độ chính xác cho kết quả cao hơn so với Dữ liệu có
ngày nghỉ lễ.
- Độ chính xác của Neural network và Decission Tree đạt kết qura cao nhất,
lên đến xấp chỉ 80%.
- Độ chính xác của SVM có kết quả thấp nhất, dưới 50%.
- Với giải thuật Navie Bayes và SVM thì độ chính xác khi Dữ liệu có ngày
nghỉ lễ thấp hơn tương đối nhiều so với Dữ liệu thông thường trong khi
Neural network và Decision Tree J48 độ chính xác là tương đồng nhau giữa
hai bộ dữ liệu.
Như vậy có thể thấy việc dự đoán mật độ Giao thông với các bộ dữ liệu thì Neural
Network và Decision Tree có tính chính xác cao hơn và phù hợp hơn với yêu cầu bài toán
mà luận văn đưa ra.
3.4.6 Thực nghiệm với các mức độ tắc đường khác nhau
a. Thực nghiệp với số lớp (mức độ tắc đường) là 3
Decision SVM Navie Neural
0
10
20
30
40
50
60
70
80
90
Navie Bayes SVM Neural Network Decision Tree
Biểu đồ so sánh Dữ liệu thông thường và Dữ liệu có ngày
nghỉ lễ
Dữ liệu thông thường Dữ liệu có ngày nghỉ lễ
49
Tree Bayes Network
Precision 80.5% 58.9% 57.5% 75.0%
Recall 80.5% 71.9% 69.7% 76.1%
F-Measure 80.5% 64.8% 63.0% 75.5%
b. Thực nghiệp với số lớp (mức độ tắc đường) là 4
Decision
Tree
SVM Navie
Bayes
Neural
Network
Precision 80.1% 31.0% 48.7% 71.6%
Recall 80.2% 51.4% 56.2% 71.6%
F-Measure 80.1% 38.7% 52.2% 71.6%
c. Thực nghiệp với số lớp (mức độ tắc đường) là 5
Decision
Tree
SVM Navie
Bayes
Neural
Network
Precision 82.3% 38.9% 49.9% 76.5%
Recall 81.7% 53.5% 58.6% 76.1%
F-Measure 82.0% 45.0% 53.9% 76.3%
d. Thực nghiệp với số lớp (mức độ tắc đường) là 6
Decision
Tree
SVM Navie
Bayes
Neural
Network
Precision 78.6% 40.1% 54.8% 76.4%
Recall 80.0% 47.2% 51,3% 77.2%
F-Measure 79.3% 43.4% 53.0% 76.8%
3.4.7 Biểu đồ so sánh kết quả thực nghiệm với các mật độ giao thông khác
nhau
50
Biểu đồ 2: Kết quả thực nghiệm với các mật độ giao thông khác nhau
Dựa vào biểu đồ ta có thể thấy.
- Với bộ phân lớp Decision Tree J48, kết quả tương đối chính xác (giữ ở mức 80%)
và không bị phụ thuộc vào số lượng class
- Với bộ phân lớp Neural Network, độ chính xác thấp hơn, nhưng giữ ổn định ở 76%
và không bị ảnh hưởng nhiều vào số lượng class.
- Với bộ phân lớp SVM và Navie Bayes, độ chính xác thấp hơn và SVM thể hiện rõ
sự yếu khi chạy với số lượng class lớn hơn.
Như vậy, bộ phân lớp nên được lựa chọn để sử dụng Dự đoán mật độ giao thông là
Decision Tree J48.
0
10
20
30
40
50
60
70
80
90
Class = 3 Class = 4 Class = 5 Class = 6
Kết quả thực nghiệm với các mật độ giao thông khác nhau
Navie Bayes Decision Tree SVM Neural NetWork
51
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN TƯƠNG LAI
Kết luận
Dự đoán mật độ giao thông là một phần của Hệ thống giao thông thông minh, được
xây dựng để phục vụ mục đích hỗ trợ người tham gia giao thông lựa chọn được hành trình
phù hợp. Phương thức dự đoán mật độ giao thông đang được phát triển và tích hợp thêm
các phương thức khác để có thể dự đoán chính xác hơn. Luận văn “Áp dụng mô hình
phân lớp vào dự đoán mật độ giao thông” đã tiến hành khảo sát về mô hình phân lớp với
Các bộ phân lớp khác nhau và áp dụng mô hình vào các dữ liệu thực nghiệm để đạt được
các kết quả như mong muốn.
Kết quả đạt được trong luận văn:
Giới thiệu được về Hệ thống giao thông thông minh và hệ thống con là Hệ
thống dự đoán mật độ giao thông dựa trên mô hình Cây quyết định.
Khảo sát và thống kê các mật độ độ giao thông trong khoảng thời gian nhất
định.
Nghiên cứu, tìm hiểu các hướng để tiếp cận mô hình phân lớp với cây quyết
định.
Chạy ra kết quả dự đoán mật độ giao thông cao với dữ liệu thực nghiệm, góp
phần tăng độ quan trọng của Hệ thống dự đoán mật độ giao thông trong Hệ
thống giao thông thông minh.
Những điều cần khắc phục:
Việc áp dụng các sự cố (mưa, bão, ) vào dự đoán mật độ giao thông mới chỉ
ở mức độ đơn giản, phần lớn chỉ là tăng hoặc giảm mật độ.
Hướng phát triển tương lai
Trong thời gian tới, luận văn sẽ tiếp tục nghiên cứu về viếc áp dụng mô hình phân
lớp vào dự đoán mật độ giao thông. Đồng thời nghiên cứu kỹ hơn việc áp dụng các sự cố
(mưa, bão,) vào công tác dự đoán. Đi kèm việc nghiên cứu là bổ sung thêm các mô
hình phân lớp khác để kết quả đầu ra đa dạng hơn và có sự so sánh nhất định giữa các mô
hình.
52
TÀI LIỆU THAM KHẢO
Tiếng Anh
1. Naive Bayes Classifiers and Document Classification- Brandon Malone . January
24, 2014.
2. Decision Tree Analysis on J48 Algorithm for Data Mining- Dr. Neeraj Bhargava,
Girja Sharma, Dr. Ritu Bhargava, Manish Mathuria - Volume 3, Issue 6, June.
3. Support Vector Machine (and Statistical Learning Theory) Tutorial Jason Weston
NEC Labs America 4 Independence Way, Princeton, USA.
jasonw@nec-labs.com.
4. Artifical Neural Networks - Ani1 K. Jain Michigan State University Jianchang M a
o K.M. Mohiuddin ZBMAZmadenResearch Center
5. Explaining International IT Application Leaderhip: Intelligent Transportation
Systems - Stephen Ezell. January 2010.
6. A Tutorial on Bayesian classifier A Tutorial on Bayesian classifier with WEKA -
MING-CHANG LEE - Department of Information Management Yu Da College of
Business. March 28, 2006.
7. Induction of Decision Trees - J.R. QUINLAN - Centre for Advanced Computing
Sciences, New South Wales Institute of Technology, Sydney 2007, Australia.
8. Traffic simulation with consideration of driver models, theory and examples - J.
Ludmann, D. Neunzig, and M. Weilkes - Veh. Syst. Dyn. 27, 491-516 (1997).
9. The benefits of intelligent transport systems: modelling the effects of different its
systems - Vanderschuren, M.J.W.A. – Jully ,2003
10. Behavioral Policies and Teen Traffic Safety , Thomas S. Dee and William N.
Evans – May, 2001
Các file đính kèm theo tài liệu này:
- luan_van_ap_dung_mo_hinh_phan_lop_vao_du_doan_mat_do_giao_th.pdf