Đề tài Phân tích sản lượng và doanh thu ngành bưu chính viễn thông (giai đoạn 1995-2011)
- Theo bảng kết quả trên ta có R2= 98,2289% với giá trị này ta có thể đánh mô hình rất thích hợp để lựa chọn.
- So sánh Ftínhvà Fbảng để kiểm định mô hình chấp nhận Ha hay Ho.
- Nhìn vào giá trị P-value ở cột bên trên thì ta nhận thấy hầu như không yếu tố nào có giá trị thống kê. Ta nhận thấy trong phân tích hồi quy đơn (riênglẻ) thì hầu hết các yếu tố có ý nghĩa thống kê.
37 trang |
Chia sẻ: lylyngoc | Lượt xem: 2761 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Đề tài Phân tích sản lượng và doanh thu ngành bưu chính viễn thông (giai đoạn 1995-2011), để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
LỜI NÓI ĐẦU
MỤC LỤC
BẢNG PHÂN CÔNG CÔNG VIỆC
STT
Họ và tên
Công việc
Ghi chú
1
LƯƠNG ĐÌNH LƯU
2
PHẠM DUY KHÁNH
3
TRẦN QUANG HỢP
PHÂN TÍCH BÀI TOÁN – BẢNG SỐ LIỆU
Phân tích bài toán
Tên đề tài: Phân tích sản lượng và doanh thu ngành bưu chính viễn thông (giai đoạn 1995-2011).
Tập dữ liệu mà nhóm 13 nghiên cứu gồm 8 yếu tố với 17 bộ dữ liệu
Chúng ta nhận thấy biến phụ thuộc là biến Doanh thu (tỉ đồng). Ở dữ liệu này có 6 biến độc lập là: Bưu phẩm đi có cước, Bưu kiện đi có cước, Thư và điện chuyển tiền, Báo chí phát hành, Điện báo có cước, Điện thoại đường dài. Các biến độc lập này dùng để dự đoán được biến phụ thuộc (Doanh thu).
Phương pháp phân tích bài toán
Với tập dữ liệu này ta sẽ dùng các phương pháp là hồi quy tuyến tính, phân tích đặc trưng và phân tích chuỗi thời gian.
Bảng số liệu
Năm
Bưu phẩm đi có cước (triệu cái)
Bưu kiện đi có cước
(nghìn cái)
Thư và điện chuyển tiền (nghìn bức)
Báo chí phát hành (triệu tờ)
Điện báo có cước (triệu tiếng)
Điện thoại đường dài
(triệu phút)
Doanh thu
(tỉ đồng)
1995
116.5
162.0
1365.0
223.5
49.6
845.8
4207.4
1996
121.4
230.0
1744.0
238.9
45.9
1179.6
5930.2
1997
124.9
307.0
2408.0
214.8
42.0
1495.5
7255.4
1998
135.0
433.0
3358.0
225.6
35.0
1736.5
9249.5
1999
146.7
962.0
3751.0
239.6
28.2
2037.3
9138.5
2000
155.0
709.0
4412.0
299.1
0.0
2490.7
11000.9
2001
148.1
1080.0
4883.0
286.8
0.0
2730.7
13978.2
2002
162.3
789.9
5625.0
285.4
0.0
3258.3
16822.0
2003
181.6
1080.3
6518.0
307.9
0.0
3904.7
19250.3
2004
191.8
1378.0
7174.0
411.6
0.0
4784.5
25870.4
2005
238.3
1344.0
7723.0
432.3
0.0
4358.2
30831.2
2006
166.7
1297.0
8139.0
404.2
0.0
4410.8
36351.3
2007
234.7
1559.0
8786.0
396.5
0.0
3995.2
42348.7
2008
251.3
1753.0
8664.0
430.7
0.0
4359.2
48915.0
2009
332.9
2402.1
8183.0
577.2
0.0
2458.2
71432.3
2010
342.1
2526.0
9010.0
553.3
0.0
3147.6
82709.3
2011
393.4
2778.6
9460.0
608.6
0.0
2548.2
83091.6
PHÂN TÍCH ĐẶC TRƯNG
Phân tích đặc trưng
Chúng ta tiến hành phân tích từng thành phần số liệu riêng của từng sản lượng của từng yếu tốvà rút ra các bảng kết quả sau:
Chú thích
Count: Số lượng mẫu.
Average: Số trung bình.
Median: Trung vị.
Mode: Số trội.
Variance: Phương sai.
Standard deviation: Độ lệch chuẩn.
Coeff. of variation: Hệ số biến thiên.
Standard Error: Sai số chuẩn.
Minimum: Trị số quan sát bé nhất.
Maximum: Trị số quan sát lớn nhất.
Range: Độ biến thiên.
Skewness: Độ lệch của phân bố.
Kurtosis: Độ nhọn của phân bố.
Sum: Tổng các trị số quan sát.
Làm ví dụ với yếu tố “Bưu phẩm đi có cước”. Để phân tích đặc trưng ta chọn: Analyze > Variable Data > One – Variable Analysis…
Đây là bảng phân tích đặc trưng nhận được
Cách tính các giá trị trong bảng:
Median Med= Xn+12
Variance S2 = 1N'i=1N (Xi- X)2
Standard deviation Sf = S2 = 84.3966
Coeff. of variation Cv = SfX∙100 = 41.6749%
Standard error Sx=SfN
Range = Maximum – Minimum
Skewness = NN-1(N-2)xj-xs3= 1.89988
Kurtosis = n(n+1)n-1n-2(n-3)xj-xs4- 3n-12n-2(n-3) = 0.227539s
Kết luận:
Nhận xét sơ bộ: Nhìn vào bảng kết quả ta quan tâm đến các thông số sau:
Skewness có giá trị >0 nên tập số liệu có xu hướng lớn hơn giá trị trung bình và đồ thị phân bố có xu hướng “lệch trái” so với giá trị trung bình.
Kurtosis có giá trị >0 nên tập số liệu có xu hướng phân bố xung quanh giá trị trung bình (Đồ thị phân bố của tập số liệu này “nhọn hơn phân phối chuẩn”)
PHÂN TÍCH HỒI QUY
Khái niệm
Khái niệm
Phân tích hồi quy là tìm quan hệ phụ thuộc của một biến, được gọi là biết phụ thuộc vào một hoặc nhiều biến khác, được gọi là biến độc lập nhằm mục đích ước lượng hoặc tiên đoán giá trị kỳ vọng của biến phụ thuộc khi biết trước giá trị của biến độc lập.
Mục đích hồi quy:
Ước lượng trung bình biến phụ thuộc trong những điều kiện xác định của biến giải thích.
Ước lượng các tham số.
Kiểm định về mối quan hệ.
Dự báo giá trị biến phụ thuộc khi biến giả thích thay đổi
Một số dạng hàm cơ bản trong phân tích hồi qui
Dạng hàm tuyến tính:
Phương trình: Yi= β1 + β2Xi + ui
Ưu điểm:
Có tính đơn giản.
Mỗ lần X tăng thêm một đơn vị thì Y tăng thêm β2 đơn vị
Nhược điểm:
Tính đơn giản của hàm tuyến tính,bất kỳ lúc nào tác động của X phụ thuộc vào các giá trị của X hoặc Y, thì dạng hàm tuyến tính không thể là dạng hàm phù hợp.
Dạng hàm Bậc hai:
Phương trình: Yi= β1 + β2Xi + β3Xi2 + ui
Khi X tăng thêm một đơn vị thì Y tăng thêm β2 + 2β3Xi đơn vị. Nếu β3>0, thì khi tăng lên
Nếu β3< 0, thì khi X tăng lên tác động bổ sung của X đến Y giảm xuống.
Nếu có đường biểu diễn chi phí thì chi phí biên sẽ là MC= β2+ 2β3Q
Dạng hàm logarit
Phương trình: lnYi= β1 + β2lnXi+ ui
Nếu X thay đổi 1% thì Y sẽ thay đổi B2%; đây là tính chất đặc biệt của quan hệ logarit.
Các thông số đánh giá
Hệ số tương quan R (Coefficient of correlation)
Yếu tố nào có R càng lớn thì ảnh hưởng càng nhiều
Theo như kết quả kiểm duyệt:
R < 0.3 à không tương quan
0.3 < R < 0.7 à có dấu hiệu
0.5 < R < 0.7 à hơi tương quan
0.7 < R < 0.9à tương quan
R > 0.9 à rất tương quan
Bình phương của hệ số tương quan (R square)
Yếu tố nào có R2 càng lớn thì mối quan hệ giữa yếu tố đó và biến y càng chặt chẽ:
Trong đó:
SSE (Sum of Square Error):
SST (Sum of Square Total):
Adjusted R –Square:
Sai số chuẩn (standard error – với hồi quy đơn là N-2)
Hệ số hồi quy B-độ nghiêng B (regression coefficient)
Yếu tố nào có B cao thì ảnh hưởng nhiều hơn, tuy nhiên các yếu tố có đơn vị khác nhau (năm, triệu cái, nghìn cái, triệu tờ, triệu tiếng,…) nên không thể so sánh mức ảnh hưởng giữa các yếu tố. Nếu muốn so sánh phải đổi các yếu tố có cùng đơn vị là độ lệch chuẩn, lúc đó ta có hệ số hồi qui chuẩn hóa: Bs= B. 𝑆𝑥/𝑆𝑦 ( Với Sx là độ lệch chuẩn của x tương ứng và Sy là độ lệch chuẩn của y).
Hồi quy đơn biến
Xét độ nghiêng của đồ thị để xem mô hình có thể chấp nhận Ho hay Ha. Tức là ta phải tính giá trị ttính và so sánh với giá trị tbảng :
Nếu ttính> tbảng : chấp nhận Ha và kết luận mô hình đưa ra khá thích hợp với dự báo
Ngược lại nếu ttính< tbảng : chấp nhận Ho và kết luận mô hình không có ý nghĩa, không đủ năng lực dự báo.
Phần mềm sử dụng là STATGRAPHIC.
Để phân tích hồi quy đơn biến ta làm như sau: vào Improve à Regression Analysis à One factor à Simple Regression
Yếu tố “Bưu phẩm đi có cước”
Coefficients
Least Squares
Standard
T
Parameter
Estimate
Error
Statistic
P-Value
Intercept
-31864.0
4116.35
-7.74084
0.0000
Slope
307.918
18.8445
16.3399
0.0000
Analysis of Variance
Source
Sum of Squares
Df
Mean Square
F-Ratio
P-Value
Model
1.08054E10
1
1.08054E10
266.99
0.0000
Residual
6.0706E8
15
4.04707E7
Total (Corr.)
1.14124E10
16
Correlation Coefficient = 0.97304
R-squared = 94.6807 percent
R-squared (adjusted for d.f.) = 94.3261 percent
Standard Error of Est. = 6361.65
Mean absolute error = 3972.39
Durbin-Watson statistic = 2.40009 (P=0.7247)
Lag 1 residual autocorrelation = -0.231529
y = -31864 + 307.918*x1
Trong đó:
Correlation Coefficient: Hệ số tương quan
R-squared: hệ số xác định (bình phương R)
Standard Error of Est: độ lệch chuẩn
Mean absolute erro: trung bình lỗi
Đánh giá yếu tố “Bưu phẩm đi có cước” với biến phụ thuộc là “Doanh thu” để xem số lượng bưu phẩm đi có cước ảnh hưởng thế nào đến doanh thu:
Nhìn vào kết quả phân tích ở trên ta thấy hệ số tương quan của nó là R=0.97304 điều đó cho thấy “Bưu phẩm đi có cước” rất tương quan với “Doanh thu”.
Tiếp theo đến hệ số xác định R2 = 94,6807% điều đó khẳng định được rằng yếu tố “Bưu phẩm đi có cước” có khả năng giải thích khoảng 94,6807% sự thay đổi của biến phụ thuộc chính là “Doanh thu”
Ta so sánh đến giá trị P-value của biến độc lập này.
Trước hết xin nói rõ ý nghĩa của giá trị P-value trong phân tích thống kê số liệu: khi nhà nghiên cứu đã nghiên cứu ra một giả thuyết thì ông cũng pải định nghĩa giả thuyết đảo cho nó (null hypothesis) tức là một giả thuyết ngược lại với những gì mình nghiên cứu và tin nó là thật. Ví dụ như theo truyền thống trong y học nếu giá trị xác suất nhỏ hơn 5% nhà nghiên cứu có thể bác bỏ đi giả thuyết đảo còn nếu giá trị xác suất mà lớn 5% thì không có lý do gì để bác bỏ nó hay chưa có bằng chứng đầy đủ dể bác bỏ nó nhưng cũng không có nghĩa là giả thuyết đảo là đúng là sự thật.
Với yếu tố này Pvalue = 0.0000 điều này có nghĩa là yếu tố mà ta đang xét gần như bác bỏ giả thuyết đảo của nó, và cũng gần như chấp nhận giả thuyết đang tin tưởng đó là yếu tố “Bưu phẩm đi có cước” có ảnh hưởng nhiều đến Doanh thu
Đánh giá với độ lệch chuẩn: hầu hết ta mong đợi các giá trị quan sát của y nằm trong khoảng phạm vi 2s của các giá trị y tính toán theo phương pháp bình phương cực tiểu của chúng
Ta sẽ kiểm định giả thuyết với giá trị độ dốc B
Bác bỏ Ha nếu B = 0 và ngược lại bác bỏ Ho nếu B ≠ 0 (B > 0 hoặc B < 0)
Giả định độ tin cậy P = 95%
Ta cóttính= 16.3399
So sánhtbảng=
Ta nhậnthấyttính>tbảng
Ta chấp nhận Ha và bác bỏ Ho. Điều này cho thấy mô hình mà ta đang xét với một biến độc lập (Bưu phẩm đi có cước) là khá phù hợp và biến này có khả năng giải thích cho biến phụ thuộc là Doanh thu.
Yếu tố “Bưu kiện đi có cước (nghìn cái)”
Coefficients
Least Squares
Standard
T
Parameter
Estimate
Error
Statistic
P-Value
Intercept
-9231.65
3273.69
-2.81996
0.0129
Slope
32.4815
2.26514
14.3398
0.0000
Analysis of Variance
Source
Sum of Squares
Df
Mean Square
F-Ratio
P-Value
Model
1.06365E10
1
1.06365E10
205.63
0.0000
Residual
7.75902E8
15
5.17268E7
Total (Corr.)
1.14124E10
16
Correlation Coefficient = 0.965408
R-squared = 93.2013 percent
R-squared (adjusted for d.f.) = 92.748 percent
Standard Error of Est. = 7192.14
Mean absolute error = 5576.68
Durbin-Watson statistic = 1.16837 (P=0.0163)
Lag 1 residual autocorrelation = 0.369967
Đánh giá yếu tố “Bưu kiện đi có cước” với biến phụ thuộc là “Doanh thu” để xem số lượng bưu phẩm đi có cước ảnh hưởng thế nào đến doanh thu:
Nhìn vào kết quả phân tích ở trên ta thấy hệ số tương quan của nó là R=0.965408 điều đó cho thấy “Bưu kiện đi có cước” rất tương quan với “Doanh thu”.
Tiếp theo đến hệ số xác định R2 = 93,2013% điều đó khẳng định được rằng yếu tố “Bưu kiện đi có cước” có khả năng giải thích khoảng 93,2013% sự thay đổi của biến phụ thuộc chính là “Doanh thu”
Ta so sánh đến giá trị P-value của biến độc lập này.
Với yếu tố này Pvalue = 0.0000 điều này có nghĩa là yếu tố mà ta đang xét gần như bác bỏ giả thuyết đảo của nó, và cũng gần như chấp nhận giả thuyết đang tin tưởng đó là yếu tố “Bưu kiện đi có cước” có ảnh hưởng nhiều đến Doanh thu
Giả định độ tin cậy P = 95%
Ta cóttính= 14,3398
So sánhtbảng =
Ta nhậnthấyttính>tbảng
Ta chấp nhận Ha và bác bỏ Ho. Điều này cho thấy mô hình mà ta đang xét với một biến độc lập (Bưu kiện đi có cước) là khá phù hợp và biến này có khả năng giải thích cho biến phụ thuộc là Doanh thu.
Yếu tố “Thư và điện chuyển tiền (nghìn bức)”
Coefficients
Least Squares
Standard
T
Parameter
Estimate
Error
Statistic
P-Value
Intercept
-18892.3
8846.12
-2.13566
0.0496
Slope
8.29571
1.3586
6.10609
0.0000
Analysis of Variance
Source
Sum of Squares
Df
Mean Square
F-Ratio
P-Value
Model
8.13829E9
1
8.13829E9
37.28
0.0000
Residual
3.27415E9
15
2.18277E8
Total (Corr.)
1.14124E10
16
Correlation Coefficient = 0.844457
R-squared = 71.3107 percent
R-squared (adjusted for d.f.) = 69.3981 percent
Standard Error of Est. = 14774.2
Mean absolute error = 11928.4
Durbin-Watson statistic = 0.278645 (P=0.0000)
Lag 1 residual autocorrelation = 0.755119
Đánh giá yếu tố “Thư và điện chuyển tiền” với biến phụ thuộc là “Doanh thu” để xem số thư và điện chuyển tiền ảnh hưởng thế nào đến doanh thu:
Nhìn vào kết quả phân tích ở trên ta thấy hệ số tương quan của nó là R=0.844457 điều đó cho thấy “Thư và điện chuyển tiền” tương quan với “Doanh thu”.
Tiếp theo đến hệ số xác định R2 = 71,3107% điều đó khẳng định được rằng yếu tố “Thư và điện chuyển tiền” có khả năng giải thích khoảng 71,3107% sự thay đổi của biến phụ thuộc chính là “Doanh thu”
Ta so sánh đến giá trị P-value của biến độc lập này.
Với yếu tố này Pvalue = 0.0000 điều này có nghĩa là yếu tố mà ta đang xét gần như bác bỏ giả thuyết đảo của nó, và cũng gần như chấp nhận giả thuyết đang tin tưởng đó là yếu tố “Thư và điện chuyển tiền” có ảnh hưởng nhiều đến Doanh thu
Giả định độ tin cậy P = 95%
Ta cóttính= 6,10609
So sánhtbảng =
Ta nhậnthấyttính>tbảng
Ta chấp nhận Ha và bác bỏ Ho. Điều này cho thấy mô hình mà ta đang xét với một biến độc lập (Thư và điện chuyển tiền) là khá phù hợp và biến này có khả năng giải thích cho biến phụ thuộc là Doanh thu.
Yếu tố “Báo chí phát hành (triệu tờ)”
Coefficients
Least Squares
Standard
T
Parameter
Estimate
Error
Statistic
P-Value
Intercept
-41489.8
5407.16
-7.67312
0.0000
Slope
199.431
14.1525
14.0915
0.0000
Analysis of Variance
Source
Sum of Squares
Df
Mean Square
F-Ratio
P-Value
Model
1.06109E10
1
1.06109E10
198.57
0.0000
Residual
8.01543E8
15
5.34362E7
Total (Corr.)
1.14124E10
16
Correlation Coefficient = 0.964244
R-squared = 92.9766 percent
R-squared (adjusted for d.f.) = 92.5084 percent
Standard Error of Est. = 7310.01
Mean absolute error = 5100.44
Durbin-Watson statistic = 1.23012 (P=0.0238)
Lag 1 residual autocorrelation = 0.377733
Đánh giá yếu tố “Báo chí phát hành” với biến phụ thuộc là “Doanh thu” để xem số lượng Báo chí phát hành ảnh hưởng thế nào đến doanh thu:
Nhìn vào kết quả phân tích ở trên ta thấy hệ số tương quan của nó là R=0.964244 điều đó cho thấy “Báo chí phát hành” tương quan với “Doanh thu”.
Tiếp theo đến hệ số xác định R2 = 92,9766% điều đó khẳng định được rằng yếu tố “Báo chí phát hành” có khả năng giải thích khoảng 92,9766% sự thay đổi của biến phụ thuộc chính là “Doanh thu”
Ta so sánh đến giá trị P-value của biến độc lập này.
Với yếu tố này Pvalue = 0.0000 điều này có nghĩa là yếu tố mà ta đang xét gần như bác bỏ giả thuyết đảo của nó, và cũng gần như chấp nhận giả thuyết đang tin tưởng đó là yếu tố “Báo chí phát hành” có ảnh hưởng nhiều đến Doanh thu
Giả định độ tin cậy P = 95%
Ta cóttính= 14,0915
So sánhtbảng =
Ta nhậnthấyttính>tbảng
Ta chấp nhận Ha và bác bỏ Ho. Điều này cho thấy mô hình mà ta đang xét với một biến độc lập (Báo chí phát hành) là khá phù hợp và biến nàycó khả năng giải thích cho biến phụ thuộc là Doanh thu.
Điện báo có cước (triệutiếng)
Coefficients
Least Squares
Standard
T
Parameter
Estimate
Error
Statistic
P-Value
Intercept
39873.6
6465.78
6.16687
0.0000
Slope
-794.566
291.723
-2.7237
0.0157
Analysis of Variance
Source
Sum of Squares
Df
Mean Square
F-Ratio
P-Value
Model
3.7765E9
1
3.7765E9
7.42
0.0157
Residual
7.63594E9
15
5.09062E8
Total (Corr.)
1.14124E10
16
Correlation Coefficient = -0.575249
R-squared = 33.0911 percent
R-squared (adjusted for d.f.) = 28.6305 percent
Standard Error of Est. = 22562.4
Mean absolute error = 16018.1
Durbin-Watson statistic = 0.170905 (P=0.0000)
Lag 1 residual autocorrelation = 0.791327
Đánh giá yếu tố “Điện báo có cước” với biến phụ thuộc là “Doanh thu” để xem số lượng Điện báo có cước ảnh hưởng thế nào đến doanh thu:
Nhìn vào kết quả phân tích ở trên ta thấy hệ số tương quan của nó là R=-0.575249 điều đó cho thấy “Điện báo có cước” không tương quan với “Doanh thu”.
Tiếp theo đến hệ số xác định R2 = 33,0911% điều đó khẳng định được rằng yếu tố “Điện báo có cước” có khả năng giải thích khoảng 33,0911% sự thay đổi của biến phụ thuộc chính là “Doanh thu”
Với yếu tố này Pvalue = 0.0157
Giả định độ tin cậy P = 95%
Ta cóttính= -2,7237
So sánhtbảng =
Ta nhậnthấyttính<tbảng
Điều này cho thấy mô hình mà ta đang xét với một biến độc lập (Điện báo có cước) là không phù hợp và biến này không có khả năng giải thích cho biến phụ thuộc là Doanh thu.
Yếu tố “Điện thoại đường dài (triệu phút)”
Coefficients
Least Squares
Standard
T
Parameter
Estimate
Error
Statistic
P-Value
Intercept
8351.48
16592.7
0.503322
0.6220
Slope
7.56734
5.25046
1.44127
0.1701
Analysis of Variance
Source
Sum of Squares
Df
Mean Square
F-Ratio
P-Value
Model
1.3882E9
1
1.3882E9
2.08
0.1701
Residual
1.00242E10
15
6.68282E8
Total (Corr.)
1.14124E10
16
Correlation Coefficient = 0.348768
R-squared = 12.1639 percent
R-squared (adjusted for d.f.) = 6.30819 percent
Standard Error of Est. = 25851.2
Mean absolute error = 19037.0
Durbin-Watson statistic = 0.162886 (P=0.0000)
Lag 1 residual autocorrelation = 0.759609
Đánh giá yếu tố “Điện thoại đường dài” với biến phụ thuộc là “Doanh thu” để xem số lượng Điện thoại đường dài ảnh hưởng thế nào đến doanh thu:
Nhìn vào kết quả phân tích ở trên ta thấy hệ số tương quan của nó là R=0.348768 điều đó cho thấy “Điện thoại đường dài” có dấu hiệu tương quan với “Doanh thu”.
Tiếp theo đến hệ số xác định R2 = 12,1639% điều đó khẳng định được rằng yếu tố “Điện thoại đường dài” có khả năng giải thích khoảng 12,1639% sự thay đổi của biến phụ thuộc chính là “Doanh thu”.
Ta so sánh đến giá trị P-value của biến độc lập này.
Với yếu tố này Pvalue = 0.1701
Giả định độ tin cậy P = 95%
Ta cóttính= 1,44127
So sánhtbảng =
Ta nhậnthấyttínhtbảng .
Hồi quy đa biến
Hồi quy đa biến tổng quát.
Hàm hồi quy bộ tổng thể(PRF) : Y=a1+a2X2+a3X3+..+akXk+u
Trong đó:
a1: là hệ số tự do( hệ số chặn)
aj : là hệ số hồi qui riêng
u : sai số ngẫu nhiên
Hàm hồi quy mẫu(SRF):
Yi=βi+β2X2i+β3X3i+..+βkXki
Trong đó:
Yi là ước lượng của giá trị trung bình của Yi đối với biến Xi đã biết
βi là ước lượng của βi
Hồi quy đa biến với bài toán
Multiple Regression - y
Dependent variable: y (doanhthu)
Independent variables:
x1 (buupham di co cuoc)
x2 (buukien di co cuoc)
x3 (thuvadienchuyentien)
x4 (Báo chí phát hành)
x5 (dienbao co cuoc)
x6 (dienthoaiduongdai)
Standard
T
Parameter
Estimate
Error
Statistic
P-Value
CONSTANT
-30039.9
9112.93
-3.2964
0.0081
x1
2.9149
75.8131
0.0384485
0.9701
x2
7.8266
7.85596
0.996263
0.3426
x3
7.26757
2.6746
2.71725
0.0217
x4
75.6154
40.1981
1.88107
0.0894
x5
244.327
132.18
1.84844
0.0943
x6
-7.88502
3.34897
-2.35446
0.0403
Analysis of Variance
Source
Sum of Squares
Df
Mean Square
F-Ratio
P-Value
Model
1.12103E10
6
1.86838E9
92.44
0.0000
Residual
2.02128E8
10
2.02128E7
Total (Corr.)
1.14124E10
16
R-squared = 98.2289 percent
R-squared (adjusted for d.f.) = 97.1662 percent
Standard Error of Est. = 4495.87
Mean absolute error = 2514.35
Durbin-Watson statistic = 2.63941 (P=0.7280)
Lag 1 residual autocorrelation = -0.368815
y=-30039.9+2.9149*x1+7.8266*x2+7.26757*x3+75.6154*x4+244.327*x5-7.88502*x6
Theo bảng kết quả trên ta có R2= 98,2289% với giá trị này ta có thể đánh mô hình rất thích hợp để lựa chọn.
So sánh Ftínhvà Fbảng để kiểm định mô hình chấp nhận Ha hay Ho.
Nhìn vào giá trị P-value ở cột bên trên thì ta nhận thấy hầu như không yếu tố nào có giá trị thống kê. Ta nhận thấy trong phân tích hồi quy đơn (riênglẻ) thì hầu hết các yếu tố có ý nghĩa thống kê.
Kết luận về mức độ ảnh hưởng của các yếu tố tới doanh thu
STT
Cácyếutố
Β
α
R
R2
P
1
Bưuphẩmđicócước
0,97304
2
Bưukiệnđicócước
0.965408
3
Thưvàđiệnchuyểntiền
0,844457
4
Báo chí phát hành
0,964244
5
Điện báo có cước
-0,575249
6
Điện thoại đường dài
0.348768
Trongđó:
Β:Hệsốhồi qui α: điểmcắttrêntrụctung
R: hệsốtươngquan P: ý nghĩathốngkê
Ta cóthểviếtcácphươngtrìnhtuyếntínhđơnsau:
Doanhthu= -31864 + 307,918 *(Bưuphẩmđicócước)
Doanhthu = -9231,65 + 32,4815*(Bưukiệnđicócước)
Doanhthu = -18892,3 + 8,29571 *(Thưvàđiệnchuyểntiền)
Doanhthu = -41489,8 + 199,431 *(Báo chí phát hành)
Doanhthu = 39873,6–794,566 *(Điện báo có cước)
Doanhthu = 8351,48 + 7,56734 *(Điện thoại đường dài)
Nhìn vào bảng phân tích đơn biến ta thấy hệ số tương quan R của Bưu phẩm đi có cước cao nhất (0,97304) > Bưu kiện đi có cước (0.965408) > Báo chí phát hành (0,964244) > Thư và điện chuyển tiền (0,844457) > Điện thoại đường dài (0.348768) > Điện báo có cước (-0,575249). Như vậy chỉ có Điện báo có cước là yếu tố hầu như không có ảnh hưởng đến doanh thu.
Nếu nhìn trị số p ( P-value) ta thấy hầu hết các yếu tố đều có ý nghĩa thống kê (trừ Điện thoại đường dài và Điện báo có cước).
PHÂN TÍCH CHUỖI THỜI GIAN
Khái niệm
Định nghĩa
Chuỗi thời gian là tập hợp các giá trị của một biến ngẫu nhiên được xắp xếp theo thứ tự thời gian.
Chuỗi thời gian còn được gọi là dãy số thời gian. Đơn vị thời gian có thể là ngày, tháng, quí, năm.
Phân tích chuỗi thời gian có mục đích là làm rõ cấu trúc của chuỗi thời gian (tức là các thành phần của nó) trong sự biến động của bản thân nó. Trên cơ sở đó có thể thấy rõ hơn bản chất cũng như quy luật của hiện tượng thông qua một chỉ tiêu cụ thể, từ đó có thể dự báo ngắn hạn giá trị của chuỗi đó.
Phương pháp phân tích chuỗi thời gian có:
Phương pháp phân rã
Phương pháp Box-Renkins
Phương pháp phân rã.
Chuỗi số liệu được nghiên cứa tách biệt theo 2 yếu tố:
Xu thế số liệu
Biến đổi mùa
Phân tích xu thế
Đây là một phân tích liên quan đến chuỗi nhiều năm, do đó ta sẽ sử dụng số liệu hàng năm để phân tích. Một cách tổng quát ta cần phải có một chuỗi dài.
Phương pháp đánh giá yếu tố xu thế phổ biến là phương pháp bình phương tối thiểu.
Đấy là phương pháp cho phép xác định được đường cong (thẳng) hoặc mặt phẳng biểu thị xu thế số liêu, giới thiệu “tốt nhất” số liệu trong quá khứ
Trong trường hợp cá biệt khi nhận thấy xu thế của biến khảo sát trong thời gian dài là tuyến tính, phương trình sẽ xác định bởi:
Y=a + bt
Trong đó:
t:biểu thị thời gian(năm)
a, b: chỉ các thông số được xác định đường thẳng tính được từ phương pháp bình phương tối tiểu
Gọi là khoảng cách thẳng đứng từ điểm quan sát (ti ,Yi )đến đường thẳng cần xác định .Ta cần định nghĩa hàm mục tiêu
D=
Đây là một hàm hai biến a và b, để cho D cực trị (với ý nghĩa vật lý của bài toán ta biết đó là cực tiểu) ta phải có:
∂D∂a=0∂D∂b=0
Từ đó:
i2yi-(a+bti)=0
i2yi-(a+bti)=0
Giải hệ trên ta có
b=itiyi-N.t.yiti2-N.t2
a=yi-bti
t=i=1NtiN=t1+..+tNN
N: Số quan trắc.
Trong trường hợp xu thế không phải tuyến tính ta có thể xét đến dạng đường cong hàm mũ y=abt hoặc dạng parabol y=a+bt+ct2. Các tham số a,b,c vẫn xác định dựa vào khái niệm bình phương tối thiểu mà ta vừa nghiên cứu.
+ Các thông số a, b, c xác định bằng phương pháp bình phương tối thiểu.
Đánh giá sự biến đổi theo mùa
Để nhận biết ảnh hưởng của thành phần mùa lên chuỗi thời gian khảo sát ta dùng thông số gọi là chỉ số mùa
Nếu số liệu theotháng, ta có 12 tháng giá trị is.
Nếu số liệu theo quý ,ta có 12 giá trị is.
Nếu giá trị tính theo 6 tháng ,ta có 2 giá trị is.
Tính chỉ số mùa
Từ số liệu quan trắc chỉ số mùa được tính từ is,t như sau:
is,t=[giá trị quan trắc]/[giá trị cho bởi y=[a+bt]t
Có bao nhiêu số liệu quan trắc có bấy nhiêu is,t và giá trị is,t thay đổi quanh giá trị 1
Từ các giá trị đại biểu is,t , các giá trị đại biểu is được tính bằng giá trị trung bình của các tháng (quý) tương ứng :
Theo tháng
is,k=1Nis,t=kN với k=1,12
Theo quý
is,k=1Nis,t=kN với k=1,4
Với N (số tháng, quý…) có trong chuỗi số liệu phân tích
Giá trị chỉ số mùa hiệu chỉnh
Ta phải có:
Hiệu chỉnh
Chuỗi CVS(loại bỏ ảnh hưởng mùa trong chuỗi giá trị quan sát)
Sự hiệu chỉnh mùa này cho phép chúng ta muốn so sánh kết quả của các tháng khác nhau trog một mùa nhằm để biết nếu có sự tăng hay giảm đã xảy ra so với giá trị bình thường .Giá trị hiệu chỉnh mùa sẽ được tính như sau:
chuỗi CVS
k=1, 12 (số liệu tháng) hay 1, 4 (số liệu quý)
Dự báo với mô hình phân rã
Giá trị dự báo tại thời điểm t của biến nghiên cứu được xác định như sau:
: giá trị cho bởi đường xu thế
K: ứng với tháng (mùa) tại thời điểm t
Dự báo những năm tiếp theo của bài toán
Tiến hành dự báo 2 năm tiếp theo của yếu tố “Bưu phẩm đi có cước”. Để dự báo ta chọn Forecast> User-Specified Model
KẾT LUẬN
TÀI LIỆU THAM KHẢO
Nhập môn lý thuyết xác suất và thống kê toán
Hướng dẩn sử dụng StatGraphics – Võ tấn thành (Đại học cần thơ)
Phân tích chuỗi thời gian – TS. Nguyễn Thông.
Bài giảng Phương pháp định lượng trong quản lý – TS. Phạm Cảnh Duy
Website
Các file đính kèm theo tài liệu này:
- Đề tài- Phân tích sản lượng và doanh thu ngành bưu chính viễn thông (giai đoạn 1995-2011).docx