Chương 4: Xữ lý dữ liệu

Tác dụng của việc sử dụng R2 đã điều chỉnh •Trừng phạt việc đưa quá nhiều biến không cần thiết vào mô hình •Hữu dụng trong việc so sánh mô hình Thường giá trị của nó nhỏ hơn R2

pdf81 trang | Chia sẻ: lylyngoc | Ngày: 20/08/2014 | Lượt xem: 4782 | Lượt tải: 2download
Bạn đang xem nội dung tài liệu Chương 4: Xữ lý dữ liệu, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Chương 4: Xữ lý dữ liệu I. Các đại lượng đo lường sự phân tán II. Ước lượng thông số đám đông từ mẫu III.Một số phép kiểm định cơ bản IV.Kiểm định phi tham số: Chi-square V. Phân tích nhân tố (factor analysis) VI.Phân tích tương quan (Regression analysis) Sử dụng các công cụ thống kê trong phân tích Mục tiêu và kiểu của các câu hỏi nghiên cứu Mục tiêu chung Mục tiêu cụ thể Kiểu câu hỏi/ giả thiết Kiểu thống kê Khác biệt Liên quan Mô tả Mức độ liên quan, các biến liên quan So sánh nhóm Tóm lược dữ liệu Quan hệ giữa các biến Mô tả Thống kê khác biệt (v.d. t-test, ANOVA) Thống kê liên quan (v.d. tương quan, hồi quy) Thống kê mô tả (v.d. trung bình, tỷ lệ) I. Các đại lượng đo lường độ phân tán    N i NXi 1 /    n i i nXX 1 )/( • Đám đông • Mẩu• Thông số • 1.Trung bình    N i NXi 1 22 /)(  )1/()( 1 22   n i nXXis 2 2  2 2ss  ),( 2NXi  ),( 2 X i NX  • 2. Phương sai • 3. Độ lệch tiêu chuẩn • 4. Hàm phân phối I. Các đại lượng đo lường độ phân tán • Thông số • Đám đông Mẩu PsPp N PP pp Pp )1(2   n PP ss Ps )1(2   2 2 pp pp   2 2 ss pp   • 5. Tỷ lệ • 6. Phương sai • 7. Độ lệch • tiêu chuẩn Phân phối chuẩn một đơn vị Đo lường dạng hình của phân phối (Measures of Shape) • Độ lệch (skewness) đo lường độ lệch của phân phối về một trong hai phía. • Phân phối lệch trái (negative skew, left-skewed) khi đuôi phía trái dài hơn, và phần lớn số liệu tập trung ở phía phải của phân phối. • Phân phối lệch phải (positive sknew, right-skewed) khi đuôi phía phải dài hơn, và phần lớn số liệu tập trung ở phía trái của phân phối. • Khi lệch phải, giá trị sknewness dương; khi lệch trái, giá trị skewness âm. Độ càng lớn thì giá trị sknewness càng lớn hơn 0. • Với phân phối chuẩn, độ lệch gần như nhận giá trị 0 Đo lường dạng hình của phân phối (Measures of Shape) Đo lường dạng hình của phân phối (Measures of Shape) • Độ nhọn (kurtosis) – Độ nhọn (kurtosis) đo lường mức độ nhọn hay bẹt của phân phối so với phân phối bình thường (có độ nhọn bằng 0). Phân phối có dạng nhọn khi giá trị kurtosis dương và có dạng bẹt khi giá trị kurtosis âm. – Với phân phối bình thường, giá trị của độ lệch và độ nhọn bằng 0. Căn cứ trên tỷ số giữa giá trị skewness và kurtosis và sai số chuẩn của nó, ta có thể đánh giá phân phối có bình thường hay không (khi tỷ số này nhỏ hơn -2 và lớn hơn +2, phân phối là không bình thường). II. Ước lượng thông số đám đông μ Đám đông S S Pp  X Ps II. Ước lượng thông số đám đông II.1.1 Ước lượng trung bình đám đông – Chuyển phân phối chuẩn tổng quát trở về phân phối chuẩn một đơn vị với biến ngẩu nhiên – Tìm xác xuất P sao cho: – Đối với phân phối chuẩn một đơn vị, ta có X X Z    )1()(  bZaP )1()( 2/2/   ZZZP 30n II. Ước lượng thông số đám đông Như vậy, chúng ta sẽ có : Hay: Suy ra: Ở đây, ta có: 2/2/  ZZZ  2/2/    Z X Z X    XX ZXZX   .. 22  2 2 2 2 2 nnXX   II. Ước lượng thông số đám đông II.1.2 Ước lượng trung bình đám đông – Chuyển phân phối chuẩn tổng quát trở về phân phối t – Tìm xác xuất P sao cho: – Đối với phân phối t (phân phối student), ta có X X t    )1()(  btaP )1(),( )1(,2/)1(2/    nn tttP n<30 II. Ước lượng thông số đám đông Như vậy, chúng ta sẽ có : Hay: Suy ra: Ở đây, ta có: )1(,2/)1(2/ ,   nn ttt  )1(2/)1(2/ ,,     n X n t X t    XnXn tXtX   .,., )1(2)1(2   2 2 2 2 2 nnXX   II. Ước lượng thông số đám đông SP ps PPZ    II.2.1 Ước lượng tỷ lệ đám đông(Khi n lớn hơn hoặc bằng 30 phần tử) – Chuyển phân phối tổng quát về phân phối chuẩn – Tỷ lệ đám đông sẽ nằm trong khoảng SS PspPs ZPPZP   .. 22  II. Ước lượng thông số đám đông SP ps PPt    II.2.1 Ước lượng tỷ lệ đám đông(Khi n nhỏhơn 30 phần tử) – Chuyển phân phối tổng quát về phân phối student (t) – Tỷ lệ đám đông sẽ nằm trong khoảng Ss PnspPns tPPtP   .., )1(,2)1(2   III. Một số phép kiểm định giả thuyết III.1 Kiểm định trung bình và tỷ lệ đám đông Mục đích Phát hiện xem các giá trị trung bình/tỷ lệ của đám đông có sự thay đổi hay không Phương pháp tiến hành – Lấy mẩu từ đám đông sau đó tính trung bình hoặc tỷ lệ mẩu – Sử dụng trung bình hoặc tỷ lệ mẩu để kiểm định có sự thay đổi về trung bình và tỷ lệ đám đông hay không Các kỹ thuật kiểm định cơ bản Các kỹ thuật kiểm định dùng theo loại dữ liệu và trắc nghiệm Thang đo One-sample Case Two-Samples Tests k-Samples Tests Related Samples Independent Samples Related Samples Independent Samples Nominal - Binomial - χ2 one-sample test - McNemar - Fisher exact test - χ2 two- sample test - Cochran Q - χ2 for k- samples Ordinal - Kolmogorov- Smirnov one- sample test - Runs test - Sign test - Wilcoxon matched-pairs test -Median test Mann- Whitney U - Kolmogorov- Smirnov Wald- Wolfowitz -Friedman two-way ANOVA - Median extension - Kruskal- Wallis one- way ANOVA Interval and Ratio - T-test - Z test - T-test for paired samples - T-test - Z test - Repeated- measured ANOVA - One-way ANOVA - N-way ANOVA Sai lầm trong kiểm định Quyết định Bản chất của giả thuyết Ho Đúng Sai Chấp nhận H0 Quyết định đúng Sai lầm loại II (Beta) Từ chối H0 Sai lầm loại I (alpha) Quyết định đúng Giá trị xác suất (p Values) • Giá trị p value được so sánh với mức ý nghĩa (significant level - α), và dựa trên kết quả này để bác bỏ hay không bác bỏ giả thiết. • Nếu giá trị p value nhỏ hơn mức ý nghĩa, giả thiết bị bác bỏ (p value < α, bác bỏ giả thiết H0). • Nếu giá trị p value bằng hoặc lớn hơn mức ý nghĩa, không bác bỏ giả thiết Ho (p value > α, không bác bỏ giả thiết H0). Kiểm định ý nghĩa: các kiểu kiểm định • Có hai loại: parametric (tham số) và nonparametric (phi tham số). – Parametric tests là công cụ mạnh vì xử lý các dữ liệu dạng scale (interval, ratio). – Nonparametric tests là công cụ xử lý các dữ liệu dạng nominal và ordinal. Kiểm định ý nghĩa: các kiểu kiểm định • Parametric tests đòi hỏi một số giả định: – Các quan sát phải độc lập với nhau. – Các quan sát phải được rút ra từ các đám đông có phân phối chuẩn. – Các nhóm trong đám đông phải có phương sai tương đương. – Thang đo phải ở dạng scale để các tính toán có thể thực hiện được. Kiểm định ý nghĩa: các kiểu kiểm định • Nonparametric tests ít đòi hỏi các giả định: – Không đòi hỏi các quan sát phải được rút ra từ các đám đông có phân phối chuẩn. – Không đòi hỏi các nhóm phải có phương sai tương đương. – Là cách duy nhất để xử lý dữ liệu danh xưng (nominal). – Là cách đúng đắn để xử lý dữ liệu với thang đo thứ tự (ordinal), mặc dù parametric có thể áp dụng được. – Dễ hiểu và dễ sử dụng. III.1 Kiểm định trung bình và tỷ lệ đám đông oH  :0 oH  :1 X tt X Z    Trình tự X tt X t    – Bước 1: Thiết lập giả thuyết – Bước 2: Chọn alpha – Bước 3: Xác định phép kiểm định (Z hoặc t) trong trường hợp kiểm định trung bình III.1 Kiểm định trung bình và tỷ lệ đám đông Trong trường hợp kiểm định tỷ lệ đám đông, chúng ta sẽ xác định Ztt hoặc ttt như sau Sp ps tt PP Z    SP ps tt PP t    III.1 Kiểm định trung bình và tỷ lệ đám đông Bước 4: xác định giá trị Z tthoặc ttt có nằm trong vùng chấp nhận hay không Chấp nhận H0 nếu Từ chối H0, chấp nhận H1, nếu Tương tự trong trường hợp kiểm định t, ta chấp nhận Ho nếu Từ chối Ho và chấp nhận H1 nếu ],[ 22/  ZZZtt  ],[ 22/  ZZZtt  ],[ )1(,2)1(,2/  nntt ttt  ],[ )1(,2)1(,2/  nntt ttt  Ví dụ: µ=6.5, lấy mẩu với n=9, tính được giá trị trung bình là 7 1. One-Sample T Test Analyze  Compare Means  One-Sample T Test Ví dụ: µ=6.5, lấy mẩu với n=9, tính được giá trị trung bình là 7 1. One-Sample T Test Analyze  Compare Means  One-Sample T Test III.2 Kiểm định sự khác biệt giửa hai trung bình, tỷ lệ III.2.1 Kiểm định sự khác biệt giửa hai trung bình/tỷ lệ Trường hợp áp dụng: – Khi đám đông được phân ra thành 2 hay nhiều nhóm – Chúng ta muốn xác định các trung bình/tỷ lệ đám đông có khác biệt hay không – Dựa vào mẩu chúng ta sẽ tìm được hai trung bình/tỷ lệ và sử dụng chúng để kiểm định cho trung bình/tỷ lệ đám đông III.2 Kiểm định sự khác biệt giửa hai trung bình, tỷ lệ Quy trình: tương tự như kiểm định trung bình/tỷ lệ Bước 1: Xác định giả thuyết Bước 2: Chọn alpha Bước 3: Xác định Ztt hoặc ttt (kiểm định 2 trung bình) )(: )(: 21211 2121 pp ppo PPH PPH     ) 11 )(( )( 212 2 22 1 2 1 21 2 2 2 2 1 2 1 21 nnnn XX t nn XX Z tt tt         III.2 Kiểm định sự khác biệt giửa hai trung bình, tỷ lệ Nếu kiểm định sự khác biệt giửa hai tỷ lệ chúng ta sẽ xác định giá trị Ztt theo cách sau 21 2211 2 21 21 .. ) 11 )(1( nn nPnP p nn pp PP Z ss ss tt       III.2 Kiểm định sự khác biệt giửa hai trung bình, tỷ lệ • Bước 4: Khẳng định hay bác bỏ giả thuyết • Chấp nhận Ho nếu • Từ chối Ho nếu ],[ 22/  ZZZtt  ],[ 22/  ZZZtt  Ví dụ • Ví dụ 3. Số liệu điều tra sử dụng xe máy – Giả thiết Ho: tuổi trung bình của người sử dụng xe máy nam và nữ là như nhau. – Giả thuyết H1: Có sự khác biệt về độ tuổi sử dụng 3. Two-Sample T Test Ví dụ 3. Two-Sample T Test Analyze Compare Means Independent-Samples T Test Ví dụ 3. Two-Sample T Test Ví dụ 3. Two-Sample T Test Chọn biến Age cho ô Test Variable(s) Grouping Variable: Group 1 = 1 (male); Group 2 = 0 (female) Ví dụ 3. Two-Sample T Test P values (Sig. (2-tailed)) cao hơn α = 0.05 rất nhiều. Ta chấp nhận giả thiết và diễn giải là không có sự khác biệt về tuổi trung bình giữa người sử dụng xe máy là Nam và Nữ. Independent Samples Test 1.239 .268 -.315 98 .754 -.93 2.95 -6.77 4.92 -.321 91.785 .749 -.93 2.89 -6.66 4.81 Equal variances assumed Equal variances not assumed Age of motorbike user F Sig. Levene's Test for Equality of Variances t df Sig. (2-tailed) Mean Difference Std. Error Difference Lower Upper 95% Confidence Interval of the Difference t-test for Equality of Means III.3 Kiểm định sự khác biệt giửa nhiều trung bình (ANOVA) • Bước 1: Thiết lập giả thuyết • Bước 2: Chọn alpha Bước 3: Xác định giá trị Ftt k ko H H     ......: ......: 211 21   2 1 2 1 1 ( ) /( 1) /( ) i k i i tt nk ij i i j X X k F X X n k           III.3 Kiểm định sự khác biệt giửa nhiều trung bình (ANOVA) • Bước 4: So sánh giửa Ftt với Ftc • Nếu Ftt nhỏ hơn Ftc, chúng ta chấp nhận Ho, nếu ngược lại, chúng ta từ chối Ho • K: số nhóm • n: tổng số phần tử lấy ra từ k mẩu, số phần tử của mỗi mẩu là nj   )(,1, knktc FF   Ví dụ áp dụng: Anova • Ví dụ 5. Số liệu điều tra sử dụng xe máy • Giả thiết: Không có sự khác biệt giữa các người sử dụng xe máy ở các nhóm tuổi khác nhau về số ngày sử dụng bình quân trong tháng. 5. One-Way ANOVA (Parametric Test) Analyze  Compare Means One-Way ANOVA… Ví dụ áp dụng: Anova 5. One-Way ANOVA (Parametric Test) Ví dụ áp dụng: Anova 5. One-Way ANOVA (Parametric Test) ANOVA Number of used days in a month 1428.944 5 285.789 6.737 .000 3987.806 94 42.423 5416.750 99 Between Groups Within Groups Total Sum of Squares df Mean Square F Sig. P value < 0.05. Kết luận: bác bỏ giả thiết; Phát biểu rằng có sự khác biệt giữa các người sử dụng xe máy ở các nhóm tuổi khác nhau về số ngày sử dụng bình quân trong tháng IV. Phân tích nhân tố (factor analysis) • Mục đích – làm giảm biến – dịch chuyển các yếu tố thành phần đo lường một biến nầy sang biến khác • Cách thức phân tích – Vào analize – Chọn data reduction – Chọn factor analysis IV. Phân tích nhân tố (factor analysis) • Trình tự – Đưa tất cả các yếu tố thành phần vào mục biến số (variables) – Nhấn vào mục descriptive trên hộp thoại để xác định các tham số thống kê mô tả. Sau đó nhấn continue – Nhấn vào mục Extraction chọn phương pháp phân tích là “Principal components” và phần extract với “eigenvalue” over 1 – Nhấn mục Rotation: Chọn phương pháp “varimax” – Nhấn mục Score, chọn phương pháp “regression” • Kết quả sẽ hiển thị trên phần mềm SPSS IV. Phân tích nhân tố (factor analysis) • Phân tích kết quả: – Dựa vào biểu “Total Variance explained”: số nhân tố rút ra phải có giá trị eigenvalue lớn hơn 1 – Biểu “Rotated component matrix” cho biết yếu tố thành phần nào đo lường được nhân tố nào: những yếu tố thành phần nào có hệ số tải nhân tố lớn trong nhân tố nào thì nó sẽ đo lường nhân tố đó – Hệ số tải nhân tố (factor loading) là hệ số tương quan đơn giửa các yếu tố thành phần và các nhân tố Phân tích độ tin cậy của thang đo • Dùng hệ số cronbach alpha – Các yếu tố thành phần sẽ đo lường được một biến (nhân tố) nếu cronbach alpha lớn hơn hoặc bằng: • 0.6 (nghiên cứu khám phá) • 0.7 (nghiên cứu giải thích) • 0.8 (nghiên cứu thực nghiệm) – Trên SPSS: vào scale, reliability V. Hàm tương quan • V.1 Hệ số tương quan và sơ đồ phân tán • V.2 Hàm tương quan đơn biến • V.3 Hàm tương quan đa biến V.1 Sơ đồ phân tán và hệ số tương quan • Sơ đồ phân tán thể hiện mối quan hệ giửa hai biến – Phân tích hệ số tương quan dùng để đo lường mối quan hệ đồng hành giửa hai biến. – Hệ số tương quan không thể hiện mối quan hệ nhân quả. V.1 Sơ đồ phân tán (scatter plot) y x y x y y x x Quan hệ tuyến tính Quan hệ phi tuyến V.1 Sơ đồ phân tán (scatter plot) y x y x y y x x Strong relationships Weak relationships (continued) V.1 Sơ đồ phân tán (scatter plot) y x y x X và y không có quan hệ (continued) V.1 Hệ số tương quan • Hệ số tương quan của đám đông ký hiệu là ρ (rho) thể hiện sự đồng hành của hai biến. • Hệ số tương quan của mẩu r dùng ước lượng cho rho và nó thể hiện tương quan tuyến tính dựa trên các phần tử quan sát được từ mẩu. (continued) V.1 Đặc điểm của ρ and r • Không có đơn vị đo lường • Biến động trong phạm vi -1 và1 – Càng gần -1, mối quan hệ nghịch biến càng cao – Càng gần +1, mối quan hệ đồng biến càng cao – Càng gần 0, mối quan hệ tuyến tính càng yếu r = +.3 r = +1 V.1 Một số ví dụ về các giá trị của r y x y x y x y x y x r = -1 r = -.6 r = 0 V.1 Cách tính hệ số tương quan      ])yy(][)xx([ )yy)(xx( r 22 Các ký hiệu: r = Hệ số tương quan của mẩu n = Cở mẩu x = các giá trị của biến độc lập y = Các giá trị của biến phụ thuộc           ])y()y(n][)x()x(n[ yxxyn r 2222 Cách tính tương đương V.1 Kiểm định mức ý nghĩa của hệ số tương quan • Giả thuyết H0: ρ = 0 (Không có quan hệ tương quan) HA: ρ ≠ 0 (Có quan hệ tương quan) • Công thức tính – (with n – 2 degrees of freedom) 2n r1 r t 2    V.2. Mô hình hồi quy tuyến tính giản đơn • Chỉ có một biến đôc lập: x • Mối quan hệ giửa x và y là quan hệ tuyến tính • Sự thay đổi của y được giả định là do sự thay đổi của x. V.2.1 Các mô hình thể hiện mối quan hệ Quan hệ đồng biến Quan hệ nghịch biến Quan hệ phi tuyến Khong có quan hệ εxββy 10  Bộ phận dự đoán tương quan V.2.2 Hàm tương quan của đám đông Hằng số Hệ số góc Hệ số sai lệch/phần dư Biến phụ thuộc Biến độc lập Sai lệch ngẩu nhiên V.2.2 Hàm tương quan tuyến tính của đám đông (continued) Sai lệch ngẩu nhiên của biến xi y x Giá trị quan sát của y tương ứng với x. Giá trị dự đoán của y ứng với x εxββy 10  xi Slope = β1 Hằng số = β0 εi xbbyˆ 10i  V.2.2 Hàm tương quan ước lượng của mẩu Hằng số ước lượng của hàm tương quan Hệ số góc ước lượng Giá trị ước lượng/dự đoán Biến độc lập Sai lệch ngẩu nhiên có giá trị trung bình bằng 0 Các giả thuyết của hàm tương quan – Các sai lệch ngẩu nhiên hoàn toàn độc lập với nhau về phương diện thống kê. – Các sai lệch ngẩu nhiên có phân phối chuẩn – Phân phối xác suất của các sai lệch ngẩu nhiên có phương sai không đổi – Quan hệ giửa x và y là quan hệ tuyến tính Tiêu chuẩn bình phương bé nhất (Least Squares Criterion) • b0 và b1 được tính toán theo tiêu chuẩn tổng bình phương bé nhất của phần dư (residuals) 2 10 22 x))b(b(y )yˆ(ye     Hệ số của hàm tương quan theo tiêu chuẩn tổng bình phương bé nhất • Công thức tính b1 và b0: Hoặc:         n x x n yx xy b 2 2 1 )(      21 )( ))(( xx yyxx b xbyb 10  và Các đặc trưng của hàm tưoơng quan theo phương pháp bình phương bé nhất • Tổng giá trị của phần dư (residual) phải bằng 0. • Tổng bình phương của phần dư phải cực tiểu • • Đường thể hiện hàm tương quan phải đi qua diểm thể hiện giá trị trung bình của x và y. • Hệ số của hàm tương quan phải ước lượng không chệch cho β0 và β1 0)ˆ(  yy 2)ˆ( yy  This image cannot currently be displayed. V.2.3 Biến thiên giải thích được và không giải thích được • Tổng biến thiên bao gồm hai bộ phận RSS ESS TSS  Tổng biến thiên Tổng biến thiên của sai lệch/phần dư Tổng biến thiên có thể giải thích   2)( yyTSS   2)ˆ( yyESS   2)ˆ( yyRSS (continued) Xi y x yi TSS = (yi - y)2 ESS = (yi - yi )2  RSS = (yi - y)2  __ _ V.2.3 Biến thiên giải thích được và không giải thích được y  y y _y  • Hệ số xác định thể hiện tỷ trọng của tổng biến thiên của biến phụ thuộc có thể giải thích được bởi biến thiên của biến độc lập. • Hệ số xác định được gọi là R bình phương (R2) V.2.3 Hệ số xác định R2 (coefficient of determination) TSS ESS R 2 1R0 2 where R2 = +1 V.2.3 Ví dụ về các tình huống đặc biệt của R2 y x y x R2 = 1 R2 = 1 Quan hệ tuyến tính hoàn hão giửa x và y : 100% tổng biến thiên của y được giải thích bằng biến thiên của x. V.2.3 Ví dụ về các tình huống đặc biệt của R2 y x y x 0 < R2 < 1 Mối quan hệ tuyến tính yếu: Một bộ phận biến thiên của y được giải thích bằng biến thiên của x V2.3 Ví dụ về các tình huống đặc biệt của R2 R2 = 0 Không có mối quan hệ tuyến tính giửa x và y y xR2 = 0 V.2.4 Kiểm định giả thuyết • SE (bi): sai lệc tiêu chuẩn của hệ số bi – Nếu t nhỏ hơn hoặc bằng ttc, chúng ta sẽ chấp nhận giả thuyết H0: ßi = 0 – Nếu t lớn hơn ttc, chúng ta sẽ từ chối giả thuyết H0. Điều nầy có nghĩa là biến xi có tác động đến biến Y 11 1( ) b t SE b   •Dùng phép kiểm định t, với t được tính như sau: •Giả thuyết Ho: ßi = 0 • H1: ßi ≠ 0 Độ lệch chuẩn của hệ số góc của hàm tương quan: SEbi • Độ lệch chuẩn của hệ số góc của hàm tương quan (b1) được tính theo công thức sau: 1 ε ε b 2 2 2 s s SE (x x) ( x) x n       where: = sai lệch tiêu chuẩn của hệ số góc của hàm tương quan = Độ lệch chuẩn của ước lượng 1b SE 2n RSS sε   Độ lệch chuẩn của ước lượng (Sε) • Độ lệch tiêu chuẩn của biến thiên của biến phụ thuộc xoay quanh đường tương quan được ước lượng bởi côg thức 1  kn RSS s Các ký hiệu RSS = Tổng biến thiên của các sai lệch (phần dư) n = Cở mẩu k = Số lượng các biến độc lập (trong trường hợp hàm một biến thì số biến độc lập là 1) V.3 Mô hình của hàm tương quan đa biến εxβxβxββy kk22110   kk22110 xbxbxbbyˆ   Hàm tương quan của đám đông Y-intercept Population slopes Random Error Estimated (or predicted) value of y Estimated slope coefficients Hàm tương quan ước lượng Estimated intercept Hệ số xác định của hàm tương quan đa biến • Tỷ lệ % biến thiên của y có thể giải thích bởi sự biến thiên đồng thời của tất cả các Xi squares of sum Total regression squares of Sum TSS ESS R2  Hệ số xác định đã điều chỉnh (Adjusted R2) • R2 hầu như không bao giờ giảm khi chúng ta thêm biến độc lập mới vào mô hình – Gây khó khăn trong việc so sánh các mô hình trước và sau khi thêm biến mới • Tác đông thực khi thêm biến mới – Chúng ta sẽ giãm bậc tự do khi có biến mới thêm vào. – Việc thêm biến mới có đũ năng lực giải thích để bù đấp cho sự mất mát khi giãm bậc tự do hay không? • Thể hiện % tổng biến thiên của y có thể giải thích đượcbởi tất cả các biến Xi đã được điều chỉnh cho số biến sử dụng (n = Cở mẩu, k = số lượng các biến độc lập) Hệ số xác định đã điều chỉnh (Adjusted R2) (continued)          1kn 1n )R1(1R 22A Hệ số xác định đã điều chỉnh (Adjusted R2) Tác dụng của việc sử dụng R2 đã điều chỉnh • Trừng phạt việc đưa quá nhiều biến không cần thiết vào mô hình • Hữu dụng trong việc so sánh mô hình Thường giá trị của nó nhỏ hơn R2 Kiểm tra độ tin cậy của mô hình tương quan • Dùng kiểm định F: Thể hiện tất cả các biến đôc lập có mối quan hệ tương quan tuyến tính với biến phụ thuộc y hay không? • Giả thuyết : – H0: β1 = β2 = … = βk = 0 (không có quan hệ tuyến tính) – HA: Tối thiểu có βi ≠ 0 (Tối thiểu có một biến có quan hệ tuyến tính với y) Cách xác định giá trị F • Giá trị F tính toán: where F has (numerator) D1 = k and (denominator) D2 = (n – k - 1) degrees of freedom (continued) MRSS MESS kn RSS k ESS F    1 Kiểm định tương quan tuyến tính giửa xi và y (kiểm định t) )(biSE ibi t   •Giả thuyết kiểm định: ßi = 0 •Dùng phép kiểm định t, với t được tính như sau: •Nếu giá trị t nhỏ hơn hoặc bằng P-value thì chúng ta bác bỏ giả thuyết Ho •Nếu giá trị t lớn hơn P-value thì chúng ta chấp nhận Ho

Các file đính kèm theo tài liệu này:

  • pdfppnc4_2683.pdf
Luận văn liên quan