Luận văn Nghiên cứu và ứng dụng một số mô hình học máy trong việc hỗ trợ đánh giá rủi ro tài chính

Theo các kết quả thực nghiệm, ta thấy rằng kết quả dự báo của mô hình tốt hơn so với việc chỉ dùng mô hình mạng nơron. Mô hình mạng nơron chỉ dự báo được tình hình kinh doanh của công ty trong quí sau là tốt hay xấu. Việc kết hợp logic mờ và phân tích kỹ thuật cho phép ta dự báo tình hình biến động về giátrong ngày tới. Từ đó giúp nhà đầu tư đưa ra quyết định mua hay bán chính xác và có cơ sở hơn.

82 trang | Chia sẻ: lylyngoc | Lượt xem: 3058 | Lượt tải: 1

Bạn đang xem trước 20 trang tài liệu Luận văn Nghiên cứu và ứng dụng một số mô hình học máy trong việc hỗ trợ đánh giá rủi ro tài chính, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

(xk0).B(y) (2.6a) Nếu chọn luật Min AB(y)= min {min Ak(xk0), B(y)} (2.6b) 2.4.2.2 Phép tính suy diễn mờ Ở trên ta đã làm quen với các công thức cho mệnh đề hợp thành SISO và cho mệnh đề hợp thành MISO, phục vụ cho việc xác định kết quả của mệnh đề (phép suy diễn) Không bó buộc bởi các công thức đó, một cách tổng quá về phép tính suy diễn, mọi ánh xạ AB :[0,1]2 [0,1], nếu thoả mãn: AB(H, B) H với mọi H, B [0,1] AB(H, B) AC(H, C) với mọi B  C và H [0,1] AB(H1, B) AC(H2, B) với mọi H1  H2 và B [0,1] AB(H, B) = 0 với mọi B [0,1] AB (0,1) = 0 đều có thể sử dụng để làm hàm thuộc mô tả cho phép tính suy diễn. 2.4.3 Phép hợp mờ Ta cần phép hợp mờ của các tập mờ để có thể xác định được giá trị của một tập luật hợp thành gồm có nhiều mệnh đề hợp thành. 33 2.4.3.1 Xác định giá trị của luật hợp thành Xét luật hợp thành gồm n mệnh đề hợp thành: R1: IF A1 = X11 AND … AND Am=X1m THEN B=Y1 hoặc R2: IF A1 = X21 AND … AND Am=X2m THEN B=Y2 hoặc … Rn: IF A1 = Xn1 AND … AND Am=Xmn THEN B=Yn Nếu vector các giá trị rõ đầu vào x0k, k=1,2,..,n là đã biết trước thì theo công thức (2.6a) hoặc (2.6b), mỗi một mệnh đề hợp thành trong luật hợp thành trên sẽ có một giá trị là một tập mờ Ri với hàm thuộc Ri(y)=AiB(y), i=1,2,..,n. Vì luật hợp thành đang xét có n mệnh đề hợp thành nên ta cũng có n tập mờ Ri. Vấn đề đặt ra là từ n tập mờ Ri, i=1,2,..,n đó ta phải xác định được tập mờ kết quả chung R cho toàn bộ luật hợp thành theo phép tính hợp các tập hợp Ri  n i RiR 1  (2.7) Lý do cho việc sử dụng phép hợp là vì các mệnh đề hợp thành trong một luật hợp thành được liên kết với nhau bằng toán tử “hoặc”. Giống như đã làm với phép suy diễn, để thực hiện công thức (2.7) cho n tập mờ Rq, ta bắt đầu với tập kinh điển. Cho hai tập kinh điển A và B, gọi A(y) và B(y) là những hàm thuộc của chúng. Tập AB là kết quả hợp của hai tập trên sẽ có hàm thuộc AB(y) =    0 1 nếu y A bằng một trong hai công thức : AB(y) =max(A(y), B(y) ) (2.8a) AB(y) =min(A(y) + B(y) ) (2.8b) vì chúng tương đương Khi A và B không là tập kinh điển mà là hai tập mờ thì do các hàm thuộc A(y)và B(y) của chúng không còn là hàm hai trị tại 0 và 1 nên tính tương đuơng của (2.8a) và (2.8b) cũng mất. Ta phải quyết định chọn sử dụng công thức nào: Nếu sử dụng công thức (2.8a) thì ta nói phép hợp các tập mờ đã được thực hiện theo luật Max. Nếu sử dụng công thức (2.8b) thì ta nói phép hợp các tập mờ đã được thực hiện theo luật Sum. 34 2.4.3.2 Phép tích hợp các tập mờ Ở trên ta đã giới thiệu hai công thức tính hợp của các tập mờ. Một cách tổng quát thì mọi hàm  :[0,1]2 [0,1], đều có thể được sử dụng để xác định hàm thuộc cho AB nếu chúng thoả mãn : a) (x,y)=(y,x) b) (x,y)(u,v) nếu xu và yv c) (x,(y,z)) = ((x,y,z)) d) (0,x) = x trong đó x,y,u,v,z [0,1] 2.4.4 Giải mờ Sau khi tính xong giá trị luật hợp thành ta thu được kết quả là tập mờ R(y). Kết quả đó chưa thể là một giá trị thích hợp để điểu khiển. Công việc của chúng ta là phải xác định một giá trị rõ y0 từ tập mờ R(y) của nó, đó là việc giải mờ. Giá trị rõ y0 xác định được có thể xem như "phần tử đại diện xứng đáng" cho tập mờ. Căn cứ những quan niệm khác nhau về phần tử đại diện xứng đáng mà ta sẽ có các phương pháp giải mờ khác nhau. Người ta thường sử dụng hai phương pháp chính, đó là: phương pháp điểm cực đại và phương pháp điểm trọng tâm. 2.4.4.1 Phương pháp điểm cực đại Tư tưởng chính của phương pháp này là tìm trong tập mờ có hàm thuộc R(y) một phần tử rõ y0 với độ phụ thuộc lớn nhất( có xác suất thuộc tập mờ lớn nhất trong số những phần tử còn lại), tức là : y0=arg max R(y) (2.9) Tuy nhiên, do việc tìm y0 theo 13 có thể đưa đến vô số nghiệm nên ta cần đưa thêm những yêu cầu cho phép chọn trong số các nghiệm đó một giá trị y0 cụ thể chấp nhận được. Như vậy, việc giải mờ theo phương pháp cực đại sẽ gồm hai bước : Xác định miễn chứa giá trị rõ y0. Giá trị này là giá trị mà tại đó hàm thuộc đạt giá trị cực đại G={y Y | R(y)=H} Xác định y0 có thể chấp nhận đc từ G Trong trường hợp có vô số nghiệm thì để tìm y0 ta có hai cách : 1) Xác định điểm trung bình y0= 2 21 yy  35 Nếu các hàm thuộc đều có dạng tam giác hoặc hình thang thì điểm y0 xác định theo phương pháp này sẽ không quá bị nhạy cảm với sự thay đổi của giá trị rõ đầu vào x0 do đó rất thích hợp với các bài toán có nhiều biên độ nhở ở đầu vào. 2) Xác định điểm cận trái hoặc phải y0=inf(y) yG hoặc y0 = sup(y) yG Theo phương pháp giải mờ này, nếu các hàm thuộc đều có dạng tam giác hoặc hình thang thì điểm y0 sẽ phụ thuộc tuyến tính(trong một lân cận) vào giá trị rõ x0 tại đầu vào Hình 2-5 Giải mờ bằng phương pháp cực đại 2.4.4.2 Phương pháp điểm trọng tâm Phương pháp điểm trọng tâm sẽ cho ra kết quả y0 là hoành độ của điểm trọng tâm miền được bao bởi trục hoành và đường R(y) y0=   S R S R dyy dyyy )( )(   (2.10) Với S=supR(y)={y|R(y)0} là miền xác định của tập mờ R Hình 2-6 Giải mờ bằng phương pháp điểm trọng tâm R(y) R(y) y0 y0 y0 y1 y2 H y R(y) y R(y) G H 36 Đây là phương pháp hay được sử dụng nhất. Nó cho phép ta xác định giá trị y0 với sự tham gia của tất cả các tập mờ đầu ra của luật điều khiển một cách bình đẳng và chính xác. Tuy nhiên phương pháp này lại không để ý được tới toạ độ thoản mãn của mệnh đề điều khiển cũng như thời gian tính lâu. Ngoài ra nó còn có nhược điểm là giảtị yo xác định lại có độ thuộc nhỏ nhất, thậm chí bằng 0. 2.4.5 Hệ suy diễn mờ Hình 2-7 Hệ suy diễn mờ Hệ suy diễn mờ còn được gọi là hệ dựa trên tập luật mờ, mô hình mờ. Về căn bản một hệ suy diễn mờ được hợp thành từ năm khối được mô tả như hình trên. 1) Một bộ luật cơ sở bao gồm một số các luật dạng if-then 2) Cơ sở dữ liệu dùng để định nghĩa các hàm thuộc của các tập mờ được sử dụng trong các luật mờ 3) Khối tạo quyết định thực hiện các thao tác suy diễn dựa trên các luật 4) Bộ mờ hoá được dùng để chuyển các giá trị đầu vào sang các mức hợp với với giá trị không rõ của ngôn ngữ 5) Bộ giải mờ chuyển các kết quả mờ của việc suy diễn sang các giá trị đầu ra rõ Thông thường luật cơ sỏ và cơ sở dữ liệu được kết hợp và gọi chung là cơ sở tri thức. Các bước của suy diễn được thực hiện bởi hệ suy diễn mờ:  So sánh các biến đầu vào với các hàm thuộc dựa vào phần tiên đề để xác định các giá trị thuộc của từng nhãn trong ngôn ngữ tự nhiên. (Bước này thường được gọi là mờ hoá)  Kết hợp các giá trị thuộc để có được trọng lượng của từng luật Khối tạo quyết(3) Cơ sở tri thức CSDL(2) Luật cơ sở(1) Giải mờ(5) Mờ hoá(4) Đầu vào Đầu ra (rõ) (rõ) (mờ) (mờ) 37  Sinh các kết quả thoả mãn (cả mờ và rõ) cho từng luật dựa vào trọng lượng.  Kết hợp các kết quả thoả mãn để có được đầu ra rõ (bước này được gọi là mờ hoá). Kết luận Chương này đã giới thiệu tổng quan về khai phá dữ liệu, phân lớp và các phương pháp phân lớp hay dùng hiện nay. Chúng tôi đã giới thiệu khá chi tiết về mạng nơron và hệ mờ. Đây chính là các kiến thức chính để xây dựng mô hình ở các chương sau. 38 Chương 3 - MÔ HÌNH PHÂN TÍCH RỦI RO TÀI CHÍNH 2.1 Sơ lược về mô hình Chúng tôi đã xây dựng mô hình dựa trên việc kết hợp phân lớp bằng mạng nơron với logic mờ và phân tích kỹ thuật. Sự kết hợp này sẽ cho ta một hệ hỗ trợ quyết định với kết quả cuối cùng là hành động mua, bán, hoặc giữ lại một loại cổ phiếu nào đó. Sơ đồ tóm tắt các thành phần chính của mô hình của chúng tôi được trình bày trong hình 3-1 dưới đây. Hình 3-1 Mô hình đề xuất Dữ liệu Luật cơ sở Hành động mua bán Lựa chọn đặc trưng Phân lớp dữ liệu Biểu đồ + Phân tích kỹ thuật Hệ hỗ trợ quyết định 39 Mô hình đề xuất gồm hai mô đun: - Phân lớp dữ liệu nhằm đánh giá và dự báo rủi ro trong kinh doanh. - Xây dựng hệ hỗ trợ quyết định nhằm đánh giá và hỗ trợ người dùng. 2.2 Phân lớp dữ liệu - Thiết kế mạng nơron Công việc của chúng ta không đơn thuần chỉ là đánh giá và dự báo rủi ro của một công ty duy nhất mà là đánh giá rủi ro một tập hợp các công ty. Do đó, trước hết chúng ta thực hiện công việc phân lớp các công ty và dự báo rủi ro trong thời gian tiếp theo. Việc thiết kế một mạng nơron dự báo thành công dữ liệu tài chính là một công việc phức tạp bao gồm các bước sau: - Chọn biến - Thu thập dữ liệu - Tiền xử lý dữ liệu - Phân hoạch dữ liệu - Thiết kế mạng nơron - Huấn luyện mạng - Thực hiện phân tích dữ liệu 2.2.1 Chọn loại dữ liệu đầu vào Dữ liệu tài chính có rất nhiều biến, trong phạm vi dự báo đánh giá rủi ro dựa trên lĩnh vực kinh doanh chứng khoán chúng ta chỉ chọn một số biến sau: - Ticker: mã công ty - Date: Ngày giao dịch - Open: giá mở cửa - High: giá cao trong ngày - Close: giá đóng cửa - Low: giá thấp nhất trong ngày. Ngoài ra, còn các biến đặc trưng trong báo cáo tài chính làm dữ liệu đầu vào và một số thông tin liên quan tới công ty như tên công ty, công ty thuộc ngành nào… 2.2.2 Thu thập dữ liệu Thu thập dữ liệu: dữ liệu tài chính gồm các báo cáo tài chính như: bảng cân đối kế toán, báo cáo kết quả kinh doanh, báo cáo lưu chuyển tiền tệ, ngoài ra còn các giao dịch. Các dữ liệu này được công bố trên các sàn cũng như các trang giao dịch chứng khoán. Các báo cáo tài chính có số liệu đã được các tổ chức kiểm toán kiểm tra. Trên 40 thế giới dữ liệu giao dịch cũng như báo cáo tài chính đã được chuẩn hoá, tuy nhiên ở việt nam dữ liệu này chưa được chuẩn hoá. Do đó quá trình thu thập dữ liệu là tương đối tốn kém thời gian. 2.2.3 Tiền xử lý dữ liệu Trên thực tế, dữ liệu tài chính trên các thị trường chứng khoán là không minh bạch. Không minh bạch ở đây có nghĩa: - Không đầy đủ: thiếu giá trị thuộc tính, thiếu thuộc tính cần quan tâm … - Nhiễu: chứa lỗi hoặc thông tin ngoài luồng - Mâu thuẫn: chứa các mâu thuẫn giữa mã và tên Do đó, chúng ta cần chuẩn hoá dữ liệu trước khi khai thác và sử dụng dữ liệu này: Dữ liệu tài chính được đưa vào cơ sở dữ liệu dưới dạng các bảng đã được chuẩn hoá có cấu trúc được trình bày chi tiết trong phụ lục C Trong đó, bảng Quotes chứa dữ liệu giao dịch trong từng này, luận văn đã thu thập được dữ liệu giao dịch từ năm 2002 tới thời điểm hiện tại Bảng Balances, Cashflows, Incomes chứ dữ liệu báo cáo tài chính theo quý hoặc theo năm. Cụ thể: Bảng cân đối kế toán (Balances): cho biết nguồn vốn, tiền, tài sản cố định của doanh nghiệp. Bảng báo cáo kết quả hoạt động kinh doanh (Incomes): cho biết doanh thu và chi phí trong hoạt động kinh doanh, bán hàng, quản lý doanh nghiệp… Bảng báo cáo lưu chuyển tiền tệ (Cashflows): liên qua tới thông tin luồng tiền lưu chuyển như thế nào. Bảng Công ty (Companies): Mô tả các thông tin về công ty như mã niêm yết trên sàn chứng khoán, công ty thuộc ngành nào. Hình 3-2 Mồ hình thực thể liên kết 41 2.2.4 Phân hoạch dữ liệu Sau khi chuẩn hoá dữ liệu, chúng ta chia dữ liệu thành ba tập: tập huấn luyện (train set), tập validation và tập kiểm tra (test dataset). Tập huấn luyện là tập lớn nhất được sử dụng bởi mô hình để học các mẫu trong tập dữ liệu. Tập validation có kích cỡ chiếm khoảng 10%-30% của tập huấn luyện, nó được dùng để ước lượng khả năng khái quát hoá của một mạng theo giả thiết được huấn luyện. Việc kiểm tra cuối cùng được thực hiện trên tập test. Mô hình phân lớp dữ liệu huấn luyện thành hai lớp: tốt và xấu. Lớp tốt tương ứng với các giao dịch trong khoảng thời gian nhất định có hiệu suất tốt Hiệu suất được tính theo công thức Perfomance=(FurtureQuote-PresentQuote)/PresentQuote (3.1) Trong đó: PresentQuote là giá đóng cửa hiện tại FurtureQuote là giá đóng cửa trong tương lai Hiệu suất là “Tốt” nếu Performance >0 Hiệu suất là “Xấu” nếu Performance <0 Sau đó dữ liệu được phân hoạch cho các tập train và tập test 2.2.5 Thiết kế và huấn luyện mạng Nơron Số lượng lớp ẩn: mạng đa lớp được chọn sử dụng 2 lớp Việc huấn luyện dữ liệu có nhiều phương pháp như đã giới thiệu ở chương 2. Ở đây chúng ta sử dụng kỹ thuật mạng nơron và thuật toán back-progapation được chọn để sử dụng bởi nó có nhiều ưu điểm. Mạng Nơron được sử dụng là mạng đa lớp gồm 2 perceptron. Các tham số của mạng gồm: tốc độ học, số lượng nút ẩn, số vòng lặp tối đa. Kết quả huấn luyện sẽ cho ra các độ chính xác: dự báo macro, micro, F1… Sau khi chọn được kết quả huấn luyện tốt nhất, chúng ta chuyển sang phân tích dữ liệu mẫu để dự báo 2.2.6 Phân tích dữ liệu Dữ liệu cần phân tích là mẫu của các công ty chưa được gán nhãn trong quí tới. Dữ liệu này có thể là dữ liệu theo quí hoặc dữ liệu theo năm. Kết thúc phân tích dữ liệu các mẫu sẽ được gán nhãn phân thành chia thành hai lớp: xấu và tốt. 42 Ngoài ra, chúng ta còn lấy thêm thông tin là hạng (rank) của từng công ty nhằm phục vụ cho việc xây dựng tập luật cơ sở của hệ hỗ trợ quyết định trong mục sau. 2.3 Xây dựng tập luật từ phân tích kỹ thuật Phân tích kỹ thuật tìm kiếm các mẫu, các xu thế và các hệ số khác trong các chuỗi giá, từ đó có thể dự đoán hiệu quả của trong tương lai và sau đó đưa ra quyết định mua hay bán dựa trên các hệ số này. Các hệ số này thường có được từ các dữ liệu trong quá khứ theo một lý thuyết đặc biệt dựa trên kinh nghiệm. Mặc dù vẫn có những tranh cãi về hiệu quả của phân tích kỹ thuật, nhưng nhiều nghiên cứu đã chỉ ra rằng phân tích kỹ thuật có khả năng dự báo tương đối mạnh, hơn hẳn các chiến lược mua- bán và các phương pháp thống kê. Mục đích của mục này là từ những kiến thức của các chuyên gia trong lĩnh vực tài chính xây dựng nên một hệ thống thương mại có hỗ trợ quyết định. Hệ thống dùng phân tích kỹ thuật như là đầu vào. Bốn chỉ số kỹ thuật được sử dụng cho việc dự báo là: - Commodity Channel Index (CCI), - Relative Strength Index (RSI), - Moving Average Convergence and Divergence (MACD) - Bollinger Band. Below. 2.3.1 Phân kỳ và hội tụ của đường trung bình di động Công cụ chỉ báo MACD do Gernald Appel[10] phát triển, nó là một bộ tạo dao động được cải tiến dựa trên cách tiếp cận sự trung bình di chuyển đơn giản. Đường MACD được tính bằng cách lấy hai đường trung bình di chuyển mũ của giá đóng cửa Đường MACD tiêu chuẩn hình thành từ trung bình di động 12 ngày và trung bình di động 26 ngày.Thông thường, đường MACD 9 ngày được sử dụng như đường so sánh. Giao của đường MACD với đường so sánh thường dùng để chỉ ra tín hiệu mua-bán. Các luật cho MACD như sau: 1. IF MACD ở trên đường tín hiệu THEN BUY. 2. IF MACD ở dưới đường tín hiệu THEN SELL. Tuy nhiên giá trị của đường MACD cũng dao động lên trên vào xuống dưới đường zero. Đó là nơi nó bắt đầu tương đồng với một dao động. Tình trạng mua quá mức được thể hiện khi đường này nằm trên đường zero và ngược lại nếu nó nằm dưới đường zero thì đó là tình trạng bán quá mức. Ta có thể có luật sau: 1. IF MACD trên 0 THEN OVERBUY. 2. IF MACD dưới 0 THEN OVERSELL. 43 2.3.2 Chỉ số kênh giá hàng hoá - The Commodity Channel Index (CCI) Chỉ số kênh giá hàng hoá được xây dựng bởi Donal R.Lamber[10] bằng cách so sánh giá cả hiện tại với trung bình di động trên một khoảng thời gian được chọn- thường là 200 ngày. Sau đó chuẩn hoá giá trị dao động bằng cách sử dụng một số chia dựa trên độ lệch trung bình. Kết quả là, chỉ số CCI biến động trong một giới hạn không đổi từ cận dưới -100 tới cận trên +100 (thỉnh thoảng có thể là -200 và +200). Các nhà phân tích kỹ thuật sử dụng chỉ số CCI như là dao động mua/bán quá mức (oversold/overbought). Khi CCI vượt trên +100 thì được xem là mua quá mức, tương tự khi CCI dưới -100 thì được xem là bán quá mức. CCI được tính bằng cách sử dụng giá tiêu biểu (typical price-TP),đó là giá trị trung bình của các giá cao, thấp và đóng trên một giá ngày. Sau đó tính trung bình di động của giá tiêu biểu cho khoảng thời gian N (MATP). Tiếp theo, trung bình sai (MD) được tính bằng cách lấy trung bình giữa giá tiêu biểu trong khoảng thời gian N- ngày và giá tiêu biểu khoảng thời gian mới nhất đã được làm trơn. Cuối cùng CCI được tính bằng công thức: [8] MDc MATPTPCCI    3.2 Trong đó hằng số c thường được chọn là 0.015. Các luật phân lớp thị trường với chỉ số CCI như sau: 1. IF CCI tăng trên 100 THEN BULLISH. 2. IF CCI giảm dưới 100 THEN BEARISH. 3. IF CCI tăng trên -100 THEN BULLISH 4. IF CCI giảm dưới -100 THEN BEARISH. 2.3.3 Chỉ số cường độ tương đối - Relative Strength Index (RSI) Chỉ số cường độ tương đối được phát triển bởi J. Welles Wilder, cũng được dùng như dao động mua/bán quá mức. Công thức tính như sau: [8] '1 100 RS RSRSI   3.3 trong đó RS trung bình giá đóng cửa tăng và trung bình giá đóng cửa giảm trong khoảng thời gian N. Công thức tính RSI cho ta một khoảng giới hạn từ 0 đến 100, nó giải quyết vấn đề của những dịch chuyển bất thường và giải quyết nhu cầu về một biên độ giới hạn trên và dưới không đổi. RSI biểu diễn mặt chia đứng từ 0 tới 100. Những dịch chuyển ở trên mức 70 được xem là mua quá mức trong khi tình trạng bán quá mức là những dịch chuyển dưới 30. Các luật phân lớp cho chỉ số này như sau: 44 1. IF RSI tăng trên 70 THEN BULLISH. 2. IF RSI giảm dưới 70 THEN BEARISH. 3. IF RSI tăng trên 50 THEN BULLISH. 4. IF RSI giảm dưới 50 THEN BEARISH. 5. IF RSI tăng trên 30 THEN BULLISH. 6. IF RSI giảm dưới 30 THEN BEARISH. 2.3.4 Dải băng Bollinger Dải băng Bollinger so sánh các mức giá không ổn định và tương đối qua một khoảng thời gian. Tính không ổn định được đo như dịch chuyển chuẩn của giá chứng khoán. Ba tín hiệu của chỉ tiêu kỹ thuật này tạo nên một dải trùm lên các chuỗi thời gian. Đường giữa của dải Bollinger được tính bằng việc lấy đường trung bình trượt (MA) của chuỗi giá. Các mức giá được xem là mua quá mức khi chúng đụng lên dải băng trên và được xem là bán quá mức nếu chúng đụng dải băng dưới. Các luật phân lớp thị trường sử dụng dải Bollinger Bands như sau. 1. IF Price tăng trên đường Bollinger bên trên THEN BULLISH. 2. IF Price giảm xuống dưới đường Bollinger bên trên THEN BEARISH. 3. IF Price tăng lên trên đường Bollinger giữa THEN BULLISH. 4. IF Price giảm xuống dưới đường Bollinger giữa THEN BEARISH. 5. IF Price tăng lên trên đường Bollinger dưới THEN BULLISH. 6. IF Price giảm xuống dưới đường Bollinger dưới THEN BEARISH. 2.4 Kết hợp phân tích kỹ thuật với logic mờ và mạng nơron Hệ thống dựa trên các luật mờ được xây dựng ở mục trên. Nhìn chung các luật với ngưỡng cứng được thay bởi các luật với ngưỡng mờ. Hệ thống suy diễn mờ Mamdani sẽ thực hiện việc này. Đầu vào của hệ thống là các chỉ số kỹ thuật và rank của công ty, đầu ra của hệ thống sẽ là một tín hiệu mua hoặc bán và có thể là giữ. Hệ thống gồm một số mô đun được minh hoạ trong hình. 45 Hình 3-3 Hệ suy diễn mờ 2.4.1 Mô đun chỉ số kỹ thuật Đầu vào của hệ thống là một chuỗi giá chứng khoán với tần suất tuần. Dữ liệu này được đưa vào mô đun chỉ số kỹ thuật, sau đó tính toán các chỉ số như MACD, RSI, CCI, BB cho các chuỗi dữ liệu này. Các kiến thức chuyên gia sau đây liên quan tới các chỉ số kỹ thuật, chỉ số MACD là chỉ số quyết định cho việc mua và bán. Chỉ số RSI và CCI sử dụng để xác định mức độ mua bán, chẳng hạn mua mạnh, bán mạnh, hay đơn thuần chỉ là mua bán bình thường. Ngoài ra, chúng ta còn sử dụng hạng của công ty để kết quả được chính xác hơn. Các tham số cho các chỉ số kỹ thuật được xác định theo nguyên tắc mặc định trong phân tích kỹ thuật. Ví dụ với chỉ số MACD, 12 và 26 ngày được sử dụng như là di chuyển trung bình ngắn hạn và dài hạn. Chỉ số RSI sử dụng khoảng thời gian là 20, tương tự với chỉ số CCI và có thêm c=0.015 Mô đun chỉ tiêu kỹ thuật Đầu vào FIS mới Các chỉ số kỹ thuật Giá chứng khoán Hệ suy diễn mờ Tín hiệu Mua/Bán Luật Hạng (Rank) Mô đun hội tụ 46 2.4.2 Mô đun hội tụ Mô đun này có nhiệm vụ chuyển các chỉ số kỹ thuật và hạng của công ty thành các biến đầu vào của hệ suy diễn mờ. Ví dụ sự khác biệt của tín hiệu MACD với tín hiệu so sánh được tính toán để sử dụng như là đầu vào của hệ suy diễn mờ. Các biến đầu vào cho hệ thống suy diễn mờ được tổng kết như sau: Bảng 3-1 Miền giá trị của các tham số Biến Ý nghĩa Miền giá trị RANK Hạng của công ty [-1,1] MACD Chỉ số MACD [-2,2] RSI Chỉ số RSI tại thời điểm t [0,100] RSI1 Chỉ số RSI tại thời điểm t-1 [0,100] CCI Chỉ số CCI tại thời điểm t [-200,200] CCI1 Chỉ số CCI tại thời điểm t-1 [-200,200] BB Chỉ số BB tại thời điểm t [0,100] BB1 Chỉ số BB tại thời điểm t-1 [0,100] 2.4.3 Mô đun hệ suy diễn mờ (FIS) Hệ suy diễn mờ lấy các dữ liệu đầu ra của mô đun hội tụ và sinh các tín hiệu mua bán dựa trên cá luật được định nghĩa bởi các luật cơ sở. Hệ thống là hệ Mamdani mờ. Các hàm membership Gaussian cũng được sử dụng ở cả dữ liệu đầu vào và dữ liệu đầu ra. Hai hàm thuộc được định nghĩa cho từng đầu vào. Đầu ra của hệ thống là một tín hiệu trong miền được chuẩn hoá, trên đó 4 tập mờ BÁN MẠNH (STRONG SELL), BÁN (SELL), MUA (BUY),MUA MẠNH (STRONG BUY) được định nghĩa. Việc phân hoạch miền của đầu ra được mô tả trong hình. Tín hiệu mua nhiều được sinh khi đầu ra gần 1.0 và tín hiệu bán ra nhiều được sinh khi đầu ra gần 0. Hệ thống sử dụng thuyết min-max. Toán tử min được sử dụng cho việc kết hợp các luật. Để phân lớp đầu ta thành một trong bốn điều kiện, đầu ra với độ thuộc lớn nhất được chọn. Nếu có nhiều giá trị đầu ra với cùng độ thuộc cực đại, giá trị đầu ra lớn nhất được sử dụng như là đầu ra được giải mờ. 47 Hình 3-4 Miền giá trị của đầu ra 2.4.4 Luật cơ sở Luật cơ sở của hệ suy diễn mờ được khởi tạo theo những chỉ dẫn phân tích kỹ thuật cho các chỉ số được sử dụng trong mô hình. Trong đó MACD được sử dụng trong tất cả các luật. Sau đây là các luật mờ: r1 = if (MACD is low) and (RSI is high) and (RSI1 is veryhigh) then trades is sell r2 = if (MACD is low) and (RSI is low) and (RSI1 is high) then trades is strong_sell r3 = if (MACD is high) and (RSI is low) and (RSI1 is low) then trades is strong_buy r4 = if (MACD is high) and (RSI is verylow) and (RSI1 is verylow) then trades is sell r5 = if (MACD is low) and (CCI is high) and (CCI1 is veryhigh) then trades is strong_sell r6 = if (MACD is high) and (CCI is veryhigh) and (CCI1 is high) then trades is buy r7 = if (MACD is low) and (CCI is verylow) and (CCI1 is low) then trades is sell r8 = if (MACD is high) and (CCI is low) and (CCI1 is verylow) then trades is strong_buy 48 Ngoài ra chúng ta còn bổ sung thêm 4 tập luật dựa vào sự kết hợp mạng Nơron như sau: //NN rules r9 = if (RANK is verylow)and (MACD is low) then trades is strong_sell r10 = if (RANK is low)and(MACD is low) then trades is sell r11 = if (RANK is high)and (MACD is high) then trades is buy r12 = if (RANK is veryhigh)and (MACD is high) then trades is strong_buy Kết luận Chương này đã đưa ra mô hình phân tích rủi ro tài chính. Các bước xây dựng mô hình được giới thiệu một cách khá chi tiết. Kết quả cuối cùng là một mô hình kết hợp giữa mạng nơron, phân tích kỹ thuật và logic mờ. Đây là mô hình đuợc dùng để xây dựng chương trình đánh giá rủi ro tài chính và đưa ra hỗ trợ quyết định trong đầu tư và kinh doanh chứng khoán. 49 Chương 4 - THỰC NGHIỆM VÀ ĐÁNH GIÁ Chương này thảo luận về các kết quả của các mô phỏng thực nghiệm. Mục 4.1 giới thiệu về dữ liệu được sử dụng trong thực nghiệm. Tiếp theo chúng tôi giới thiệu về quá trình thực nghiệm. Sau đó kết quả được trình bày và phân tích ở phần cuối cùng của chương. 4.1 Dữ liệu dùng trong thực nghiệm Nghiên cứu sử dụng dữ liệu tài chính trong quá khứ của các công ty được niêm yết trên sàn chứng khoán và được công khai trên mạng Internet. Để đảm bảo sự chính xác của mô hình, chúng tôi đã lấy dữ liệu của cả các công ty trong nước và ngoài nước. Dữ liệu tài chính trong nước được thu thập ở các trang chứng khoán như: trung tâm giao dịch chứng khoán Hà Nội (www.hastc.org.vn), Sở giao dịch chứng khoán HCM (www.hsx.com), và một số trang khác như: www.vietstock.com, www.cafef.vn. Còn dữ liệu của các công ty nước ngoài được thu thập ở sàn chứng khoán NewYork (NYSE), sàn NASDAQ, và được tải ở máy chủ dữ liệu tài chính của Yahoo ( Dữ liệu tài chính được sử dụng bao gồm các báo cáo tài chính như: bảng cân đối kế toán, báo cáo kết quả kinh doanh, báo cáo lưu chuyển tiền tệ, ngoài ra còn có giá chứng khoán hàng ngày, giá mở cửa (OPEN), giá thấp( LOW), giá cao nhất (HIGH), giá đóng cửa (CLOSE). Với dữ liệu tài chính trong nước, chúng tôi đã thu thập được của hơn 30 công ty trong khoảng thời gian từ năm 2001 tới hiện tại. Dữ liệu trước quí 4 năm 2008 được dùng cho tập huấn luyện và kiểm tra. Dữ liệu trong quí 4 được dùng làm dữ liệu phân tích và dự báo. Ngoài ra chúng tôi còn thu nhập được dữ liệu tài chính của 30 công ty nước ngoài như Microsoft, IBM, Intel…. Chương trình mô phỏng mô hình cho phép chia tập dữ liệu huấn luyện theo các lựa chọn sau: Về dữ liệu, có thể chọn: - Dữ liệu theo quí - Dữ liệu theo năm Hoặc chọn cả hai dữ liệu. Để đảm bảo tính chính xác cao, chúng ta chỉ chọn sử dụng các dữ liệu theo quí. Về cách chia tập huấn luyện, có thể chọn: - Không chia tập test: Có nghĩa là kết quả huấn luyện chỉ dựa vào tập huấn luyện mà không phụ thuộc vào tập test - Chia 80% cho tập huấn luyện và 20% cho tập kiểm tra 50 - Chia theo ngày: các dữ liệu trước ngày nào đó sẽ làm tập huấn luyện còn lại là tập kiểm tra - Chia theo ngành: các công ty theo ngành nào đó mới được chọn làm tập huấn luyện - Chia theo công ty: dữ liệu của một công ty nào đó được dùng làm tập huấn luyện. 4.2 Thiết lập tham số cho thực nghiệm Việc chọn được bộ tham số tối ưu cho mô hình là rất quan trọng. Nó ảnh hưởng rất lớn tới việc đánh giá và dự báo rủi ro. Trong phần này chúng tôi trình bày cách thiết lập và sử dụng các tham số cho mô hình đánh giá rủi ro tài chính. 4.2.1 Các tham số của mạng nơron Như đã giới thiệu ở chương 3, các tham số của mạng nơron như sau: Kiến trúc mạng: Chúng tôi sử dụng một mạng nơron đơn giản. Đó là mạng perceptron hai lớp. Lớp đầu tiên gồm một số lượng nút có thể sửa đổi. Lớp thứ hai chỉ gồm duy nhất một nút. Các nút ở lớp đầu tiên chính là các số liệu đặc trưng trong các báo cáo tài chính. Đầu ra là hạng của công ty. Hàm kích hoạt được sử dụng là hàm sigmoid trong khoảng [-1,1] Thuật toán dùng để huấn luyện là thuật toán lan truyền ngược (backpropagation). Các tham số : Việc khởi tạo trọng số mạng có thể là : - Khởi tạo ngẫu nhiên - Khởi tạo tại giá trị bằng 0 Số lượng nút ẩn: chúng ta sử dùng số lượng nút ẩn là tuỳ ý, tuy nhiên số lượng nút ẩn càng lớn thì tốc độ huấn luyện càng lâu. Ở đây chúng ta sử dụng số lượng nút ẩn >10. Tốc độ học (learning rate): có miền giá trị lớn hơn 0 và nhỏ hơn 1, dùng xác định tốc độ học. Số vòng lặp tối đa: dùng để kết thúc quá trình học. Sau đây là một số thực nghiệm trong việc chọn tham số và kết quả huấn luyện: Với việc huấn luyện với dữ liệu theo quí và dùng tất cả dữ liệu cho tập huấn luyện ta có kết quả huấn luyện: 51 Bảng 4-1 Thiết lập tham số mạng STT Thiết lập Kết quả huấn luyện Số mẫu Số nhóm Khởi tạo Số nút ẩn Tốc độ Số vòng lặp Micro Micro Recall Micro F1 Macro Macro Recall Macro F1 1 116 2 0 10 0.01 1000 0.647 0.647 0.418 0.670 0.784 0.525 2 116 2 0 10 0.01 1000 0.664 0.664 0.441 0.644 0.725 0.467 3 116 2 0 10 0.01 1000 0.664 0.664 0.441 0.676 0.696 0.471 4 116 2 0 10 0.01 1000 0.698 0.698 0.488 0.711 0.735 0.522 5 116 2 0 20 0.01 1000 0.784 0.784 0.615 0.788 0.788 0.620 6 116 2 0 100 0.01 1000 0.647 0.647 0.418 0.623 0.744 0.463 7 116 2 0 100 0.05 1000 0.672 0.672 0.452 0.691 0.760 0.525 8 116 2 0 10 0.001 1000 0.670 0.690 0.476 0.705 0.746 0.525 9 116 2 0 10 0.01 2000 0.768 0.768 0.590 0.770 0.770 0.591 10 116 2 0 100 0.01 2000 0.595 0.595 0.354 0.568 0.671 0.381 Chúng ta thấy rằng với các thiết lập như trên thì độ chính xác dự báo là tương đối cao 4.2.2 Các tham số của hệ hỗ trợ quyết định Các tham số đầu vào gồm có: Hạng (Rank) của công ty: đây chính là giá trị thu được trong quá trình huấn luyện mạng nơron. Giá trị này là một số thực trong khoảng [-1,1] Chỉ số MACD: được tính bởi công thức MACD=SUB( EMA(close;12) ; EMA(close;26) ) Trong đó: EMA(close;12) là đường trung bình trượt mũ theo giá đóng cửa trong khoảng thời gian 12 ngày. 52 EMA(close;26) là đường trung bình trượt mũ theo giá đóng cửa trong khoảng thời gian 26 ngày. Chỉ số RSI: được tính theo RSI(close; 20) với tham số ngày là 20 Chỉ số CCI: được tính theo CCI(close; high; low; 20) với tham số ngày là 20 Với các tham số được xác định như trên, thực nghiệm việc dự báo việc mua bán chỉ sử dụng phân tích kỹ thuật và logic mờ như sau: Bảng 4-2 Các chỉ số kỹ thuật và luật mờ tương ứng STT Chỉ số MACD Chỉ số RSI Chỉ số CCI Luật Fuzzy 1 -0.9 39 -103 R7 2 -1 35 -34 R2 3 0.2 66 182 R6 4 -1 38 -112 R7 5 1.3 53 25 R3 6 -0.7 43 -124 R7 7 -0.8 44 -109 R8 8 1.5 59 101 R4 9 -0.2 55 120 R1 10 -0.3 50 113 R5 Ở lần thử thứ nhất: - Chỉ số MACD = -0.2 là thấp bởi nhỏ hơn mức 0, có nghĩa là thị trường đang bán quá mức (Over sell) - Chỉ số RSI=39 lớn hơn 30 và nhỏ 50, có nghĩa thị trường không ổn định - Chỉ số CCI=-103 nhỏ hơn -100, có nghĩa thị trường đang xấu Với các chỉ số như trên, mô hình đề xuất ở chương 3 cho luật mờ R7 Tương tự, với các thực nghiệm 2, 3… ta có các luật mờ như ở bảng 4-2 Dự báo việc mua bán sử dụng phân tích kỹ thuật, logic mờ kết hợp với hạng của công ty sau khi đã dự báo dài hạn. 53 Bảng 4-3 Kết hợp Hạng, các chỉ số và luật mờ tương ứng STT Hạng công ty Chỉ số MACD Chỉ số RSI Chỉ số CCI Luật Fuzzy 1 -0.002 0.69 66 182 R11 2 -0.382 2.35 70 165 R11 3 -0.0015 -0.51 40 -117 R10 4 -0.002 -0.08 47 -58 R9 5 -0.0093 0.48 60 114 R11 6 0.0029 -.051 40 -117 R11 7 0.00021 -0.08 47 187 R9 8 0.00175 2.26 64 168 R12 9 0.0025 2.12 56 174 R12 10 0.0029 0.35 69 110 R11 Ở lần thử thứ nhất: Hạng của công ty = -0.002 là thấp, có nghĩa quí tới công ty có thể phát triển không tốt Chỉ số MACD = 0.69 là cao, các chỉ số RSI = 66 và CCI=182 là tương đối cao, có nghĩa là trong thời điểm hiện tại công ty đang khá tốt. Với các chỉ số như trên, mô hình cho ta luật R11 Tương tự cho lần thử thứ hai. Ở lần thử thứ 3: Hạng của công ty=0.0015 cũng có nghĩa là quí tới công ty có thể phát triển không tốt. Các chỉ số MACD=-0.51, RSI=40, CCI=-117 là tương đối thấp. Áp dụng mô hình ta có luật R10. Từ các tham số và thực nghiệm trên các tập luật, chúng ta chọn miền giới hạn đầu ra cho quyết định MUA/BÁN như sau: - Nếu giá trị đầu ra trong khoảng [0, 0.25] thì quyết định sẽ là: BÁN NHIỀU - Nếu giá trị đầu ra trong khoảng [0.25 , 0.5] thì quyết định sẽ là BÁN - Nếu giá trị đầu ra trong khoảng [0.5, 0.75] thì quyết định sẽ là MUA - Nếu giá trị đầu ra trong khoảng [0.75, 1] thì quyết định sẽ là MUA NHIỀU Các trường hợp còn lại sẽ là: GIỮ LẠI 54 4.3 Kết quả mẫu 4.3.1 Kết quả việc đánh giá và dự báo trong tương lai Áp dụng mô hình với 76 mẫu dữ liệu của 20 công ty: STT Mã Công Ty Thời gian Ngày Nhãn 1 ABT Q 31/03/2008 Xấu 2 ACL Q 01/10/2007 Xấu 3 ACL Q 31/03/2008 Xấu 4 AGF Q 13/7/2007 Xấu 5 AGF Q 1/10/2007 Xấu 6 AGF Q 2/01/2008 Xấu 7 AGF Q 31/03/2008 Xấu 8 AGF Q 07/07/2008 Xấu 9 ALP Q 2/01/2008 Xấu 10 ALT Q 31/03/2008 Tốt 11 ASP Q 31/03/2008 Xấu 12 ASP Q 7/7/2008 Xấu 13 BBC Q 2/10/2006 Tốt 14 BBC Q 31/03/2008 Xấu 15 BBT Q 3/1/2006 Tốt … …. …. …. …. 73 VNM Q 31/3/2008 Tốt 74 VNM Q 7/7/2008 Xấu 75 VPL Q 31/3/2008 Xấu 76 VPL Q 7/7/2008 Tốt Bảng 4-4 Mẫu dữ liệu huấn luyện 55 Ở mẫu số 1 của công ty ABT dựa vào báo cáo tài chính quí một năm 2008 và giao dịch trên thị trường chứng khoán vào thời điểm ngày 31/03/2008 chúng tôi xác định được nhãn của công ty là: Xấu. Ở mẫu số 2 của công ty ACL trong quí 3 năm 2007 thì tình hình kinh doanh của công ty cũng là xấu. Với mẫu số 14 của công ty ALT trong quí 3 năm 2008 thì công ty kinh doanh tương đối tốt và có nhãn là Tốt. Với các số liệu trong năm 2008 chúng tôi thấy phần lớn các công ty đều hoạt động không tốt do ảnh hưởng của suy thoái kinh tế. Chứng tỏ công thức xác định tình hình hoạt động kinh doanh tương đối chính xác. Kết quả huấn luyện được thể hiện ở hình 4-1: Hình 4-1 Kết quả huấn luyện và kiểm tra Mặc dù số lượng mẫu không nhiều và chưa phản ánh chính xác tình hình hoạt động của các công ty nhưng kết quả học tương đối cao. Số dự đoán đúng trên tổng các trường hợp tương ứng với độ chính xác Micro: 0.63 Tương tự, độ chính xác macro bằng 0.649 Sau khi học với kết quả thể hiện qua các độ đo như trên, chúng tôi chọn 20 mẫu thử chưa được gán nhãn để phân tích. Số liệu của 20 công ty này là số liệu trong quí 4 năm 2008 56 Bảng 4-5 Dữ liệu phân tích STT Mã Công Ty Thời gian Ngày tháng Nhãn 1 ABT Q 30/9/2008 NONE 2 AGF Q 30/9/2008 NONE 3 ALP Q 30/9/2008 NONE 4 ALT Q 30/9/2008 NONE 5 ASP Q 30/9/2008 NONE 6 BBC Q 30/9/2008 NONE 7 BBT Q 30/9/2008 NONE 8 BMC Q 30/9/2008 NONE 9 DHG Q 30/9/2008 NONE 10 DMC Q 30/9/2008 NONE 11 FPC Q 30/9/2008 NONE 12 IFS Q 30/9/2008 NONE 13 PVD Q 30/9/2008 NONE 14 SFC Q 30/9/2008 NONE 15 SGH Q 30/9/2008 NONE 16 SJS Q 30/9/2008 NONE 17 TCT Q 30/9/2008 NONE 18 VIC Q 30/9/2008 NONE 19 VNM Q 30/9/2008 NONE 20 VPL Q 30/9/2008 NONE 57 Kết quả phân tích và dự báo: Bảng 4-6 Kết quả phân tích và dự báo KẾT QUẢ DỰ BÁO THEO QUÍ XẤU TỐT STT Mã Thời gian Ngày STT Mã Thời gian Ngày 1 ABT Q 30/09/08 1 FPC Q 30/09/08 2 AGF Q 30/09/08 2 IFS Q 30/09/08 3 ALP Q 30/09/08 3 VPL Q 30/09/08 4 ALT Q 30/09/08 5 ASP Q 30/09/08 6 BBC Q 30/09/08 7 BBT Q 30/09/08 8 … … … Hình 4-2 Kết quả thực hiện phân tích Kết quả phân tích tình hình hoạt động kinh doanh trong quí 4 năm 2008 của 20 công ty cho kết quả chỉ có 3 công ty là FPC, IFS và VPL là kinh doanh tốt. Còn lại các công ty khác là không tốt. Điều này đã được chúng tôi kiểm chứng trong báo cáo tài chính quí 4 của các công ty. Báo cáo kết quả hoạt động kinh doanh của hầu hết các công ty đều là thua lỗ. Do dữ liệu báo cáo tài chính của các công ty ở Việt Nam chưa thật sự chính xác và minh bạch, chúng tôi đã tiến hành thực nghiệm trên dữ liệu của 30 công ty nước ngoài để đảm bảo tính chính xác của mô hình. Việc dự báo của 30 công ty nước ngoài trong ngày 31 tháng 3 năm 2008 cho kết quả chỉ có 3 công ty kinh doanh tốt. Kết quả tốt hơn việc dự báo của SP500, bảng sau cho thấy mối quan hệ giữa việc dự đoán của mô hình so với dự đoán của SP500 58 Hình 4-3 Dự đoán Sp500 4.3.2 Kết quả việc hỗ trợ quyết định Việc hỗ trợ quyết định hành động mua bán yêu cầu dữ liệu thực nghiệm phải tuơng đối chính xác, do đó chúng tôi tiến hành thực nghiệm trên dữ liệu của các công ty nước ngoài. Hỗ trợ quyết định cho các công ty nước ngoài với các số liệu như sau: Công ty IBM: Với Hạng = 0.00175 Chỉ số MACD=2.26 Chỉ số RSI= 64 Chỉ số CCI= 168 Cho ta quyết định: MUA Hình 4-4 Hỗ trợ quyết định cho công ty IBM 59 Ngoài ra kết quả của một số công ty khác được liệt kê trong bảng sau: Bảng 4-7 Hỗ trợ quyết định cho các công ty STT Mã Công ty Hạng công ty Chỉ số MACD Chỉ số RSI Chỉ số CCI Quyết định 1 BAC 0.0021 -045 43 -124 BÁN 2 INTC -0.0008 0.69 66 182 MUA 3 CQ 0.00205 2.9 51 30 GIỮ LẠI 4 MSFT -0.0062 0.21 52 42 GIỮ LẠI 5 DIS 0.0029 0.9 65 93 GIỮ LẠI 6 GM 0.00021 -0.08 47 -58 BÁN NHIỀU 7 IBM 0.00175 2.26 64 168 MUA 8 CVX -0.0076 2.35 70 165 MUA 9 GE -0.0008 -0.51 40 -117 BÁN 10 MMM -0.0002 -0.43 50 7 GIỮ LẠI 4.4 Đánh giá và phân tích Với các nhà đầu tư chỉ sử dụng phân tích kỹ thuật thì họ chỉ nhìn vào các chỉ số một cách độc lập. Nghĩa là với chỉ số MACD thì nếu chỉ số này > 0 thì họ quyết định MUA, ngược lại quyết định BÁN. Với các chỉ số RSI hay CCI thì không được sử dụng nhiều. Ở đây mô hình kết hợp ba chỉ số và các miền quyết định tương đối linh hoạt để đưa ra một quyết định chính xác nhất. Với các nhà phân tích tài chính thì họ chỉ xác định được hoạt động kinh doanh thông qua các biến số tài chính và báo cáo hoạt động kinh doanh. Họ chỉ xác định được là doanh nghiệp sẽ hoạt động tốt hay xấu trong tương lai. Với việc áp dụng mô hình chúng tôi không chỉ dự đoán được tình hình kinh doanh xấu tốt mà còn xác định được hạng của công ty so với các công ty khác. Mô hình của chúng tôi kết hợp phân lớp dự báo, hệ logic mờ và phân tích kỹ thuật tạo ra một hệ hỗ trợ quyết định tương đối đầy đủ và chính xác. 60 Để đánh giá độ chính xác của mô hình so với thực tế chúng tôi đã tiến hành thực nghiệm việc hỗ trợ quyết định mua/bán cho công ty Intel trong các ngày của năm 2007 và 2008. Dưới đây là bảng đánh giá Bảng 4-8 Kết quả so sánh giữa quyết định từ MACD, mô hình và thực tế STT Ngày Quyết định từ MACD Quyết định từ Hệ thống Thực tế 1 29/3/2007 BÁN (-0.32) BÁN (0.38) BÁN 2 30/6/2007 MUA (0.46) GIỮ MUA 3 14/7/2007 MUA (0.74) MUA (0.62) MUA 4 20/8/2007 MUA (0.21) BÁN (0.32) BÁN 5 30/9/2007 BÁN (-0.37) BÁN (0.40) BÁN 6 31/12/2007 BÁN (-0.26) BÁN (0.31) MUA … … … … … 22 02/01/2008 MUA (0.52) BÁN (0.24) BÁN 23 17/01/2008 MUA (0.73) MUA (0.67) BÁN 24 15/2/2008 BÁN (-0.40) BÁN (0.45) BÁN 25 29/3/2008 MUA (0.68) MUA (0.75) MUA Giải thích bảng so sánh và đánh giá: Cột đầu tiên là số thứ tự của lần thực nghiệm, cột thứ hai là ngày, cột thứ ba là cột quyết định của nhà đầu tư chỉ sử dụng chỉ số MACD. Cột thứ ba là quyết định của hệ thống và cột cuối cùng là kết quả thực tế. Ví dụ trong lần thử thứ nhất ngày 29/03/2007, người đầu tư chỉ dựa vào chỉ số MACD=-0.32 là <0 và theo kinh nghiệm thị trường đang bán quá mức sẽ đưa ra quyết định là BÁN. Hệ thống cũng đưa ra quyết định BÁN với chỉ số hỗ trợ 0.38. Thực tế sau một khoảng thời gian 12 ngày, giá của cố phiếu giảm có nghĩa là nhà đầu tư quyết định BÁN sẽ thắng. Trong lần thử lần thứ hai tại ngày 30/06/2007, chỉ số MACD = 0.46 có nghĩa thị trường đang mua quá mức nhà đầu tư sẽ quyết định MUA. Tuy nhiên, hệ thống kết hợp các chỉ số và không quyết định MUA hay BÁN mà chỉ đưa ra khuyến cáo là GIỮ. Kết quả thực tế là giá cố phiếu trên thị trường có tăng nhưng tăng nhẹ, có nghĩa là MUA là hợp lý. Trong lần thử thứ ba tại ngày 24/07/2007, nhà đầu tư chỉ sử dụng chỉ số MACD, hệ thống và thực tế đều cho kết quả là MUA. Thống kê sau 25 lần thực nghiệm ta có kết quả như sau: 61 Hiệu suất của nhà đầu tư chỉ sử dụng chỉ số MACD: đoán đúng 14/25 tương đương với 56%. Hiệu suất của nhà đầu tư sử dụng hệ thống: đoán đúng 18/25 tương đương với 75%. 0% 10% 20% 30% 40% 50% 60% 70% 80% MACD Hệ thống Số lần đoán chính xác Hình 4-5 Tỷ lệ chính xác Thực tế tôi đã thử nghiệm độ chính xác trong vòng 6 tháng từ ngày 01/01/2008 đến ngày 01/07/2008 với các phương thức đánh giá theo kỳ hạn: quý, tháng và thu được kết quả về độ chính xác như biểu đồ dưới đây: 66% 67% 67% 68% 68% 69% 69% 70% 70% Quý 1 Quý 2 Số lần đoán chính xác Hình 4-6 Tỷ lệ chính xác theo quý Quý 1 dự đoán trong 40 lần trong đó có 27 lần chính xác, 13 lần dự đoán sai, tỉ lệ đoán chính xác là 67%, quý 2 dự đoán trong 58 lần thì có 41 lần chính xác, 17 lần dự đoán sai. Tỉ lệ đoán chính xác là 70% Để thấy khả năng hỗ trợ quyết định chi tiết hơn việc quyết định từ các chỉ số đơn lẻ, tôi Đã thực nghiệm so sánh và có bảng kết quả sau: 62 Bảng 4-9 So sánh việc ba chỉ số với hệ thống STT Ngày MACD RSI CCI Hệ thống 1 1/1/2008 0.17 51 -13 GIỮ 2 2/1/2008 0.05 43 -154 MUA NHIỀU 3 3/1/2008 -0.11 40 -203 BÁN 4 4/1/2008 -0.38 32 -288 BÁN NHIỀU 5 7/1/2008 -0.58 33 -230 BÁN NHIỀU 6 15/01/2008 -1.07 37 -76 GIỮ 7 22/1/2008 -1.79 26 -137 BÁN 8 24/1/2008 -1.68 38 -72 GIỮ ... 26/3/2008 0.32 54 108 MUA 44 29/3/2008 0.2 47 7 MUA NHIỀU 45 31/3/2008 0.18 49 11 MUA NHIỀU Phân tích bảng so sánh: Với nhà đầu tư chỉ sử dụng chỉ số MACD thì ở ngày 1/1/2008 chỉ số đó bằng 0.17>0 có nghĩa là thị trường có dấu hiệu mua vào. Kết hợp chỉ số RSI=51 có nghĩa là thị trường đang ở mức bình thường. Chỉ số CCI=-13<0 có nghĩ thị trường có dấu hiệu bán ra. Lúc này nhà đầu tư sẽ không biết nên quyết định mua hay bán. Hệ thống đã kết hợp 3 chỉ số này để đưa ra quyết định là GIỮ lại, không bán không mua. Tương tự với lần thử thứ 2 vào ngày 2/1/2008, chỉ số MACD=0.05 nằm trên đường zero, có nghĩa thị trường đang có dấu hiệu mua vào. Chỉ số RSI = 43 nằm trong khoảng [30-50] có nghĩa thị trường bình thường. Tiếp đến nhà đầu tư nhìn vào chỉ số CCI=-154 dưới mức -100 có nghĩa thị trường rất xấu. Hệ thống đưa ra kết luận là mua nhiều.Thống kê quá trình dự đoán tôi có biểu đồ so sánh ba chỉ số với hệ thống như sau: 0% 10% 20% 30% 40% 50% 60% 70% MACD RSI CCI Hệ thống Số lần đoán chính xác Hình 4-7 So sánh tỷ lệ chính xác 63 So sánh nhà đầu tư sử dụng một chỉ số MACD duy nhất với hệ thống ta thấy có kết quả gần giống nhau. Hệ thống có sự hỗ trợ mạnh hơn trong việc quyết định mua hay mua nhiều, bán hay bán nhiều. Trong những trường hợp, không thể đưa ra quyết định chính xác là mua hay bán hệ thống sẽ đưa ra quyết định là giữ lại. 4.5 Kết luận Với việc áp dụng mô hình học máy, việc đánh giá và dự đoán đạt được những ưu điểm hơn hẳn so với việc dùng các phương pháp thống kê truyền thống. Cụ thể: - Phương pháp có khả năng dự đoán nhiều biến, không bị giới hạn như trong MSExcel hay Lotus và đặc biệt cho kết quả chính xác hơn. - Không cần biết những thông tin trong tương lai vẫn có thể dự đoán cho một yếu tố mà nó phụ thuộc vào các thông tin đó. - Mạng Nơron có thể dự đoán trên chính những số liệu của mình đã có trong quá khứ Theo các kết quả thực nghiệm, ta thấy rằng kết quả dự báo của mô hình tốt hơn so với việc chỉ dùng mô hình mạng nơron. Mô hình mạng nơron chỉ dự báo được tình hình kinh doanh của công ty trong quí sau là tốt hay xấu. Việc kết hợp logic mờ và phân tích kỹ thuật cho phép ta dự báo tình hình biến động về giá trong ngày tới. Từ đó giúp nhà đầu tư đưa ra quyết định mua hay bán chính xác và có cơ sở hơn. 64 KẾT LUẬN Luận văn định hướng nghiên cứu vào mạng nơron, logic mờ mà phân tích kỹ thuật trong đầu tư chứng khoán. Chúng tôi đã xây dựng và sử dụng Mô hình kết hợp giữa mạng nơron với logic mờ và phân tích kỹ thuật áp dụng vào bài toán đánh giá rủi ro, hỗ trợ quyết định cho các doanh nghiệp. Chúng tôi đã đưa ra một mô hình dựa trên phân tích kỹ thuật và mạng nơron, hệ mờ cho việc dự báo, đánh giá rủi ro trong lĩnh vực đầu tư và kinh doanh chứng khoán. Những đóng góp chính của luận văn là: 1. Hệ thống hoá được các nội dung cơ bản về tài chính, một số kiến thức cơ bản về mạng nơron và logic mờ. 2. Nghiên cứu và xây dựng mô hình kết hợp mạng nơron, hệ mờ và phân tích kỹ thuật. 3. Xây dựng phần mềm dự báo và hỗ trợ quyết định cho doanh nghiệp trong lĩnh vực đầu tư và kinh doanh chứng khoán. Những nghiên cứu khả quan về kết hợp mạng nơron, logic mờ và phân tích kỹ thuật trong việc đánh giá rủi ro, hỗ trợ quyết định đã chứng tỏ đây là một mô hình có thể ứng dụng hiệu quả trong thực tế. Có thể nói nó là một công cụ hữu ích cho các nhà đầu tư không chuyên trong việc quyết định đầu tư. Tuy nhiên, mô hình vẫn còn có một số hạn chế nhất định như không có các giá trị rõ và các định nghĩa chuẩn cho việc xác định giá trị trong quá trình mờ và giải mờ. Việc chọn các giá trị vẫn phải dựa vào kinh nghiệm của các chuyên gia. Do đó một trong các hướng phát triển tiếp theo của đề tài là nghiên cứu, cải tiến cà thử nghiệm các phương pháp học máy tiên tiến khác như Support Vertor Machine, Cây quyết định… để có thể nâng cao được kết quả và có thể ứng dụng trong thực tế. Ngoài ra hệ thống cần kết nối trực tuyến với máy chủ dữ liệu để có thể lấy dữ liệu mới nhất cho việc dự báo và kinh doanh chứng khoán. Về lĩnh vực tài chính, đề tài sẽ nghiên cứu thêm về phân tích kỹ thuật nhằm nâng cấp, bố sung thêm luật cho tập luật. Đồng thời nghiên cứu thêm về các tỷ số tài chính trong các báo cáo tài chính để đánh giá rủi ro một cách rõ ràng, chính xác hơn. 65 TÀI LIỆU THAM KHẢO Tiếng Việt [1]. Bùi Công Cường, Nguyễn Doãn Phước (2006), Hệ mờ Mạng Nơron và ứng dụng, Nhà xuất bản khoa học và kỹ thuật. [2]. Phan Thị Bích Nguyệt (2007), Phân tích kỹ thuật, Nhà xuất bản Lao động – Xã hội. [3]. Nguyễn Thị Ngọc Trang (2006), Quản trị rủi ro tài chính, Nhà xuất bản thống kê. Tiếng Anh [4]. Fie Chen (2004), Learning accurate and understandable rules from SVM classifiers, Thesis, pp. 1-6. [5]. Dimitri Pissarenko (2002), Neural Networks For Financial Time Series Prediction, pp. 104-120. [6]. Ali Ghodsi Boushehri (2000), Appying Fuzzy logic to stock price prediction [7]. Zhou, Xu Shen; Dong, Ming (2004). Can fuzzy logic make technical analysis 20/20? Financial Analyst Journal, 54–73 [8]. Wee Mien Cheung and Uzay Kaymak (2007), A Fuzzy Logic Based Trading System, Econometric Institute, pp. 1-6. [9]. Boris Kovalerchuk and Evgenii Vityaev (2001), Data minng in finance, Kluwer academic publicsher. [10] Achelis, Steven B., 2000. Technical Analysis from A to Z. McGraw Hill. 66 PHỤ LỤC Phụ lục A – Giới thiệu về phần mềm FRPredictor Giao diện của chương trình dự báo rủi ro tài chính: Nạp dữ liệu 67 Huấn luyện mạng Phân tích dữ liệu và dự báo 68 Phân tích kỹ thuật và đưa ra quyết định 69 Phụ lục B – Cấu trúc các bảng cơ sở dữ liệu tài chính Bảng giá chứng khoán Thuộc tính Ý nghĩa Ticker Mã công ty Period Kỳ báo cáo (Quí hoặc năm) Date Ngày tháng Open Giá mở cửa High Giá cao nhất trong ngày Low Giá thấp nhất trong ngày Close Giá đóng cửa Volume Khối lượng giao dịch Cân đối kế toán Thuộc tính Ý nghĩa Ticker Mã công ty [Cash & Equivalents] Tiền và các khoản tương đương tiền [Short Term Investments] Các khoản đầu tư tài chính ngắn hạn [Accounts Receivable - Trade, Net] Các khoản phải thu [Total Inventory] Hàng tồn kho [Other Current Assets, Total] Tài sản ngắn hạn khác [Total Receivables, Net] Các khoản phải thu dài hạn [Property/Plant/Equipment, Total - Gross] Tài sản cố định [Long Term Investments] Các khoản đầu tư tài chính dài hạn [Other Long Term Assets, Total] Tài sản dài hạn khác [Total Current Liabilities] Nợ ngắn hạn [Total Long Term Debt] Nợ dài hạn [Equity] Vốn chủ sở hữu 70 [Total Liabilities & Shareholders' Equity] Nguồn kinh phí và quỹ khác [Total Equity] Tổng cộng nguồn vốn Báo cáo lưu chuyển tiền tệ Thuộc tính Ý nghĩa Ticker Mã công ty [Cash from Operating Activities] Lưu chuyển tiền từ hoạt động kinh doanh [Cash from Investing Activities] Lưu chuyển tiền từ hoạt động đầu tư [Cash from Financing Activities] Lưu chuyển tiền từ hoạt động tài chính [Net Income/Starting Line] Lưu chuyển tiền thuần trong kỳ [Cash Interest Paid, Supplemental] Tiền và tương đương tiền đầu kỳ [Cash Taxes Paid, Supplemental] Tiền và tương đương tiền cuối kỳ Kết quả hoạt động kinh doanh Thuộc tính Ý nghĩa Ticker Mã công ty [Total Revenue] Doanh thu bán hàng và cung cấp dịch vụ [Total Revenue] Các khoản giảm trừ doanh thu [Gain (Loss) on Sale of Assets]: D.thu thuần về bán hàng và cung cấp d.vụ [Sale Capital Cost] Giá vốn hàng bán [Selling, Service Revenue] Lợi nhuận gộp về bán hàng và cung cấp Dịch vụ [Fiancial Revenue] Doanh thu hoạt động tài chính [Financial Expenses] Chi phí tài chính [Selling Expenses] Chi phí bán hàng [Other Operating Expenses, Total]: Chi phí quản lý doanh nghiệp [Operating Income]: Lợi nhuận thuần từ hoạt động kinh doanh 71 [Other, Net] Thu nhập khác [Other, Expenses] Chi phí khác [Other Revenue] Lợi nhuận khác [Income Before Tax]: Tổng lợi nhuận kế toán trước thuế [Present Taxes] Chi phí thuế TNDN hiện hành [Deferred Taxes] Chi phí thuế TNDN hoãn lại [Income After Tax] Lợi nhuận sau thuế TNDN [Net Income after Stock Based Comp. Expense] Lãi cơ bản trên cổ phiếu Thông tin Công ty Thuộc tính Ý nghĩa Ticker Mã công ty Name Tên công ty Branch Ngành 72 Phụ lục B – Dữ liệu dùng trong thực nghiệm Dữ liệu huấn luyện và kiểm tra STT Mã Công Ty Tên Công ty Thời gian Ngày Nhãn 1 ABT Q 31/03/2008 Xấu 2 ACL Q 01/10/2007 Xấu 3 ACL Q 31/03/2008 Xấu 4 AGF Q 13/7/2007 Xấu 5 AGF Q 1/10/2007 Xấu 6 AGF Q 2/01/2008 Xấu 7 AGF Q 31/03/2008 Xấu 8 AGF Q 07/07/2008 Xấu 9 ALP Q 2/01/2008 Xấu 10 ALP Q 31/03/2008 Xấu 11 ALT Q 13/07/2007 Xấu 13 ALT Q 31/03/2008 Xấu 14 ALT Q 31/03/2008 Tốt 15 ASP Q 31/03/2008 Xấu 16 ASP Q 7/7/2008 Xấu 17 BBC Q 2/10/2006 Tốt 18 BBC Q 30/6/2006 Xấu 19 BBC Q 13/7/2007 Xấu 20 BBC Q 1/10/2007 Xấu 21 BBC Q 31/03/2008 Xấu 22 BBT Q 31/12/2004 Xấu 73 23 BBT Q 3/1/2006 Tốt 24 BBT Q 17/03/2006 Xấu 25 BBT Q 1/10/2007 Xấu 26 BBT Q 2/1/2008 Xấu 27 BBT Q 31/3/2008 Xấu 28 BBT Q 7/7/2008 Tốt 29 BT6 Q 31/12/2004 Xấu 30 BT6 Q 30/6/2005 Tốt 31 BT6 Q 3/1/2006 TT 32 BT6 Q 13/7/2006 Xấu 33 BT6 Q 1/10/2007 Xấu 34 BT6 Q 2/1/2008 Tốt 35 BT6 Q 31/3/2008 Xấu 36 BTC Q 31/12/2004 Xấu 37 BTC Q 13/7/2007 Tốt 38 BTC Q 1/10/2007 Tốt 39 BTC Q 2/1/2008 Xấu 40 DHG Q 31/3/2008 Xấu 41 DHG Q 7/7/2008 Xấu 42 DHG Q 13/7/2007 Tốt 43 DHG Q 2/1/2008 Xấu 44 DHG Q 31/3/2008 Tốt 45 DHG Q 7/7/2008 Xấu 46 FPC Q 31/3/2008 Tốt 47 FPC Q 7/7/2008 Xấu 74 48 IFS Q 31/3/2008 Xấu 49 IFS Q 7/7/2008 Tốt 50 PVD Q 31/03/2008 Xấu 51 PVD Q 7/7/2008 Tốt 52 SFC Q 31/03/2008 Xấu 53 SFC Q 7/7/2008 Tốt 54 SGH Q 31/3/2008 Tốt 55 SGH Q 7/7/2008 Xấu 56 SJS Q 31/3/2008 Xấu 57 SJS Q 7/7/2008 Tốt 58 TCT Q 31/3/2008 Xấu 59 TCT Q 7/7/2008 Tốt 60 VIC Q 31/3/2008 Tốt 61 VIC Q 7/7/2008 Xấu 62 VNM Q 31/3/2008 Tốt 63 VNM Q 7/7/2008 Xấu 64 VPL Q 31/3/2008 Xấu 65 VPL Q 7/7/2008 Tốt

Các file đính kèm theo tài liệu này:

LUẬN VĂN-NGHIÊN CỨU VÀ ỨNG DỤNG MỘT SỐ MÔ HÌNH HỌC MÁY TRONG VIỆC HỖ TRỢ ĐÁNH GIÁ RỦI RO TÀI CHÍNH.pdf