Tóm tắt Luận văn Ứng dụng khai phá tri thức xây dựng hệ thống trợ giúp thẩm định vay vốn tại ngân hàng VietComBank Quảng Bình

Trong chương này, ch ng ta đ tìm hi u c c bước cần thi t đ x y d ng một ng dụng mạng Nơ-ron. Theo đ , ta phải chọn ki n tr c mạng, thuật to n học phù hợp với yêu cầu c a bài to n. Ti p theo là chọn số lớp ẩn c a mạng (đi u này phụ thuộc vào việc ta chọn thuật to n học nào). Bên cạnh đ , ta cũng sẽ x c định hàm truy n cho mạng cũng như c c tham số cần thi t kh c. Chương 3 cũng trình bày u trình x y d ng một ng dụng. ng dụng này được x y d ng trên cơ s cải ti n thuật to n lan truy n ngược nhằm r t ng n thời gian học c a mạng, tăng tốc độ hội tụ c a mạng cũng như m rộng phạm vi p dụng cho c c hàm phi tuy n. Bằng kỹ thuật lập trình Dot.net trên n n tảng indo s, chạy m y đơn, khai th c cơ s d liệu uan hệ m c độ v a phải trên hệ uản trị ( l erver, Fpxpro). Mục tiêu c a ng dụng là nhằm th nghiệm c c ki n th c đ tìm hi u trong phần lý thuy t. Qua đ xem xét khả năng m rộng c a ng dụng sau này.

pdf26 trang | Chia sẻ: tienthan23 | Ngày: 17/02/2016 | Lượt xem: 1295 | Lượt tải: 0download
Bạn đang xem trước 20 trang tài liệu Tóm tắt Luận văn Ứng dụng khai phá tri thức xây dựng hệ thống trợ giúp thẩm định vay vốn tại ngân hàng VietComBank Quảng Bình, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG NGUYỄN TRẦN SỸ ỨNG DỤNG KHAI PHÁ TRI THỨC XÂY DỰNG HỆ THỐNG TRỢ GIÚP THẨM ĐỊNH VAY VỐN TẠI NGÂN HÀNG VIETCOMBANK QUẢNG BÌNH Chuyên ngành : Khoa học máy tính Mã số: 60.48.01 TÓM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT Đà Nẵng - Năm 2013 Công trình được hoàn thành tại ĐẠI HỌC ĐÀ NẴNG Người hướng dẫn khoa học: PGS.TS. PHAN HUY KHÁNH Phản biện 1: GS.TSKH. TRẦN QUỐC CHIẾN Phản biện 2: GS.TS. NGUYỄN THANH THỦY Luận văn được bảo vệ tại Hội đồng chấm luận văn tốt nghiệp Thạc sĩ kỹ thuật họp tại Đại học Đà Nẵng vào ngày 28 tháng 12 năm 2013. * Có thể tìm hiểu luận văn tại: Trung tâm Thông tin - Học liệu, Đại học Đà Nẵng 1 MỞ ĐẦU 1. Giới thiệu và lý do chọn đề tài ph t tri n c a công nghệ thông tin đ mang lại cho nh n loại nhi u tiện lợi và gi p giải uy t nh ng công việc tư ng ch ng như con người không th giải uy t được. Trong đ , khai ph tri th c trong cơ s d liệu đang là một xu hướng uan trọng c a n n Công nghệ thông tin th giới. N c khả năng ng dụng vào rất nhi u lớp bài to n th c t kh c nhau. Bước uan trong nhất c a u trình này là khai ph tri th c t d liệu, gi p con người thu được nh ng tri th c h u ích t nh ng cơ s d liệu hoặc c c nguồn d liệu khổng lồ khác. Một số ít ng n hàng thương mại, doanh nghiệp và tổ ch c trên th giới đ ng dụng kỹ thuật khai ph tri th c t d liệu vào các hoạt động tín dụng đ ph t tri n sản xuất và kinh doanh, đ và đang thu được nh ng lợi ích to lớn. Hiện nay, việc ng dụng công nghệ thông tin trong nhi u lĩnh v c c a đời sống, kinh t x hội trong nhi u năm ua cũng đồng nghĩa với lượng d liệu đ được c c cơ uan, các tổ ch c tín dụng thu thập và lưu tr ngày một tích luỹ nhi u lên. Người ta lưu tr c c d liệu này vì cho rằng trong n ẩn ch a nh ng gi trị nhất định nào đ . Tuy nhiên, theo thống kê thì chỉ c một lượng nhỏ c a nh ng d liệu này (khoảng t 20% đ n 25%) là luôn được ph n tích, số còn lại người ta không bi t sẽ phải làm gì hoặc c th làm gì với ch ng nhưng vẫn phải ti p tục thu thập rất tốn kém với ý nghĩ lo sợ rằng sẽ c c i gì đ uan trọng đ bị bỏ ua sau này c l c cần đ n n . Mặt kh c, trong môi trường cạnh tranh khốc liệt như hiện nay và s xuất hiện nhi u nhi u ng n hàng thương mại và n n kinh t đang c chuy n bi n xấu và đầy ph c tạp, nhân viên ngân hàng ngày càng cần c nhi u thông tin với tốc độ nhanh đ trợ gi p việc ra uy t định và ngày càng c nhi u c u hỏi mang tính chất định tính cần phải 2 trả lời d a trên một khối lượng d liệu khổng lồ đ c . Việc ng dụng công nghệ thông tin trong ng n hàng đang rất cần thi t, đặc biệt là ng dụng khai ph tri th c t d liệu. uất ph t t th c t và nhu cầu n m b t, trang bị hạ tầng v công nghệ thông tin c a cơ uan, tổ ch c đ hiện đại ho công việc, gi p giải uy t nhanh ch ng, n ng cao hiệu uả và d b o chính x c trong công việc nhất là trong lĩnh v c kinh doanh, thương mại điện t trong vấn đ trợ gi p thẩm định vay vốn tại ng n hàng. T lý do đ , tôi chọn đ tài: Ứng dụng khai phá tri thức xây dựng hệ thống thẩm định vay vốn tại Ngân hàng Vietcombank Quảng Bình. Đ nghiên c u làm luận văn tốt nghiệp cao học ngành hoa học m y tính. Trong đ , tập trung vào nghiên c u kỹ thuật mạng Nơ- ron, p dụng trong việc khai ph tri th c t d liệu đ giải uy t bài toán. 2. Mục tiêu và nhiệm vụ Mục tiêu c a đ tài tìm hi u c c khai ph tri th c trong lĩnh v c hoạt động thẩm định vay vốn tại ng n hàng, đặc biệt là vấn đ ra uy t định trong hoạt động thẩm định tín dụng đạt k t uả ra sao. Nhiệm vụ cơ bản c a nghiên c u: (1) Thu thập và ph n tích d liệu tri tr c v tình hình kh ch hàng được thẩm định; (2) Tìm hi u bài to n th c t : Thẩm định hoạt động vay vốn ng n hàng; (3) Tìm hi u tổng tổng uan v c c kỷ thuật khai ph tri th c; (4) Tìm hi u cơ s lý thuy t khai ph luật k t hợp, kỷ thuật mạng Nơ-ron; (5) Xây d ng mô hình và ph n tích thi t k hệ thống trợ giúp d b o thẩm định vay vốn trong ng n hàng. 3. Đối tượng và phạm vi nghiên cứu Đối tượng ch y u đ nghiên c u luật k t hợp và kỹ thuật mạng Nơ-ron, c c thuật to n học c a mạng Nơ-ron, đặc biệt là thuật 3 to n lan truy n ngược (Back propagation algorithm). Ngoài ra, cũng cần phải n m được c c kỹ thuật lập trình cơ bản trên n n indo . 4. Phương pháp nghiên cứu Thu thập, ph n tích c c tài liệu và thông tin liên uan đ n đ tài; em xét, l a chọn phương hướng giải uy t vấn đ ; y d ng mô hình theo lý thuy t; Tri n khai x y d ng chương trình ng dụng trên m y tính; i m tra, th nghiệm và đ nh gi k t uả. 5. Ý nghĩa khoa học và thực tiễn của đề tài Ý nghĩa khoa học c a đ tài là nghiên c u và ph t tri n một mô hình khai ph d liệu nhằm d b o độ r i ro trong việc phê duyệt đơn vay tín dụng c a ng n hàng, d a trên kỹ thuật mạng Nơ-ron. Việc d b o c c k t uả sẽ h trợ, trợ gi p cho nhà uản lý trong việc ra c c uy t định tối ưu. . Bố cục của lu n văn Luận văn bao gồm c c phần như sau: M đ u Chương 1: Nêu tổng uan v khai ph tri th c t d liệu. Các kỹ thuật mạng Nơ-ron trong khai ph d liệu, c c thuật to n trong mạng Nơ- ron, cũng như c c lĩnh v c ng dụng. Chương 2: Ph n tích bài to n. iới thiệu bài to n, nêu lên bài to n cụ th và x y d ng mô hình tổng u t cho bài to n, giải ph p giải uy t bài toán. Chương 3: y d ng hệ thống trợ gi p thẩm định vay vốn ng n hàng. Tạo bộ d liệu mẫu v d liệu đầu vào, d liệu c a tập huấn luyện, tập ki m th , vận hành mạng và cho ra k t uả th nghiệm. Trên cơ s đ đưa ra c c đ nh gi v giải ph p c a đ tài trong việc ng dụng 4 th c ti n c a vấn đ cũng như c nh ng so s nh với c c giải ph p kh c. t luận c a đ tài v c c mặt làm được, khả năng ng dụng, nh ng ưu và nhược đi m và hướng ph t tri n trong tương lai. CHƯƠNG 1 CƠ SỞ LÝ THUYẾT 1.1. GIỚI THIỆU VỀ KHAI PHÁ TRI THỨC Ph t hiện tri th c là kh i niệm ra đời vào nh ng năm cuối c a thập kỷ 80 và đ tr thành một lĩnh v c được nguyên c u rộng r i trên toàn cầu. ra đời c a ph t hiện tri th c là s k t hợp k t uả nguyên c u c a nhi u ngành khoa học kh c lại với nhau như: Quản trị cơ s d liệu, học m y, thống kê 1.2. ĐỊNH NGHĨA KHAI PHÁ TRI THỨC Th c chất đ là u trình tìm ki m nh ng thông tin c trong cơ s d liệu nhưng bị che giấu trong c c khối d liệu. Tri th c đ y c th được hi u là một bi u th c trong một ngôn ng . C c ngôn ng thường dùng đ di n tả tri th c trong việc bi u di n tri th c trong u trình ph t hiện tri th c t cơ s dư liệu là c c khung (frames), c c c y và đồ thị, c c luật, c c công th c trong logic mệnh đ hoặc logic t n t cấp một... Việc khai ph tri th c thường được p dụng đ giải uy t một loạt nh ng y u cầu phục vụ nh ng mục đích nhất định. Vì vậy, u trình ph t hiện tri th c là một hoạt động tương t c gi a một người s dụng hoặc một chuyên gia ph n tích với c c công cụ tin học. 1.3. CÁC GIAI ĐOẠN QUÁ TRÌNH KHAI PHÁ TRI THỨC Qu trình khai ph tri th c, t nh ng cơ s d liệu th c t sau một hoặc một số bước c a u trình sẽ r t ra được nh ng tri th c mới. C c bước trong u trình này c th lặp đi lặp lại nhi u lần và được mô tả theo hình sau: 5 Hình 1.1 ơ đồ mô tả u trình khai ph tri th c 1.4. MÔ HÌNH KHAI PHÁ TRI THỨC Hình 1.2 Mô hình khai ph tri th c Hình thành và xác định vấn đề Khai phá dữ liệu, rút ra các tri thức Thu thập và tiền xử lý dữ liệu Giải thích kết quả và đánh giá Sử dụng các tri thức phát hiện được 1 2 3 4 5 6 1.5. KHO DỮ LIỆU (DATA WAREHOUSE) Là c c cơ s d liệu tích hợp, hướng theo c c ch đ nhất định, được thi t k đ h trợ cho ch c năng trợ gi p uy t định, mà m i đơn vị d liệu liên uan đ n một khoảng thời gian cụ th . ho d liệu thường c dung lượng rất lớn, thường là hàng igabytes hay c khi tới hàng Terabytes. ho d liệu được x y d ng đ tiện lợi cho việc truy cập t nhi u nguồn, nhi u ki u d liệu kh c nhau sao cho c th k t hợp được cả nh ng ng dụng c a c c công nghệ hiện đại và v a c th k th a được t c c hệ thống đ c t trước. D liệu được ph t sinh t c c hoạt động hàng ngày và được thu thập x lý đ phục vụ công việc nghiệp vụ cụ th c a một tổ ch c, vì vậy thường được gọi là d liệu t c nghiệp và hoạt động x lý d liệu này gọi là xử lý giao dịch trực tuyến (OLPT - On Line Transaction Processing). 1.6. LUẬT KẾT HỢP Nhằm ph t hiện ra c c Luật k t hợp gi a c c thành phần d liệu trong cơ s d liệu. C c luật k t hợp c th là một c ch hình th c h a đơn giản. Ch ng rất thích hợp cho việc tạo ra c c k t uả c d liệu dạng nhị ph n. iới hạn cơ bản c a phương ph p này là ch c c uan hệ cần phải thưa theo nghĩa không c tập thường xuyên nào ch a nhi u hơn 15 thuộc tính. iải thuật tìm ki m c c luật k t hợp tạo ra số luật ít nhất phải bằng với số c c tập phổ bi n và n u như một tập phổ bi n c kích thước thì phải c ít nhất là 2 tập phổ bi n. Thông tin v c c tập phổ bi n được s dụng đ ước lượng độ tin cậy c a c c tập luật k t hợp. 1.6.1. Lý thuyết về lu t kết hợp 1.6.2. Định nghĩa lu t kết hợp Mà c c luật đ u phải thoả m n một ngưỡng h trợ và tin cậy cụ th . Th c vậy, cho một tập c c giao dịch D, bài to n ph t hiện luật 7 k t hợp là sinh ra tất cả c c luật k t hợp mà c độ tin cậy conf lớn hơn độ tin cậy tối thi u mincon và độ h trợ sup lớn hơn độ h trợ tối thi u minsup tương ng do người dùng x c định. hai ph luật k t hợp được ph n thành hai bài to n. 1.6.3. Một số tính chất liên quan đến các hạng mục phổ biến (frequent itemset) Tính chất 1: Độ h trợ (support) cho tất cả c c tập con (subset). Tính chất 2: N u một mục trong A không c độ h trợ tối thi u trên D nghĩa là support(A)< minsup thì một tập con B c a A sẽ không phải là một tập phổ bi n vì support(B) ≤ support(A) < minsup. Tính chất 3: N u mục B là mục phổ bi n trên D, nghĩa là support(B) ≥ minsup thì mọi tập con A c a B là tập phổ bi n trên D vì support(A) ≥ support(B) > minsup. 1.6.4. Một số hướng tiếp c n trong khai phá lu t kết hợp Luật k t hợp nhị ph n (binary association rule hoặc boolean association rule); Luật k t hợp c thuộc tính số và thuộc tính hạng mục ( uantitative and categorial association rule); Luật k t hợp ti p cận theo hướng tập thô (mining association rules base on rough set): Tìm ki m luật k t hợp d a trên lý thuy t tập thô... 1.6.5. Phát biểu bài toán phát hiện lu t kết hợp ét ví dụ đối tượng trong giao dịch cho vay khách hàng tại đơn vị . Tập c c giao dịch ( đ y coi là tập c c mục) I = {khá, tốt, trung bình, xấu} và số c c đối tượng cho vay là 4 giao dịch (|T| = 4), trong đ T = {1, 2, 3, 4} – ký hiệu c c giao dịch TID. 1.6.6. Phát hiện lu t kết hợp dựa trên hệ thông tin nhị phân 8 Hệ thông tin nhị ph n; Tập chỉ b o phổ bi n nhị ph n; C c luật k t hợp phổ bi n nhị ph n và hệ số tin cậy; C c vectơ chỉ b o nhị; phân và các phép toán; Tích vectơ chỉ b o nhị ph n; Độ h trợ c c vectơ chỉ b o nhị ph n 1.6.7. Thu t toán phát hiện t p chỉ báo và lu t kết hợp nhị phân Thuật to n Apriori-Tid có hai pha 1.6.8. Khai phá lu t kết hợp trên hệ thông tin mờ 1.7. MẠNG NEURON ỹ thuật mạng Nơ-ron là kỹ thuật mới liên uan đ n việc ph t tri n c c cấu tr c to n học với khả năng học. Mạng Nơ-ron c th đưa ra ý nghĩa t d liệu ph c tạp nhi u chi u và ph t hiện xu hướng c a d liệu mà c c kỹ thuật kh c không th th c hiện được. Mạng Nơ-ron c khả năng mô hình ho nh ng d liệu ph c tạp và nhi u chi u. hi d liệu tăng lên, c c kỹ thuật truy n thống kh c c th không giải uy t được, nhưng mạng Nơ-ron c khả năng giải uy t tốt. 1.7.1. Khái niệm mạng Nơ-ron 1.7.2. Mạng Nơ-ron truyền thẳng Cấu tr c c a mạng Nơ-ron gồm c c n t, m i n t đ u c các trọng số và được bố trí trên c c tầng như: Tầng vào; Tầng ẩn;Tầng ra. Hình 1.3: Cầu tr c mạng Nơ-ron truy n thẳng. ... .. .. .. .. Tầng vào C c tầng ẩn Tầng ra ... .. t uả D liệu vào 9 1.7.3. Mạng Nơ-ron phản hồi Tùy sơ đồ k t nối mà mạng c th là mạng truy n thẳng (feed for ard) hoặc phản hồi (recurrent) c c đường k t nối là đối x ng hoặc không đối x ng. Mạng phản hồi c đường nối phản hồi hoặc c chu trình gi a c c n t. au đ y là cấu tr c c a một mạng phản hồi: Hình 1.4 Cấu tr c mạng Nơ-ron phản hồi 1.7.4. Giải pháp k thu t của mạng Nơ-ron Mạng Nơ-ron được hi u theo c hai khía cạnh: tính to n và học. Phần tính to n được th c hiện theo th t . Phần học thì được th c hiện ngược lại: với số liệu tính to n đầu ra không khớp với mục tiêu, sai số này sẽ làm cơ s đ thay đổi c c trọng số n t xuất, sau đ được lan truy n đ thay đổi trọng số c c n t ẩn. Qu trình này được th c hiện nhi u lần cho đ n khi k t xuất c a mạng ti n gần đ n mục tiêu đ ra. 1.8. QUÁ TRÌNH TÍNH TOÁN CỦA MẠNG NƠ-RON 1.8.1. Hàm truyền V mặt hình học, hàm truy n c dạng ch nên n được gọi là hàm dạng . 1.8.2. Tính toán của mạng Mạng Nơ-ron là một công cụ tính to n, theo nghĩa nào đ thì mạng Nơ-ron làm việc với tư c ch là một bảng tra mà không bi t phụ thuộc hàm tường minh gi a x và y. Việc tính to n c a mạng Nơ-ron số n t c trong mạng. Tầng vào Tầng ẩn Tầng ra 10 Mạng một nút nhập, một nút xuất Mạng hai nút nhập Mạng nhiều nút nhập Lan truyền tiến hi luyện mạng, lan truy n ti n được s dụng lặp đi lặp lại t mẫu này đ n mẫu kh c cho đ n khi c c trọng số đạt được gi trị thích hợp. hi s dụng, lan truy n ti n được s dụng một lần cho t ng trường hợp nhập vào. 1.8.3. Sự chuẩn bị và học dữ liệu Học là một trong nh ng đặc tính uan trọng nhất c a mạng. N chỉ ra c ch đi u chỉnh trọng số trong u trình học. Trong u trình học, ta cần bi t m c tích c c th c t so s nh với m c tích c c mong muốn đ tính sai số. ai số này s dụng đ đi u chỉnh trọng số c a mạng. Trong mô hình mạng Nơ-ron thì việc x c định sai số ít nhất là rất kh . Phương ph p giảm gradient thường được s dụng trong c c trường hợp này. Phương ph p xem E là một mặt l i và x c định c c trọng số ua c c bước chính như sau: (1) Chọn một đi m ngẫu nhiên x0 trong không gian trọng số; (2) Tính độ dốc c a mặt l i tại x0; (3) Cập nhật c c trọng số theo hướng dốc nhất c a mặt l i; (4) Xem đi m này như đi m x0 mới; (5) Lặp đi lặp lại u trình t (2) đ n (4) thì đ n một l c nào đ c c gi trị c a bộ trọng số sẽ ti p cận đ n đi m thấp nhất trong mặt l i. Trọng số nút xuất Trọng số nút ẩn 1.9. MỘT SỐ THUẬT TOÁN ÁP DỤNG TRONG VIỆC HỌC CỦA MẠNG NƠ-RON 1.9.1. Lý thuyết thống kê học 1.9.2. Cực tiểu rủi ro kinh nghiệm 11 1.9.3. Generalization Theo c ch nhìn c a việc ọc mạng -ron, được gọi là l i t ng u t. 1.9.5 Mạng Nơ-ron truyền thẳng (Feed-Foward Neural Networks) a. rc ptr n và luật lta b Tri thức a l p và Lan truyền ngư c c. Radial Basic Fuction Networks Một ki n tr c mạng Nơ-ron phổ bi n kh c đang được s dụng i u mạng này được gọi là mạng radial basic function (RBF). d Mạng v c tơ h tr ch ph n l p Trường hợp phân tuyến dữ liệu Trường hợp không phân tuyến dữ liệu Ph n thủ thu t (kernel trick Chọn lựa của các tham số kernel Mạng v c tơ h trợ cho việc học c ưu tiên Vấn đề học c ưu tiên Công thức của vấn đề Mô hình tiện ích ẩn Mô hình tuyến tính của tiện ích ẩn Mô hình phi tuyến tính của tiện ích ẩn Ứng dụng kinh tế 1.1 . SỰ KẾT HỢP CỦA CÁC KỸ THUẬT C c kỹ thuật khai ph d liệu đ u c nh ng ưu và nhược đi m c a riêng n , chẳng hạn mạng Nơ-ron rất hiệu uả trong việc p dụng khai ph d liệu d đo n cho k t uả tốt mà c c kỹ thuật kh c không th làm được. Tuy nhiên, việc học c a mạng d liệu này là rất tốn thời gian, do đ , cần c s k t hợp gi a c c kỹ thuật này với nhau. k t hợp này được th hiện như hình dưới đ y: 12 Hình 1.6: t hợp c c kỹ thuật đ đưa ra giải ph p mới. Kết lu n chương 1 Như vậy, nhìn vào c c phương ph p giới thiệu trên, ch ng ta thấy c rất nhi u c c phương ph p khai ph d liệu. M i phương ph p c nh ng đặc đi m riêng phù hợp với một lớp c c bài to n với c c dạng d liệu và mi n d liệu nhất định. Tổng k t sơ bộ v khai ph d liệu, nguồn gốc và ng dụng c a khai ph d liệu. Đ tìm hi u r hơn v kỹ thuật khai ph d liệu, Sau khi giới thiệu c c nét cơ bản c a lý thuy t thống kê học, ch ng ta đ tìm hi u v định nghĩa mạng Nơ-ron, c c ki u mạng Nơ-ron. Đ tìm hi u c c nguyên lý cơ bản c a việc học trong mạng Nơ-ron. Chương này cũng đ đ cập đ n c c thuật to n học thường dùng. Đ là: học c tri th c (Perceptron Learning), học lan truy n ngược (Backpropagation Lear) và học với hàm b n kính cơ bản (Radial Basis Function Learning). Qua đ ta thấy mạng nơ-ron có tính chất sau: Là hệ phi tuy n; Là hệ x lý song song; Là hệ nhi u bi n, c nhi u đầu vào/ra rất tiện dùng khi đi u khi n đối tượng c nhi u bi n số c khả năng học và làm xấp xỉ c c hàm to n học bất kỳ với độ chính x c tuỳ ý Tập mẫu Trường hợp mới ỹ thuật 1 ỹ thuật 2 Đ p ng yêu cầu iải ph p 13 CHƯƠNG 2 PHÂN TÍCH BÀI TOÁN 2.1 GIỚI THIỆU Ngân hàng Ngân hàng Ngoại thương Quảng Bình và chính th c đi vào hoạt động t 20/11/2006. V phát tri n tín dụng Vietcombank Quảng Bình áp dụng nhi u biện ph p đ v a tăng trư ng tín dụng, xong còn nhi u r i ro và ph c tạp trong thẩm định khách hàng và doanh nghiệp, đ đ p ng được nhu cầu tín dụng c a khách hàng, góp phần đẩy mạnh phát tri n kinh t - xã hội trên địa bàn v a đảm bảo nâng cao chất lượng tín dụng và hiệu quả. Vietcombank Quảng Bình cần có công cụ h trợ bên cạnh nghiệp vụ như s dụng kinh nghiệm thì cần phải có s trợ giúp c a máy tính. T đ kh u cho vay và kh u trả nợ vay cho ngân hàng đầy đ và đ ng thời hạn (D a trên số liệu hiện có). Bên cạnh đ chất lượng c n bộ tín dụng đang giảm s t do thi u thông tin, thi u tri th c, đ là nhận định c a nhi u người kinh doanh hoạt động trong c c tổ ch c tín dụng (Nợ xấu, mất khả năng thanh to n, đối tượng cho vay không đ ng...). Bên cạnh thời đại bùng nổ thông tin hiện nay. Hàng ngày, c n bộ tín dụng ti p nhận nhi u thông tin t nhi u nguồn kh c nhau (T giao ti p, văn bản, thông tin truy n thông, và kho d liệu đơn vị). ho d liệu ch a c c thông tin c a c c doanh nghiệp ngày càng lớn dần. Trong khi đ , việc khai th c tri th c t nh ng kho d liệu đ chưa được uan t m đ ng m c. Chính vì vậy kho d liệu phần lớn chỉ được s dụng đ x y d ng c c b o c o mang tính thống kê. Được xem như một c ch ti p cận mới trong việc tìm ki m tri th c t d liệu. T nh ng tập d liệu khổng lồ và h n tạp, c th tìm ra nh ng uy luật chưa được bi t đ n 14 đ giải thích h trợ cho nh ng hiện tượng th c t trong việc thẩm định vay vốn. dụng phương ph p khai ph tri th c t d liệu đ d đo n trong hoạt động thẩm định vay vốn là một phương ph p mới nhằm n ng cao chất lượng thẩm định tín dụng c a ng n hàng. 2.2. THỐNG KÊ TÌNH HÌNH VAY VỐN THEO NGHÀNH KINH TẾ TRONG 3 NĂM QUA TẠI NGÂN HÀNG THƯƠNG MẠI CỔ PHẦN NGOẠI THƯƠNG QUẢNG BÌNH. D a trên số liệu tình hình vay vốn c a ng n hàng thương mại cổ phần ngoại thương Việt Nam – chi nh nh Quảng Bình, trong ba năm ua ta thấy s bi n đổi ph c tạp cho vay c a c c thành phần kinh t c s thay đổi rỏ rệt. Đ là s gia tăng hoặc giảm xuống c a c c thành phần kinh t trong hoạt động tín dụng c chi u hướng tăng mạnh, hoặc tăng trư ng tín dụng rất thấp hay không tăng. 2.3. BÀI TOÁN Ng n hàng TMCP là một tổ ch c tín dụng, th c hiên c c hoạt động kinh doanh hằng ngày. Trong đ c hoạt động cho vay, th c hiện xem xét, ki m tra xem xét c c hồ sơ kh ch hàng như th nào, d đo n khả năng hoàn trả vay hay không v c c khoản tín dụng. Đ th c hiện vấn đ này, ng n hàng ti n hành thu thập thông tin v n thuộc tín kh ch hàng (Tuổi t c, nơi cư tr , thu nhập, tài sản). Đ giải uy t bài to n này là ng n hàng x c định đơn vay, kh ch hàng nào được vay, hay ngược lại, kh ch hàng, đơn vay nào không được duyệt vay. Như vậy, giải uy t bài to n này, d liệu thu nhập đầu vào là các thông tin liên uan đ n c nh n hoặc tổ ch c, công ty đ ng đơn vay tín dụng, k t uả bài to n là uy t định cho vay hoặc không cho vay; thông tin cần x lý là c c thông v c nh n, v s h u tài sản th chấp, phương n kinh doanh 15 2.4. PHƯƠNG PHÁP GIẢI QUYẾT BÀI TOÁN 2.4.1. Phương pháp thủ công Ng n hàng c c n bộ tín dụng thẩm định kh ch hàng. C n bộ tín dụng sẻ ki m tra v tài sản, khi vay c th chấp, hay phương n kinh doanh, hoặc độ tin cậy khi vay tín chấp bằng c c thông tin (thông tin c c khoản vay tổ ch c kh c, cơ uan công t c, c ch sống và uy tín tại địa phương nơi cư tr , tuổi t c) Việc ki m tra thông được c n bộ tín dụng d a trên c c thông tin người vay đi n vào mẫu c sẵn do ng n hàng ph t hành (Bao gồm c c thông tin: Ngh nghiệp, ch c vụ, hệ số lương, năm công t c, tuổi t c, giới tính, s c khỏe). Trên cơ s c c thông tin cụ th c n bộ tín dụng, c n bộ tín dụng đ xuất biệ ph p cụ th cho m i đơn vay. 2.4.2. Phương pháp thủ công và tin học Đơn vay sau khi được xét duyệt cho vay, c n bộ tín dụng sẽ chuy n toàn bộ hồ sơ đầy đ khi đ được thẩm định, đ n phòng Quản lý nợ. C n bộ uản lý nợ sẽ ng dụng một phần m m tin học được p dụng tại hệ thống Ngân hàng TMCP Ngoại Thương Việt Nam. Đối với kh ch hàng đ c thông tin trên hệ thống tin học thì bước đầu tiên là c n bộ uản lý nợ khai b o m vay, l i suất, thông tin ngày trả, trên chương trình cho vay c a ng n hàng, bao gồm c c bước: B1: Khai báo mã vay; B2: Khai số hợp đồng; B3: Khai báo thời gian trả gốc và l i, ngày tất to n; B4: Sau khi khai báo xong như trên i m so t viên/ Trư ng/Ph phòng ki m tra duyệt, t nh n viên uản lý nợ đ khai b o chuy n ua; B5: Sau khi khai báo xong như trên/ki m tra như trên, một nh n viên uả lý nợ ti p tục s dụng một chương trình hạch to n ti n cho kh ch hàng vào tài khoản hoặc nh n 16 ti n mặt. Quy trình tất to n, trả nợ, và trả lại cũng s dung chương trình này. Như vậy, việc ng dụng công nghệ thông tin cũng g p phần giải uy t một lương lớn công việc ng n hàng. Tuy nhiên, n chưa mang tính toàn vẹn, chỉ gi p một vài bộ phận nghiệp vụ trong ng n hàng tăng hiệu su t làm việc lên một m c nào đ , chưa h trợ được cho l nh đạo trong việc ra uy t định. Một khi lượng d liệu tăng lên nhi u thì c c biện ph p này sẽ đ lộ ra một vài nhược đi m mà nh ng nhược đi m đ , một kỹ thuật kh c c th giải uy t h t s c nhanh ch ng và hiệu uả. Đ là kỹ thuật mạng Nơ-ron. 2.4.3. Phương pháp sử dụng K thu t mạng Nơ-ron Việc s dụng c c biện ph p th công hay c c phương ph p truy n thống sẽ tốn kém nhi u thời gian và công s c đ kinh doanh ti n tệ nhưng hiệu uả không cao, c th không đạt như mong muốn. T c c kỹ thuật, công nghệ mới trong tin học và truy n thông, c c nhà khoa học đ nghiên c u, mô phỏng hoạt động và cấu tr c. Việc mô phỏng hoạt động c a hàng tỉ Nơ-ron trong bộ n o người, hoạt động song song đ tăng hiệu uả c a việc x lý lên gấp hàng triệu lần. C như vậy, mới giải uy t hiệu uả được bài to n, đ p ng s ph t tri n ngày một lớn mạnh c a hệ thống ng n hàng. 2.5. SỰ CẦN THIẾT PHẢI S DỤNG KỸ THUẬT MẠNG NƠ - RON C c phương ph p m y tính truy n thống trước đ y s dụng cơ ch tuần t , phép to n này x lý xong mới đ n phép to n kh c. ỹ thuật mạng Nơ-ron mô phỏng tính năng và cấu tr c c a hệ thống thần kinh và n o người. Mạng Nơ-ron c th giải uy t lượng d liệu lớn, x lý song song và cho ra k t uả chính x c giống như k t uả x lý c a n o người. 17 Ng n hàng TMCP Ngoại Thương Việt Nam c trụ s chính tại Hà Nội, c khoảng 77 chi nh nh cấp I 4 tỉnh, thành phố trên cả nước và m i chi nh nh cấp I lại c c c phòng giao dịch địa bàn uận, huyện. M i ngày, trung bình một chi nh nh nhận được 50 đơn vay vốn c a c c c nh n, hộ gia đình, công ty, ... Một c n bộ tín dụng c công suất giải uy t tối đa là 4 đơn/1ngày. Như vậy, số lượng c n bộ tín dụng c a hệ thống ng n hàng đ trên cả nước sẽ là: (2.500 50) / 4 = 31.250 c n bộ. R ràng rằng, với bộ m y cồng k nh như vậy, chưa k c c bộ phận phòng ban kh c thì hiệu uả kinh doanh sẽ giảm r rệt. T đ dẫn đ n s c cạnh tranh kém, kh khăn trong việc đi u hành và ph t tri n. đ y chưa đ cập đ n r i ro xảy ra khi c n bộ tín dụng, n u thi u c c kinh nghiệm thẩm định mà chấp nhận đơn vay một c ch d dàng thì x c suất r i ro c a việc cho vay không thu hồi được vốn sẽ tăng lên. Đối mặt với khối lượng công việc ngày càng lớn, đ ng trước s cạnh tranh khốc liệt gi a c c ng n hàng và việc lôi cuốn, gi ch n kh ch hàng bằng chất lượng dịch vụ và marketting c a mình, không còn c ch nào kh c là c c ng n hàng phải t vươn lên, tìm mọi biện ph p đ n ng cao chất lượng dịch vụ. Trong đ , s làm hài lòng kh ch hàng và đảm bảo y u tố thành công trong kinh doanh và giảm thi u c c r i ro là nh ng vấn đ then ch t, uan t m hàng đầu c a c c cấp l nh đạo. Việc p dụng c c kỹ thuật và công nghệ m y tính nhằm tăng năng suất làm việc, tăng độ bảo mật thông tin kh ch hàng Do đ , việc p dụng c c ng dụng đ d b o thẩm định vay vốn c a c c 18 ng n hàng tại Việt Nam hoàn toàn c tính khả thi. Đi u này sẽ c nhi u mặt lợi: Tăng hiệu suất công , Thống nhất v công nghệ. Liên doanh, liên k t đ giảm chi phí đầu tư, tăng khả năng cạnh tranh đối với c c doanh nghiệp, tập đoàn nước ngoài. Vì vậy, p dụng kỹ thuật mạng Nơ-ron trong d b o thẩm định vay vốn ng n hàng sẽ ch a đ ng một ti m năng to lớn v hiệu uả ng dụng c a n . i p tăng cường khả năng d b o, h trợ đ c l c cho c c cấp l nh đạo ng n hàng ra uy t định trong công t c đi u hành công việc. Trong c c chương ti p theo, ch ng ta sẽ cùng xem xét c c kh i niệm, ki n th c chung v khai ph d liệu, c c kỹ thuật p dụng trong khai ph d liệu và tìm hi u cặn kẻ v kỹ thuật mạng Nơ-ron, c c thuật to n học, hàm truy n c a kỹ thuật này cũng như việc cài đặt ng dụng cụ th minh họa cho phần ki n th c đ nghiên c u. Kết lu n chương 2 Việc x c định c c yêu cầu đặt ra c a bài to n, ta ti n hành ph n tích và đưa ra c c giải ph p đ giải uy t c c yêu cầu c a bài to n. T đ ch ng ta chọn ra một phương ph p tối ưu là d a vào kỹ thuật mạng nơron đ giải uy t bài to n và x c định c c vấn đ cần nghiên c u được chỉ ra. CHƯƠNG 3 XÂY DỰNG HỆ THỐNG TRỢ GIÚP THẨM ĐỊNH VAY VỐN TẠI NGÂN HÀNG Trên cơ s tìm hi u kỹ thuật mạng Nơ-ron như đ trình bày, trong phần này, ch ng ta sẽ trình bày giải ph p đ x y d ng mạng Nơ-ron nhằm giải uy t bài to n đ đặt ra: Trợ giúp thẩm định đ n vay vốn ngân hàng. 19 D a vào cơ s thuật to n lan truy n ngược (Back propagation algorithm), ch ng tôi cải ti n thêm một vài bước nhằm đạt được c c yêu cầu như dưới đ y: dụng thuật to n Lan truy n ngược c cải ti n, k t hợp thêm c c y u tố: – dụng hàm học logic g(u) – Hàm kernel: m rộng cho c c hàm uy t định phi tuy n, tăng số lớp ẩn lên > 1 iảm thời gian học (huấn luyện) c a mạng Tốc độ hội tụ c a mạng nhanh hơn Các bước tổng quát để cài đ t một mạng Nơ-ron: (1) Chọn ki n tr c mạng. Với bước chọn ki n tr c mạng nào sẽ uy t định thuật to n học nào đi k m theo. (2) Chọn số lớp ẩn. ố lớp ẩn c th là 0, 1, 2, 3, 4. (3) Với m i lớp ra và m i lớp ẩn, chọn thuật to n học. u ý: Trong một số trường hợp, số lượng lớp ẩn c th bị ràng buộc b i việc chọn thuật to n học. Việc chọn số lớp ẩn th hiện bằng đường nét rời. Với thuật to n này thì số lớp ẩn chỉ duy nhất là một lớp. (4) Tất cả c c tham số kh c là độc lập và c th được cung cấp vào bất kỳ l c nào. C c tham số c th phụ thuộc vào việc chọn thuật to n học nào cho mạng. ể xây dựng m t ng d ng c c c sau là cần thiết: Trước tiên, ta chọn ki n tr c mạng, sau đ chọn ki u x lý c c phần t trong mạng. i n tr c mạng sẽ uy t định c ch th c x lý c c phần t được k t nối như th nào. t uả c a đầu ra sẽ được đi u chỉnh b i việc chọn trọng số trong u trình k t nối. C c bước chọn l a trên c th t m lược lại như sau: 20 (1) c định nhiệm vụ cần th c hiện c a mạng Nơ-ron trong ng dụng; (2) Ph n tích d liệu phù hợp cho ng dụng; (3) Chọn c c đầu vào c a ng dụng; (4) lý d liệu một c ch thích hợp trước khi đưa vào mạng; (5) Chọn c c yêu cầu đầu ra c a mạng, bao gồm cả việc bổ sung c c x lý c a c c đầu ra s dụng trong ng dụng; ( ) Chọn phương ph p học và thuật to n học s dụng cho u trình huấn luyện; ( ) c lập c c tham số đi theo với mạng được chọn, bao gồm cả số phần t x lý trong m i lớp, ki u x lý c c phần t và c c tham số học; (8) Huấn luyện mạng Nơ-ron trong tập d liệu huấn luyện; ( ) i m tra việc huấn luyện c a mạng trên tập i m th ; (10) Ph n tích k t uả và việc huấn luyện lại c a mạng hoặc cài đặt lại c c tham số, c c bước ti n x lý; (11) Tích hợp việc huấn luyện mạng vào ng dụng. 3.1. CHỌN MÔI TRƯỜNG CÔNG CỤ D a vào cơ s lý thuy t c a chương 1 và bài to n trong chương 2 tôi x y d ng chương trình hệ thống trợ giúp thẩm định vay vốn tại Ngân hàng TMCP Ngoại Thương Quảng Bình. Chương trình x y d ng trên n n tảng Dot.net và cơ s d liệu được thu thập tại Ngân hàng TMCP Ngoại Thương Quảng Bình. 3.2. TẠO DỮ LIỆU M U CHO ỨNG DỤNG Tất cả c c thông tin v kh ch hàng vay được lưu tr trong hệ thống tập tin (Trong CSDL SQL, Fox) trong hệ chương trình giao dịch c a Ngân hàng TMCP Ngoại Thương Quảng Bình. Tuy nhiên tất cả c c thông tin này phải được lam sạch loại bỏ nhưng thông tin dư th a cho việc kha ph d liệu, d liệu sẽ được tổ ch c lại và khai ph theo usy và năm t đ p dụng kỷ thuật mạng nơron x y d ng hệ thống trợ gi p d b o độ r i ro hoàn trả nợ c a đơn vay tín dụng. 21 Nh ng thông tin sau là cần thi t cho việc khai ph d liệu: Tuổi, hôn nh n, gia đình, ngh nghiệp, thời gian làm việc, tài khoản, s h u nhà, tình trạng tài khoản... D liệu bao gồm khoảng 450 – 500 bản ghi. C c bản ghi bao gồm c c thuộc tính đầu vào như: Tuổi, giới tính, tình trạng hôn nh n, ngh nghiệp, tài khoản, s h u tài sản, c c lần vay tín dụng trước, khả năng chi trả và thuộc tính đầu ra: Độ r i ro c a đơn vay. Trong trường hợp th nghiệm này, ch ng tôi s dụng bộ d liệu c a ng dụng gồm (300 ban ghi): Tập d li u đầu vào (300 ản ghi); Tập d li u uấn luy n ( 0 ản ghi ; Tập d li u iểm thử (55 ản ghi ;Tập d li u ết uả Trong đ VLD: bản ghi được huấn luyện ua mạng; TRN: bản ghi thuộc tập mẫu huấn luyện; T T: bản ghi thuộc tập mẫu ki m th C c bản ghi đ y hoàn toàn c th thay đổi tính chất t TRN sang T T hoặc là bản ghi c a d liệu đầu vào. C c gi trị đ y c th thay đổi tùy theo bài to n. ố lượng mẫu trong tập huấn luyện và ki m th c th thay đổi bất kỳ l c nào. 3.3. CÀI Đ T THUẬT TOÁN Mục tiêu là x c định độ r i ro c a việc cho vay c a một đơn vay tín dụng. Việc x c định độ r i ro này d a trên c c thông tin được cung cấp k m theo với đơn vay. Việc cho vay một khoản ti n hay toàn bộ số ti n c a một đơn vay nào đ chính là việc ph n lớp c a ng dụng mạng Nơ-ron. Đ giải uy t vấn đ này, một mạng Nơ-ron sẽ được huấn luyện đ th c hiện việc ph n lớp một c ch chính x c c c đơn vay. au khi mạng Nơ-ron đ được huấn luyện, n c th được s dụng đ h trợ việc ra uy t định cho vay toàn bộ hoặc một phần hay t chối một đơn vay theo k t uả mà mạng Nơ-ron đ được huấn luyện chỉ ra. 22 D liệu được lấy t một cơ s d liệu và ch a c c thông tin chọn lọc t mẫu đơn vay vốn. Trong ng dụng này, thuật to n Lan truy n ngược (Backpropagation algorithm) được s dụng đ cài đặt. Qu trình giải uy t một bài to n tối ưu được gọi là lan truy n ngược, n bao hàm cả việc tính to n l i c a mạng Nơ-ron và lan truy n ngược l i ấy thông ua mạng đ cập nhật lại c c trọng số. Qu trình ấy bao gồm c c bước sau: Thuật to n huấn luyện cho một mẫu trong tập d liệu huấn luyện; Thuật to n huấn luyện cho tất cả c c mẫu trong tập d liệu huấn luyện; Thuật to n tính trọng số cho lớp ra; Thuật to n tính trọng số cho lớp ẩn; Thuật to n cập nhật trọng số. 3.3.1 Xử lý mẫu Thu t toán Lan truyền ngược (Trường hợp cho một mẫu trong tập d liệu huấn luyện) 3.3.2 Cài đ t thu t toán lan truyền ngược xử lý t p huấn luyện 3.3.3 C p nh t các trọng số Mô tả trong thuật to n c a lan truy n ngượcn, sau khi c c trọng số được cập nhật, c c mẫu ti p theo được s dụng đ tính to n đầu ra, tính to n c c l i, tính to n cập nhật c a c c trọng số. Và sau đ , m i trọng số được cập. Qu trình huấn luyện k t th c khi l i (hoặc l i bình phương tổng u t hoặc l i trong tập c c gi trị cơ bản) hạ đ n m c đ thấp, hay đạt được c c tham số ti n định c a mạng. 3.4. HU N LUYỆN KI M TH VÀ KẾT QUẢ D liệu cho c c tập huấn luyện và ki m th đ được trình bày. au khi chạy th cho chương trình huấn luyện mạng. t uả ta c tập d liệu k t uả. 23 Trong th nghiệm này, c c thông tin v d liệu như sau: D liệu vào: 300 bản ghi; D liệu trong tập mẫu huấn luyện: 180 bản ghi; D liệu trong tập mẫu ki m th : 5 bản ghi; D liệu được huấn luyện: 55 bản ghi t uả huấn luyện mạng cho ra đ y chính là trường RuiRoTD. Trường này c hai khả năng là r i ro CA hay TH P. 3.5. ĐÁNH GIÁ VỀ GIẢI PHÁP Như vậy, trên cơ s thuật to n lan truy n ngược, ch ng tôi đ xuất cải ti n thuật to n bằng c ch s dụng hàm logic và hàm kernel nhằm đạt được c c mục tiêu như sau: iảm thời gian học c a mạng. Tăng tốc độ hội tụ c a mạng.. Hơn n a, việc gia tăng số lượng lớp ẩn sẽ tăng độ tin cậy c a k t uả d b o. Kết lu n chương 3 Trong chương này, ch ng ta đ tìm hi u c c bước cần thi t đ x y d ng một ng dụng mạng Nơ-ron. Theo đ , ta phải chọn ki n tr c mạng, thuật to n học phù hợp với yêu cầu c a bài to n. Ti p theo là chọn số lớp ẩn c a mạng (đi u này phụ thuộc vào việc ta chọn thuật to n học nào). Bên cạnh đ , ta cũng sẽ x c định hàm truy n cho mạng cũng như c c tham số cần thi t kh c. Chương 3 cũng trình bày u trình x y d ng một ng dụng. ng dụng này được x y d ng trên cơ s cải ti n thuật to n lan truy n ngược nhằm r t ng n thời gian học c a mạng, tăng tốc độ hội tụ c a mạng cũng như m rộng phạm vi p dụng cho c c hàm phi tuy n. Bằng kỹ thuật lập trình Dot.net trên n n tảng indo s, chạy m y đơn, khai th c cơ s d liệu uan hệ m c độ v a phải trên hệ uản trị ( l erver, Fpxpro). Mục tiêu c a ng dụng là nhằm th nghiệm c c ki n th c đ tìm hi u trong phần lý thuy t. Qua đ xem xét khả năng m rộng c a ng dụng sau này. 24 ng dụng đ th hiện cụ th c c nguyên t c lý thuy t đ tri n khai một mạng Nơ-ron cho công việc cụ th , đ là tìm ra c c đơn vay tín dụng c th cho vay hoặc không cho vay nhằm h trợ l nh đạo trong việc ra uy t định. KẾT LUẬN VÀ HƯỚNG PHÁT TRI N Luận văn đ trình bày tổng uan và c c nét đặc trưng nhất trong lĩnh v c khai ph tri th c d liệu bao gồm c c vấn đ cần kh m ph tri th c, c c hướng ti p cận và nghiên c u tiêu bi u. C c kỹ thuật khai ph tri th c d liệu s dụng trong luận văn được tham khảo t nhi u nguồn tài liệu kh c nhau. Tuy nhiên, ch ng c nét tương đồng với nhau, th hiện việc c c kỹ thuật đ u cần tập c c trọng số phù hợp kỹ thuật mạng Nơ-ron. Kết quả nghiên cứu của lu n văn cho ph p rút ra những kết lu n sau đây: Việc ng dụng kỹ thuật mạng Nơ-ron trong khai ph d liệu đ n ng cao được hiệu năng c a mô hình, giảm được chi phí trao đổi trong hệ thống. C c thuật to n c a mạng Nơ-ron c th p dụng cho nhi u lĩnh v c kinh t , kỹ thuật, văn ho kh c nhau, tùy theo yêu cầu, m c độ c a m i lĩnh v c mà p dụng c c thuật to n, phương ph p kh c nhau cho phù hợp. Như vậy, sẽ gi p mang lại hiệu uả công việc cao hơn. V mặt cài đặt th nghiệm, luận văn giới thiệu kỹ thuật khai phá tri th c t d liệu theo thuật to n lan truy n ngược đ p dụng vào bài toán trợ gi p thẩm định vay vốn ng n hàng. Hướng phát triển: Nghiên c u s u c c thuật to n khai ph d liệu; y d ng c c thuật to n kh c c a kỹ thuật mạng Nơ-ron đ tăng m c độ và phạm vi ng dụng c a chương trình; y d ng c c phương ph p, thuật to n kh c nhau theo hướng mô đun thành phần và tích hợp vào ng dụng.

Các file đính kèm theo tài liệu này:

  • pdfnguyentransy_tt_9952.pdf
Luận văn liên quan