1. Kết luận
Với những mục tiêu và kế hoạch thực hiện luận văn trong hơn một năm
qua, luận văn đã đạt được những kết quả chính:
- Tổng kết các kết quả nghiên cứu của các nhà khoa học trên thế giới về
lĩnh vực KPQT và các giải thuật tìm kiếm cộng đồng trong MXH. Những nghiên
cứu này tạo nền tảng cơ sở cho sự lựa chọn giải thuật tìm kiếm cộng cộng đồng
chồng chéo áp dụng để giải quyết bài toán thuộc khía cạnh tổ chức.
- Phát biểu bài toán và đề xuất mô hình giải quyết bài toán. Đề xuất giúp
tìm ra các nhóm người có sự chồng chéo nhiệm vụ khi tham gia vào quy trình.
- Xây dựng thành công chương trình thực nghiệm dựa trên mô hình đề
xuất giải quyết trong luận văn.
2. Hướng phát triển tương lai
Trong tương lai, Tác giả sẽ tiếp tục nghiên cứu và giải quyết những thách
thức:
- Đối với dữ liệu đầu vào: Tác giả sẽ tiếp tục thu thập dữ liệu nhật ký sự
kiện trong thực tế, áp dụng các công cụ tiền xử lý dữ liệu để đưa dữ liệu về dạng
chuẩn, làm đầu vào cho các giải thuật.
- Đối với loại độ đo hỗ trợ biểu diễn cấu trúc MXH: Mở rộng kỹ thuật xây
dựng MXH dưới dạng đồ thị có hướng, có trọng số bằng cách sử dụng các độ đo
khác nhau.
- Đối với giải thuật tìm kiếm: Giải thuật Phân vùng theo cạnh còn tồn tại
nhiều hạn chế về thời gian chạy, gây ra sự phân tách các cộng đồng làm giảm độ
chính xác trong kết quả. Mặt khác, nếu đầu vào của giải thuật là đồ thị có mật độ
kết nối giữa các đỉnh thưa, kết quả phân cụm sẽ không có ý nghĩa. Do vậy, Tác
giả sẽ tiếp tục nghiên giải thuật cải tiến của giải thuật Phân vùng theo cạnh và
các giải thuật khác, nhằm đánh giá các loại giải thuật phù hợp với từng loại mô
hình MXH .
- Đối với chức năng của phần mềm: Chương trình thực nghiệm chỉ dừng ở
việc xử lý tệp dữ liệu sự kiện định dạng .xes chứa khoảng hơn 1000 trường hợp
và 7000 sự kiện. Do đo, Tác giả sẽ nghiên cứu, mở rộng các chức năng của
chương trình để đáp ứng với tệp dữ liệu có kích thước lớn hơn.
56 trang |
Chia sẻ: yenxoi77 | Lượt xem: 740 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Luận văn Tìm hiểu một số giải thuật tìm kiếm cộng đồng trong mạng xã hội và áp dụng vào bài toán khai phá quy trình, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
còn gọi là phân cụm từ
dƣới – lên, độ phức tạp của giải thuật O(n2log(n)). Các bƣớc thực hiện:
+ Mỗi đỉnh trong đồ thị đƣợc coi là một cụm đơn.
26
+ Tìm các cặp cụm có khoảng cách ngắn nhất (độ tƣơng sự lớn nhất) và
tập hợp chúng lại thành một cụm. Tính khoảng cách (độ tƣơng tự) giữa cụm mới
với các cụm còn lại.
+ Lặp lại hai bƣớc trên cho đến khi tất các đỉnh thuộc một cụm duy nhất.
Để tính khoảng cách giữa các cụm có nhiều cách khác nhau, có một số
phƣơng pháp phổ biến:
Kí hiệu: A, B là hai cụm bất kỳ; a, b lần lƣợt là các phần tử thuộc cụm A, B
d(a,b) là khoảng cách từ phần tử a tới phần tử b.
TT Tên phƣơng pháp Cách tính
Tiêu chí
Kết nối
1
Phƣơng thức kết nối đơn (Single
Linkage Method)
- Tên gọi khác: Phƣơng pháp láng
giềng gần nhất
Min 𝑑 𝑎, 𝑏 :𝑎 𝜖 𝐴, 𝑏 𝜖 𝐵
Độ tƣơng tự lớn
nhất hay Khoảng
cách ngắn nhất
2
Phƣơng thức kết nối toàn bộ
(Complete Linkage Method)
- Tên gọi khác: Phƣơng pháp láng
giềng xa nhất
Max 𝑑 𝑎, 𝑏 :𝑎 𝜖 𝐴, 𝑏 𝜖 𝐵
Độ tƣơng tự nhỏ
nhất hay Khoảng
cách xa nhất
3
Phƣơng thức kết nối trung bình
(Average Linkage Method)
- Tên gọi khác: UPGMA
1
𝐴 |𝐵|
𝑑(𝑎, 𝑏)
𝑏∈𝐵𝑎∈𝐴
Độ tƣơng tự trung
bình hay khoảng
cách trung bình
Bảng 2.2 Các phương pháp tính khoảng cách hai cụm
Hình 2.2 Các phương pháp phân cụm thứ bậc
27
- Phân cụm thứ bậc phân chia (Divisive): Hay còn gọi là phân cụm từ trên
- xuống, độ phức tạp của giải thuật là O(2n). Giải thuật đƣợc đƣa ra bởi hai nhà
khoa học Girvan và Newman vào năm 2002. Bắt đầu một mạng, tiến hành chia
nhỏ mạng thành mạng nhỏ hơn. Quá trình này sẽ kết thúc mỗi cộng đồng chỉ
chứa một đỉnh duy nhất.
c) Tối ưu hóa độ đo Modularity (Modularity Optimization): Độ đo
modularity là một độ đo đánh giá chất lƣợng các cộng đồng đƣợc phát hiện và
cách cải thiện chất lƣợng các cộng đồng này. Năm 2006, Newman và Girvan đã
đƣa ra một tiêu chí để dừng việc phân tách của các giải thuật tìm kiếm cộng
đồng là độ đo modularity Q. Để xác định độ đo Q, ta so sánh số lƣợng cạnh
trong đồ thị đã cho so với số lƣợng cạnh trong đồ thị ngẫu nhiên. Độ đo này sử
dụng để đánh giá chất lƣợng các phân vùng, đƣợc tìm thấy từ các giải thuật tìm
kiếm khác nhau. Giá trị Q càng lớn, chất lƣợng phân vùng đƣợc đánh giá là tốt.
Tối ƣu hóa độ đo Q là một bài toán khó (Brandes et al., 2008), do rất khó có thể
tìm giá trị Q tối ƣu. Có một số kỹ thuật tìm giá trị Q tối ƣu:
+ Giải thuật tìm kiếm tham lam (Greedy Optimization): Năm 2004,
Newman đã đƣa ra giải thuật cực đại hóa độ đo modularity bằng phƣơng pháp
tìm kiếm tham lam. Cùng năm đó, Clauset et al. đã đề xuất cải tiến các toán tử
trong giải thuật của Newman, nhằm cải thiện thời gian chạy của giải thuật.
Danon et al. đã chuẩn hóa các biến độ đo Modularity bằng cách sát nhập hai
cộng đồng bằng cách sử dụng lát cắt ngẫu nhiên của một trong hai cộng đồng
vào năm 2006. Hai năm sau đó, Blondel et al. đã áp dụng giải thuật tìm kiếm
tham lam đối với đồ thị có trọng số.
+ Giải thuật theo hạt mô phỏng (Simulated Annealing): Đây là phƣơng
pháp chỉ sử dụng với đồ thị có kích thƣớc nhỏ. Giải thuật đƣợc coi nhƣ một hàm
xác suất, tiến hành lựa chọn một phân vùng trong đồ thị, tìm giá trị tối ƣu độ đo
Modularity trong những phân vùng đó. Năm 2004, giải thuật đƣợc đƣa ra bởi
Guimera et al. Ý tƣởng của giải thuật là bắt đầu tại một phân vùng đƣợc lựa
chọn ngẫu nhiên. Sau đó di chuyển các đỉnh vào thành một cụm hoặc các cụm
khác nhau. Tiếp tục việc sát nhập và phân tách các cụm, tính độ đo Modularity.
Nếu cụm nào có độ đo Modularity tăng thì giữ lại, nếu giảm tiếp tục quá trình
phân tách và sát nhập.
+ Tối ƣu hóa mở rộng (External optimization): Là giải thuật tìm kiếm
heuristic đƣợc đƣa ra bởi Boettcher và Pecres vào năm 2001. Kết quả của giải
thuật tìm thấy giá trị độ đo modularity tối ƣu và cải thiện thời gian chay của
chƣơng trình. Năm 2005, Duch và Arenes tìm ra giá trị modularity của một đỉnh
28
dựa trên việc tối ƣu hóa biến cục bộ. Độ phức tạp của giải thuật này là O (n2
logn). Các bƣớc giải thuật:
Bƣớc 1: Bắt đầu một phân vùng ngẫu nhiên nằm giữa hai cụm.
Bƣớc 2: Sử dụng hàm Fitness để đánh giá độ tốt của một đỉnh. Đỉnh có độ
fitness thấp nhất sẽ đƣợc chuyển sang cộng đồng khác.
Bƣớc 3: Giá trị Fitness đƣợc tính lại với phân vùng khác.
Bƣớc 4: Thuật toán sẽ dừng lại nếu độ đo Modularity của các cụm không
đƣợc cải thiện hơn.
d) Phân cụm dựa trên quang phổ (Spectral clustering): là kỹ thuật phân
vùng dựa trên giá trị các phần tử của của ma trận. Sử dụng kỹ thuật phân cụm k-
mean để phân chia đồ thị. Tuy nhiên, phƣơng pháp này có thể phân tách các
đỉnh mà không cần sử dụng giải thuật k-mean.
2.3 Các giải thuật tìm kiếm cộng đồng chồng chéo
Hiện tƣợng các cộng đồng chồng chéo đƣợc nghiên cứu lần đầu tiên bởi
nhóm nghiên cứu Palla et al. vào năm 2005. Ông đã đề xuất phƣơng pháp tìm
kiếm các đồ thị Clique, là một đồ thị đầy đủ. Phát hiện cộng đồng chồng chéo là
một bài toán NP - khó và có nhiều phƣơng pháp cho phép giải quyết những vấn
đề này nhƣng hầu hết không đạt hiệu quả nhƣ mong đợi. Một số giải thuật tìm
kiếm cộng đồng chồng chéo:
- Giải thuật tìm kiếm đồ thị Clique (Clique Percolation Method - CPM):
phƣơng pháp này đƣợc đƣa ra bởi Palla et al. vào năm 2005. Nhóm tác giả đã
mở rộng các vấn đề của Girvan Newman là tìm các cộng đồng chồng chéo,
trong đó một đỉnh có thể thuộc một hoặc nhiều cộng đồng. Ý tƣởng của giải
thuật là mỗi cộng đồng đƣợc hình thành từ các đồ thị Clique và đồ thị ban đầu
chứa một số lƣợng lớn đồ thị Clique. Khái niệm đồ thị k-clique đƣợc sử dụng để
chỉ ra một đồ thị đầy đủ với k đỉnh. Hai đồ thị k-clique kề nhau có chung (k-1)
đỉnh. Palla và các cộng sự đã thiết kế gói phần mềm Cfinder thực thi giải thuật
này. Năm 2007, Palla et al. đã đƣa ra định nghĩa đồ thị k-clique có hƣớng và đề
xuất giải pháp giải quyết những giới hạn của giải thuật CPM, gọi là CPMd
(Clique Percolation Method with directed cliques). Cùng năm đó, Farkas et al.
đã mở rộng giải thuật CPM đối với đồ thị có trọng số, giải thuật CPMw. Năm
2008, Kumpula et al. đã đƣa ra giải thuật phát hiện cộng đồng nhanh đƣợc gọi là
SCP (Sequential Clique Percolation Method) đối với các đồ thị có trọng số và
không trọng số, trong đó kích thƣớc đồ thị clique đƣợc cho trƣớc. Thời gian
chạy của giải thuật SCP nhanh hơn CPM. Giải thuật CPM:
29
Đầu vào: Đồ thị G gồm N đỉnh, đồ thị Clique có k đỉnh.
Đầu ra: Cấu trúc cộng đồng.
Bƣớc 1: Tìm tất cả các đồ thị k-clique trong đồ thị G.
Bƣớc 2: Xây dựng đồ thị Gc là đồ thị mà mỗi đỉnh đại diện cho một k-
clique trong đồ thị ban đầu. Hai k-clique có cạnh kết nối với nhau nếu chúng có
chung (k-1) đỉnh.
Bƣớc 3: Mỗi đồ thị Clique đƣợc coi là một cộng đồng trong mạng.
- Giải thuật phân vùng đồ thị dựa trên thông tin của cạnh (Link based
algorithms): Ý tƣởng của giải thuật này là phân vùng các cạnh mà không phải là
các đỉnh. Năm 2010, Ahn et al. đã đƣa ra khái niệm “cộng đồng cạnh” và giải
quyết thành công mâu thuẫn giữa cấu trúc chồng chéo và phân cấp. Cùng năm
đó, Evan et al. đã mở rộng giải thuật này bằng cách sử dụng các đồ thị Clique.
Phƣơng pháp này coi mỗi đồ thị Clique trong đồ thị ban đầu là một đỉnh trong
đồ thị đƣờng, các cạnh nối giữa các đồ thị clique này đƣợc đánh trọng số. Tuy
nhiên, nhà khoa học Fortunato đã đƣa ra quan điểm rằng không có sự đảm bảo
chính xác rằng đồ thị đƣờng cung cấp các cộng đồng cạnh có chất lƣợng cao hơn
các cộng đồng đỉnh.
- Phân cụm mờ (Fuzzy): Là phƣơng pháp phân cụm mà cho phép mỗi đỉnh
thuộc về hai cụm hoặc nhiều cụm thông qua bậc thành viên. K-mean là thuật
toán phân cụm rõ, c-mean là thuật toán phân cụm mờ. Đối với các cộng đồng
chồng chéo, phƣơng pháp này cho phép mỗi đỉnh có thể thuộc nhiều hơn một
cộng đồng nhƣng tầm ảnh hƣởng của đỉnh này với mỗi cộng đồng mà nó thuộc
vào là khác nhau. Năm 2011, Gregory đã đánh giá tầm ảnh hƣởng của mỗi đỉnh
trong mỗi cộng đồng mà đỉnh đó thuộc vào bằng hệ số sở hữu của mỗi cộng
đồng. Năm 2007, Zhang et al. đã phát triển phƣơng pháp phân cụm dựa trên
quang phổ, phân cụm mờ và tối ƣu hóa hàm đánh giá chất lƣợng. Một năm sau
đó, Nepusz et al. đã đƣa ra phƣơng pháp cho phép mỗi đỉnh có thể thuộc vào
nhiều cộng đồng tại cùng một thời gian. Năm 2009, Wang et al. đã áp dụng
phƣơng pháp phát hiện các cộng đồng không kết nối vào giải thuật tối ƣu hóa
hàm địa phƣơng. Gần đây, Psorakis et al. đã đƣa ra đề xuất phát hiện cộng đồng
dựa vào ma trận với các phần tử giá trị không âm để trích lọc ra các cộng đồng
chồng chéo.
- Tối ưu hóa và mở rộng hàm địa phương (Local Exapansion and
Optimization): Năm 2007, Gregory S đã đề xuất giải thuật CONGA (Cluster-
Overlap Newman Girvan Algorithm), là sự mở rộng của giải thuật GN của
30
Girvan và Newman. Phƣơng pháp chia các đỉnh thành nhiều phần khác nhau, để
một phần trong các đỉnh đã chia đó xuất hiện trong các cộng đồng con. Các
bƣớc của giải thuật CONGA:
Đầu vào: Đồ thị G gồm N đỉnh, M cạnh.
Đầu ra: Các cộng đồng đỉnh.
Bƣớc 1: Tính độ trung gian của các cạnh trong mạng.
Bƣớc 2: Hủy bỏ các cạnh có độ trung gian cao nhất.
Bƣớc 3: Tính lại độ trung gian cho tất cả các cạnh bị ảnh hƣởng theo các
cạnh đã loại bỏ.
Bƣớc 4: Lặp lại bƣớc 2 cho đến khi không còn cạnh trung gian nữa.
- Giải thuật tìm kiếm cộng đồng dựa trên các tác tử và miền động (Agent
and Dynamic based Algorithm): Thuật toán lan truyền nhãn là phƣơng pháp dựa
trên các tác tử, trong đó nhãn của các nút sẽ lan truyền tới các nút xung quanh
theo độ gần của chúng. Đây là phƣơng pháp tìm kiếm nhanh, đƣợc sử dụng để
tìm các cộng đồng không kết nối và chồng chéo. Trong quá trình lan truyền, cố
định các nhãn trên các miền dữ liệu đã đƣợc gán nhãn. Năm 2007, giải thuật
LPA (Label Progation Algorithm) đã đƣợc đề xuất bởi Raghavan et al., nhằm
phát hiện các cộng đồng không kết nối trong các mạng có quy mô lớn. Giải thuật
đƣợc mở rộng bởi Gregory vào năm 2010, trong đó tác giả đã đề xuất một đỉnh
có thể sở hữu nhiều nhãn hơn. Giải thuật này gọi là COPRA (Community
Overlap Label Propagation Algorithm). Các bƣớc giải thuật LPA:
Đầu vào: Đồ thị G gồm N đỉnh, M cạnh.
Đầu ra: Các cộng đồng đỉnh.
Bƣớc 1: Mỗi đỉnh đƣợc gán một nhãn duy nhất.
Bƣớc 2: Lựa chọn ngẫu nhiên đỉnh kề với đỉnh đang xét, gán nhãn giống
đỉnh đang xét. Quá trình này sẽ đƣợc lặp lại nhiều lần.
Bƣớc 3: Tất cả các đỉnh có nhãn giống nhau thuộc cùng một đỉnh.
2.4 Lựa chọn giải thuật tìm kiếm
Trong luận văn, Tác giả lựa chọn giải thuật Phân vùng theo cạnh (Link
Clustering) của Ahn et al. để áp dụng vào giải quyết bài toán khía cạnh tổ chức
đã nêu tại Chƣơng 1. Năm 2009, hai nhà khoa học Evans và Lambiotte lần đầu
đề xuất sử dụng đồ thị đƣờng – đây là đồ thị mà mỗi đỉnh là đại diện của một
cạnh của đồ thị ban đầu (Wikipedia), phƣơng pháp này giúp phát hiện các cộng
31
đồng chồng chéo bằng cách phân cụm thứ bậc dựa trên các cạnh của đồ thị, mà
không phải là các đỉnh. Một năm sau đó, Ahn et al. đã thực hiện ý tƣởng này
bằng cách sử dụng độ tƣơng tự giữa hai cạnh kề và đƣa ra khái niệm cộng đồng
cạnh. Ahn et al. đã viết: “Trong thực tế, phần lớn các mạng chứa các cộng đồng
chồng chéo nhau, trong đó một hoặc tất cả các đỉnh có thể thuộc sở hữu của
nhiều cộng đồng, dẫn đến cấu trúc phân cấp các đỉnh không thể mô tả đƣợc sự
chồng chéo này” [4].
* Ý tưởng của giải thuật: Tính độ tƣơng tự giữa cặp cạnh trong đồ thị, từ
đó xây dựng ma trận độ tƣơng tự. Tiến hành gom cụm bằng cách sử dụng kỹ
thuật phân cụm thứ bậc từ dƣới – lên và phƣơng thức kết nối đơn đối với ma
trận này. Quá trình gom cụm sẽ đƣợc lƣu lại, hình thành cây lƣợc đồ
(Dendogram). Tìm ngƣỡng cắt cây lƣợc đồ mà tại đó giá trị mật độ phân vùng
trung bình của tất cả các phân vùng đạt kết quả cực đại. Lựa chọn giá trị ngƣỡng
cắt đó và thực hiện cắt cây lƣợc đồ. Kết quả cuối cùng sinh ra một tập các cộng
đồng cạnh và các cộng đồng đỉnh tƣơng ứng. Nhƣ vậy, các cộng đồng cạnh có
cấu trúc phân cấp, cộng đồng đỉnh có cấu trúc chồng chéo. Ý tƣởng này giúp
giải quyết mâu thuẫn giữa hai loại cấu trúc cộng đồng điển hình này.
Đầu vào: Đồ thị vô hƣớng, không trọng số
Đầu ra: Các cộng đồng cạnh, và các cộng đồng đỉnh chồng chéo tƣơng
ứng.
* Các bước thực hiện: Xét đồ thị G 𝑀,𝑁 vô hƣớng, không trọng số.
Trong đó: 𝑀 là tổng số cạnh, 𝑁 là tổng số đỉnh của đồ thị.
Ký hiệu: Đỉnh i, j ∈ đồ thị G;
𝑒𝑖𝑘 cạnh nối giữa đỉnh i và k; 𝑒𝑗𝑙 cạnh nối giữa đỉnh j và l
Bước 1: Tính độ tương tự giữa các cạnh:
𝑛+ 𝑖 = 𝑖,𝑘 𝑣à 𝑡ậ𝑝 đỉ𝑛 𝑘ề 𝑣ớ𝑖 𝑖 ;
𝑛+ 𝑗 = 𝑗, 𝑙 𝑣à 𝑡ậ𝑝 đỉ𝑛 𝑘ề 𝑣ớ𝑖 𝑗 ;
Độ tƣơng tự giữa cạnh 𝑒𝑖𝑘 và 𝑒𝑗𝑙 là: S(𝑒𝑖𝑘 , 𝑒𝑗𝑙 )=
|𝑛+ 𝑖 ∩𝑛+ 𝑗 |
|𝑛+ 𝑖 ∪𝑛+ 𝑗 |
0
,𝑘=𝑙
,𝑘≠𝑙
Bước 2: Xây dựng ma trận độ tương tự:
Gọi 𝑀𝑠 là ma trận độ tƣơng tự, là ma trận vuông có kích thƣớc 𝑀 × 𝑀
Mỗi phần tử của ma tận 𝑀𝑠 sẽ đƣợc tính:
32
𝑀𝑠 (𝑒𝑖𝑘 , 𝑒𝑗𝑙 )=
𝑆(𝑒𝑖𝑘 , 𝑒𝑗𝑙 )
0
𝑘=𝑙
𝑘≠𝑙
Bước 3: Thực hiện gom cụm:
Sử dụng kỹ thuật gom cụm từ dƣới – lên (bottom-up) và phƣơng thức kết
nối đơn để kết nối các cụm. Lịch sử của quá trình gom cụm tạo thành một cây
lƣợc đồ (dendogram), trong đó mỗi cạnh là một lá của cây.
Bước 4: Tìm ngưỡng cắt cây lược đồ:
Cho trƣớc một ngƣỡng cắt cây lƣợc đồ, sau khi thực hiện cắt với ngƣỡng
này ta thu đƣợc một tập các phân vùng. Tại mỗi ngƣỡng cho trƣớc, sau khi cắt
sinh ra một tập các cộng đồng cạnh.
Gọi C tập các phân vùng cạnh đƣợc tạo ra từ ngƣỡng cắt cho trƣớc. Tùy
theo phƣơng thức sử dụng phân cụm khác nhau, kết quả tập C sẽ có giá trị khác
nhau. Tổng số cạnh trong mỗi phân vùng ∈ 𝐶 luôn < 𝑀 .
Kí hiệu: 𝐶 ={𝐶1, 𝐶2, , 𝐶𝑙 , , 𝐶𝑙}, l ∈ 1,𝑘 ; 𝑚𝑙 = 𝐶𝑙 là số tổng lƣợng
cạnh trong tập con 𝐶𝑙 ; 𝑛𝑙 = |∪𝑒𝑖𝑗 𝜖𝐶𝑙 {𝑖, 𝑗}| là số lƣợng đỉnh đƣợc kết nối các cạnh
∈ Cl.
𝐷𝑙=
𝑚 𝑙−(𝑛 𝑙−1)
𝑛𝑙 𝑛 𝑙−1
2
–(𝑛 𝑙−1)
0
𝑛 𝑙>2
𝑛 𝑙≤2
Giá trị mật độ phân vùng D là giá trị trung bình của 𝐷𝑙 . Ngƣỡng cắt cây
lƣợc đồ đƣợc tính:
D =
2
|𝑀|
𝑚𝑙
𝑚 𝑙−(𝑛 𝑙−1)
(𝑛 𝑙−1)(𝑛 𝑙−2)
𝑘
𝑙=1
Giá trị mật độ phân vùng D là giá trị giúp xác định ngƣỡng cắt tốt nhất để
cắt cây lƣơc đồ. Ngƣỡng cắt tốt nhất là ngƣỡng cắt mà giá trị mật độ phân vùng
trung bình D đạt cực đại. Với ngƣỡng cắt này, kết quả tìm ra các cộng đồng cạnh
có cấu trúc không chồng chéo, tƣơng ứng là các cộng đồng đỉnh có thể có cấu
trúc chồng chéo tùy theo sự kết nối mạnh hay yếu của các cộng đồng cạnh.
* Ưu, nhược điểm của giải thuật:
- Ưu điểm: Tìm ra các cộng đồng cạnh có cấu trúc phân cấp, cộng đồng
đỉnh tƣơng ứng có cấu trúc chồng chéo. Giải quyết đƣợc sự mâu thuẫn giữa hai
loại cấu trúc phân cấp và chồng chéo.
- Nhược điểm: Do việc tìm kiếm cộng đồng chủ yếu dựa trên độ tƣơng tự
giữa các cạnh kề, có chung một đỉnh và bỏ qua độ tƣơng tự các cạnh không kề
nhau. Nhƣ vậy, một lƣợng lớn các thông tin bị mất gây ảnh hƣởng đến kết quả
phân tích cộng đồng.
33
+ Hạn chế của độ tương tự:
Ta có: S 𝑒𝑎𝑏 , 𝑒𝑐𝑑 = 0 => Cạnh eab và ecd không thuộc một cộng đồng. (1)
S 𝑒𝑎𝑏 , 𝑒𝑓 = 0 => Cạnh eab và ehf không thuộc một cộng đồng. (2)
Thực tế, cạnh 𝑒𝑎𝑏 và 𝑒𝑐𝑑 tuy thuộc cùng cộng đồng phải có giá trị độ
tƣơng tự cao hơn cạnh 𝑒𝑎𝑏 và 𝑒𝑓 .
Từ (1) và (2), ta có thể thấy rằng: nếu dựa vào độ tƣơng tự để phân chia
cộng đồng đối với tất cả các loại cấu trúc đồ thị có thể tạo ra những kết quả
không chính xác, gây chia chỏ cộng đồng.
Hình 2.3 Đồ thị minh họa nhược điểm của giải thuật
+ Hạn chế của mật độ phân vùng: Ta có hai ngƣỡng cắt:
TT Các phân vùng Mật độ phân vùng trung bình
1
P1:𝑒𝑎𝑏 , 𝑒𝑏𝑐 , 𝑒𝑎𝑐
P2: 𝑒𝑎𝑑 , 𝑒𝑐𝑑
P3: 𝑒𝑓
D=
2
6
3 ∗ 1 + 0 + 0 = 1
2
P1: 𝑒𝑎𝑏 , 𝑒𝑏𝑐 , 𝑒𝑎𝑐 , 𝑒𝑎𝑑 , 𝑒𝑐𝑑
P2: 𝑒𝑓
D=
1
6
5 ∗
2
3
+ 0 = 0.56
Bảng 3.3 Tính mật độ phân vùng
Nếu chia đồ thị Hình 2.3 thành 3 cộng đồng con, giá trị mật độ phân vùng
trung bình =1, nếu hai cộng đồng thì giá trị mật độ trung bình = 0.56 <1 (Cách
tính như trong Bảng 3.3). Thực tế, hai tam giác này thuộc cùng một cộng đồng.
Do đó, mật độ phân vùng chƣa phản ánh đúng bản chất các cộng đồng trong một
mạng. Nếu dựa trên công thức tính mật độ phân vùng 𝐷𝑙 ở Chƣơng này, ta thấy
tử số 𝑚𝑙 − (𝑛𝑙 − 1) tăng chậm hơn so với mẫu số [
𝑛 𝑙 𝑛 𝑙−1
2
– (𝑛𝑙 − 1)]→ điều
này làm cho giá trị mật độ phân vùng nhỏ đi, việc phân tách các cộng đồng diễn
ra không hiệu quả.
a
b c
d
f
h
34
CHƢƠNG 3. ÁP DỤNG GIẢI THUẬT TÌM KIẾM CỘNG ĐỒNG
CHỒNG CHÉO VÀO BÀI TOÁN KPQT
3.1. Phƣơng pháp nghiên cứu
3.1.1 Tính hiệu quả của đề xuất
Thách thức lớn nhất đối với các kỹ thuật khai phá thuộc khía cạnh tổ chức
liên quan đến khối lƣợng và chất lƣợng dữ liệu lƣu trong nhật ký sự kiện bao
gồm dung lƣợng dữ liệu lớn, lƣợng thông tin không giá trị nhiều, . Việc trích
lọc những thông tin có giá trị trở lên khó khăn, tiêu tốn thời gian, sức lực và chi
phí. Thậm chí, chi phí trích lọc thông tin có giá trị còn lớn hơn nhiều doanh thu
của các doanh nghiệp có quy mô nhỏ. Từ lâu, chiến lƣợc “chia để trị” đã trở
thành phƣơng pháp đƣợc áp dụng phổ biến trong các bài toán phức tạp. Việc
chia vấn đề lớn thành các vấn đề nhỏ để giải quyết là phƣơng pháp mang lại hiệu
quả cao. Tuy nhiên, việc áp dụng nhƣ thế nào, hiệu quả việc áp dụng này đối với
từng bài toán đã và đang đƣợc các nhà khoa học quan tâm và nghiên cứu.
Trong giới hạn luận văn, tác giả sử dụng chiến lƣợc này bằng cách đề xuất
áp dụng giải thuật tìm kiếm cộng đồng chồng chéo vào bài toán KPQT nhằm tìm
ra sự chồng nhiệm vụ giữa những ngƣời tham gia vào quy trình. Đề xuất trong
luận văn mang lại những hiệu quả, cụ thể nhƣ:
- Giải quyết vấn đề kích thước dữ liệu lớn: Luận văn sử dụng các kỹ
thuật phát hiện MXH từ tập nhật ký sự có kích thƣớc dữ liệu lớn. Mỗi tập dữ
liệu có thể chứa vài trăm trƣờng hợp, hàng nghìn sự kiện với vài trăm ngƣời
tham gia thực hiện nhiệm vụ trong một quy trình lớn. Tuy nhiên, đề xuất này chỉ
tập trung vào những ngƣời tham gia vào các hoạt động của quy trình và sự tƣơng
tác của họ. Mô hình hóa một vấn đề là bƣớc đầu tiên, quan trọng của một bài
toán. MXH biểu diễn ngƣời, mối quan hệ bằng các khái niệm hình học, giúp trực
quan hóa các mối quan hệ này.
- Đưa ra kết quả có độ tin cậy cao: Mô hình MXH đƣợc xây dựng trên dữ
liệu sự kiện đƣợc ghi lại trong quá trình hoạt động của doanh nghiệp. Do đó, mô
hình MXH đƣợc xây dựng phản ánh bản chất sự tƣơng tác giữa những ngƣời
tham gia vào quy trình. Các kết quả phân tích MXH tạo ra độ tin cậy cao nhằm
hỗ trợ các nhà quản lý ra quyết định liên quan đến vấn đề tổ chức.
- Trích lọc thông tin có giá trị: Đề xuất trong luận văn sử dụng giải thuật
tìm kiếm cộng đồng chồng chéo nhằm tìm ra sự chồng chéo trong nhiệm vụ giữa
những ngƣời trong một công ty. Từ đó, nhà quản lý có thể nắm bắt đƣợc thông
tin về sự chồng chéo trong phân công nhiệm vụ giữa những nhân viên của họ, từ
đó đƣa ra các quyết định liên quan đến cấu trúc tổ chức một cách khách quan.
35
3.1.2 Định dạng dữ liệu đầu vào các độ đo:
- Dạng chuẩn dữ liệu đầu vào: Luận văn sử dụng dữ liệu nhật ký sự kiện
định dạng XES. Đây là một định dạng chuẩn đƣợc sử dụng để lƣu trữ nhật ký sự
kiện trong các HTTT, đƣợc phát triển bởi IEEE Task Force Process Mining.
Định dạng mới này có sự linh hoạt và giải quyết đƣợc những hạn chế của định
dạng MXML. Do không có một thuộc tính xác định toàn cục nào trong tệp XES
và các thuộc tính của các phần tử bên trong tệp XES có ngữ nghĩa không rõ
ràng. Chính sự không rõ ràng này giúp lƣu một số định dạng dữ liệu mở rộng.
Thủ tục mở rộng một số thuộc tính tại các mức khác nhau trong kiến trúc XES
đã cung cấp một số tham chiếu để giải thích các thuộc tính. Nhà khoa học
Christian W. Gunther đã định nghĩa một siêu mô hình cho định dạng XES. Các
thuộc tính toàn cục đƣợc xác định nhƣ các phần mở rộng để giải quyết các vấn
đề của vấn đề ngữ nghĩa không rõ ràng, khi mà các HTTT không xác định đƣợc
nội dung của các thuộc tính chuẩn. Trong tệp dữ liệu định dạng XES, mỗi vết
(trace) tƣơng ứng với một trƣờng hợp trong MXML. Một vết có thể có nhiều sự
kiện và một số thuộc tính.
Hình 3.1 Một phần mã nguồn dữ liệu nhật ký sự kiện
Nhật ký sự kiện lƣu trữ các thông tin liên quan đến sự kiện nhƣ tài nguyên
(bao gồm con ngƣời, thiết bị, ), thời gian xảy ra sự kiện, Mỗi trƣờng hợp
tƣơng ứng một lần thực hiện một quy trình, gồm nhiều sự kiện. Mỗi sự kiện là
tƣơng ứng với một trƣờng hợp duy nhất, bao gồm các thuộc tính nhƣ thời gian
thực hiện, tên công việc, nguồn tài nguyên, ngƣời thực hiện, . Các giá trị các
thuộc tính là đặc trƣng riêng của mỗi sự kiện.
Mã
Trƣờng
hợp
Mã sự
kiện
Thuộc tính
Thời gian Hoạt động
Ngƣời
thực
hiện
Chi
phí
1 35654423 30-12-2010:11.02 Đăng ký Pete 50
36
1 35654424 31-12-2010:10.06 Kiểm tra đơn Mike 400
2 35654483 30-12-2010:11.32 Đăng ký Mike 50
2 35654485 30-12-2010:12.12 Kiểm tra thẻ Sean 100
Bảng 3.1 Bảng mô tả các thuộc tính của một phần dữ liệu sự kiện
Bảng 3.1 biểu diễn một phần về các đặc điểm của nhật ký sự kiện, mỗi sự
kiện là một loại công việc đƣợc thực hiện bởi con ngƣời.
- Loại độ đo hỗ trợ biểu diễn cấu trúc mạng: Luận văn sử dụng độ đo
Handover of work để xây dựng ma trận mối quan hệ giữa những ngƣời tham gia
vào quy trình. Độ đo này có thể sinh ra một mô hình MXH hay đồ thị có hƣớng
và có trọng số. Tuy nhiên, trong luận văn Tác giả chỉ sử dụng mô hình MXH
đƣợc biểu diễn dƣới dạng đồ thị vô hƣớng, không trọng số làm đầu vào cho giải
thuật Phân vùng theo cạnh. Độ đo đƣợc sử dụng trong Luận văn, do:
+ Độ đo là đo mức độ thƣờng xuyên chuyển giao việc giữa những ngƣời
tham gia vào quy trình. Ý tƣởng của độ đo phù hợp với mục tiêu của luận văn,
tìm ra những cộng đồng ngƣời trong đó có những ngƣời thƣờng xuyên tƣơng tác
với nhau.
+ Kết quả khi áp dụng độ đo phù hợp định hƣớng luận văn sẽ mở rộng
giải thuật phân vùng theo cạnh đối với đồ thị có hƣớng và trọng số.
- Loại giải thuật tìm kiếm: Luận văn sử dụng giải thuật phát hiện cộng
đồng chồng chéo là giải thuật phân vùng theo cạnh của Ahn et al., do:
+ Ý tƣởng giải thuật: Để giải quyết bài toán KCTC, yếu tố quan trọng
nhất là sự tƣơng tác giữa những ngƣời tham gia vào quy trình. Sự tƣơng tác này
đƣợc biểu diễn dƣới dạng cạnh trong mô hình MXH. Giải thuật này phân vùng
mạng dựa trên thông tin của các cạnh kề. Do đó, ý tƣởng của giải thuật phù hợp
với ý tƣởng của luận văn.
+ Kết quả giải thuật: Cấu trúc tổ chức phân cấp không phản ánh đúng bản
chất liên quan giữa các cộng đồng trong thực tế. Mục tiêu của luận văn là tìm ra
sự chồng chéo của các cộng đồng. Giải thuật này tìm ra các cộng đồng chồng
chéo đáp ứng đƣợc mục liêu của luận văn.
+ Giải quyết mâu thuẫn giữa các loại cấu trúc: Có một nghịch lý trong
một số doanh nghiệp hiện nay là chức danh, vị trí, nhiệm vụ trên sổ sách đƣợc
phân theo mô hình phân cấp, nhƣng khi các hoạt động đƣợc thực hiện lại xảy ra
sự chồng chéo về chức nhiệm vụ các cá nhân, phòng. Giải thuật Phân vùng theo
cạnh giải quyết đƣợc nghịch lý này, phá vỡ mâu thuẫn cấu trúc chồng chéo và
phân cấp.
37
3.2 Giải pháp thực hiện
3.2.1 Đề xuất mô hình giải quyết:
Hình 3.2 Mô hình áp dụng giải tìm kiếm cộng đồng vào KPQT
Tệp XES
Thu thập dữ liệu sự kiện
Xử lý và làm sạch dữ liệu
Xây dựng ma trận mối quan hệ
Tệp XES
Ma trận
Áp dụng giải thuật tìm kiếm
cộng đồng
Cộng đồng
chồng chéo
Đánh giá chất lƣợng cộng đồng
Xây dựng ma trận kề
Lƣu đồ thị
(1)
(2)
(4)
(3)
(5)
(6)
(7)
Ma trận
Danh sách cạnh
38
3.2.2 Các bước thực hiện:
Bƣớc 1. Thu thập dữ liệu: Trong luận văn, Tác giả thu thập các tập dữ
liệu sự kiện định dạng XES 1.0, đƣợc công khai trên 02 website. Trong đó:
+ 03 tệp định dạng XES tƣơng ứng với 03 chƣơng của cuốn sách Process
Mining của tác giả Wil M.P. Van der Alast trên
Những tệp này không chứa những thông tin lỗi, nhiễu, , bao gồm từ 100-1.500
trƣờng hợp, 50-15.000 sự kiện, 6-10 ngƣời tham gia thực hiện các hoạt động.
+ 01 tệp định dạng XES trên trang là một trong những
dữ liệu đƣợc đƣa ra trong bài nghiên cứu về các thách thức của KPQT năm
2013. Trên chuyên trang này, các tập dữ liệu này đƣợc chia ra làm hai loại
chính: nhật ký sự kiện trong thực tế và nhật ký sự kiện đƣợc tổng hợp. Các tệp
dữ liệu có số sự kiện, trƣờng hợp, ngƣời tham gia quy trình lên đến hàng nghìn.
Định dạng các tệp thuộc nhiều dạng nhƣ CSV, XES, MMXL, Tuy nhiên,
lƣợng thông tin bị nhiễu, lỗi, các thông tin không có giá trị khai phá trong mỗi
tệp dữ liệu rất lớn, đây chính là thách thức đối với nhiệm vụ tiền xử lý dữ liệu.
Tệp dữ liệu đƣợc Tác giả sử dụng trong thực nghiệm chứa 1571 trƣờng
hợp, trong đó 87 trƣờng hợp ghi lại quá trình xử lý sự cố, 1484 trƣờng hợp ghi
lại hoạt động của quy trình bao gồm 6644 sự kiện, có 442 ngƣời tham gia thực
hiện các hoạt động.
Bƣớc 2. Xử lý và làm sạch dữ liệu:
Đặc điểm của dữ liệu thu thập từ quá trình kinh doanh thƣờng chứa lƣợng
thông tin không có giá trị khai thác lớn. Trong một tệp nhật ký sự kiện có những
phần thông tin bị lỗi, không chính xác, thông tin về quá trình xử lý sự cố, ít
khi dùng trong quá trình khai phá nguồn dữ liệu này. Những dạng thông tin này
đƣợc sinh ra có thể do con ngƣời hoặc phần mềm và có thể nằm rải rác hoặc tập
trung trong một tệp.
Tệp dữ liệu BPI2013.xes là tệp dữ liệu đƣợc sử dụng trong phần thực
nghiệm của Chƣơng 4, chứa các sự kiện đƣợc ghi lại trong khoảng thời gian từ
10/5/2007 đến 31/05/2012. Bên cạnh ghi lại các hoạt động của quy trình, tệp còn
ghi lại thông tin về quá trình xử lý sự cố (Incident handling process). Hệ thống
sẽ có những thông báo nhất định đối với từng loại sự cố, một số thông báo nhƣ:
“Accepted/ In Progress", “Queued/Awaiting Assignment",
“Completed/Resolved”, Completed/ Closed”, “Accepted/Wait-User", . Việc
nhật ký sự kiện lƣu lại thông tin xử lý sự cố dƣới dạng không cấu trúc gây khó
khăn đối với các công cụ KPQT, kết quả sinh ra mô hình quy trình phức tạp nhƣ
39
mô hình Spaghetty [21]. Trong giới hạn luận văn, những thông tin không chứa
thông tin ngƣời thực hiện hoạt động nên sẽ không đƣợc sử dụng để khai thác.
Do đó, Tác giả đã loại bỏ loại thông tin này bằng phƣơng pháp thủ công.
<int key="Queued+Awaiting Assignment;Accepted+In Progress; Completed+Closed;
Accepted+In Progress; Queued+Awaiting Assignment;Accepted+In Progress
;Queued+Awaiting Assignment; Accepted+In Progress; Accepted+Assigned"
value="1"/><int key="Accepted+In Progress;Queued+Awaiting
Assignment;Accepted+In Progress;Accepted+In Progress" value="1"/>
Hình 3.3 Thông tin quá trình xử lý sự cố được lưu trong tệp BPI2013.xes
Bƣớc 3. Xây dựng ma trận mối quan hệ:
Cách tính dựa trên độ đo Handover of work:
Mỗi tập dữ liệu .XES gồm nhiều trƣờng hợp (case), mỗi trƣờng hợp gồm
nhiều sự kiện, và mỗi sự kiện ghi lại ngƣời thực hiện một nhiệm vụ trong một
chu kỳ quy trình kinh doanh.
- Xét từng trƣờng hợp, tính số lần ngƣời hai ngƣời chuyển giao nhiệm vụ
cho nhau. Ví dụ: Trong trƣờng hợp 1, 3, 7, 8, 9 (Bảng 3.2) có 5 lần Peter và
Mike thực hiện chuyển nhiệm vụ cho nhau.
- Tính tƣơng tự với các trƣờng hợp khác, tính tổng số lần ngƣời i, j
chuyển việc cho nhau. Giá trị này chính là giá trị phần tử của ma trận mối quan
hệ Bảng 3.3.
Bảng 3.2 mô tả thứ tự chuyển giao việc của từng ngƣời trong một trƣờng
hợp. Từ bản mô tả này, ta xây dựng ma trận số lần chuyển tác vụ giữa những
ngƣời tham gia vào quy trình.
Trƣờng hợp
1 2 3 4 5 6 7 8 9 10
Peter Mike Peter Peter Mike Mike Ellen Peter Ellen Mike
Mike Mike Mike Sue Sean Ellen Mike Mike Peter Sean
Ellen Sean Ellen Mike Sara Mike Peter Sean Mike Peter
Sara Sara Sara Sara Ellen Sara Sara Sara Sara Sara
Sara Sara Peter Mike Sara Ellen Sara
Sean Sean Ellen Ellen
Peter Peter Mike Mike
Sara Ellen Sara Sara
Ellen Sara Sara
Sue Sean
40
Peter Peter
Sara Sara
Mike Mike
Bảng 3.2 Thứ tự thực hiện nhiệm vụ của từng người trong mỗi trường hợp
𝑀 là ma trận sinh ra sau khi sử dụng độ đo Handover of work. Trong đó:
i, j là những ngƣời tham gia vào quy trình;
𝑀 𝑖, 𝑗 là một phần tử của ma trận 𝑀 . Ta có:
𝑀 𝑖, 𝑗 =
số lần ngƣời i chuyển giao nhiệm vụ j và ngƣợc lại
0 ngƣời 𝑖 và j không có sự chuyển giao nhiệm vụ
(i,j) Ellen Mike Peter Sara Sean Sue
Ellen - 7 1 7 0 0
Mike 7 - 5 8 4 0
Peter 1 5 - 5 4 2
Sara 7 8 5 - 6 1
Sean 0 4 4 6 - 0
Sue 0 0 2 1 0 -
Bảng 3.3 Ma trận 𝑀 mối quan hệ
Bảng 3.3 là ma trận thể hiện mối quan hệ giữa những ngƣời tham gia vào
quy trình. Giá trị các phần tử của ma trận thể hiện số lần chuyển giao công việc
giữa hai ngƣời, nếu giá trị phần tử ma trận = 0, thể hiện hai ngƣời không có sự
chuyển giao công việc. Số lần chuyển giao cũng thể hiện sự tƣơng tác nhiều hay
ít của hai ngƣời trong quá trình thực hiện các hoạt động.
Bƣớc 4. Lƣu đồ thị: Cách thức lƣu trong tệp .txt:
Hình 3.5 Định dạng dữ liệu .txt lưu đồ thị
41
+ Đồ thị đƣợc lƣu trong các tệp .txt, dƣới dạng một danh sách các cạnh.
Mỗi cạnh đƣợc coi là một dòng trong tệp.
+ Các đỉnh phải đƣợc đánh số thứ tự bắt đầu từ số 0 và là số tự nhiên cách
nhau bởi một cách. Đƣợc sắp xếp lần lƣợt theo thứ tự.
Ví dụ: Ký hiệu: Đỉnh 0: [Ellen]; Đỉnh 1: [Mike]; Đỉnh 2: [Pete];
Đỉnh 3: [Sara]; Đỉnh 4: [Sean]; Đỉnh 5: [Sue].
Bƣớc 5. Xây dựng ma trận kề:
Gọi 𝑀𝑎 là ma trận đỉnh kề đƣợc xây dựng danh sách cạnh của bƣớc 4.
Trong đó: 𝑀𝑎 (i,j)=
1
0
đỉ𝑛 𝑖 𝑘ề 𝑣ớ𝑖 đỉ𝑛 𝑗
𝑛𝑔ượ𝑐 𝑙ạ𝑖
Đỉnh 0 1 2 3 4 5
0 1 1 1 1 0 0
1 1 1 1 1 1 0
2 1 1 1 1 1 1
3 1 1 1 1 1 1
4 0 1 1 1 1 0
5 0 0 1 1 0 1
Bảng 3.4 Ma trận đỉnh kề 𝑀𝑎
Trong bảng 3.4, giá trị các phần trận 𝑀𝑎 chỉ bao gồm hai loại giá trị là 0
và 1 thể hiện mối quan hệ của hai đỉnh trong đồ thị.
+ Mô hình đồ thị vô hƣớng, không trọng số đƣợc xây dựng từ ma trận
đỉnh kề: Nếu đỉnh 𝑀𝑎 𝑖, 𝑗 = 1, có một cạnh kết nối giữa đỉnh i và j, ngƣợc lại
không có cạnh kết nối giữa hai đỉnh.
Hình 3.4 Đồ thị được xây dựng từ ma trận kề
0
1
3
2
5
4
42
Bƣớc 6. Áp dụng giải thuật tìm kiếm cộng đồng: Ma trận đỉnh kề sẽ
đƣợc lƣu dƣới dạng ma trận thƣa hay danh sách liên kết làm đầu vào cho giải
thuật Phân vùng theo cạnh.
Đỉnh Đỉnh kề
0 1,2,3
1 0,2,3,4,5
2 0,1,3,4,5
3 0,1,2,4,5
4 1,2,3
5 1,2,3
Bảng 3.5 Danh sách đỉnh kề
+ Xây dựng ma trận độ tƣơng tự giữa các cạnh: Tính độ tƣơng tự giữa các
cặp cạnh (Công thức trong Chƣơng 2).
Ví dụ: độ tƣơng tự của cạnh 0-1 và cạnh 0-2, đƣợc tính theo công thức:
S 0 − 1, 0 − 2 =
|𝑛+ 1 ∩𝑛+ 2 |
|𝑛+ 1 ∪𝑛+ 2 |
=
6
6
=1
Trong đó: 𝑛+ 1 ,𝑛+ 2 là tập các đỉnh kề tƣơng ứng của đỉnh 1 và 2.
𝑛+ 1 = 0, 1, 2, 3, 4, 5 ; 𝑛+ 2 = 0, 1, 2, 3, 4, 5 ;
+ Tiến hành gom cụm: Sử dụng kỹ thuật gom cụm từ dƣới - lên và
phƣơng thức kết nối đơn để gom hai cụm. Hai cụm có độ tƣơng tự lớn nhất sẽ
đƣợc gom lại thành một cụm. Quá trình đƣợc lặp lại cho đến khi tất cả các cạnh
thuộc vào một cụm duy nhất.
C0 C1 C2 C3
0-1 0-2 0-3 1-2 1-3 2-3 1-4 2-4 3-4 1-5 2-5 3-5
C0
0-1 1 1 1 0.7 0.7 0 0.6 0 0 0.6 0 0
0-2 1 1 1 0.7 0 0.7 0 0.6 0 0 0.6 0
0-3 1 1 1 0 0.7 0.7 0 0 0.6 0 0 0.6
C1
1-2 0.7 0.7 0 1 1 1 0.7 0.7 0 0.7 0.7 0
1-3 0.7 0 0.7 1 1 1 0.7 0 0.7 0.7 0 0.7
2-3 0 0.7 0.7 1 1 1 0 0.7 0.7 0 0.7 0.7
C2
1-4 0.6 0 0 0.7 0.7 0 1 1 1 0.6 0 0
2-4 0 0.6 0 0.7 0 0.7 1 1 1 0 0.6 0
3-4 0 0 0.6 0 0.7 0.7 1 1 1 0 0 0.6
C3
1-5 0.6 0 0 0.7 0.7 0 0.6 0 0 1 1 1
2-5 0 0.6 0 0.7 0 0.7 0 0.6 0 1 1 1
43
3-5 0 0 0.6 0 0.7 0.7 0 0 0.6 1 1 1
Bảng 3.6 Ma trận 𝑀𝑠 độ tương tự
C4 C2 C3
C0 C1 C2 C3
C4
C0 1 0.7 0.6 0.6
C1 0.7 1 0.7 0.7
C2 C2 0.6 0.7 1 0.6
C3 C3 0.6 0.7 0.6 1
C6
C5 C3
C6
C5 1 0.7
C3 0.7 1
Hình 3.6 Quá trình phân cụm thứ bậc từ dưới - lên
+ Tìm ngƣỡng cắt cây lƣợc đồ: Đồ thị gồm 6 đỉnh và 12 cạnh.
Gọi t là ngƣỡng cắt cây lƣợc đồ cho trƣớc.
* Tại t=1, ta có 04 phân vùng:
Phân vùng Cạnh Số cạnh Số đỉnh Mật độ
P1 0-1;0-2;0-3 3 4 D1=
3−(4−1)
4∗(4−1)
2
− (4−1)
= 0
P2 1-2;1-3;2-3 3 3 D2=
3−(3−1)
3∗(3−1)
2
− (3−1)
= 1
P3 1-4;2-4;3-4 3 4 D3=
3−(4−1)
4∗(4−1)
2
− (4−1)
= 0
P4 1-5;2-5;3-5 3 4 D4=
3−(4−1)
4∗(4−1)
2
− (4−1)
= 0
Bảng 3.7 Tính mật độ các phân vùng tại ngưỡng cắt t=1
Mật độ phân vùng trung bình: 𝐷𝑡=1=
1
12
0 + 3 ∗ 1 + 0 + 0 = 0.25
C5 c3
C4 C2 C3
C5
C4 1 0.7 0.7
C2 0.7 1 0.6
c3 C3 0.7 0.6 1
44
* Tại t=0.7
Khả năng 1: 3 phân vùng: P3, P4, P5
Phân
vùng
Cạnh Số
cạnh
Số
đỉnh
Mật độ
P5 0-1;0-2;0-3;1-2;1-3;2-3 6 4 D5=
6−(4−1)
4∗(4−1)
2
− (4−1)
=
3
3
= 1
Bảng 3.8 Tính mật độ các phân vùng tại ngưỡng cắt t=0.7(KN1)
Mật độ phân vùng trung bình: 𝐷1𝑡=0.7=
1
12
6 ∗ 1 + 0 + 0 = 0.5
Khả năng 2: ta có 3 phân vùng P1, P4, P6
Phân
vùng
Cạnh Số
cạnh
Số
đỉnh
Mật độ
P6 1-2;1-3;2-3;1-4;2-4;3-4 6 4 D6=
6−(4−1)
4∗(4−1)
2
− (4−1)
=
3
3
= 1
Bảng 3.9 Tính mật độ các phân vùng tại ngưỡng cắt t=0.7(KN2)
Mật độ phân vùng trung bình: 𝐷2𝑡=0.7=
1
12
0 + 0 + 6 ∗ 1 = 0.5
Kết luận: Tại ngƣỡng cắt cây lƣợc đồ 𝑡 = 0.7, giá trị mật độ phân vùng
trung bình đạt cực đại 𝐷 = 0.5.
+ Kết quả: Từ các cộng đồng cạnh đƣợc tìm thấy, ta tìm đƣợc các cộng
đồng đỉnh tƣơng ứng.
Hình 3.8 Các cộng đồng đỉnh chồng chéo
Cộng đồng Cộng đồng cạnh Cộng đồng đỉnh Cộng đồng ngƣời
I 0-1;0-2;0-3; 1-2;1-3;2-3 0, 1, 2, 3 Ellen, Mike, Peter, Sara
Ellen
Mike
Sara
Pete
Sue
Sean
45
II 1-4;2-4;3-4 1,2, 3, 4 Mike, Peter, Sara, Sean
III 1-5;2-5;3-5 1, 2, 3, 5 Mike, Peter, Sara, Sue
Bảng 3.10 Danh sách các cộng đồng được tìm thấy
Bƣớc 7. Đánh giá chất lƣợng cộng đồng:
+ Đối với cộng đồng cạnh: Ahn et al. đã sử dụng công thức tính mật độ
phân vùng nhằm đánh giá chất lƣợng của các cộng đồng cạnh.
Giá trị mật độ phân vùng -
2
3
≤ 𝐷 ≤ 1, giá trị D càng gần giá trị 1 thì các
cộng đồng cạnh đƣợc phát hiện ra có chất lƣợng tốt, cộng đồng cạnh có giá trị
𝐷 ≤ 0, thƣờng không có giá trị để khai thác vào các mục đích cụ thể. Trong đó:
𝐷 = 1: cộng đồng đƣợc phát hiện là một đồ thị đầy đủ.
𝐷 = 0: mỗi cộng đồng là một cây.
𝐷 < 0: các cộng đồng trong mạng không có sự kết nối.
𝐷 = −
2
3
: là giá trị nhỏ nhất của một cộng đồng có hai cạnh không kết
nối.
Trong ví dụ: Mật độ phân vùng trung bình 𝐷 = 0.5 tại ngƣỡng cắt 𝑡 = 0.7
→ Các cộng đồng cạnh có sự kết nối mạnh → Các cộng đồng đỉnh tƣơng ứng có
sự chồng chéo lớn.
+ Đối với cộng đồng đỉnh: Những cộng đồng có giá trị khai thác là những
cộng đồng không tầm thƣờng (Nontrivial community) [4], có chứa từ ba đỉnh trở
lên.
Trong ví dụ: Cả ba cộng đồng (I), (II), (III) này đều là những cộng đồng
không tầm thƣờng vì có tổng số đỉnh ≥ 3.
Số lƣợng đỉnh chồng chéo thuộc vào các cộng đồng không tầm thƣờng là
3, tƣơng ứng là Mike, Peter, Sara. Sự tƣơng tác của ba ngƣời này với những
ngƣời khác trong quy trình là thƣờng xuyên, thể hiện vai trò quan trọng của họ
trong một quy trình.
46
CHƢƠNG 4. KẾT QUẢ THỰC NGHIỆM VÀ ĐÁNH GIÁ
4.1 Công cụ, môi trƣờng thực nghiệm
Để thực hiện quá trình thực nghiệm, Tác giả sử dụng cấu hình phần cứng,
phần mềm, tập dữ liệu nhƣ sau:
4.1.1 Phần cứng:
STT Thiết bị/
Hệ điều hành
Chỉ số
1 CPU Intel Core i3 M370 2.40 GHz
2 RAM 4096 MB
3 HDD 320 GB
4 OS Window 7 Ultimate 32 bit
Bảng 4.1 Chi tiết chỉ số phần cứng và hệ điều hành
4.1.2 Phần mềm và tập dữ liệu đầu vào:
TT Tên công cụ Chức năng Nguồn tải
1
NetBeans IDE
8.0.2
Công cụ lập trình trên
nền Window, Unix hỗ trợ
ngƣời dùng lập trình
Java,
https://netbeans.org
2
Mã nguồn mở
Link Clustering
Là chƣơng trình thực
hiện giải thuật tìm kiếm
cộng đồng theo phân
vùng cạnh Ahn et al.
https://github.com/fozziethebe
at/S-Space
2 Tập dữ liệu đầu
vào
Là các tệp .xes sử dụng
làm đầu vào của chƣơng
trình
Bảng 4.2 Thông tin phần mềm và tập dữ liệu đầu vào
- Quá trình xây dựng chương trình:
+ Tải công cụ lập trình NetBeans IDE 8.0.2 và cài đặt.
+ Viết mã nguồn tiền xử lý tệp XES nhằm xây dựng mô hình MXH là đồ
thị vô hƣớng, không trọng số.
+ Xây dựng ma trận kề từ danh sách đỉnh, diễn dƣới dạng ma thƣa
(Sparse Matrix) làm đầu vào cho chƣơng trình Link Clustering. Ma trận thƣa là
ma trận các phần tử có giá trị > 0 (Wikipedia). Điều này giúp tiết kiệm dung
47
lƣợng bộ nhớ và cải thiện thời gian chạy chƣơng trình. Để thực chạy đƣợc
chƣơng trình này, thêm thƣ viện junit chƣơng trình.
4.2 Chƣơng trình thực nghiệm
Các thông tin đƣợc hiển thị trong chƣơng trình thực nghiệm: thông tin đầu
vào của tệp .xes bao gồm số trƣờng hợp, số sự kiện, số ngƣời tham gia vào quy
trình; hiển thị danh sách đỉnh kề bao gồm ký hiệu các đỉnh, số lƣợng đỉnh và
cạnh; hiển thị danh sách các cộng đồng tìm thấy bao gồm danh sách các cộng
đồng mà các đỉnh thuộc vào.
Hình 4.1 Kết quả chương trình thực nghiệm
48
4.3 Kết quả thực nghiệm và đánh giá
Sau khi cài đặt chƣơng trình, luận văn đã thực hiện thử nghiệm với 04 tệp
dữ liệu định dạng XES. Kết quả cụ thể nhƣ sau:
Tệp dữ liệu
Thông tin tệp XES
Thông tin
MXH
Thông tin kết quả đầu ra
Giá
trị
mật
độ
trung
bình
Thời
gian
chạy
(giây)
Số
Trƣờng
hợp
Số Sự
kiện
Số
Ngƣời
tham
gia
Số
Đỉnh
Số
Cạnh
Số
cộng
đồng
cạnh
Số
cộng
đồng
đỉnh
Số
cộng
đồng
chồng
chéo
đỉnh
Số
cộng
đồng
không
tầm
thƣờng
Số
đỉnh
chồng
chéo
Chapter1.xes 10 142 6 6 12 3 3 3 3 3 0.5 5
Chapter5.xes
1391 15078 8 8 14
4
4 4 2 4 0.36
7
Chapter6.xes
87 522 5 5 4
4
4 4 1 1 0
10
BPI2013.xes 1484 13288 442 442 781 576 576 576 499 767 0.035 13
Bảng 4.3 Đánh giá kết quả chương trình thực nghiệm
* Trong bảng kết quả, các khía cạnh cần quan tâm:
- Số người tham gia vào quy trình:
Nếu có ít ngƣời tham gia vào quy trình, kết quả phân cụm không có ý
nghĩa nhiều trong thực tế. Đối với các tệp dữ liệu thu đƣợc trên chuyên trang
có số lƣợng ngƣời tham gia dƣới 10 ngƣời, do đó
kết quả các cộng đồng chồng chéo không có giá trị khai thác cao trong phân tích
và đánh giá sự chồng chéo trong nhiệm vụ. Khía cạnh này còn có ý nghĩa là
đánh giá mức độ quan trọng của từng ngƣời trong quy trình.
- Mật độ kết nối các đỉnh trong MXH:
Với một mạng có số cạnh xấp xỉ số đỉnh tức khả năng tƣơng tác giữa các
đỉnh trong một mạng là thấp, các kỹ thuật khai phá sẽ sinh ra các kết quả không
có giá trị về mặt thực tế.
- Kích thước các cộng đồng được tìm ra:
Các cộng đồng có giá trị khai thác là những cộng đồng không tầm thƣờng
có từ ba đỉnh trở lên [4], số lƣợng loại cộng đồng này phụ thuộc lớn vào mật độ
kết nối trong MXH. Nếu MXH có mật độ kết nối thƣa, các đỉnh bị phân tách nên
số lƣợng cộng đồng chứa 3 đỉnh trở lên là rất ít và số lƣợng cộng đồng không có
giá trị khai thác nhiều.
- Số lượng đỉnh chồng chéo: Một đỉnh thuộc vào nhiều cộng đồng không
tầm thƣờng thể hiện tầm quan trọng của đỉnh đó trong đồ thị hay của cá nhân đó
49
đối với các hoạt động trong quy trình. Một đồ thị có số lƣợng đỉnh chồng chéo
thuộc các cộng đồng không tầm thƣờng lớn, khả năng xảy ra sự chồng chéo
nhiệm vụ giữa những ngƣời tham gia vào quy trình là rất lớn.
- Mật độ phân vùng trung bình:
Trong luận văn, Tác giả sử dụng giá trị mật độ phân vùng trung bình D
để đánh giá chất lƣợng cộng đồng cạnh, từ đó có sự nhận xét về chất lƣợng
chồng chéo của các cộng đồng đỉnh. Nếu giá trị D nhỏ, các cộng đồng cạnh có
sự kết nối thấp. Chất lƣợng các cộng đồng cạnh càng tốt, thể hiện sự phân tách
của giải thuât là tối ƣu tƣơng ứng với các cộng đồng cạnh này là các cộng đồng
đỉnh có sự chồng chéo lớn.
* Các đánh giá cụ thể:
Tệp dữ liệu Đánh giá
Chapter1.xes
- Giá trị 𝐷 ≥ 0.5 → Chất lƣợng phân tách tốt, các cộng đồng cạnh
có sự kết nối mạnh, tƣơng ứng là cộng đồng đỉnh có sự chồng
chéo lớn.
- Số lƣợng đỉnh =
1
2
số lƣợng cạnh → Mật độ kết nối dày.
- Số lƣợng cộng đồng không tầm thƣờng chiếm 100%
- Số lƣợng ngƣời tham gia là 6 < 10 ngƣời → ít
Có khả năng chồng chéo nhiệm vụ giữa những ngƣời tham
gia vào quy trình cao. Tuy nhiên, do số lƣợng ngƣời tham
gia ít, nên kết quả chồng chéo này không có giá trị khai
thác cao trong thực tế, mà kết quả chỉ phù hợp với việc
nhận xét tầm quan trọng của cá nhân đối với quy trình.
Chapter5.xes
- Giá trị 0 <D< 0.5 → Các cộng đồng cạnh có sự kết nối ở mức
trung bình, sự chồng chéo xảy ra tại một số cộng đồng đỉnh đƣợc
tìm ra.
- Số lƣợng đỉnh ~
1
2
số lƣợng cạnh → Mật độ kết nối dày.
- Số lƣợng cộng đồng không tầm thƣờng chiếm 50%
- Số lƣợng ngƣời tham gia là 8 < 10 ngƣời → ít
Có khả năng có sự chồng chéo nhiệm vụ của một số ngƣời
tham gia vào quy trình. Tuy nhiên, do số lƣợng ngƣời tham
gia ít, số lƣợng cộng đồng không tầm thƣờng chỉ chiếm
50
phần nửa nên kết quả này phù hợp với đánh giá tầm quan
trọng của các cá nhân.
Chapter6.xes
- Giá trị 𝐷 = 0 → Chất lƣợng phân tách các cộng đồng thấp, do
vậy mật độ kết nối giữa các đỉnh trong đồ thị là thấp. Các cộng
đồng đƣợc tìm ra không có sự kết nối, độ chồng chéo các đỉnh là
thấp.
- Số lƣợng đỉnh xấp xỉ số lƣợng cạnh→ Mật độ kết nối giữa các
đỉnh thƣa.
- Số lƣợng cộng đồng không tầm thƣờng chiếm 33%
Không có thể có sự chồng chéo nhiệm vụ giữa những
ngƣời tham gia vào quy trình. Kết quả chỉ phục vụ mục
đích tìm ra các nhân nào có tầm quan trọng trong quy trình
BPI2013.xes
- Giá trị 𝐷~0 → Các cộng đồng cạnh gần nhƣ không có sự kết
nối, do vậy các cộng đồng cạnh tƣơng ứng có độ chồng chéo
thấp.
- Số lƣợng đỉnh ~ ½ số lƣợng cạnh → Mật độ kết nối các đỉnh
thƣa.
- Số lƣợng cộng đồng không tầm thƣờng chiếm 50%
Không có thể có sự chồng chéo nhiệm vụ giữa những
ngƣời tham gia vào quy trình. Kết quả chỉ phục vụ mục
đích tìm ra các nhân nào có tầm quan trọng trong quy trình.
Bảng 4.4 Đánh giá chất lượng các cộng đồng
51
KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN TƢƠNG LAI
1. Kết luận
Với những mục tiêu và kế hoạch thực hiện luận văn trong hơn một năm
qua, luận văn đã đạt đƣợc những kết quả chính:
- Tổng kết các kết quả nghiên cứu của các nhà khoa học trên thế giới về
lĩnh vực KPQT và các giải thuật tìm kiếm cộng đồng trong MXH. Những nghiên
cứu này tạo nền tảng cơ sở cho sự lựa chọn giải thuật tìm kiếm cộng cộng đồng
chồng chéo áp dụng để giải quyết bài toán thuộc khía cạnh tổ chức.
- Phát biểu bài toán và đề xuất mô hình giải quyết bài toán. Đề xuất giúp
tìm ra các nhóm ngƣời có sự chồng chéo nhiệm vụ khi tham gia vào quy trình.
- Xây dựng thành công chƣơng trình thực nghiệm dựa trên mô hình đề
xuất giải quyết trong luận văn.
2. Hƣớng phát triển tƣơng lai
Trong tƣơng lai, Tác giả sẽ tiếp tục nghiên cứu và giải quyết những thách
thức:
- Đối với dữ liệu đầu vào: Tác giả sẽ tiếp tục thu thập dữ liệu nhật ký sự
kiện trong thực tế, áp dụng các công cụ tiền xử lý dữ liệu để đƣa dữ liệu về dạng
chuẩn, làm đầu vào cho các giải thuật.
- Đối với loại độ đo hỗ trợ biểu diễn cấu trúc MXH: Mở rộng kỹ thuật xây
dựng MXH dƣới dạng đồ thị có hƣớng, có trọng số bằng cách sử dụng các độ đo
khác nhau.
- Đối với giải thuật tìm kiếm: Giải thuật Phân vùng theo cạnh còn tồn tại
nhiều hạn chế về thời gian chạy, gây ra sự phân tách các cộng đồng làm giảm độ
chính xác trong kết quả. Mặt khác, nếu đầu vào của giải thuật là đồ thị có mật độ
kết nối giữa các đỉnh thƣa, kết quả phân cụm sẽ không có ý nghĩa. Do vậy, Tác
giả sẽ tiếp tục nghiên giải thuật cải tiến của giải thuật Phân vùng theo cạnh và
các giải thuật khác, nhằm đánh giá các loại giải thuật phù hợp với từng loại mô
hình MXH .
- Đối với chức năng của phần mềm: Chƣơng trình thực nghiệm chỉ dừng ở
việc xử lý tệp dữ liệu sự kiện định dạng .xes chứa khoảng hơn 1000 trƣờng hợp
và 7000 sự kiện. Do đo, Tác giả sẽ nghiên cứu, mở rộng các chức năng của
chƣơng trình để đáp ứng với tệp dữ liệu có kích thƣớc lớn hơn.
52
TÀI LIỆU THAM KHẢO
[1] Wil M. P. van der Aalst. (2011), Process Mining: Discovery,
Conformance and Enhancement of Business Processes. Springer, Berlin,
Heidelberg.
[2] Minseok Song and Wil M. P. van der Aalst. (2008), Towards
comprehensive support for organizational mining. Decision Support Systems,
pp. 300–317.
[3] G. Palla, I. Derényi, I. Farkas, and T. Vicsek. (2005), Uncovering the
overlapping community structure of complex networks in nature and society.
Nature, vol. 435, no. 7043.
[4] Ahn Y.-Y., Bargrow, J. P., and Lehmann, S. (2010), Link
communities reveal multiscale complexity in networks. Nature 466, pp. 761–
764.
[5] Karsten Steinhaeuser and Nitesh v. Chawla. Community detection in
large real world networks.
[6] S. Gregory. (2009), Finding overlapping communities using disjoint
community detection algorithms, in Complex Networks. Springer, pp. 47–61.
[7] J. Xie, S. Kelley, and B. K. Szymanski. (2011), Overlapping
community detection in networks: the state of the art and comparative study.
arXiv preprint arXiv: 1110.5813.
[8] Wil M.P. Van der Aalst, W., Weijters, A., and Maruster, L. (2004),
Workflow Mining: Discovering Process Models from Event Logs. IEEE
Transactions on Knowledge and Data Engineering, Vol. 16(9), pp. 1128–1142.
[9] Wil M.P. van der Aalst., Reijers, H.A., Song, M. (2005), Discovering
Social Networks from Event Logs. Computer Supported Cooperative Work, Vol.
14 No. 6, pp. 549–593.
[10] Borko Furht. (2010), Handbook of Social Network Technologies and
Applications. Springer, 1st edition.
[11] Girvan, M., & Newman, M. E. (2002), Community structure in social
and biological networks. In Proceedings of the National Academy of Sciences,
99(12), pp. 7821- 7826.
[12] M. Bramer. (2007), Principles of Data Mining. Springer, Berlin.
53
[13] J. Nakatumba and Wil M.P. van der Aalst. (2010), Analyzing resource
behavior using process mining. In BPMW'09, vol. 43 of LNBIP, pp. 69-80.
Springer.
[14] Wil M.P. Van der Aalst and Minseok Song. (2004), Mining social
networks: Uncovering interaction patterns in business processes. In Business
Process Management, pp. 244–260. Springer.
[15] Chen, Z. S., Kalashnikov, D. V. and Mehrotra, S. Exploiting context
analysis for combining multiple entity resolution systems. (2009), In
Proceedings of the 2009 ACM International Conference on Management of
Data (SIGMOD'09).
[16] Reza Zafarani, Mohammad Ali Abbasi, Huan Liu. (2014), Social
Media Mining: An Introduction. Cambridge University Press.
[17] Huang L, Wang G, Wang Y, Blanzieri E, Su C. (2013), Link
Clustering with Extended Link Similarity and EQ Evaluation Division.
[18] W.M.P. van der Aalst, B.F. van Dongen, J. Herbst, L. Maruster, G.
Schimm, and A.J.M.M. Weijters. (2003), Workflow Mining: A Survey of Issues
and Approaches. Data and Knowledge Engineering, pp. 237–267.
[19] Mini Singh ahuja and Jatinder singh. (2014), Future prospects in
community detection. Vol. 4, Issue 5, pp. 37-48.
[20] DR Ferreira, C Alves. (2012), Discovering User Communities in
Large Event Logs. 7th International Workshop on Business Process
Intelligence, pp. 123-134.
[21] Zbigniew Paszkiewicz and Wily Picard. (2013), Analysis of the Volvo
IT Incident and Problem Handling Processes using Process Mining and Social
Network Analysis.
[22] Jaewon Yang, Jure Leskovec. (2013), Overlapping Community
Detection at Scale: A Nonnegative Matrix Factorization Approach.
[23] Reichert, M. (2012), Visualizing Large Business Process Models:
Challenges, Techniques, Applications. In 1st Int’l Workshop on Theory and
Applications of Process Visualization, Tallin.
[24] Stanley W., Katherine. (1999), Social Network Analysis: Methods
and Applications. ISBN 052137078.
[25] Noel M. T., Micheal L. T and Charles (1979), Social Network
Analysis for Organizations. The Academy of Management Review. Vol. 4.
54
[26] Cook, J. E., and Wolf, A. L. (1998), Discovering models of software
processes from event-based data. ACM Trans. Softw. Eng. Methodol.
[27] Herbst, J., and Karagiannis, D. (1998), Integrating Machine Learning
and Workflow Management to Support Acquisition and Adaptation of
Workflow Models. In Proceedings 9th International Workshop on Database
and Expert Systems Applications (DEXA’98), pp. 745–752.
[28] Song, M., and Van der Aalst. (2008), Towards comprehensive
Support for organizational mining. Decision Support Systems.
[29] Weske, Mathias. (2012),Business process management concepts,
languages, architectures, Berlin; New York: Springer.
[30] J.L. Moreno.(1934), Who Shall Survive?Nervous and Mental Disease
Publishing Company,Washington, DC.
[31] Becker, J., Delfmann, P., Eggert, M., and Schwittay. (2012a),.
Generalizability and Applicability of Model-Based Business Process
Compliance-CheckingApproaches – A State-of-the-Art Analysis and Research
Roadmap.BuR Business Research (5:2), pp. 221–247.
[32] Grigori, D., Casati, F., Castellanos, M., Dayal, U., Sayal, M., and
Shan, M. C. (2004), Business Process Intelligence. Computers in Industry,
53(3).
[33] Ingvaldsen, J. E., Gulla, J. A., Hegle, A., and Prange A. (2005),
Empirical Business Models. 17th Conference on Advanced Information Systems
Engineering, Porto, Portugal.
[34] Steve Gregory. (2007), An Algorithm to Find Overlapping
Community Structure in Networks.
[35] Raghavan UN, Albert R, Kumara S. (2007), Near Linear Time
Algorithm to Detect Community Structures in Large-scale Networks.
[36] Wil M.P Van der Aalst, W. M. P., Andriansyah, A., Alves de
Medeiros, A. K., Arcieri, F., Baier, T., Blickle, T., Bose, J. C., Van den Brand,
P., Brandtjen, R., and Buijs, J. (2012) Process mining manifesto. In BPM 2011
Workshops Proceedings, pp. 169–194.
Các file đính kèm theo tài liệu này:
- luan_van_tim_hieu_mot_so_giai_thuat_tim_kiem_cong_dong_trong.pdf