Với bố cục của luận án gồm 5 chương, các kết quả chính đạt được có thể được
tóm tắt như sau:
 Đề xuất ba mô hình tóm tắt đơn văn bản hướng trích rút áp dụng cho tóm tắt
văn bản tiếng Anh và tiếng Việt gồm:
 Mô hình RoPhoBERT_MLP_ESDS: Mô hình sử dụng các mô hình tối ưu của
mô hình pre-trained BERT để véc tơ hóa văn bản làm đầu vào cho mô hình
phân loại sử dụng mạng MLP, kết hợp với các đặc trưng vị trí câu và phương
pháp MMR để lựa chọn câu đưa vào bản tóm tắt.
 Mô hình mBERT_CNN_ESDS: Mô hình sử dụng mô hình mBERT đa ngôn
ngữ được đào tạo trước, mạng CNN, mô hình seq2seq, lớp FC, kết hợp các
đặc trưng TF-IDF và MMR để lựa chọn câu đưa vào bản tóm tắt.
 Mô hình mBERT-Tiny_seq2seq_DeepQL_ESDS: Mô hình sử dụng mô hình
BERT-Tiny, mBERT để véc tơ hóa văn bản tiếng Anh, tiếng Việt tương ứng
làm đầu vào cho mô hình phân loại câu sử dụng mạng CNN, seq2seq kết hợp
với kỹ thuật học tăng cường Deep Q-Learning và phương pháp MMR để lựa
chọn câu đưa vào bản tóm tắt. Mô hình được áp dụng hiệu quả trong điều
kiện tài nguyên hạn chế.
Cả 3 mô hình tóm tắt đơn văn bản hướng trích rút đề xuất này đều được thử
nghiệm trên các bộ dữ liệu CNN (tiếng Anh) và bộ dữ liệu Baomoi (tiếng
Việt) đã cho kết quả cao.
 Đề xuất phát triển một mô hình tóm tắt đơn văn bản hướng tóm lược hiệu quả
sử dụng các kỹ thuật học sâu kết hợp các đặc TF và vị trí câu (mô hình
PG_Feature_ASDS). Mô hình được thử nghiệm trên hai bộ dữ liệu CNN/Daily Mail
(tiếng Anh) và bộ dữ liệu Baomoi (tiếng Việt) đã cho kết quả khá tốt. Mô hình có
thể áp dụng hiệu quả cho tóm tắt văn bản tiếng Anh và tiếng Việt. Mô hình này
cũng được sử dụng làm mô hình được huấn luyện trước trong giải pháp phát triển
các mô hình tóm tắt đa văn bản hướng tóm lược mà luận án đề xuất.134
 Đề xuất phát triển một mô hình tóm tắt đa văn bản hướng trích rút sử dụng các
kỹ thuật học máy, kết hợp đặc trưng vị trí câu và MMR để sinh văn bản tóm tắt (mô
hình Kmeans_Centroid_EMDS). Mô hình được thử nghiệm trên bộ dữ liệu DUC
2007 (tiếng Anh), Corpus_TMV (tiếng Việt) cho kết quả tốt khi tóm tắt đa văn bản
tiếng Anh, tiếng Việt.
                
              
                                            
                                
            
 
            
                 181 trang
181 trang | 
Chia sẻ: huydang97 | Lượt xem: 885 | Lượt tải: 2 
              
            Bạn đang xem trước 20 trang tài liệu Luận án Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
tch. Journal of 
Machine Learning Research, Vol. 12, pp. 2493–2537. 
[87] Hochreiter S. and Schmidhuber J. (1997). Long short-term memory. Neural 
computation, Vol. 9, No. 8, pp. 1735-1780. DOI: 10.1162/neco.1997.9.8.1735. 
[88] Mike Schuster and Kuldip K. Paliwal (1997). Bidirectional Recurrent Neural 
Networks, Vol. 45, No. 11, pp. 2673–2681. IEEE Transactions on Signal 
Processing. DOI: 10.1109/78.650093. 
[89] Kyunghyun Cho, Bart van Merrienboer, Caglar Gulcehre, Dzmitry Bahdanau, 
Fethi Bougares, Holger Schwenk, and Yoshua Bengio (2014). Learning 
Phrase Representations using RNN Encoder-Decoder for Statistical Machine 
Translation. In Proceedings of the 2014 Conference on Empirical Methods in 
Natural Language Processing, Doha, Qatar, pp. 1724-1734. 
[90] Junyoung Chung, Kyung Hyun Cho, and Yoshua Bengio (2014). Empirical 
Evaluation of Gated Recurrent Neural Networks on Sequence Modeling. arXiv 
preprint arXiv:1412.3555. 
[91] Alex Graves, Abdel-rahman Mohamed, and Geoffrey Hinton (2013). Speech 
Recognition with Deep Recurrent Neural Networks. In Proceedings of the 
2013 International Conference on Acoustics, Speech, and Signal 
Processing, pp. 6645-6649. 
[92] Ilya Sutskever, Oriol Vinyals, and Quoc V. Le (2014). Sequence to Sequence 
Learning with Neural Networks. In Proceedings of the 27th International 
Conference on Neural Information Processing Systems (NIPS'14), Vol. 2, pp. 
3104–3112. 
[93] Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio (2015). Neural 
Machine Translation by Jointly Learning to Align and Translate. In 
Proceedings of the 3rd International Conference on Learning Representations 
(ICLR 2015), San Diego, CA, USA. 
[94] Graves A., Wayne G., and Danihelka I. (2014). Neural turing machines. 
CoRR, abs/1410.5401. 
[95] Thang Luong, Hieu Pham, and Christopher D. Manning (2015). Effective 
Approaches to Attention-based Neural Machine Translation. In Proceedings 
of the 2015 Conference on Empirical Methods in Natural Language 
Processing, pp. 1412–1421. Association for Computational Linguistics. 
[96] Kelvin Xu, Jimmy Ba, Ryan Kiros, Kyunghyun Cho, Aaron Courville, Ruslan 
Salakhudinov, Rich Zemel, and Yoshua Bengio (2015). Show, Attend and 
Tell: Neural Image Caption Generation with Visual Attention. In Proceedings 
of the 32nd International Conference on International Conference on Machine 
Learning, PMLR 37, pp. 2048–2057. 
[97] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, 
Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin (2017). Attention is all 
you need. In Proceedings of the 31st International Conference on Neural 
Information Processing Systems, pp. 6000–6010. 
145 
[98] Phạm Minh Nguyên (2020). Nghiên cứu dịch máy Trung - Việt dựa vào mô 
hình Transformer. Luận văn Thạc sỹ Hệ thống thông tin, Trường Đại học 
Công nghệ - Đại học Quốc gia Hà Nội. 
[99] Mikolov T., Chen K., Corrado G., and Dean J. (2013). Efficient Estimation of 
Word Representations in Vector Space. In Proceedings of the International 
Conference on Learning Representations (ICLR 2013), pp. 1-12. 
[100] Chung H., Lee S., and Park J. (2016). Deep neural network using trainable 
activation functions. In Proceedings of the 2016 International Joint Conference 
on Neural Networks (IJCNN), pp. 348-352. 
[101] Xin Rong (2014). word2vec Parameter Learning Explained. 
CoRR abs/1411.2738. 
[102] Devlin J., Chang M.W., Lee K., and Toutanova K. (2019). Bert: Pre-
training of deep bidirectional transformers for language understanding. In 
Proceedings of the 2019 Conference of the North American Chapter of the 
Association for Computational Linguistics: Human Language Technologies, 
Minneapolis, pp. 4171–4186. 
[103] Yukun Zhu, Ryan Kiros, Richard Zemel, Ruslan Salakhutdinov, Raquel 
Urtasun, Antonio Torralba, and Sanja Fidler (2015). Aligning books and 
movies: Towards story-like visual explanations by watching movies and 
reading books. In Proceedings of the 2015 IEEE International Conference on 
Computer Vision (ICCV), Vol. 1, pp. 19-27. DOI: 10.1109/ICCV.2015.11. 
[104] Yonghui Wu, Mike Schuster, Zhifeng Chen, Quoc V. Le, Mohammad 
Norouzi, Wolfgang Macherey, Maxim Krikun, Yuan Cao, and Qin Gao 
(2016). Google’s neural machine translation system: Bridging the gap 
between human and machine translation. Technical Report. 
[105] Telmo Pires, Eva Schlinger, and Dan Garrette. How multilingual is 
Multilingual BERT?. In Proceedings of the 57th Annual Meeting of the 
Association for Computational Linguistics, pp. 4996–5001. Association for 
Computational Linguistics. 
[106] Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi 
Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, and Veselin Stoyanov 
(2019). RoBERTa: A Robustly Optimized BERT Pretraining Approach. In 
Proceedings of the 20th Chinese National Conference on Computational 
Linguistics, pp. 1218-1227. 
[107] Trieu H. Trinh and Quoc V. Le (2018). A simple method for commonsense 
reasoning. arXiv preprint arXiv:1806.02847. 
[108] Rico Sennrich, Barry Haddow, and Alexandra Birch (2016). Neural 
machine translation of rare words with subword units. In Proceedings of the 
54th Annual Meeting of the Association for Computational Linguistics (Vol. 
1: Long Papers), pp. 1715-1725. Association for Computational Linguistics. 
DOI: 10.18653/v1/P16-1162. 
[109] Kingma D. and Ba J. (2015). Adam: A method for stochastic optimization. 
In 3rd International Conference on Learning Representations (ICLR 2015), 
Conference Track Proceedings, San Diego, CA, USA. 
146 
[110] Dat Quoc Nguyen and Anh Tuan Nguyen (2020). PhoBERT: Pre-trained 
language models for Vietnamese. In Proceedings of Findings of the 
Association for Computational Linguistics: EMNLP 2020. 
DOI: 10.18653/v1/2020.findings-emnlp.92. 
[111] Iulia Turc, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova (2019). 
Well-Read Students Learn Better: On the Importance of Pre-training Compact 
Models. arXiv preprint arXiv:1908.08962. 
[112] Cristian Bucila, Rich Caruana, and Alexandru Niculescu-Mizil (2006). 
Model compression. In Proceedings of the 12th ACM SIGKDD international 
conference on Knowledge discovery and data mining, pp. 535–541. DOI: 
10.1145/1150402.1150464. 
[113] Geoffrey E. Hinton, Oriol Vinyals, and Jeffrey Dean (2014). Distilling the 
knowledge in a neural network. NIPS Workshop 2014, Montreal, Canada. 
[114] Mnih V., Kavukcuoglu K., Silver D., Graves A., Antonoglou I., Wierstra 
D., and Miller M. R. (2013). Playing Atari with Deep Reinforcement 
Learning. NIPS Deep Learning Workshop 2013. 
[115] Alexander M. Rush, Sumit Chopra, and Jason Weston (2015). A Neural 
Attention Model for Abstractive Sentence Summarization. In Proceedings of 
the 2015 Conference on Empirical Methods in Natural Language Processing, 
pp. 379-389. 
[116] Jaime Carbonell and Jade Goldstein (1998). The Use of MMR, Diversity-
Based Reranking for Reordering Documents and Producing Summaries. In 
Proceedings of the 21st annual international ACM SIGIR conference on 
Research and development in information retrieval, pp. 335-336. 
[117] Ming Zhong, Pengfei Liu, Yiran Chen, Danqing Wang, Xipeng Qiu, and 
Xuanjing Huang (2020). Extractive Summarization as Text Matching. In 
Proceedings of the 58th Annual Meeting of the Association for Computational 
Linguistics, pp. 6197–6208. Association for Computational Linguistics. 
[118] Liu Y. (2019). Fine-tune BERT for Extractive Summarization. arXiv 
preprint arXiv:1903.10318. 
[119] Xingxing Zhang, Furu Wei, and Ming Zhou (2019). HIBERT: Document 
Level Pre-training of Hierarchical Bidirectional Transformers for Document 
Summarization. In Proceedings of the 57th Annual Meeting of the Association 
for Computational Linguistics, pp. 5059–5069. 
[120] Tom M. Mitchell (1997). Machine Learning, McGraw-Hill. 
[121] Vũ Hữu Tiệp (2020). Machine Learning cơ bản (cập nhật lần cuối: 
20/01/2020). 
[122] Ilya Loshchilov and Frank Hutter (2019). Decoupled Weight Decay 
Regularization. In Proceeding of International Conference on Learning 
Representations (ICLR 2019). 
[123] Daniel Cer, Yinfei Yang, Sheng-yi Kong, Nan Hua, Nicole Limtiaco, 
Rhomni St. John, Noah Constant, Mario Guajardo-Cespedes, Steve Yuan, 
Chris Tar, Yun-Hsuan Sung, Brian Strope, and Ray Kurzweil (2018). 
147 
Universal Sentence Encoder for English. In Proceedings of the 2018 
Conference on Empirical Methods in Natural Language Processing: System 
Demonstrations, pp. 169–174. 
[124] Yinfei Yang, Daniel Cer, Amin Ahmad, Mandy Guo, Jax Law, Noah 
Constant, Gustavo Hernandez Abrego, Steve Yuan, Chris Tar, Yun-Hsuan 
Sung, Brian Strope, and Ray Kurzweil (2020). Multilingual Universal 
Sentence Encoder for Semantic Retrieval. In Proceedings of the 58th Annual 
Meeting of the Association for Computational Linguistics: System 
Demonstrations, pp. 87–94. 
[125] Shashi Narayan, Shay B. Cohen, and Mirella Lapata (2018). Ranking 
Sentences for Extractive Summarization with Reinforcement Learning. In 
Proceedings of NAACL-HLT 2018, pp. 1747–1759. 
[126] Diganta Misra and Landskape. Mish: A Self Regularized Non-Monotonic 
Activation Function. arXiv preprint arXiv:1908.08681v3. 
[127] Nal Kalchbrenner, Edward Grefenstette, and Phil Blunsom (2014). A 
Convolutional Neural Network for Modelling Sentences. In Proceedings of the 
52nd Annual Meeting of the Association for Computational Linguistics, Vol. 
1: Long Papers, pp. 655–665. 
[128] Nallapati R., Zhou B., Santos C. dos, Gulcehre C., and Xiang B. (2016). 
Abstractive text summarization using sequence-to-sequence RNNs and beyond. 
In Proceedings of the 20th SIGNLL Conference on Computational Natural 
Language Learning, pp. 280–290. 
[129] Leo Laugier, Evan Thompson, and Alexandros Vlissidis (2018). Extractive 
Document Summarization Using Convolutional Neural Networks – 
Reimplementation. Department of Electrical Engineering and Computer 
Sciences University of California, Berkeley. 
[130] Gu J., Lu Z., Li H., and Li V. (2016). Incorporating copying mechanism in 
sequence-to-sequence learning. In Proceedings of the 54th Annual Meeting of 
the Association for Computational Linguistics, Vol. 1: Long Papers, pp. 1631–
1640. 
[131] Vinyals O., Fortunato M., and Jaitly N. (2015). Pointer networks. In 
Proceedings of the 28th International Conference on Neural Information 
Processing Systems, Vol. 2, pp. 2692–2700 
[132] Chen Q., Zhu X., Ling Z., Wei S., and Jiang H. (2016). Distraction-based 
neural networks for modeling documents. In Proceedings of the Twenty-Fifth 
International Joint Conference on Artificial Intelligence (IJCAI-16), pp. 2754-
2760. 
[133] Zhaopeng Tu, Zhengdong Lu, Yang Liu, Xiaohua Liu, and Hang Li (2016). 
Modeling coverage for neural machine translation. In Proceedings of the 54th 
Annual Meeting of the Association for Computational Linguistics, Vol. 1, pp. 
76-85. Association for Computational Linguistics. 
[134] Pascanu R., Mikolov T., and Y. Bengio (2013). On the difficulty of training 
recurrent neural networks. In ICML'13: Proceedings of the 30th International 
148 
Conference on International Conference on Machine Learning,Vol. 28, pp. 
1310-1318. 
[135] Duchi J., Hazan E., and Singer Y. (2011). Adaptive subgradient methods 
for online learning and stochastic optimization. Journal of Machine Learning 
Research, Vol. 12, pp. 2121-2159. 
[136] Harshal J. J., Bewoor M. S., and Patil S. H. (2012). Context Sensitive Text 
Summarization Using K-Means Clustering Algorithm. In International Journal 
of Soft Computing and Engineering, Vol. 2, pp. 301-304. ISSN: 2231-2307. 
[137] Prathima M. R., and Divakar H, R. (2018). Automatic Extractive Text 
Summarization Using K-Means Clustering. International Journal of Computer 
Sciences and Engineering, Vol. 6, No. 6, pp. 782-787. 
DOI: 10.26438/ijcse/v6i6.782787. 
[138] Gaetano Rossiello, Pierpaolo Basile, and Giovanni Semeraro (2017). 
Centroid-based Text Summarization through Compositionality of Word 
Embeddings. In Proceedings of the MultiLing 2017 Workshop on 
Summarization and Summary Evaluation Across Source Types and Genres, 
pp. 12–21. Association for Computational Linguistics. DOI: 
10.18653/v1/W17-1003. 
[139] Dragomir R. Radev, Hongyan Jing, and Malgorzata Budzikowska (2000). 
Centroid-based summarization of multiple documents: sentence extraction, 
utility-based evaluation, and user studies. In NAACL-ANLP-AutoSum '00: 
Proceedings of the 2000 NAACL-ANLP Workshop on Automatic 
summarization, Vol. 4, pp. 21–30. DOI: 10.3115/1117575.1117578. 
[140] Ayush Agarwal and Utsav Gupta (2014). Extraction based approach for 
text summarization using k-means clustering. International Journal of 
Scientific and Research Publications, Vol. 4, Issue 11, pp. 1-4. 
[141] Rachit Arora and Balaraman Ravindran (2008). Latent Dirichlet Allocation 
Based MultiDocument Summarization. In AND '08: Proceedings of the second 
workshop on Analytics for noisy unstructured text dataJuly, pp. 91–97. DOI: 
10.1145/1390749.1390764. 
[142] Zhanying He, Chun Chen, Jiajun Bu, Can Wang, and Lijun Zhang (2012). 
Document summarization based on data reconstruction. In Proceedings of the 
Twenty-Sixth AAAI Conference on Artificial Intelligence, pp. 620–626. 
[143] Kaustubh Mani, Ishan Verma, Hardik Meisheri, and Lipika Dey (2018). 
MultiDocument Summarization using Distributed Bag-of-Words Model. In 
Proceedings of the 2018 IEEE/WIC/ACM International Conference on Web 
Intelligence (WI), Vol. 1, pp. 672-675. 
[144] Romain Paulus, Caiming Xiong, and Richard Socher (2015). A deep 
reinforced model for abstractive summarization”. In Proceedings of the 6th 
International Conference on Learning Representations (ICLR 2018). 
[145] Tal Baumel, Matan Eyal, and Michael Elhadad (2018). Query focused 
abstractive summarization: Incorporating query relevance, multi-document 
coverage, and summary length constraints into seq2seq models. arXiv preprint 
arXiv:1801.07704. 
149 
[146] Jianmin Zhang, Jiwei Tan, and Xiaojun Wan (2018). Towards a neural 
network approach to abstractive multi-document summarization. arXiv 
preprint arXiv:1804.09010. 
[147] Logan Lebanoff, Kaiqiang Song and Fei Liu (2018). Adapting the Neural 
Encoder-Decoder Framework from Single to Multi-Document Summarization. 
In Proceedings of the 2018 Conference on Empirical Methods in Natural 
Language Processing, pp. 4131-4141. Association for Computational 
Linguistics. 
1 
PHỤ LỤC 
Phụ lục A: Văn bản nguồn của các văn bản tóm tắt ví dụ 
A.1. Văn bản tiếng Anh 
Văn bản nguồn 
“Tikrit , Iraq ( CNN ) Mass graves believed to hold Iraqi 
soldiers have been discovered in newly liberated Tikrit . 
Up to 1,700 bodies may be recovered . ISIS claimed to have 
executed that many soldiers captured in June outside Camp 
Speicher , a fortified Iraqi base near Tikrit . A total of 
47 bodies have been exhumed from two of the 11 mass graves 
discovered in Tikrit , an Iraqi government official said 
Tuesday . Hundreds are believed to have been executed by 
ISIS in June 2014 Grieving Iraqis , apparently not related 
to the soldiers , gathered to pray over the bodies . When 
the first three bodies were found , 10 Iraqi soldiers 
saluted the dead by firing seven shots into the air . The 
national anthem was played while soldiers wept . All the 
bodies were decomposed . Some had their hands bound , Damon 
said . The remains will be sent back to Baghdad for DNA 
tests to establish identify , said Ali Tahir , a director 
in the Iraqi morgue who was supervising the digging and 
extraction . Damon said there may be eight mass graves 
inside the presidential palace complex , which contains the 
residences of former Iraqi President Saddam Hussein , and 
two other sites outside the city . The presidential palaces 
complex became ISIS headquarters after the militants 
occupied the city . Iraqi soldiers and Shiite militias 
retook Tikrit a few days ago after a fierce battle . Damon 
interviewed a soldier who said he survived the massacre by 
playing dead . The solider said ISIS captured the troops 
outside Camp Speicher and marched them to the presidential 
palace complex , telling them they would be safe until a 
prisoner swap was arranged . Once inside the compound , the 
soldiers were separated into smaller groups , executed and 
buried in mass graves , the survivor told Damon . He said 
he was tossed into a river and floated to an embankment . 
On Monday , Prime Minister Haider al - Abadi said revenge 
is not the way to deal with the discovery of the bodies . 
He said several people involved in the killings have been 
detained . Families of the missing soldiers had been 
demanding answers from the Iraqi government about what 
happened . As ISIS swept through northern Iraq in June , 
2 
some military units were ordered to Camp Speicher . Their 
families claim the men received orders from their 
commanders to leave the base and move closer to Baghdad . 
They left unarmed and in civilian clothes , they say . 
Military commanders and the Iraqi Defense Ministry denied 
any such orders being issued and said the men deserted . 
ISIS released videos that showed what seemed to be an 
endless line of military recruits marched at gunpoint and 
later posted images showing cold - blooded mass killings . 
Damon said Iraqi officials told her it may take weeks or 
months to exhume all the bodies . Human Rights Watch 
described the " Speicher Massacre " -- as it has been 
dubbed in Iraq -- as the " largest reported incident " 
where " ISIS captured more than 1,000 soldiers fleeing Camp 
Speicher ... then summarily executed at least 800 of them . 
" Based on satellite imagery and witness testimony , Human 
Rights Watch last year was able to identity a number of 
mass grave sites inside Tikrit and the presidential palace 
complex . The families gave DNA samples to the Iraqi 
Ministry of Health last year so authorities would be able 
to match them to unidentified bodies the government may 
find . CNN 's Arwa Damon reported from Tikrit , and Ralph 
Ellis wrote in Atlanta . CNN 's Jomana Karadsheh 
contributed to this report .” 
A.2. Văn bản tiếng Việt 
Văn bản nguồn 
“Tại xã Ái Quốc, nơi có hơn 2.000 nữ CNLĐ đang phải thuê ở 
trọ, trong đó có khoảng 500 người có con nhỏ ở cùng, các 
doanh nghiệp mà họ đang làm việc đều chưa có điều kiện xây 
dựng nhà trẻ, vì thế gửi con ở đâu, ai chăm sóc các cháu 
khi mình đi làm, chị em đều phải tự lo. Sau khi khảo sát, 
bà Nguyễn Thị Láng – Trưởng ban Tuyên giáo Liên đoàn lao 
động – đã cùng các cán bộ công đoàn làm việc với chính 
quyền địa phương và tổ chức hội nghị đối thoại với sự có 
mặt của cả đại diện doanh nghiệp và công nhân lao động. Từ 
cuộc đối thoại, vấn đề vướng nhất là tìm chỗ gửi con ổn 
định cho nữ công nhân lao động được giải quyết. Công ty 
TNHH may Tinh Lợi, có gần 1.000 nữ công nhân lao động đang 
ở trọ tại đây đã đồng ý mỗi tháng tài trợ thêm cho Trường 
Mầm non Hương Sen 3 triệu đồng để nâng cấp, mở thêm phòng 
học, tiếp nhận hơn 200 cháu là con công nhân lao động vào 
học. Nhiều công nhân rất vui và tỏ rõ sự hài lòng khi gần 1 
năm nay, con họ đã được đi học ở trường, ở lớp chứ không 
phải lang thang chơi tạm ở nhà người thân cả ngày, hay 
những khi họ phải tăng ca thì con cái đã có người giữ, chứ 
không buộc phải đón từ 17h”. Chị Vương Thị Oanh - Hiệu 
trưởng Trường Mầm non Hương Sen - cho biết, thực ra trường 
không có trách nhiệm phải nhận con công nhân lao động, 
3 
nhưng vì thông cảm với điều kiện của chị em, giúp họ yên 
tâm làm việc nên đã nhận nhiệm vụ này. Còn các Cán bộ công 
đoàn đã vui hơn rất nhiều và có cảm giác như vừa hoàn thành 
một trọng trách. Việc chủ động đứng ra thu xếp giúp nữ công 
nhân lao động của Liên đoàn lao động tỉnh Hải Dương có chỗ 
gửi con không chỉ khiến công nhân lao động, mà cả các chủ 
DN hết sức hài lòng. "Gánh nặng" mà cả doanh nghiệp và 
người lao động đang phải chịu đã được tổ chức Công đoàn 
giúp gỡ bỏ và họ có điều kiện toàn tâm, toàn ý tập trung 
vào công việc, phấn đấu vì sự tồn tại và phát triển của 
doanh nghiệp nói riêng và kinh tế - xã hội đất nước nói 
chung.” 
Phụ lục B: Biểu đồ phân bố của các bộ dữ liệu thử nghiệm 
Thông tin về thời gian thu thập các bộ dữ liệu sử dụng để thử nghiệm cho các mô 
hình tóm tắt văn bản đề xuất được trình bày trong bảng dưới đây. 
Bộ dữ liệu Ngày được cập nhật lần cuối Ngày thu thập các bộ dữ liệu 
CNN/Daily Mail 07/12/2015 08/09/2017 
DUC 2001 18/03/2014 19/02/2020 
DUC 2002 18/03/2014 19/02/2020 
DUC 2004 24/03/2011 21/07/2019 
DUC 2007 24/03/2011 30/01/2019 
Corpus_TMV 01/11/2013 14/02/2021 
ViMs 18/11/2020 27/03/2021 
Baomoi 28/07/2017 28/07/2017 
B.1. Bộ dữ liệu CNN 
Biểu đồ phân bố độ dài trung bình văn bản nguồn 
4 
 Biểu đồ phân bố độ dài trung bình văn bản tóm tắt 
B.2. Bộ dữ liệu Daily Mail 
 Biểu đồ phân bố độ dài trung bình văn bản nguồn 
Biểu đồ phân bố độ dài trung bình văn bản tóm tắt 
5 
B.3. Bộ dữ liệu DUC 2001 
 Biểu đồ phân bố độ dài trung bình văn bản nguồn 
 Biểu đồ phân bố độ dài trung bình văn bản tóm tắt 
B.4. Bộ dữ liệu DUC 2002 
 Biểu đồ phân bố độ dài trung bình văn bản nguồn 
6 
 Biểu đồ phân bố độ dài trung bình văn bản tóm tắt 
B.5. Bộ dữ liệu DUC 2004 
 Biểu đồ phân bố độ dài trung bình văn bản nguồn 
 Biểu đồ phân bố độ dài trung bình văn bản tóm tắt 
7 
B.6. Bộ dữ liệu DUC 2007 
 Biểu đồ phân bố độ dài trung bình văn bản nguồn 
 Biểu đồ phân bố độ dài trung bình văn bản tóm tắt 
B.7. Bộ dữ liệu Baomoi 
 Biểu đồ phân bố độ dài trung bình văn bản nguồn 
8 
 Biểu đồ phân bố độ dài trung bình văn bản tóm tắt 
B.8. Bộ dữ liệu Corpus_TMV 
 Biểu đồ phân bố độ dài trung bình văn bản nguồn 
Biểu đồ phân bố độ dài trung bình văn bản tóm tắt 
9 
B.9. Bộ dữ liệu ViMs 
 Biểu đồ phân bố độ dài trung bình văn bản nguồn 
Biểu đồ phân bố độ dài trung bình văn bản tóm tắt 
Phụ lục C: Văn bản nguồn của các mẫu tóm tắt thử nghiệm 
C.1. Văn bản nguồn của các mẫu thử nghiệm của mô hình 
RoPhoBERT_MLP_ESDS 
 Nội dung văn bản nguồn trong bộ dữ liệu CNN 
“Lois Lilienstein , co - star of " Sharon , Lois & Bram 's 
Elephant Show " - the Canadian preschool show that ran on 
Nickelodeon during the early 1990s - has died , aged 78 . 
Her son , David Lilienstein , told CBC News that his mother 
died in Toronto on Wednesday night from a rare form of 
cancer first diagnosed last October . " She knew it was 
happening , she was at peace with it , and she died very 
peacefully and not in pain , " he told the Canadian 
10 
broadcaster . Liz Smith at 92 Lilienstein was born in 
Chicago in 1936 and moved to Toronto in 1996 with her son 
and her husband , Ernest . She joined Sharon Hampson and 
Bram Morrison to launch their singing trio in 1978 . The TV 
show " Sharon , Lois & Bram 's Elephant Show " ran on CBC in 
Canada from 1984 to 1989 , before continuing in reruns on 
Nickelodeon stateside until 1995 . The 30 most popular film 
producers in Hollywood Sally Catto , general manager , 
programming at CBC Television , paid tribute to Lilienstein 
for her contribution to Canadian kids TV . " Sharon , Lois 
and Bram got their start at CBC back in the ' 80s with the 
Elephant Show , and they went on to become icons to children 
all across North America through various programs and 
specials . Lois will be fondly remembered by her many 
friends at CBC , " Catto told The Hollywood Reporter . ' 
Ghostbusters ' budget cut The Canadian variety show was best 
known for songs like " Skinnamarink " and " Peanut Butter . 
" Lilienstein left the Sharon , Lois & Bram performance trio 
in 2000 . The Hollywood Reporter . All rights reserved.” 
 Nội dung văn bản nguồn trong bộ dữ liệu Baomoi 
“Nhóm thanh tra viên của Cơ quan Năng lượng Nguyên tử Quốc 
tế ( IAEA ) ngày 18/1 đã tới thủ đô Tehran của Iran để giám 
sát việc thực thi thoả thuận tạm thời giữa nước này và nhóm 
P 5+1 . Hãng thông tấn Fars của Iran cho biết , nhóm thanh 
tra do kỹ sư hạt nhân Massimo Aparo dẫn đầu sẽ bắt đầu nộp 
báo cáo cho IAEA vào ngày 20/1 tới – thời điểm mà thoả thuận 
giữa Iran và P 5+1 chính thức có hiệu lực . Đại sứ Iran tại 
IAEA Reza Najafi trả lời họp báo tại trụ sở IAEA ở Vienna , 
Áo ( Ảnh AFP ) Các thanh tra sẽ thị sát hai nhà máy hạt nhân 
Natanz và Fordow của Iran để đảm bảo rằng nước này sẽ dừng 
hoạt động sản xuất uranium cấp độ 20% , đồng thời vô hiệu 
hoá kho uranium đã được làm giàu bằng cách pha loãng . Cùng 
ngày , IAEA cho biết , cơ quan này hiện cần thêm tiền tài 
trợ khoảng 6 triệu Euro trong vòng 6 tháng tới để có thể 
trang trải chi phí cho các hoạt động giám sát . Ngày 
24/11/2013 , Iran và Nhóm P 5+1 ( gồm Anh , Pháp , Mỹ , Nga 
, Trung Quốc và Đức ) đã đạt được một thoả thuận sơ bộ để 
giải quyết bế tắc trong đàm phán về chương trình hạt nhân 
gây tranh cãi của Iran . Theo thoả thuận trên , Iran sẽ tạm 
dừng một phần chương trình hạt nhân của mình để đổi lấy việc 
phương Tây nới lỏng các biện pháp trừng phạt kinh tế nhằm 
vào nước này . / . Hồng Anh / VOV-Trung tâm Tin Theo 
Reuters.” 
C.2. Văn bản nguồn của các mẫu thử nghiệm của mô hình 
mBERT_CNN_ESDS 
11 
 Nội dung văn bản nguồn trong bộ dữ liệu CNN 
“Panama City, Panama (CNN) Ending a decade - long standstill 
in U.S. - Cuba relations, President Barack Obama met for an 
hour Saturday with his Cuban counterpart Raul Castro, the 
first time the two nations' top leaders have sat down for 
substantive talks in more than 50 years. The meeting in a 
small conference room on the sidelines of the Summit of the 
Americas came as the two countries work to end the Cold War 
enmity that had led to a total freeze of diplomatic ties. 
And while both leaders proclaimed progress had been made, a 
key stumbling block -- Cuba's place on the U.S. list of 
countries that sponsor terror -- remained unresolved. "This 
is obviously an historic meeting, "Obama said at the 
beginning of his session with Castro, claiming that decades 
of strain had done little to benefit either Cubans or 
citizens of the nited States. "It was time for us to try 
something new," he said. "We are now in a position to move 
on a path toward the future. "Castro, who earlier in the day 
said he trusted Obama, acknowledged there would be difficult 
stumbling blocks as his nation works to repair ties with the 
United States. But he said those differences could be 
surmounted. "We are willing to discuss everything, but we 
need to be patient, very patient," Castro said. "We might 
disagree on something today on which we could agree 
tomorrow. "Speaking to reporters after his session with 
Castro, Obama said the meeting was "candid and fruitful" and 
could prove to be a "turning point" in his push to defrost 
ties with Cuba. But he said he hadn't yet decided whether to 
remove Cuba's designation as a state sponsor of terror, an 
outcome that had previously been expected during the summit. 
The State Department provided Obama with a review of the 
terror status this week. "I want to make sure I have a 
chance to read it, study it before we announce publicly what 
the policy outcome is going to be," Obama said. "But in 
terms of the overall direction of Cuba policy, I think there 
is a strong majority both in the United States and in Cuba 
that says our ability to engage, to open up commerce and 
travel and people to people exchanges is ultimately going to 
be good for Cuban people. "On Friday night, Obama and Castro 
greeted each other courteously amid an explosion of camera 
flashes, shaking hands before dining at the inaugural 
session of the conference. The two sat at the same table but 
not directly next to one another. Before Obama arrived in 
Panama on Wednesday, he spoke with Castro by phone, laying 
the groundwork for what will become a new era of relations 
between the neighboring countries. "The Cold War has been 
over for a long time, "Obama said during opening remarks at 
the summit Saturday. "I'm not interested in having battles, 
frankly, that began before I was born. "That exhortation, 
however, seemed to be lost on Castro himself, who expanded 
12 
what was meant to be a six - minute speech into a 50 - 
minute address lecturing leaders on Cuba's revolution and 
giving a litany of perceived grievances to Cuba over the 
past 50 years. But he distinguished Obama from past American 
presidents, saying he respected Obama's move toward 
reconciliation. "In my opinion, President Obama in an honest 
man, "Castro said through an interpreter. "I admire him, and 
I think his behavior has a lot to do with his humble 
background. " .S. administration official said Castro’s long 
list of grievances was expected, despite the move toward 
diplomatic ties. "(What’s) unique and new is what he said 
about the president, "the official said of Castro’s praise 
for Obama. Obama announced in December that he was seeking 
to renew diplomatic relations with Cuba after half a century 
of strife, including eventually opening embassies in 
Washington and Havana. Obama set to test engagement doctrine 
with Cuba in Panama His meeting with Castro on Saturday 
isn’t being billed as a formal bilateral session, but 
Obama’s aides are still characterizing the event as the 
highest - level engagement with the Cuban government since 
then - Vice President Richard Nixon met with Fidel Castro in 
1959. "We’re in new territory here, "Ben Rhodes, Obama’s 
deputy national security adviser, said Friday. "The reason 
we’re here is because the President strongly believes that 
an approach that was focused entirely on isolation, focused 
entirely on seeking to cut off the Cuban people from the 
United States of America had failed. "The overtures to Cuba 
have not been universally popular in the United States; some 
lawmakers were irate that Obama was seeking to engage what 
they regard as a corrupt government. "A recommendation to 
remove Cuba from the list of State Sponsors of Terrorism 
would represent another significant misstep in a misguided 
policy, "Sen. Bob Menendez, a Democrat who used to the chair 
the Foreign Relations Committee, wrote in a statement last 
week. In Latin America, however, Obama was receiving a warm 
welcome after announcing he was seeking to engage Havana in 
talks over reopening embassies and removing barriers to 
commerce and travel. 9 things you wanted to ask about the 
Cuban embargo He noted to applause during a session Friday 
that this was the first summit with Cuba in attendance. And 
he’s cast the decision to reopen the .S. relationship with 
Cuba as beneficial to the entire hemisphere, which has also 
embraced his immigration executive action. But even as Obama 
landed in Panama, the longstanding gulfs between the two 
countries ' governments were on display. Dissidents opposed 
to Castro’s regime were violently accosted this week by 
supporters of the Cuban government, a scuffle the White 
House said was unacceptable. "As we move toward the process 
of normalization, we’ll have our differences, government to 
government, with Cuba on many issues -- just as we differ at 
times with other nations within the Americas, just as we 
13 
differ with our closest allies," Obama said at a meeting of 
civil society leaders Friday. "There’s nothing wrong with 
that." "But I 'm here to say that when we do speak out, 
we’re going to do so because the nited States of America 
does believe, and will always stand for, a certain set of 
universal values, "he said. The long history between the 
U.S. and Cuba Obama closed out his time in Panama with a 
news conference where he covered topics ranging from Hillary 
Clinton’s expected presidential announcement to his 
framework deal with Iran on its nuclear program. The 
President had pointed criticism for Sen. John McCain, R - 
Arizona. Earlier this week, McCain accused Secretary of 
State John Kerry of intentionally mischaracterizing what the 
sides had agreed to in the Iran nuclear deal. "John Kerry is 
delusional, "McCain said on the Hugh Hewitt show, a 
conservative talk radio program, adding that the view from 
the Supreme Leader of Iran of the provisions agreed to" is 
probably right, " rather than what the United States 
maintains are the agreed provisions. While discussing the 
Iran agreement Saturday, Obama brought up those remarks 
without being asked. "When I hear someone like Sen. McCain 
recently suggest that our secretary of state, John Kerry, 
who served in the United States Senate, (is) a Vietnam 
veteran, who’s provided exemplary service to this nation, is 
somehow less trustworthy of the interpretation of what’s in 
a political agreement than the Supreme Leader of Iran, 
that’s an indication of the degree to which partisanship has 
crossed all boundaries," he said at the news conference. 
After the President’s remarks, McCain tweeted "So Pres. 
Obama goes to # Panama, meets with Castro and attacks me - I 
'm sure Raul is pleased." As for his 2008 Democratic rival, 
Obama said, "If she decides to run, if she makes an 
announcement, she’s going to have some strong messages to 
deliver," he said.” 
 Nội dung văn bản nguồn trong bộ dữ liệu Baomoi 
“Vụ tai nạn nói trên xảy ra vào khoảng 23h15 ngày 19/1, tại 
cầu Bến Thuỷ, trên Quốc lộ 1A. Theo đó, vào khoảng thời gian 
trên, khi chiếc xe con mang BKS: 37 A-048. 45 đang điều 
khiển xe lưu thông theo hướng Bắc - Nam bất ngờ lao lên dải 
phân cách làn đường ô tô và xe máy. Hiện trường vụ tai nạn. 
Sau cú đâm mạnh, đầu chiếc xe con bị hư hỏng, toàn bộ chiếc 
xe con bị nằm gác trên dải phân cách đường. Những người ngồi 
trên chiếc xe con này đã không có ai bị thương. Do buồn ngủ, 
thay vì đi sang làn đường cho ô tô, chiếc xe con này chọn 
con đường riêng bằng cách leo lên dãi phân cách. Ngay sau 
khi vụ tai nạn xảy ra, chủ xe đã tiến hành gọi cứu hộ giao 
thông đến để giải cứu chiếc xe này. Tuy nhiên, phải mất gần 
giờ đồng hồ sau, chiếc xe này mới tách ra khỏi dải phân 
cách. Sau khi "lỡ" leo lên dải phân cách, đầu của chiếc xe 
đã bị hư hỏng nặng. Vụ tai nạn xảy ra ngay trên đầu cầu nên 
14 
đã khiến giao thông qua đây bị hỗn loạn. Các nhân viên của 
trạm soát vé cầu Bến Thuỷ đã phải ra điều tiết giao thông, 
tránh ùn tắc nghiêm trọng trên tuyến đường. Sau khi bị tai 
nạn, chủ xe đã gọi điện nhờ xe cứu hộ đến để giải quyết vụ 
việc.” 
C.3. Văn bản nguồn của các mẫu thử nghiệm của mô hình mBERT-
Tiny_sep2seq_DeepQL_ASDS 
 Nội dung văn bản nguồn trong bộ dữ liệu CNN 
“Duhok , Iraqi Kurdistan ( CNN ) The children laugh and 
shriek , as some of them seem to always have the capacity to 
do no matter how depressing the circumstances . Their bright 
clothes provide splashes of color against the otherwise drab 
monotone white of the endless rows of tents . A small group 
plays with rocks , replacements for the toys they left 
behind when they fled , while others clamber through a 
jagged tear in the wire fence surrounding the refugee camp . 
The Shariya refugee camp opened around six months ago , made 
up of some 4,000 tents and counting . Thousands of Yazidis 
now call this corner of Iraqi Kurdistan home , about 18 
miles ( 30 kilometers ) from one of the front lines with 
ISIS , where one can hear the occasional reverberation in 
the distance of what we are told are airstrikes . The vast 
majority of the camp 's occupants are from the town of 
Sinjar , which is near the border with Syrian Kurdistan , 
and fled the ISIS assault there back in August . But not 
everyone escaped . ISIS took thousands of Yazidis captive . 
The fighters separated the young women and girls , some as 
young as 8 years old , to be sold as slaves , for their " 
masters " to use as concubines . Men faced a choice : 
Convert to Islam or be shot . Mahmoud was out running 
errands when ISIS fighters arrived , taking his wife , Ahlam 
, their three children -- the youngest of which was just a 
month old -- and his elderly parents . " They took our 
phones , jewelry , money , " Ahlam recalls . " They had guns 
. They forced us at gunpoint into big trailer trucks . " 
They were taken to a school turned prison in Tal Afar . From 
there , the family was moved from village to village -- and 
at one stage taken to Mosul . " They wrote everyone 's name 
down and they asked where we want to work , in the fields , 
as cleaners or as herders , " she says . Ahlam and her 
family chose to herd goats . They were then taken to a Shia 
village whose residents had fled , where they were part of a 
group of around 40 living in one house . In the home , Ahlam 
found a cell phone left behind by its former occupants and 
called her husband . " I said we are alive but we are 
prisoners . " Ahlam 's husband , who up until that moment 
had lost the will to live , thinking his family was dead , 
says he cried out of happiness despite his pain . Ahlam 
15 
would call when she could , briefly , after midnight , 
hiding under her bedcovers . If she was caught with a phone 
, she would be killed . The village itself was a massive 
prison , its entrances guarded by ISIS fighters . She 
recalls that two men , in their late 40s or 50s , tried to 
escape . When they were caught , their bones were broken , 
their bodies tied to the back of a truck and then driven 
through the streets . The Yazidi captives were forced to 
watch the gruesome spectacle . The men 's corpses were then 
tossed into a ditch and an order given not to bury them . 
One night , some of the Yazidi men risked their lives to 
toss dirt onto the bodies , to give those slain what dignity 
they could . Ahlam tells us that about a week before we met 
, ISIS fighters came by and took away her in - laws and the 
other elderly people living in the house . " We did n't know 
where they were taking them , we thought we would be next , 
" she remembers . So she and the rest of the group realized 
that they had to try to flee . " We decided that either we 
survive or we do n't . " They left at midnight . Ahlam 
cradled the baby , as her two other children , ages 3 and 4 
years old , clutched at her clothes . She prayed the baby 
would n't cry , that the children could keep walking . They 
knew the general direction to take , but not the exact route 
, and they could only hope it was toward freedom . " When 
the sun started to come up , I thought that 's it , we are 
going to get caught , " Ahlam says . " And what am I going 
to do with the kids ? I ca n't carry all three of them and 
run . " Luckily , Ahlam never had to answer that impossible 
question . The group made it into Iraqi Kurdistan . The 
couple ca n't put into words their emotions when they were 
reunited . Mahmoud , gently caressing his daughter 's palm , 
says he could hardly believe that the woman whose stunning 
eyes and gentle words he had fallen in love with , and their 
three children , were by his side again . It had been eight 
agonizing months . But their joy was tainted by fear for 
Mahmoud 's parents . A few days after Mahmoud and Ahlam were 
reunited , ISIS released 217 captives . No one is disclosing 
exactly why . Among them were 60 children , a handful of men 
and women , and the rest were elderly -- including Mahmoud 
's parents . " We did n't know if they were going to 
slaughter us or what they were going to do with us , " 
Mahmoud 's father says . " They moved us around a lot , and 
at one stage we stayed in in one place for three days . " 
But Ahlam 's parents are still with ISIS . Vian Dakhil , a 
Yazidi member of Iraq 's parliament , speculates that the 
Yazidis ISIS released are individuals they were struggling 
to care for . Dakhil is part of Iraqi Prime Minister Haider 
al - Abadi 's delegation to the United States this week . 
She will be addressing the United Nations -- pleading for 
more international support for Iraq and more airstrikes to 
help defeat ISIS -- and she will address the plight of the 
16 
Yazidis . " We sometimes say that we wish we had been 
massacred . This would be better than being kidnapped and 
raped . We prefer death now over the fate of what is 
happening to these girls and women , " Dakhil says . " It is 
now on the government and on the international community to 
focus on this . How to get these captives back . It 's 
inconceivable that in the 21st century , something like this 
is happening as if we were living in the Stone Age ." Ahlam 
says she was spared because she was breastfeeding and she 
had young children , which , we 're told , makes her impure 
and therefore unable to be used as a sex slave . For Ahlam , 
what she went through was not the hardest part of her 
ordeal. It 's the moment when the ISIS fighters began taking 
away the girls and young women . She 's haunted by their 
screams , the image of them being dragged away sobbing and 
screaming.” 
 Nội dung văn bản nguồn trong bộ dữ liệu Baomoi 
“Chắc chắn rằng SVĐ San Siro sẽ lại rực sáng khi mà các 
tifosi của họ sẽ chứng kiến màn ra mắt đầu tiên của cựu cầu 
thủ Clarence Seedorf trong cương vị HLV trưởng của AC Milan. 
Tuy nhiên , nhiệm vụ của cựu cầu thủ nguời Hà Lan lúc này 
đang rất nặng nề vì AC Milan hiện nay đã không còn có sức 
mạnh như thời anh còn đang khoác áo nữa . Hiện tại đội bóng 
áo đỏ đen thành Milan chỉ đứng khiêm tốn ở vị trí thứ 11 sau 
19 vòng đấu . Tức là họ đã kết thúc luợt đi ở nửa cuối của 
BXH . Phải tiếp Verona - CLB đang thi đấu rất ổn định ở mùa 
này chính là một bài kiểm tra thực sự với Clarence Seedorf 
trên cương vị mới khi mà anh chưa hề có kinh nghiệm . Hiện 
tại đội khách Verona đã có 32 điểm và đang đứng thứ 6 , 
trong khi số điểm của AC Milan chỉ là 22 . Thế nên chỉ có 
chiến thắng trong những trận đấu còn lại , Milan mới hy vọng 
chen chân vào nhóm dự cúp châu Âu . Hy vọng rằng ở trận đấu 
này , đội bóng chủ sân San Siro sẽ làm cho các khán đài của 
họ lại rực sáng trở lại . Ở nửa đầu BXH , Juventus gần như 
sẽ chắc chắn sẽ có được trọn vẹn 3 điểm để vững vàng ở ngôi 
đầu , khi mà họ được thi đấu trên sân nhà và chỉ phải tiếp 
một Sampdoria kém cỏi trong mùa này . Vì vậy , thày trò ông 
Antonio Conte hoàn toan tự tin sẽ có trận thắng thứ 18 trong 
mùa giải này trong trận đấu vào đêm thứ Bảy tới . Trong khi 
đó , với AS Roma , nhiệm vụ của họ cũng dễ dàng như Juventus 
khi họ được thi đấu trên sân nhà Olympico và đối thủ của đội 
bóng áo bã trầu thành Rome chỉ là Livorno - đội bóng mới chỉ 
có 13 điểm và hiện đang đứng thứ 19 . Thế nên , khoảng cách 
8 điểm so với Juventus chắc chắn sẽ được giữ nguyên sau vòng 
đấu này . Với Napoli thì lại khác , thày trò ông Benitez sẽ 
ít nhiều gặp khó khăn khi họ phải hành quân đến Bologna cho 
dù thời điểm này , Bologna đang có phong độ không tốt khi 
đang phải vật lộn với nhóm cầm đèn đỏ . Phải thực sự tập 
trung và biết tôn trọng đối thủ thì may ra Napoli mới nuôi 
hy vọng giữ khoảng cách với 2 đội xếp trên là Juventus và 
17 
Roma khi vòng đầu này khép lại . Trong khi đó , Fiorentina 
lại có chuyến làm khách được cho là “ dễ thở ” hơn . Thày 
trò ông Vincenzo Montella chỉ phải chơi trên sân đội bóng 
cuối bảng Catania . Cặp đấu cân sức cân tài nhất vòng đấu 
này có lẽ sẽ thuộc về Genoa và Inter Milan . Hiện Inter đang 
đứng thứ 5 và được 32 điểm ( bằng điểm với Verona nhưng hơn 
về hiệu số bàn thắng-thua ) , trong khi Genoa dù đang kém 
Inter 5 bậc nhưng họ lại được thi đấu trên sân nhà . Thực 
sự, phong độ thi đấu trên sân khách của các cầu thủ áo xanh 
đen thành Milan ở mùa này không tốt . Thế nên chuyến làm 
khách này hứa hẹn là chuyến đi “ lành ít dữ nhiều ” . Nếu 
thực sự có được 1 điểm ở trận đấu này đã là thành công với 
Inter Milan . Các cặp đấu còn lại , khả năng sẽ không có 
nhiều bất ngờ.” 
C.4. Văn bản nguồn của các mẫu thử nghiệm của mô hình 
PG_Feature_ASDS 
 Nội dung văn bản nguồn trong bộ dữ liệu CNN 
“A Texas English high school teacher has been arrested after 
being accused of having an improper relationship with a male 
student older than 17 years old . Mary Todd Lowrance , 49 , 
a teacher at Moises E Molina High School , turned herself 
into Dallas Independent School District police on Thursday 
morning , according to Dallas ISD Police Chief Craig Miller 
. Miller said the teacher had been in a relationship with 
the student for a couple of months . Officers learned of the 
alleged relationship after Lowrance disclosed details to a 
coworker who then alerted a Dallas ISD officer . Mary Todd 
Lowrance ( above ) , 49 , a Texas English high school 
teacher was arrested after being accused of having an 
improper relationship with a male student over the age of 17 
, according to authorities If the student had been a 
juvenile , the case would have been handled by the Dallas 
Police Department , Miller told The Dallas Morning News . 
When you get 160,000 students and 10,000 teachers , you hear 
a lot of rumors , and you have to investigate all of them , 
' said Miller . And in this case , there was something to it 
. The student has been offered counseling . We 're doing 
everything we can for him as well . Miller said that after 
Lowrance 's coworker alerted authorities , it prompted an 
investigation where interviews were conducted with Lowrance 
, the student and two witnesses . The Dallas ISD police then 
got an arrest warrant . Miller said Lowrance has been on 
leave for several weeks while investigators worked on the 
case , according to NBCDFW . After she turned herself into 
authorities , she was booked into the Dallas County jail 
around 11 am on Thursday on a $ 5,000 bond and was released 
at 4.40 pm , according to county records . Calls made to the 
18 
Dallas Independent School District police on Friday were not 
immediately returned to Daily Mail Online . Lowrance , a 
teacher at Moises E Molina High School ( file photo above ) 
, turned herself in on Thursday morning and was released at 
4.40 pm , according to county records.” 
 Nội dung văn bản nguồn trong bộ dữ liệu Baomoi 
“Sự việc bị phanh phui vào ngày 30/8 vừa qua . Cơ_quan an 
toàn thực phẩm , phòng công_thương , công_an và chính quyền 
thị xã đã phối hợp điều tra sự việc này . ngay tại hiện 
trường , 1.000 kg dầu bẩn vừa được chuyển tới bởi một xe_tải 
chở hàng . Theo nguồn_tin thân cậy , số dầu này có xuất xứ 
từ một xưởng chế biến tại mã điếm , giao châu . Ngày 31/8 , 
một tổ công_tác gồm phòng an toàn thực phẩm , công an và 
chính quyền mã điếm , giao châu nhanh chóng điều tra làm rõ 
chân tướng vụ việc . Địa chỉ được cung cấp từ nguồn tin trên 
không còn tồn tại bởi xưởng sản xuất này đã lặn mất tăm 
trước đó vài ngày . Nhưng tại mã điếm vẫn còn một xưởng khác 
nằm trên đường giao bình . Được biết , đây vốn là một xưởng 
chế biến thực phẩm hợp pháp của xưởng bắc đô , giao châu . 
Trước đây , xưởng này kinh doanh sản phẩm nông nghiệp . Vài 
ngày trước , một xưởng sản xuất dầu bẩn và tóp mỡ bằng thịt 
lợn bầy nhầy và da gà đã chuyển tới đây , núp bóng doanh 
nghiệp hợp pháp để hoạt động . Chình ình trước cửa xưởng là 
tấm biển lớn với dòng chữ : “ xưởng gia công thực phẩm bắc 
đô , giao châu ” . Trong gian xưởng có diện tích hơn 100 m2 
, hai chiếc nồi lớn đầy ắp những miếng thịt bầy nhầy được 
trộn đều bằng một chiếc xẻng lớn . Những bịch nilong đựng mỡ 
chất đống ngổn ngang , ruồi nhặng bâu đen . Mé phía đông có 
ba chiếc nồi lớn , bên cạnh là một gian nhà ngói ngập ngụa 
khói . Không chỉ dầu ăn siêu bẩn , tóp mỡ đen sì cũng là sản 
phẩm được ra lò tại xưởng này . Xưởng sản xuất dầu bẩn và 
tóp mỡ đen sì từ thịt bầy nhầy và da gà . Chủ xưởng thừa 
nhận không có giấy phép sản xuất , chế biến dầu ăn nhưng vẫn 
hoạt_động suôn_sẻ . Loại dầu siêu bẩn này sau đó được chuyển 
tới tức mặc , thanh đảo nhưng chị này không khẳng định địa 
chỉ tiêu thụ là một xưởng sản xuất bánh trung thu . Tuy 
nhiên , theo điều tra , những thùng dầu tại đây hoàn toàn 
trùng khớp với 1.000 kg dầu bẩn được một xe tải chở hàng đổ 
mối tại xưởng bánh trung thu gần đường di khang , tức mặc . 
“ vì chưa tịch thu được sổ nhật ký giao hàng của xưởng dầu 
này , nên tạm thời chúng tôi chưa kết luận xưởng bánh trung 
thu tại tức mặc có sử dụng loại dầu này không . Sự việc vẫn 
đang trong quá trình điều tra ” , một nhân viên thuộc tổ 
điều tra giao châu cho biết . “ nếu không lập tức loại bỏ 
loại dầu ăn siêu bẩn này , chắc chắn các xưởng sản xuất sẽ 
tận_dụng để chế biến thực phẩm gây nguy hại tới sức khoẻ 
người tiêu_dùng ” , một người dân tại tức mặc bức xúc chia 
sẻ với báo chí . Theo cát miên . báo đất việt.” 
19 
C.5. Văn bản nguồn của các mẫu thử nghiệm của mô hình 
Kmeans_Centroid_EMDS 
 Nội dung văn bản nguồn trong bộ dữ liệu DUC 2007 
Chi tiết xem trong cụm dữ liệu D0716D của bộ dữ liệu DUC 2007 [75]. 
 Nội dung văn bản nguồn trong bộ dữ liệu Corpus_TMV 
Chi tiết xem trong cụm dữ liệu Cluster_2 của bộ dữ liệu Corpus_TMV [76]. 
C.6. Văn bản nguồn của các mẫu thử nghiệm của mô hình 
PG_Feature_AMDS 
 Nội dung văn bản nguồn trong bộ dữ liệu DUC 2004 
Chi tiết xem trong cụm dữ liệu D30003T của bộ dữ liệu DUC 2004 [74]. 
 Nội dung văn bản nguồn trong bộ dữ liệu Corpus_TMV 
Chi tiết xem trong cụm dữ liệu Cluster_59 của bộ dữ liệu Corpus_TMV [76]. 
C.7. Văn bản nguồn của các mẫu thử nghiệm của mô hình 
Ext_Abs_AMDS 
 Nội dung văn bản nguồn trong bộ dữ liệu DUC 2004 
Chi tiết xem trong cụm dữ liệu D30001T của bộ dữ liệu DUC 2004 [74]. 
 Nội dung văn bản nguồn trong bộ dữ liệu Corpus_TMV 
Chi tiết xem trong cụm dữ liệu Cluster_75 của bộ dữ liệu Corpus_TMV [76].