Luận án Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu

Với bố cục của luận án gồm 5 chương, các kết quả chính đạt được có thể được tóm tắt như sau:  Đề xuất ba mô hình tóm tắt đơn văn bản hướng trích rút áp dụng cho tóm tắt văn bản tiếng Anh và tiếng Việt gồm:  Mô hình RoPhoBERT_MLP_ESDS: Mô hình sử dụng các mô hình tối ưu của mô hình pre-trained BERT để véc tơ hóa văn bản làm đầu vào cho mô hình phân loại sử dụng mạng MLP, kết hợp với các đặc trưng vị trí câu và phương pháp MMR để lựa chọn câu đưa vào bản tóm tắt.  Mô hình mBERT_CNN_ESDS: Mô hình sử dụng mô hình mBERT đa ngôn ngữ được đào tạo trước, mạng CNN, mô hình seq2seq, lớp FC, kết hợp các đặc trưng TF-IDF và MMR để lựa chọn câu đưa vào bản tóm tắt.  Mô hình mBERT-Tiny_seq2seq_DeepQL_ESDS: Mô hình sử dụng mô hình BERT-Tiny, mBERT để véc tơ hóa văn bản tiếng Anh, tiếng Việt tương ứng làm đầu vào cho mô hình phân loại câu sử dụng mạng CNN, seq2seq kết hợp với kỹ thuật học tăng cường Deep Q-Learning và phương pháp MMR để lựa chọn câu đưa vào bản tóm tắt. Mô hình được áp dụng hiệu quả trong điều kiện tài nguyên hạn chế. Cả 3 mô hình tóm tắt đơn văn bản hướng trích rút đề xuất này đều được thử nghiệm trên các bộ dữ liệu CNN (tiếng Anh) và bộ dữ liệu Baomoi (tiếng Việt) đã cho kết quả cao.  Đề xuất phát triển một mô hình tóm tắt đơn văn bản hướng tóm lược hiệu quả sử dụng các kỹ thuật học sâu kết hợp các đặc TF và vị trí câu (mô hình PG_Feature_ASDS). Mô hình được thử nghiệm trên hai bộ dữ liệu CNN/Daily Mail (tiếng Anh) và bộ dữ liệu Baomoi (tiếng Việt) đã cho kết quả khá tốt. Mô hình có thể áp dụng hiệu quả cho tóm tắt văn bản tiếng Anh và tiếng Việt. Mô hình này cũng được sử dụng làm mô hình được huấn luyện trước trong giải pháp phát triển các mô hình tóm tắt đa văn bản hướng tóm lược mà luận án đề xuất.134  Đề xuất phát triển một mô hình tóm tắt đa văn bản hướng trích rút sử dụng các kỹ thuật học máy, kết hợp đặc trưng vị trí câu và MMR để sinh văn bản tóm tắt (mô hình Kmeans_Centroid_EMDS). Mô hình được thử nghiệm trên bộ dữ liệu DUC 2007 (tiếng Anh), Corpus_TMV (tiếng Việt) cho kết quả tốt khi tóm tắt đa văn bản tiếng Anh, tiếng Việt.

pdf181 trang | Chia sẻ: huydang97 | Ngày: 27/12/2022 | Lượt xem: 391 | Lượt tải: 1download
Bạn đang xem trước 20 trang tài liệu Luận án Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
tch. Journal of Machine Learning Research, Vol. 12, pp. 2493–2537. [87] Hochreiter S. and Schmidhuber J. (1997). Long short-term memory. Neural computation, Vol. 9, No. 8, pp. 1735-1780. DOI: 10.1162/neco.1997.9.8.1735. [88] Mike Schuster and Kuldip K. Paliwal (1997). Bidirectional Recurrent Neural Networks, Vol. 45, No. 11, pp. 2673–2681. IEEE Transactions on Signal Processing. DOI: 10.1109/78.650093. [89] Kyunghyun Cho, Bart van Merrienboer, Caglar Gulcehre, Dzmitry Bahdanau, Fethi Bougares, Holger Schwenk, and Yoshua Bengio (2014). Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation. In Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing, Doha, Qatar, pp. 1724-1734. [90] Junyoung Chung, Kyung Hyun Cho, and Yoshua Bengio (2014). Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling. arXiv preprint arXiv:1412.3555. [91] Alex Graves, Abdel-rahman Mohamed, and Geoffrey Hinton (2013). Speech Recognition with Deep Recurrent Neural Networks. In Proceedings of the 2013 International Conference on Acoustics, Speech, and Signal Processing, pp. 6645-6649. [92] Ilya Sutskever, Oriol Vinyals, and Quoc V. Le (2014). Sequence to Sequence Learning with Neural Networks. In Proceedings of the 27th International Conference on Neural Information Processing Systems (NIPS'14), Vol. 2, pp. 3104–3112. [93] Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio (2015). Neural Machine Translation by Jointly Learning to Align and Translate. In Proceedings of the 3rd International Conference on Learning Representations (ICLR 2015), San Diego, CA, USA. [94] Graves A., Wayne G., and Danihelka I. (2014). Neural turing machines. CoRR, abs/1410.5401. [95] Thang Luong, Hieu Pham, and Christopher D. Manning (2015). Effective Approaches to Attention-based Neural Machine Translation. In Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, pp. 1412–1421. Association for Computational Linguistics. [96] Kelvin Xu, Jimmy Ba, Ryan Kiros, Kyunghyun Cho, Aaron Courville, Ruslan Salakhudinov, Rich Zemel, and Yoshua Bengio (2015). Show, Attend and Tell: Neural Image Caption Generation with Visual Attention. In Proceedings of the 32nd International Conference on International Conference on Machine Learning, PMLR 37, pp. 2048–2057. [97] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin (2017). Attention is all you need. In Proceedings of the 31st International Conference on Neural Information Processing Systems, pp. 6000–6010. 145 [98] Phạm Minh Nguyên (2020). Nghiên cứu dịch máy Trung - Việt dựa vào mô hình Transformer. Luận văn Thạc sỹ Hệ thống thông tin, Trường Đại học Công nghệ - Đại học Quốc gia Hà Nội. [99] Mikolov T., Chen K., Corrado G., and Dean J. (2013). Efficient Estimation of Word Representations in Vector Space. In Proceedings of the International Conference on Learning Representations (ICLR 2013), pp. 1-12. [100] Chung H., Lee S., and Park J. (2016). Deep neural network using trainable activation functions. In Proceedings of the 2016 International Joint Conference on Neural Networks (IJCNN), pp. 348-352. [101] Xin Rong (2014). word2vec Parameter Learning Explained. CoRR abs/1411.2738. [102] Devlin J., Chang M.W., Lee K., and Toutanova K. (2019). Bert: Pre- training of deep bidirectional transformers for language understanding. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Minneapolis, pp. 4171–4186. [103] Yukun Zhu, Ryan Kiros, Richard Zemel, Ruslan Salakhutdinov, Raquel Urtasun, Antonio Torralba, and Sanja Fidler (2015). Aligning books and movies: Towards story-like visual explanations by watching movies and reading books. In Proceedings of the 2015 IEEE International Conference on Computer Vision (ICCV), Vol. 1, pp. 19-27. DOI: 10.1109/ICCV.2015.11. [104] Yonghui Wu, Mike Schuster, Zhifeng Chen, Quoc V. Le, Mohammad Norouzi, Wolfgang Macherey, Maxim Krikun, Yuan Cao, and Qin Gao (2016). Google’s neural machine translation system: Bridging the gap between human and machine translation. Technical Report. [105] Telmo Pires, Eva Schlinger, and Dan Garrette. How multilingual is Multilingual BERT?. In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pp. 4996–5001. Association for Computational Linguistics. [106] Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, and Veselin Stoyanov (2019). RoBERTa: A Robustly Optimized BERT Pretraining Approach. In Proceedings of the 20th Chinese National Conference on Computational Linguistics, pp. 1218-1227. [107] Trieu H. Trinh and Quoc V. Le (2018). A simple method for commonsense reasoning. arXiv preprint arXiv:1806.02847. [108] Rico Sennrich, Barry Haddow, and Alexandra Birch (2016). Neural machine translation of rare words with subword units. In Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Vol. 1: Long Papers), pp. 1715-1725. Association for Computational Linguistics. DOI: 10.18653/v1/P16-1162. [109] Kingma D. and Ba J. (2015). Adam: A method for stochastic optimization. In 3rd International Conference on Learning Representations (ICLR 2015), Conference Track Proceedings, San Diego, CA, USA. 146 [110] Dat Quoc Nguyen and Anh Tuan Nguyen (2020). PhoBERT: Pre-trained language models for Vietnamese. In Proceedings of Findings of the Association for Computational Linguistics: EMNLP 2020. DOI: 10.18653/v1/2020.findings-emnlp.92. [111] Iulia Turc, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova (2019). Well-Read Students Learn Better: On the Importance of Pre-training Compact Models. arXiv preprint arXiv:1908.08962. [112] Cristian Bucila, Rich Caruana, and Alexandru Niculescu-Mizil (2006). Model compression. In Proceedings of the 12th ACM SIGKDD international conference on Knowledge discovery and data mining, pp. 535–541. DOI: 10.1145/1150402.1150464. [113] Geoffrey E. Hinton, Oriol Vinyals, and Jeffrey Dean (2014). Distilling the knowledge in a neural network. NIPS Workshop 2014, Montreal, Canada. [114] Mnih V., Kavukcuoglu K., Silver D., Graves A., Antonoglou I., Wierstra D., and Miller M. R. (2013). Playing Atari with Deep Reinforcement Learning. NIPS Deep Learning Workshop 2013. [115] Alexander M. Rush, Sumit Chopra, and Jason Weston (2015). A Neural Attention Model for Abstractive Sentence Summarization. In Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, pp. 379-389. [116] Jaime Carbonell and Jade Goldstein (1998). The Use of MMR, Diversity- Based Reranking for Reordering Documents and Producing Summaries. In Proceedings of the 21st annual international ACM SIGIR conference on Research and development in information retrieval, pp. 335-336. [117] Ming Zhong, Pengfei Liu, Yiran Chen, Danqing Wang, Xipeng Qiu, and Xuanjing Huang (2020). Extractive Summarization as Text Matching. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pp. 6197–6208. Association for Computational Linguistics. [118] Liu Y. (2019). Fine-tune BERT for Extractive Summarization. arXiv preprint arXiv:1903.10318. [119] Xingxing Zhang, Furu Wei, and Ming Zhou (2019). HIBERT: Document Level Pre-training of Hierarchical Bidirectional Transformers for Document Summarization. In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pp. 5059–5069. [120] Tom M. Mitchell (1997). Machine Learning, McGraw-Hill. [121] Vũ Hữu Tiệp (2020). Machine Learning cơ bản (cập nhật lần cuối: 20/01/2020). [122] Ilya Loshchilov and Frank Hutter (2019). Decoupled Weight Decay Regularization. In Proceeding of International Conference on Learning Representations (ICLR 2019). [123] Daniel Cer, Yinfei Yang, Sheng-yi Kong, Nan Hua, Nicole Limtiaco, Rhomni St. John, Noah Constant, Mario Guajardo-Cespedes, Steve Yuan, Chris Tar, Yun-Hsuan Sung, Brian Strope, and Ray Kurzweil (2018). 147 Universal Sentence Encoder for English. In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing: System Demonstrations, pp. 169–174. [124] Yinfei Yang, Daniel Cer, Amin Ahmad, Mandy Guo, Jax Law, Noah Constant, Gustavo Hernandez Abrego, Steve Yuan, Chris Tar, Yun-Hsuan Sung, Brian Strope, and Ray Kurzweil (2020). Multilingual Universal Sentence Encoder for Semantic Retrieval. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics: System Demonstrations, pp. 87–94. [125] Shashi Narayan, Shay B. Cohen, and Mirella Lapata (2018). Ranking Sentences for Extractive Summarization with Reinforcement Learning. In Proceedings of NAACL-HLT 2018, pp. 1747–1759. [126] Diganta Misra and Landskape. Mish: A Self Regularized Non-Monotonic Activation Function. arXiv preprint arXiv:1908.08681v3. [127] Nal Kalchbrenner, Edward Grefenstette, and Phil Blunsom (2014). A Convolutional Neural Network for Modelling Sentences. In Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics, Vol. 1: Long Papers, pp. 655–665. [128] Nallapati R., Zhou B., Santos C. dos, Gulcehre C., and Xiang B. (2016). Abstractive text summarization using sequence-to-sequence RNNs and beyond. In Proceedings of the 20th SIGNLL Conference on Computational Natural Language Learning, pp. 280–290. [129] Leo Laugier, Evan Thompson, and Alexandros Vlissidis (2018). Extractive Document Summarization Using Convolutional Neural Networks – Reimplementation. Department of Electrical Engineering and Computer Sciences University of California, Berkeley. [130] Gu J., Lu Z., Li H., and Li V. (2016). Incorporating copying mechanism in sequence-to-sequence learning. In Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics, Vol. 1: Long Papers, pp. 1631– 1640. [131] Vinyals O., Fortunato M., and Jaitly N. (2015). Pointer networks. In Proceedings of the 28th International Conference on Neural Information Processing Systems, Vol. 2, pp. 2692–2700 [132] Chen Q., Zhu X., Ling Z., Wei S., and Jiang H. (2016). Distraction-based neural networks for modeling documents. In Proceedings of the Twenty-Fifth International Joint Conference on Artificial Intelligence (IJCAI-16), pp. 2754- 2760. [133] Zhaopeng Tu, Zhengdong Lu, Yang Liu, Xiaohua Liu, and Hang Li (2016). Modeling coverage for neural machine translation. In Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics, Vol. 1, pp. 76-85. Association for Computational Linguistics. [134] Pascanu R., Mikolov T., and Y. Bengio (2013). On the difficulty of training recurrent neural networks. In ICML'13: Proceedings of the 30th International 148 Conference on International Conference on Machine Learning,Vol. 28, pp. 1310-1318. [135] Duchi J., Hazan E., and Singer Y. (2011). Adaptive subgradient methods for online learning and stochastic optimization. Journal of Machine Learning Research, Vol. 12, pp. 2121-2159. [136] Harshal J. J., Bewoor M. S., and Patil S. H. (2012). Context Sensitive Text Summarization Using K-Means Clustering Algorithm. In International Journal of Soft Computing and Engineering, Vol. 2, pp. 301-304. ISSN: 2231-2307. [137] Prathima M. R., and Divakar H, R. (2018). Automatic Extractive Text Summarization Using K-Means Clustering. International Journal of Computer Sciences and Engineering, Vol. 6, No. 6, pp. 782-787. DOI: 10.26438/ijcse/v6i6.782787. [138] Gaetano Rossiello, Pierpaolo Basile, and Giovanni Semeraro (2017). Centroid-based Text Summarization through Compositionality of Word Embeddings. In Proceedings of the MultiLing 2017 Workshop on Summarization and Summary Evaluation Across Source Types and Genres, pp. 12–21. Association for Computational Linguistics. DOI: 10.18653/v1/W17-1003. [139] Dragomir R. Radev, Hongyan Jing, and Malgorzata Budzikowska (2000). Centroid-based summarization of multiple documents: sentence extraction, utility-based evaluation, and user studies. In NAACL-ANLP-AutoSum '00: Proceedings of the 2000 NAACL-ANLP Workshop on Automatic summarization, Vol. 4, pp. 21–30. DOI: 10.3115/1117575.1117578. [140] Ayush Agarwal and Utsav Gupta (2014). Extraction based approach for text summarization using k-means clustering. International Journal of Scientific and Research Publications, Vol. 4, Issue 11, pp. 1-4. [141] Rachit Arora and Balaraman Ravindran (2008). Latent Dirichlet Allocation Based MultiDocument Summarization. In AND '08: Proceedings of the second workshop on Analytics for noisy unstructured text dataJuly, pp. 91–97. DOI: 10.1145/1390749.1390764. [142] Zhanying He, Chun Chen, Jiajun Bu, Can Wang, and Lijun Zhang (2012). Document summarization based on data reconstruction. In Proceedings of the Twenty-Sixth AAAI Conference on Artificial Intelligence, pp. 620–626. [143] Kaustubh Mani, Ishan Verma, Hardik Meisheri, and Lipika Dey (2018). MultiDocument Summarization using Distributed Bag-of-Words Model. In Proceedings of the 2018 IEEE/WIC/ACM International Conference on Web Intelligence (WI), Vol. 1, pp. 672-675. [144] Romain Paulus, Caiming Xiong, and Richard Socher (2015). A deep reinforced model for abstractive summarization”. In Proceedings of the 6th International Conference on Learning Representations (ICLR 2018). [145] Tal Baumel, Matan Eyal, and Michael Elhadad (2018). Query focused abstractive summarization: Incorporating query relevance, multi-document coverage, and summary length constraints into seq2seq models. arXiv preprint arXiv:1801.07704. 149 [146] Jianmin Zhang, Jiwei Tan, and Xiaojun Wan (2018). Towards a neural network approach to abstractive multi-document summarization. arXiv preprint arXiv:1804.09010. [147] Logan Lebanoff, Kaiqiang Song and Fei Liu (2018). Adapting the Neural Encoder-Decoder Framework from Single to Multi-Document Summarization. In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, pp. 4131-4141. Association for Computational Linguistics. 1 PHỤ LỤC Phụ lục A: Văn bản nguồn của các văn bản tóm tắt ví dụ A.1. Văn bản tiếng Anh Văn bản nguồn “Tikrit , Iraq ( CNN ) Mass graves believed to hold Iraqi soldiers have been discovered in newly liberated Tikrit . Up to 1,700 bodies may be recovered . ISIS claimed to have executed that many soldiers captured in June outside Camp Speicher , a fortified Iraqi base near Tikrit . A total of 47 bodies have been exhumed from two of the 11 mass graves discovered in Tikrit , an Iraqi government official said Tuesday . Hundreds are believed to have been executed by ISIS in June 2014 Grieving Iraqis , apparently not related to the soldiers , gathered to pray over the bodies . When the first three bodies were found , 10 Iraqi soldiers saluted the dead by firing seven shots into the air . The national anthem was played while soldiers wept . All the bodies were decomposed . Some had their hands bound , Damon said . The remains will be sent back to Baghdad for DNA tests to establish identify , said Ali Tahir , a director in the Iraqi morgue who was supervising the digging and extraction . Damon said there may be eight mass graves inside the presidential palace complex , which contains the residences of former Iraqi President Saddam Hussein , and two other sites outside the city . The presidential palaces complex became ISIS headquarters after the militants occupied the city . Iraqi soldiers and Shiite militias retook Tikrit a few days ago after a fierce battle . Damon interviewed a soldier who said he survived the massacre by playing dead . The solider said ISIS captured the troops outside Camp Speicher and marched them to the presidential palace complex , telling them they would be safe until a prisoner swap was arranged . Once inside the compound , the soldiers were separated into smaller groups , executed and buried in mass graves , the survivor told Damon . He said he was tossed into a river and floated to an embankment . On Monday , Prime Minister Haider al - Abadi said revenge is not the way to deal with the discovery of the bodies . He said several people involved in the killings have been detained . Families of the missing soldiers had been demanding answers from the Iraqi government about what happened . As ISIS swept through northern Iraq in June , 2 some military units were ordered to Camp Speicher . Their families claim the men received orders from their commanders to leave the base and move closer to Baghdad . They left unarmed and in civilian clothes , they say . Military commanders and the Iraqi Defense Ministry denied any such orders being issued and said the men deserted . ISIS released videos that showed what seemed to be an endless line of military recruits marched at gunpoint and later posted images showing cold - blooded mass killings . Damon said Iraqi officials told her it may take weeks or months to exhume all the bodies . Human Rights Watch described the " Speicher Massacre " -- as it has been dubbed in Iraq -- as the " largest reported incident " where " ISIS captured more than 1,000 soldiers fleeing Camp Speicher ... then summarily executed at least 800 of them . " Based on satellite imagery and witness testimony , Human Rights Watch last year was able to identity a number of mass grave sites inside Tikrit and the presidential palace complex . The families gave DNA samples to the Iraqi Ministry of Health last year so authorities would be able to match them to unidentified bodies the government may find . CNN 's Arwa Damon reported from Tikrit , and Ralph Ellis wrote in Atlanta . CNN 's Jomana Karadsheh contributed to this report .” A.2. Văn bản tiếng Việt Văn bản nguồn “Tại xã Ái Quốc, nơi có hơn 2.000 nữ CNLĐ đang phải thuê ở trọ, trong đó có khoảng 500 người có con nhỏ ở cùng, các doanh nghiệp mà họ đang làm việc đều chưa có điều kiện xây dựng nhà trẻ, vì thế gửi con ở đâu, ai chăm sóc các cháu khi mình đi làm, chị em đều phải tự lo. Sau khi khảo sát, bà Nguyễn Thị Láng – Trưởng ban Tuyên giáo Liên đoàn lao động – đã cùng các cán bộ công đoàn làm việc với chính quyền địa phương và tổ chức hội nghị đối thoại với sự có mặt của cả đại diện doanh nghiệp và công nhân lao động. Từ cuộc đối thoại, vấn đề vướng nhất là tìm chỗ gửi con ổn định cho nữ công nhân lao động được giải quyết. Công ty TNHH may Tinh Lợi, có gần 1.000 nữ công nhân lao động đang ở trọ tại đây đã đồng ý mỗi tháng tài trợ thêm cho Trường Mầm non Hương Sen 3 triệu đồng để nâng cấp, mở thêm phòng học, tiếp nhận hơn 200 cháu là con công nhân lao động vào học. Nhiều công nhân rất vui và tỏ rõ sự hài lòng khi gần 1 năm nay, con họ đã được đi học ở trường, ở lớp chứ không phải lang thang chơi tạm ở nhà người thân cả ngày, hay những khi họ phải tăng ca thì con cái đã có người giữ, chứ không buộc phải đón từ 17h”. Chị Vương Thị Oanh - Hiệu trưởng Trường Mầm non Hương Sen - cho biết, thực ra trường không có trách nhiệm phải nhận con công nhân lao động, 3 nhưng vì thông cảm với điều kiện của chị em, giúp họ yên tâm làm việc nên đã nhận nhiệm vụ này. Còn các Cán bộ công đoàn đã vui hơn rất nhiều và có cảm giác như vừa hoàn thành một trọng trách. Việc chủ động đứng ra thu xếp giúp nữ công nhân lao động của Liên đoàn lao động tỉnh Hải Dương có chỗ gửi con không chỉ khiến công nhân lao động, mà cả các chủ DN hết sức hài lòng. "Gánh nặng" mà cả doanh nghiệp và người lao động đang phải chịu đã được tổ chức Công đoàn giúp gỡ bỏ và họ có điều kiện toàn tâm, toàn ý tập trung vào công việc, phấn đấu vì sự tồn tại và phát triển của doanh nghiệp nói riêng và kinh tế - xã hội đất nước nói chung.” Phụ lục B: Biểu đồ phân bố của các bộ dữ liệu thử nghiệm Thông tin về thời gian thu thập các bộ dữ liệu sử dụng để thử nghiệm cho các mô hình tóm tắt văn bản đề xuất được trình bày trong bảng dưới đây. Bộ dữ liệu Ngày được cập nhật lần cuối Ngày thu thập các bộ dữ liệu CNN/Daily Mail 07/12/2015 08/09/2017 DUC 2001 18/03/2014 19/02/2020 DUC 2002 18/03/2014 19/02/2020 DUC 2004 24/03/2011 21/07/2019 DUC 2007 24/03/2011 30/01/2019 Corpus_TMV 01/11/2013 14/02/2021 ViMs 18/11/2020 27/03/2021 Baomoi 28/07/2017 28/07/2017 B.1. Bộ dữ liệu CNN Biểu đồ phân bố độ dài trung bình văn bản nguồn 4 Biểu đồ phân bố độ dài trung bình văn bản tóm tắt B.2. Bộ dữ liệu Daily Mail Biểu đồ phân bố độ dài trung bình văn bản nguồn Biểu đồ phân bố độ dài trung bình văn bản tóm tắt 5 B.3. Bộ dữ liệu DUC 2001 Biểu đồ phân bố độ dài trung bình văn bản nguồn Biểu đồ phân bố độ dài trung bình văn bản tóm tắt B.4. Bộ dữ liệu DUC 2002 Biểu đồ phân bố độ dài trung bình văn bản nguồn 6 Biểu đồ phân bố độ dài trung bình văn bản tóm tắt B.5. Bộ dữ liệu DUC 2004 Biểu đồ phân bố độ dài trung bình văn bản nguồn Biểu đồ phân bố độ dài trung bình văn bản tóm tắt 7 B.6. Bộ dữ liệu DUC 2007 Biểu đồ phân bố độ dài trung bình văn bản nguồn Biểu đồ phân bố độ dài trung bình văn bản tóm tắt B.7. Bộ dữ liệu Baomoi Biểu đồ phân bố độ dài trung bình văn bản nguồn 8 Biểu đồ phân bố độ dài trung bình văn bản tóm tắt B.8. Bộ dữ liệu Corpus_TMV Biểu đồ phân bố độ dài trung bình văn bản nguồn Biểu đồ phân bố độ dài trung bình văn bản tóm tắt 9 B.9. Bộ dữ liệu ViMs Biểu đồ phân bố độ dài trung bình văn bản nguồn Biểu đồ phân bố độ dài trung bình văn bản tóm tắt Phụ lục C: Văn bản nguồn của các mẫu tóm tắt thử nghiệm C.1. Văn bản nguồn của các mẫu thử nghiệm của mô hình RoPhoBERT_MLP_ESDS  Nội dung văn bản nguồn trong bộ dữ liệu CNN “Lois Lilienstein , co - star of " Sharon , Lois & Bram 's Elephant Show " - the Canadian preschool show that ran on Nickelodeon during the early 1990s - has died , aged 78 . Her son , David Lilienstein , told CBC News that his mother died in Toronto on Wednesday night from a rare form of cancer first diagnosed last October . " She knew it was happening , she was at peace with it , and she died very peacefully and not in pain , " he told the Canadian 10 broadcaster . Liz Smith at 92 Lilienstein was born in Chicago in 1936 and moved to Toronto in 1996 with her son and her husband , Ernest . She joined Sharon Hampson and Bram Morrison to launch their singing trio in 1978 . The TV show " Sharon , Lois & Bram 's Elephant Show " ran on CBC in Canada from 1984 to 1989 , before continuing in reruns on Nickelodeon stateside until 1995 . The 30 most popular film producers in Hollywood Sally Catto , general manager , programming at CBC Television , paid tribute to Lilienstein for her contribution to Canadian kids TV . " Sharon , Lois and Bram got their start at CBC back in the ' 80s with the Elephant Show , and they went on to become icons to children all across North America through various programs and specials . Lois will be fondly remembered by her many friends at CBC , " Catto told The Hollywood Reporter . ' Ghostbusters ' budget cut The Canadian variety show was best known for songs like " Skinnamarink " and " Peanut Butter . " Lilienstein left the Sharon , Lois & Bram performance trio in 2000 . The Hollywood Reporter . All rights reserved.”  Nội dung văn bản nguồn trong bộ dữ liệu Baomoi “Nhóm thanh tra viên của Cơ quan Năng lượng Nguyên tử Quốc tế ( IAEA ) ngày 18/1 đã tới thủ đô Tehran của Iran để giám sát việc thực thi thoả thuận tạm thời giữa nước này và nhóm P 5+1 . Hãng thông tấn Fars của Iran cho biết , nhóm thanh tra do kỹ sư hạt nhân Massimo Aparo dẫn đầu sẽ bắt đầu nộp báo cáo cho IAEA vào ngày 20/1 tới – thời điểm mà thoả thuận giữa Iran và P 5+1 chính thức có hiệu lực . Đại sứ Iran tại IAEA Reza Najafi trả lời họp báo tại trụ sở IAEA ở Vienna , Áo ( Ảnh AFP ) Các thanh tra sẽ thị sát hai nhà máy hạt nhân Natanz và Fordow của Iran để đảm bảo rằng nước này sẽ dừng hoạt động sản xuất uranium cấp độ 20% , đồng thời vô hiệu hoá kho uranium đã được làm giàu bằng cách pha loãng . Cùng ngày , IAEA cho biết , cơ quan này hiện cần thêm tiền tài trợ khoảng 6 triệu Euro trong vòng 6 tháng tới để có thể trang trải chi phí cho các hoạt động giám sát . Ngày 24/11/2013 , Iran và Nhóm P 5+1 ( gồm Anh , Pháp , Mỹ , Nga , Trung Quốc và Đức ) đã đạt được một thoả thuận sơ bộ để giải quyết bế tắc trong đàm phán về chương trình hạt nhân gây tranh cãi của Iran . Theo thoả thuận trên , Iran sẽ tạm dừng một phần chương trình hạt nhân của mình để đổi lấy việc phương Tây nới lỏng các biện pháp trừng phạt kinh tế nhằm vào nước này . / . Hồng Anh / VOV-Trung tâm Tin Theo Reuters.” C.2. Văn bản nguồn của các mẫu thử nghiệm của mô hình mBERT_CNN_ESDS 11  Nội dung văn bản nguồn trong bộ dữ liệu CNN “Panama City, Panama (CNN) Ending a decade - long standstill in U.S. - Cuba relations, President Barack Obama met for an hour Saturday with his Cuban counterpart Raul Castro, the first time the two nations' top leaders have sat down for substantive talks in more than 50 years. The meeting in a small conference room on the sidelines of the Summit of the Americas came as the two countries work to end the Cold War enmity that had led to a total freeze of diplomatic ties. And while both leaders proclaimed progress had been made, a key stumbling block -- Cuba's place on the U.S. list of countries that sponsor terror -- remained unresolved. "This is obviously an historic meeting, "Obama said at the beginning of his session with Castro, claiming that decades of strain had done little to benefit either Cubans or citizens of the nited States. "It was time for us to try something new," he said. "We are now in a position to move on a path toward the future. "Castro, who earlier in the day said he trusted Obama, acknowledged there would be difficult stumbling blocks as his nation works to repair ties with the United States. But he said those differences could be surmounted. "We are willing to discuss everything, but we need to be patient, very patient," Castro said. "We might disagree on something today on which we could agree tomorrow. "Speaking to reporters after his session with Castro, Obama said the meeting was "candid and fruitful" and could prove to be a "turning point" in his push to defrost ties with Cuba. But he said he hadn't yet decided whether to remove Cuba's designation as a state sponsor of terror, an outcome that had previously been expected during the summit. The State Department provided Obama with a review of the terror status this week. "I want to make sure I have a chance to read it, study it before we announce publicly what the policy outcome is going to be," Obama said. "But in terms of the overall direction of Cuba policy, I think there is a strong majority both in the United States and in Cuba that says our ability to engage, to open up commerce and travel and people to people exchanges is ultimately going to be good for Cuban people. "On Friday night, Obama and Castro greeted each other courteously amid an explosion of camera flashes, shaking hands before dining at the inaugural session of the conference. The two sat at the same table but not directly next to one another. Before Obama arrived in Panama on Wednesday, he spoke with Castro by phone, laying the groundwork for what will become a new era of relations between the neighboring countries. "The Cold War has been over for a long time, "Obama said during opening remarks at the summit Saturday. "I'm not interested in having battles, frankly, that began before I was born. "That exhortation, however, seemed to be lost on Castro himself, who expanded 12 what was meant to be a six - minute speech into a 50 - minute address lecturing leaders on Cuba's revolution and giving a litany of perceived grievances to Cuba over the past 50 years. But he distinguished Obama from past American presidents, saying he respected Obama's move toward reconciliation. "In my opinion, President Obama in an honest man, "Castro said through an interpreter. "I admire him, and I think his behavior has a lot to do with his humble background. " .S. administration official said Castro’s long list of grievances was expected, despite the move toward diplomatic ties. "(What’s) unique and new is what he said about the president, "the official said of Castro’s praise for Obama. Obama announced in December that he was seeking to renew diplomatic relations with Cuba after half a century of strife, including eventually opening embassies in Washington and Havana. Obama set to test engagement doctrine with Cuba in Panama His meeting with Castro on Saturday isn’t being billed as a formal bilateral session, but Obama’s aides are still characterizing the event as the highest - level engagement with the Cuban government since then - Vice President Richard Nixon met with Fidel Castro in 1959. "We’re in new territory here, "Ben Rhodes, Obama’s deputy national security adviser, said Friday. "The reason we’re here is because the President strongly believes that an approach that was focused entirely on isolation, focused entirely on seeking to cut off the Cuban people from the United States of America had failed. "The overtures to Cuba have not been universally popular in the United States; some lawmakers were irate that Obama was seeking to engage what they regard as a corrupt government. "A recommendation to remove Cuba from the list of State Sponsors of Terrorism would represent another significant misstep in a misguided policy, "Sen. Bob Menendez, a Democrat who used to the chair the Foreign Relations Committee, wrote in a statement last week. In Latin America, however, Obama was receiving a warm welcome after announcing he was seeking to engage Havana in talks over reopening embassies and removing barriers to commerce and travel. 9 things you wanted to ask about the Cuban embargo He noted to applause during a session Friday that this was the first summit with Cuba in attendance. And he’s cast the decision to reopen the .S. relationship with Cuba as beneficial to the entire hemisphere, which has also embraced his immigration executive action. But even as Obama landed in Panama, the longstanding gulfs between the two countries ' governments were on display. Dissidents opposed to Castro’s regime were violently accosted this week by supporters of the Cuban government, a scuffle the White House said was unacceptable. "As we move toward the process of normalization, we’ll have our differences, government to government, with Cuba on many issues -- just as we differ at times with other nations within the Americas, just as we 13 differ with our closest allies," Obama said at a meeting of civil society leaders Friday. "There’s nothing wrong with that." "But I 'm here to say that when we do speak out, we’re going to do so because the nited States of America does believe, and will always stand for, a certain set of universal values, "he said. The long history between the U.S. and Cuba Obama closed out his time in Panama with a news conference where he covered topics ranging from Hillary Clinton’s expected presidential announcement to his framework deal with Iran on its nuclear program. The President had pointed criticism for Sen. John McCain, R - Arizona. Earlier this week, McCain accused Secretary of State John Kerry of intentionally mischaracterizing what the sides had agreed to in the Iran nuclear deal. "John Kerry is delusional, "McCain said on the Hugh Hewitt show, a conservative talk radio program, adding that the view from the Supreme Leader of Iran of the provisions agreed to" is probably right, " rather than what the United States maintains are the agreed provisions. While discussing the Iran agreement Saturday, Obama brought up those remarks without being asked. "When I hear someone like Sen. McCain recently suggest that our secretary of state, John Kerry, who served in the United States Senate, (is) a Vietnam veteran, who’s provided exemplary service to this nation, is somehow less trustworthy of the interpretation of what’s in a political agreement than the Supreme Leader of Iran, that’s an indication of the degree to which partisanship has crossed all boundaries," he said at the news conference. After the President’s remarks, McCain tweeted "So Pres. Obama goes to # Panama, meets with Castro and attacks me - I 'm sure Raul is pleased." As for his 2008 Democratic rival, Obama said, "If she decides to run, if she makes an announcement, she’s going to have some strong messages to deliver," he said.”  Nội dung văn bản nguồn trong bộ dữ liệu Baomoi “Vụ tai nạn nói trên xảy ra vào khoảng 23h15 ngày 19/1, tại cầu Bến Thuỷ, trên Quốc lộ 1A. Theo đó, vào khoảng thời gian trên, khi chiếc xe con mang BKS: 37 A-048. 45 đang điều khiển xe lưu thông theo hướng Bắc - Nam bất ngờ lao lên dải phân cách làn đường ô tô và xe máy. Hiện trường vụ tai nạn. Sau cú đâm mạnh, đầu chiếc xe con bị hư hỏng, toàn bộ chiếc xe con bị nằm gác trên dải phân cách đường. Những người ngồi trên chiếc xe con này đã không có ai bị thương. Do buồn ngủ, thay vì đi sang làn đường cho ô tô, chiếc xe con này chọn con đường riêng bằng cách leo lên dãi phân cách. Ngay sau khi vụ tai nạn xảy ra, chủ xe đã tiến hành gọi cứu hộ giao thông đến để giải cứu chiếc xe này. Tuy nhiên, phải mất gần giờ đồng hồ sau, chiếc xe này mới tách ra khỏi dải phân cách. Sau khi "lỡ" leo lên dải phân cách, đầu của chiếc xe đã bị hư hỏng nặng. Vụ tai nạn xảy ra ngay trên đầu cầu nên 14 đã khiến giao thông qua đây bị hỗn loạn. Các nhân viên của trạm soát vé cầu Bến Thuỷ đã phải ra điều tiết giao thông, tránh ùn tắc nghiêm trọng trên tuyến đường. Sau khi bị tai nạn, chủ xe đã gọi điện nhờ xe cứu hộ đến để giải quyết vụ việc.” C.3. Văn bản nguồn của các mẫu thử nghiệm của mô hình mBERT- Tiny_sep2seq_DeepQL_ASDS  Nội dung văn bản nguồn trong bộ dữ liệu CNN “Duhok , Iraqi Kurdistan ( CNN ) The children laugh and shriek , as some of them seem to always have the capacity to do no matter how depressing the circumstances . Their bright clothes provide splashes of color against the otherwise drab monotone white of the endless rows of tents . A small group plays with rocks , replacements for the toys they left behind when they fled , while others clamber through a jagged tear in the wire fence surrounding the refugee camp . The Shariya refugee camp opened around six months ago , made up of some 4,000 tents and counting . Thousands of Yazidis now call this corner of Iraqi Kurdistan home , about 18 miles ( 30 kilometers ) from one of the front lines with ISIS , where one can hear the occasional reverberation in the distance of what we are told are airstrikes . The vast majority of the camp 's occupants are from the town of Sinjar , which is near the border with Syrian Kurdistan , and fled the ISIS assault there back in August . But not everyone escaped . ISIS took thousands of Yazidis captive . The fighters separated the young women and girls , some as young as 8 years old , to be sold as slaves , for their " masters " to use as concubines . Men faced a choice : Convert to Islam or be shot . Mahmoud was out running errands when ISIS fighters arrived , taking his wife , Ahlam , their three children -- the youngest of which was just a month old -- and his elderly parents . " They took our phones , jewelry , money , " Ahlam recalls . " They had guns . They forced us at gunpoint into big trailer trucks . " They were taken to a school turned prison in Tal Afar . From there , the family was moved from village to village -- and at one stage taken to Mosul . " They wrote everyone 's name down and they asked where we want to work , in the fields , as cleaners or as herders , " she says . Ahlam and her family chose to herd goats . They were then taken to a Shia village whose residents had fled , where they were part of a group of around 40 living in one house . In the home , Ahlam found a cell phone left behind by its former occupants and called her husband . " I said we are alive but we are prisoners . " Ahlam 's husband , who up until that moment had lost the will to live , thinking his family was dead , says he cried out of happiness despite his pain . Ahlam 15 would call when she could , briefly , after midnight , hiding under her bedcovers . If she was caught with a phone , she would be killed . The village itself was a massive prison , its entrances guarded by ISIS fighters . She recalls that two men , in their late 40s or 50s , tried to escape . When they were caught , their bones were broken , their bodies tied to the back of a truck and then driven through the streets . The Yazidi captives were forced to watch the gruesome spectacle . The men 's corpses were then tossed into a ditch and an order given not to bury them . One night , some of the Yazidi men risked their lives to toss dirt onto the bodies , to give those slain what dignity they could . Ahlam tells us that about a week before we met , ISIS fighters came by and took away her in - laws and the other elderly people living in the house . " We did n't know where they were taking them , we thought we would be next , " she remembers . So she and the rest of the group realized that they had to try to flee . " We decided that either we survive or we do n't . " They left at midnight . Ahlam cradled the baby , as her two other children , ages 3 and 4 years old , clutched at her clothes . She prayed the baby would n't cry , that the children could keep walking . They knew the general direction to take , but not the exact route , and they could only hope it was toward freedom . " When the sun started to come up , I thought that 's it , we are going to get caught , " Ahlam says . " And what am I going to do with the kids ? I ca n't carry all three of them and run . " Luckily , Ahlam never had to answer that impossible question . The group made it into Iraqi Kurdistan . The couple ca n't put into words their emotions when they were reunited . Mahmoud , gently caressing his daughter 's palm , says he could hardly believe that the woman whose stunning eyes and gentle words he had fallen in love with , and their three children , were by his side again . It had been eight agonizing months . But their joy was tainted by fear for Mahmoud 's parents . A few days after Mahmoud and Ahlam were reunited , ISIS released 217 captives . No one is disclosing exactly why . Among them were 60 children , a handful of men and women , and the rest were elderly -- including Mahmoud 's parents . " We did n't know if they were going to slaughter us or what they were going to do with us , " Mahmoud 's father says . " They moved us around a lot , and at one stage we stayed in in one place for three days . " But Ahlam 's parents are still with ISIS . Vian Dakhil , a Yazidi member of Iraq 's parliament , speculates that the Yazidis ISIS released are individuals they were struggling to care for . Dakhil is part of Iraqi Prime Minister Haider al - Abadi 's delegation to the United States this week . She will be addressing the United Nations -- pleading for more international support for Iraq and more airstrikes to help defeat ISIS -- and she will address the plight of the 16 Yazidis . " We sometimes say that we wish we had been massacred . This would be better than being kidnapped and raped . We prefer death now over the fate of what is happening to these girls and women , " Dakhil says . " It is now on the government and on the international community to focus on this . How to get these captives back . It 's inconceivable that in the 21st century , something like this is happening as if we were living in the Stone Age ." Ahlam says she was spared because she was breastfeeding and she had young children , which , we 're told , makes her impure and therefore unable to be used as a sex slave . For Ahlam , what she went through was not the hardest part of her ordeal. It 's the moment when the ISIS fighters began taking away the girls and young women . She 's haunted by their screams , the image of them being dragged away sobbing and screaming.”  Nội dung văn bản nguồn trong bộ dữ liệu Baomoi “Chắc chắn rằng SVĐ San Siro sẽ lại rực sáng khi mà các tifosi của họ sẽ chứng kiến màn ra mắt đầu tiên của cựu cầu thủ Clarence Seedorf trong cương vị HLV trưởng của AC Milan. Tuy nhiên , nhiệm vụ của cựu cầu thủ nguời Hà Lan lúc này đang rất nặng nề vì AC Milan hiện nay đã không còn có sức mạnh như thời anh còn đang khoác áo nữa . Hiện tại đội bóng áo đỏ đen thành Milan chỉ đứng khiêm tốn ở vị trí thứ 11 sau 19 vòng đấu . Tức là họ đã kết thúc luợt đi ở nửa cuối của BXH . Phải tiếp Verona - CLB đang thi đấu rất ổn định ở mùa này chính là một bài kiểm tra thực sự với Clarence Seedorf trên cương vị mới khi mà anh chưa hề có kinh nghiệm . Hiện tại đội khách Verona đã có 32 điểm và đang đứng thứ 6 , trong khi số điểm của AC Milan chỉ là 22 . Thế nên chỉ có chiến thắng trong những trận đấu còn lại , Milan mới hy vọng chen chân vào nhóm dự cúp châu Âu . Hy vọng rằng ở trận đấu này , đội bóng chủ sân San Siro sẽ làm cho các khán đài của họ lại rực sáng trở lại . Ở nửa đầu BXH , Juventus gần như sẽ chắc chắn sẽ có được trọn vẹn 3 điểm để vững vàng ở ngôi đầu , khi mà họ được thi đấu trên sân nhà và chỉ phải tiếp một Sampdoria kém cỏi trong mùa này . Vì vậy , thày trò ông Antonio Conte hoàn toan tự tin sẽ có trận thắng thứ 18 trong mùa giải này trong trận đấu vào đêm thứ Bảy tới . Trong khi đó , với AS Roma , nhiệm vụ của họ cũng dễ dàng như Juventus khi họ được thi đấu trên sân nhà Olympico và đối thủ của đội bóng áo bã trầu thành Rome chỉ là Livorno - đội bóng mới chỉ có 13 điểm và hiện đang đứng thứ 19 . Thế nên , khoảng cách 8 điểm so với Juventus chắc chắn sẽ được giữ nguyên sau vòng đấu này . Với Napoli thì lại khác , thày trò ông Benitez sẽ ít nhiều gặp khó khăn khi họ phải hành quân đến Bologna cho dù thời điểm này , Bologna đang có phong độ không tốt khi đang phải vật lộn với nhóm cầm đèn đỏ . Phải thực sự tập trung và biết tôn trọng đối thủ thì may ra Napoli mới nuôi hy vọng giữ khoảng cách với 2 đội xếp trên là Juventus và 17 Roma khi vòng đầu này khép lại . Trong khi đó , Fiorentina lại có chuyến làm khách được cho là “ dễ thở ” hơn . Thày trò ông Vincenzo Montella chỉ phải chơi trên sân đội bóng cuối bảng Catania . Cặp đấu cân sức cân tài nhất vòng đấu này có lẽ sẽ thuộc về Genoa và Inter Milan . Hiện Inter đang đứng thứ 5 và được 32 điểm ( bằng điểm với Verona nhưng hơn về hiệu số bàn thắng-thua ) , trong khi Genoa dù đang kém Inter 5 bậc nhưng họ lại được thi đấu trên sân nhà . Thực sự, phong độ thi đấu trên sân khách của các cầu thủ áo xanh đen thành Milan ở mùa này không tốt . Thế nên chuyến làm khách này hứa hẹn là chuyến đi “ lành ít dữ nhiều ” . Nếu thực sự có được 1 điểm ở trận đấu này đã là thành công với Inter Milan . Các cặp đấu còn lại , khả năng sẽ không có nhiều bất ngờ.” C.4. Văn bản nguồn của các mẫu thử nghiệm của mô hình PG_Feature_ASDS  Nội dung văn bản nguồn trong bộ dữ liệu CNN “A Texas English high school teacher has been arrested after being accused of having an improper relationship with a male student older than 17 years old . Mary Todd Lowrance , 49 , a teacher at Moises E Molina High School , turned herself into Dallas Independent School District police on Thursday morning , according to Dallas ISD Police Chief Craig Miller . Miller said the teacher had been in a relationship with the student for a couple of months . Officers learned of the alleged relationship after Lowrance disclosed details to a coworker who then alerted a Dallas ISD officer . Mary Todd Lowrance ( above ) , 49 , a Texas English high school teacher was arrested after being accused of having an improper relationship with a male student over the age of 17 , according to authorities If the student had been a juvenile , the case would have been handled by the Dallas Police Department , Miller told The Dallas Morning News . When you get 160,000 students and 10,000 teachers , you hear a lot of rumors , and you have to investigate all of them , ' said Miller . And in this case , there was something to it . The student has been offered counseling . We 're doing everything we can for him as well . Miller said that after Lowrance 's coworker alerted authorities , it prompted an investigation where interviews were conducted with Lowrance , the student and two witnesses . The Dallas ISD police then got an arrest warrant . Miller said Lowrance has been on leave for several weeks while investigators worked on the case , according to NBCDFW . After she turned herself into authorities , she was booked into the Dallas County jail around 11 am on Thursday on a $ 5,000 bond and was released at 4.40 pm , according to county records . Calls made to the 18 Dallas Independent School District police on Friday were not immediately returned to Daily Mail Online . Lowrance , a teacher at Moises E Molina High School ( file photo above ) , turned herself in on Thursday morning and was released at 4.40 pm , according to county records.”  Nội dung văn bản nguồn trong bộ dữ liệu Baomoi “Sự việc bị phanh phui vào ngày 30/8 vừa qua . Cơ_quan an toàn thực phẩm , phòng công_thương , công_an và chính quyền thị xã đã phối hợp điều tra sự việc này . ngay tại hiện trường , 1.000 kg dầu bẩn vừa được chuyển tới bởi một xe_tải chở hàng . Theo nguồn_tin thân cậy , số dầu này có xuất xứ từ một xưởng chế biến tại mã điếm , giao châu . Ngày 31/8 , một tổ công_tác gồm phòng an toàn thực phẩm , công an và chính quyền mã điếm , giao châu nhanh chóng điều tra làm rõ chân tướng vụ việc . Địa chỉ được cung cấp từ nguồn tin trên không còn tồn tại bởi xưởng sản xuất này đã lặn mất tăm trước đó vài ngày . Nhưng tại mã điếm vẫn còn một xưởng khác nằm trên đường giao bình . Được biết , đây vốn là một xưởng chế biến thực phẩm hợp pháp của xưởng bắc đô , giao châu . Trước đây , xưởng này kinh doanh sản phẩm nông nghiệp . Vài ngày trước , một xưởng sản xuất dầu bẩn và tóp mỡ bằng thịt lợn bầy nhầy và da gà đã chuyển tới đây , núp bóng doanh nghiệp hợp pháp để hoạt động . Chình ình trước cửa xưởng là tấm biển lớn với dòng chữ : “ xưởng gia công thực phẩm bắc đô , giao châu ” . Trong gian xưởng có diện tích hơn 100 m2 , hai chiếc nồi lớn đầy ắp những miếng thịt bầy nhầy được trộn đều bằng một chiếc xẻng lớn . Những bịch nilong đựng mỡ chất đống ngổn ngang , ruồi nhặng bâu đen . Mé phía đông có ba chiếc nồi lớn , bên cạnh là một gian nhà ngói ngập ngụa khói . Không chỉ dầu ăn siêu bẩn , tóp mỡ đen sì cũng là sản phẩm được ra lò tại xưởng này . Xưởng sản xuất dầu bẩn và tóp mỡ đen sì từ thịt bầy nhầy và da gà . Chủ xưởng thừa nhận không có giấy phép sản xuất , chế biến dầu ăn nhưng vẫn hoạt_động suôn_sẻ . Loại dầu siêu bẩn này sau đó được chuyển tới tức mặc , thanh đảo nhưng chị này không khẳng định địa chỉ tiêu thụ là một xưởng sản xuất bánh trung thu . Tuy nhiên , theo điều tra , những thùng dầu tại đây hoàn toàn trùng khớp với 1.000 kg dầu bẩn được một xe tải chở hàng đổ mối tại xưởng bánh trung thu gần đường di khang , tức mặc . “ vì chưa tịch thu được sổ nhật ký giao hàng của xưởng dầu này , nên tạm thời chúng tôi chưa kết luận xưởng bánh trung thu tại tức mặc có sử dụng loại dầu này không . Sự việc vẫn đang trong quá trình điều tra ” , một nhân viên thuộc tổ điều tra giao châu cho biết . “ nếu không lập tức loại bỏ loại dầu ăn siêu bẩn này , chắc chắn các xưởng sản xuất sẽ tận_dụng để chế biến thực phẩm gây nguy hại tới sức khoẻ người tiêu_dùng ” , một người dân tại tức mặc bức xúc chia sẻ với báo chí . Theo cát miên . báo đất việt.” 19 C.5. Văn bản nguồn của các mẫu thử nghiệm của mô hình Kmeans_Centroid_EMDS  Nội dung văn bản nguồn trong bộ dữ liệu DUC 2007 Chi tiết xem trong cụm dữ liệu D0716D của bộ dữ liệu DUC 2007 [75].  Nội dung văn bản nguồn trong bộ dữ liệu Corpus_TMV Chi tiết xem trong cụm dữ liệu Cluster_2 của bộ dữ liệu Corpus_TMV [76]. C.6. Văn bản nguồn của các mẫu thử nghiệm của mô hình PG_Feature_AMDS  Nội dung văn bản nguồn trong bộ dữ liệu DUC 2004 Chi tiết xem trong cụm dữ liệu D30003T của bộ dữ liệu DUC 2004 [74].  Nội dung văn bản nguồn trong bộ dữ liệu Corpus_TMV Chi tiết xem trong cụm dữ liệu Cluster_59 của bộ dữ liệu Corpus_TMV [76]. C.7. Văn bản nguồn của các mẫu thử nghiệm của mô hình Ext_Abs_AMDS  Nội dung văn bản nguồn trong bộ dữ liệu DUC 2004 Chi tiết xem trong cụm dữ liệu D30001T của bộ dữ liệu DUC 2004 [74].  Nội dung văn bản nguồn trong bộ dữ liệu Corpus_TMV Chi tiết xem trong cụm dữ liệu Cluster_75 của bộ dữ liệu Corpus_TMV [76].

Các file đính kèm theo tài liệu này:

  • pdfluan_an_nghien_cuu_phat_trien_mot_so_phuong_phap_tom_tat_van.pdf
  • docLATS_Bia_TOM TAT-TuanLM.doc
  • pdfLATS_Bia_TOM TAT-TuanLM.pdf
  • docLATS_Bia-TuanLM.doc
  • pdfLATS_Bia-TuanLM.pdf
  • docxLATS_TOM TAT-TuanLM.docx
  • pdfLATS_TOM TAT-TuanLM.pdf
  • docxLATS-TuanLM.docx
  • docThong tin Luan an Web (tieng Anh)-TuanLM.doc
  • pdfThong tin Luan an Web (tieng Anh)-TuanLM.pdf
  • docThong tin Luan an Web (tieng Viet)-TuanLM.doc
  • pdfThong tin Luan an Web (tieng Viet)-TuanLM.pdf
  • docTrich yeu Luan an-TuanLM.doc
  • pdfTrich yeu Luan an-TuanLM.pdf