Với bố cục của luận án gồm 5 chương, các kết quả chính đạt được có thể được
tóm tắt như sau:
Đề xuất ba mô hình tóm tắt đơn văn bản hướng trích rút áp dụng cho tóm tắt
văn bản tiếng Anh và tiếng Việt gồm:
Mô hình RoPhoBERT_MLP_ESDS: Mô hình sử dụng các mô hình tối ưu của
mô hình pre-trained BERT để véc tơ hóa văn bản làm đầu vào cho mô hình
phân loại sử dụng mạng MLP, kết hợp với các đặc trưng vị trí câu và phương
pháp MMR để lựa chọn câu đưa vào bản tóm tắt.
Mô hình mBERT_CNN_ESDS: Mô hình sử dụng mô hình mBERT đa ngôn
ngữ được đào tạo trước, mạng CNN, mô hình seq2seq, lớp FC, kết hợp các
đặc trưng TF-IDF và MMR để lựa chọn câu đưa vào bản tóm tắt.
Mô hình mBERT-Tiny_seq2seq_DeepQL_ESDS: Mô hình sử dụng mô hình
BERT-Tiny, mBERT để véc tơ hóa văn bản tiếng Anh, tiếng Việt tương ứng
làm đầu vào cho mô hình phân loại câu sử dụng mạng CNN, seq2seq kết hợp
với kỹ thuật học tăng cường Deep Q-Learning và phương pháp MMR để lựa
chọn câu đưa vào bản tóm tắt. Mô hình được áp dụng hiệu quả trong điều
kiện tài nguyên hạn chế.
Cả 3 mô hình tóm tắt đơn văn bản hướng trích rút đề xuất này đều được thử
nghiệm trên các bộ dữ liệu CNN (tiếng Anh) và bộ dữ liệu Baomoi (tiếng
Việt) đã cho kết quả cao.
Đề xuất phát triển một mô hình tóm tắt đơn văn bản hướng tóm lược hiệu quả
sử dụng các kỹ thuật học sâu kết hợp các đặc TF và vị trí câu (mô hình
PG_Feature_ASDS). Mô hình được thử nghiệm trên hai bộ dữ liệu CNN/Daily Mail
(tiếng Anh) và bộ dữ liệu Baomoi (tiếng Việt) đã cho kết quả khá tốt. Mô hình có
thể áp dụng hiệu quả cho tóm tắt văn bản tiếng Anh và tiếng Việt. Mô hình này
cũng được sử dụng làm mô hình được huấn luyện trước trong giải pháp phát triển
các mô hình tóm tắt đa văn bản hướng tóm lược mà luận án đề xuất.134
Đề xuất phát triển một mô hình tóm tắt đa văn bản hướng trích rút sử dụng các
kỹ thuật học máy, kết hợp đặc trưng vị trí câu và MMR để sinh văn bản tóm tắt (mô
hình Kmeans_Centroid_EMDS). Mô hình được thử nghiệm trên bộ dữ liệu DUC
2007 (tiếng Anh), Corpus_TMV (tiếng Việt) cho kết quả tốt khi tóm tắt đa văn bản
tiếng Anh, tiếng Việt.
181 trang |
Chia sẻ: huydang97 | Ngày: 27/12/2022 | Lượt xem: 414 | Lượt tải: 1
Bạn đang xem trước 20 trang tài liệu Luận án Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
tch. Journal of
Machine Learning Research, Vol. 12, pp. 2493–2537.
[87] Hochreiter S. and Schmidhuber J. (1997). Long short-term memory. Neural
computation, Vol. 9, No. 8, pp. 1735-1780. DOI: 10.1162/neco.1997.9.8.1735.
[88] Mike Schuster and Kuldip K. Paliwal (1997). Bidirectional Recurrent Neural
Networks, Vol. 45, No. 11, pp. 2673–2681. IEEE Transactions on Signal
Processing. DOI: 10.1109/78.650093.
[89] Kyunghyun Cho, Bart van Merrienboer, Caglar Gulcehre, Dzmitry Bahdanau,
Fethi Bougares, Holger Schwenk, and Yoshua Bengio (2014). Learning
Phrase Representations using RNN Encoder-Decoder for Statistical Machine
Translation. In Proceedings of the 2014 Conference on Empirical Methods in
Natural Language Processing, Doha, Qatar, pp. 1724-1734.
[90] Junyoung Chung, Kyung Hyun Cho, and Yoshua Bengio (2014). Empirical
Evaluation of Gated Recurrent Neural Networks on Sequence Modeling. arXiv
preprint arXiv:1412.3555.
[91] Alex Graves, Abdel-rahman Mohamed, and Geoffrey Hinton (2013). Speech
Recognition with Deep Recurrent Neural Networks. In Proceedings of the
2013 International Conference on Acoustics, Speech, and Signal
Processing, pp. 6645-6649.
[92] Ilya Sutskever, Oriol Vinyals, and Quoc V. Le (2014). Sequence to Sequence
Learning with Neural Networks. In Proceedings of the 27th International
Conference on Neural Information Processing Systems (NIPS'14), Vol. 2, pp.
3104–3112.
[93] Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio (2015). Neural
Machine Translation by Jointly Learning to Align and Translate. In
Proceedings of the 3rd International Conference on Learning Representations
(ICLR 2015), San Diego, CA, USA.
[94] Graves A., Wayne G., and Danihelka I. (2014). Neural turing machines.
CoRR, abs/1410.5401.
[95] Thang Luong, Hieu Pham, and Christopher D. Manning (2015). Effective
Approaches to Attention-based Neural Machine Translation. In Proceedings
of the 2015 Conference on Empirical Methods in Natural Language
Processing, pp. 1412–1421. Association for Computational Linguistics.
[96] Kelvin Xu, Jimmy Ba, Ryan Kiros, Kyunghyun Cho, Aaron Courville, Ruslan
Salakhudinov, Rich Zemel, and Yoshua Bengio (2015). Show, Attend and
Tell: Neural Image Caption Generation with Visual Attention. In Proceedings
of the 32nd International Conference on International Conference on Machine
Learning, PMLR 37, pp. 2048–2057.
[97] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones,
Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin (2017). Attention is all
you need. In Proceedings of the 31st International Conference on Neural
Information Processing Systems, pp. 6000–6010.
145
[98] Phạm Minh Nguyên (2020). Nghiên cứu dịch máy Trung - Việt dựa vào mô
hình Transformer. Luận văn Thạc sỹ Hệ thống thông tin, Trường Đại học
Công nghệ - Đại học Quốc gia Hà Nội.
[99] Mikolov T., Chen K., Corrado G., and Dean J. (2013). Efficient Estimation of
Word Representations in Vector Space. In Proceedings of the International
Conference on Learning Representations (ICLR 2013), pp. 1-12.
[100] Chung H., Lee S., and Park J. (2016). Deep neural network using trainable
activation functions. In Proceedings of the 2016 International Joint Conference
on Neural Networks (IJCNN), pp. 348-352.
[101] Xin Rong (2014). word2vec Parameter Learning Explained.
CoRR abs/1411.2738.
[102] Devlin J., Chang M.W., Lee K., and Toutanova K. (2019). Bert: Pre-
training of deep bidirectional transformers for language understanding. In
Proceedings of the 2019 Conference of the North American Chapter of the
Association for Computational Linguistics: Human Language Technologies,
Minneapolis, pp. 4171–4186.
[103] Yukun Zhu, Ryan Kiros, Richard Zemel, Ruslan Salakhutdinov, Raquel
Urtasun, Antonio Torralba, and Sanja Fidler (2015). Aligning books and
movies: Towards story-like visual explanations by watching movies and
reading books. In Proceedings of the 2015 IEEE International Conference on
Computer Vision (ICCV), Vol. 1, pp. 19-27. DOI: 10.1109/ICCV.2015.11.
[104] Yonghui Wu, Mike Schuster, Zhifeng Chen, Quoc V. Le, Mohammad
Norouzi, Wolfgang Macherey, Maxim Krikun, Yuan Cao, and Qin Gao
(2016). Google’s neural machine translation system: Bridging the gap
between human and machine translation. Technical Report.
[105] Telmo Pires, Eva Schlinger, and Dan Garrette. How multilingual is
Multilingual BERT?. In Proceedings of the 57th Annual Meeting of the
Association for Computational Linguistics, pp. 4996–5001. Association for
Computational Linguistics.
[106] Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi
Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, and Veselin Stoyanov
(2019). RoBERTa: A Robustly Optimized BERT Pretraining Approach. In
Proceedings of the 20th Chinese National Conference on Computational
Linguistics, pp. 1218-1227.
[107] Trieu H. Trinh and Quoc V. Le (2018). A simple method for commonsense
reasoning. arXiv preprint arXiv:1806.02847.
[108] Rico Sennrich, Barry Haddow, and Alexandra Birch (2016). Neural
machine translation of rare words with subword units. In Proceedings of the
54th Annual Meeting of the Association for Computational Linguistics (Vol.
1: Long Papers), pp. 1715-1725. Association for Computational Linguistics.
DOI: 10.18653/v1/P16-1162.
[109] Kingma D. and Ba J. (2015). Adam: A method for stochastic optimization.
In 3rd International Conference on Learning Representations (ICLR 2015),
Conference Track Proceedings, San Diego, CA, USA.
146
[110] Dat Quoc Nguyen and Anh Tuan Nguyen (2020). PhoBERT: Pre-trained
language models for Vietnamese. In Proceedings of Findings of the
Association for Computational Linguistics: EMNLP 2020.
DOI: 10.18653/v1/2020.findings-emnlp.92.
[111] Iulia Turc, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova (2019).
Well-Read Students Learn Better: On the Importance of Pre-training Compact
Models. arXiv preprint arXiv:1908.08962.
[112] Cristian Bucila, Rich Caruana, and Alexandru Niculescu-Mizil (2006).
Model compression. In Proceedings of the 12th ACM SIGKDD international
conference on Knowledge discovery and data mining, pp. 535–541. DOI:
10.1145/1150402.1150464.
[113] Geoffrey E. Hinton, Oriol Vinyals, and Jeffrey Dean (2014). Distilling the
knowledge in a neural network. NIPS Workshop 2014, Montreal, Canada.
[114] Mnih V., Kavukcuoglu K., Silver D., Graves A., Antonoglou I., Wierstra
D., and Miller M. R. (2013). Playing Atari with Deep Reinforcement
Learning. NIPS Deep Learning Workshop 2013.
[115] Alexander M. Rush, Sumit Chopra, and Jason Weston (2015). A Neural
Attention Model for Abstractive Sentence Summarization. In Proceedings of
the 2015 Conference on Empirical Methods in Natural Language Processing,
pp. 379-389.
[116] Jaime Carbonell and Jade Goldstein (1998). The Use of MMR, Diversity-
Based Reranking for Reordering Documents and Producing Summaries. In
Proceedings of the 21st annual international ACM SIGIR conference on
Research and development in information retrieval, pp. 335-336.
[117] Ming Zhong, Pengfei Liu, Yiran Chen, Danqing Wang, Xipeng Qiu, and
Xuanjing Huang (2020). Extractive Summarization as Text Matching. In
Proceedings of the 58th Annual Meeting of the Association for Computational
Linguistics, pp. 6197–6208. Association for Computational Linguistics.
[118] Liu Y. (2019). Fine-tune BERT for Extractive Summarization. arXiv
preprint arXiv:1903.10318.
[119] Xingxing Zhang, Furu Wei, and Ming Zhou (2019). HIBERT: Document
Level Pre-training of Hierarchical Bidirectional Transformers for Document
Summarization. In Proceedings of the 57th Annual Meeting of the Association
for Computational Linguistics, pp. 5059–5069.
[120] Tom M. Mitchell (1997). Machine Learning, McGraw-Hill.
[121] Vũ Hữu Tiệp (2020). Machine Learning cơ bản (cập nhật lần cuối:
20/01/2020).
[122] Ilya Loshchilov and Frank Hutter (2019). Decoupled Weight Decay
Regularization. In Proceeding of International Conference on Learning
Representations (ICLR 2019).
[123] Daniel Cer, Yinfei Yang, Sheng-yi Kong, Nan Hua, Nicole Limtiaco,
Rhomni St. John, Noah Constant, Mario Guajardo-Cespedes, Steve Yuan,
Chris Tar, Yun-Hsuan Sung, Brian Strope, and Ray Kurzweil (2018).
147
Universal Sentence Encoder for English. In Proceedings of the 2018
Conference on Empirical Methods in Natural Language Processing: System
Demonstrations, pp. 169–174.
[124] Yinfei Yang, Daniel Cer, Amin Ahmad, Mandy Guo, Jax Law, Noah
Constant, Gustavo Hernandez Abrego, Steve Yuan, Chris Tar, Yun-Hsuan
Sung, Brian Strope, and Ray Kurzweil (2020). Multilingual Universal
Sentence Encoder for Semantic Retrieval. In Proceedings of the 58th Annual
Meeting of the Association for Computational Linguistics: System
Demonstrations, pp. 87–94.
[125] Shashi Narayan, Shay B. Cohen, and Mirella Lapata (2018). Ranking
Sentences for Extractive Summarization with Reinforcement Learning. In
Proceedings of NAACL-HLT 2018, pp. 1747–1759.
[126] Diganta Misra and Landskape. Mish: A Self Regularized Non-Monotonic
Activation Function. arXiv preprint arXiv:1908.08681v3.
[127] Nal Kalchbrenner, Edward Grefenstette, and Phil Blunsom (2014). A
Convolutional Neural Network for Modelling Sentences. In Proceedings of the
52nd Annual Meeting of the Association for Computational Linguistics, Vol.
1: Long Papers, pp. 655–665.
[128] Nallapati R., Zhou B., Santos C. dos, Gulcehre C., and Xiang B. (2016).
Abstractive text summarization using sequence-to-sequence RNNs and beyond.
In Proceedings of the 20th SIGNLL Conference on Computational Natural
Language Learning, pp. 280–290.
[129] Leo Laugier, Evan Thompson, and Alexandros Vlissidis (2018). Extractive
Document Summarization Using Convolutional Neural Networks –
Reimplementation. Department of Electrical Engineering and Computer
Sciences University of California, Berkeley.
[130] Gu J., Lu Z., Li H., and Li V. (2016). Incorporating copying mechanism in
sequence-to-sequence learning. In Proceedings of the 54th Annual Meeting of
the Association for Computational Linguistics, Vol. 1: Long Papers, pp. 1631–
1640.
[131] Vinyals O., Fortunato M., and Jaitly N. (2015). Pointer networks. In
Proceedings of the 28th International Conference on Neural Information
Processing Systems, Vol. 2, pp. 2692–2700
[132] Chen Q., Zhu X., Ling Z., Wei S., and Jiang H. (2016). Distraction-based
neural networks for modeling documents. In Proceedings of the Twenty-Fifth
International Joint Conference on Artificial Intelligence (IJCAI-16), pp. 2754-
2760.
[133] Zhaopeng Tu, Zhengdong Lu, Yang Liu, Xiaohua Liu, and Hang Li (2016).
Modeling coverage for neural machine translation. In Proceedings of the 54th
Annual Meeting of the Association for Computational Linguistics, Vol. 1, pp.
76-85. Association for Computational Linguistics.
[134] Pascanu R., Mikolov T., and Y. Bengio (2013). On the difficulty of training
recurrent neural networks. In ICML'13: Proceedings of the 30th International
148
Conference on International Conference on Machine Learning,Vol. 28, pp.
1310-1318.
[135] Duchi J., Hazan E., and Singer Y. (2011). Adaptive subgradient methods
for online learning and stochastic optimization. Journal of Machine Learning
Research, Vol. 12, pp. 2121-2159.
[136] Harshal J. J., Bewoor M. S., and Patil S. H. (2012). Context Sensitive Text
Summarization Using K-Means Clustering Algorithm. In International Journal
of Soft Computing and Engineering, Vol. 2, pp. 301-304. ISSN: 2231-2307.
[137] Prathima M. R., and Divakar H, R. (2018). Automatic Extractive Text
Summarization Using K-Means Clustering. International Journal of Computer
Sciences and Engineering, Vol. 6, No. 6, pp. 782-787.
DOI: 10.26438/ijcse/v6i6.782787.
[138] Gaetano Rossiello, Pierpaolo Basile, and Giovanni Semeraro (2017).
Centroid-based Text Summarization through Compositionality of Word
Embeddings. In Proceedings of the MultiLing 2017 Workshop on
Summarization and Summary Evaluation Across Source Types and Genres,
pp. 12–21. Association for Computational Linguistics. DOI:
10.18653/v1/W17-1003.
[139] Dragomir R. Radev, Hongyan Jing, and Malgorzata Budzikowska (2000).
Centroid-based summarization of multiple documents: sentence extraction,
utility-based evaluation, and user studies. In NAACL-ANLP-AutoSum '00:
Proceedings of the 2000 NAACL-ANLP Workshop on Automatic
summarization, Vol. 4, pp. 21–30. DOI: 10.3115/1117575.1117578.
[140] Ayush Agarwal and Utsav Gupta (2014). Extraction based approach for
text summarization using k-means clustering. International Journal of
Scientific and Research Publications, Vol. 4, Issue 11, pp. 1-4.
[141] Rachit Arora and Balaraman Ravindran (2008). Latent Dirichlet Allocation
Based MultiDocument Summarization. In AND '08: Proceedings of the second
workshop on Analytics for noisy unstructured text dataJuly, pp. 91–97. DOI:
10.1145/1390749.1390764.
[142] Zhanying He, Chun Chen, Jiajun Bu, Can Wang, and Lijun Zhang (2012).
Document summarization based on data reconstruction. In Proceedings of the
Twenty-Sixth AAAI Conference on Artificial Intelligence, pp. 620–626.
[143] Kaustubh Mani, Ishan Verma, Hardik Meisheri, and Lipika Dey (2018).
MultiDocument Summarization using Distributed Bag-of-Words Model. In
Proceedings of the 2018 IEEE/WIC/ACM International Conference on Web
Intelligence (WI), Vol. 1, pp. 672-675.
[144] Romain Paulus, Caiming Xiong, and Richard Socher (2015). A deep
reinforced model for abstractive summarization”. In Proceedings of the 6th
International Conference on Learning Representations (ICLR 2018).
[145] Tal Baumel, Matan Eyal, and Michael Elhadad (2018). Query focused
abstractive summarization: Incorporating query relevance, multi-document
coverage, and summary length constraints into seq2seq models. arXiv preprint
arXiv:1801.07704.
149
[146] Jianmin Zhang, Jiwei Tan, and Xiaojun Wan (2018). Towards a neural
network approach to abstractive multi-document summarization. arXiv
preprint arXiv:1804.09010.
[147] Logan Lebanoff, Kaiqiang Song and Fei Liu (2018). Adapting the Neural
Encoder-Decoder Framework from Single to Multi-Document Summarization.
In Proceedings of the 2018 Conference on Empirical Methods in Natural
Language Processing, pp. 4131-4141. Association for Computational
Linguistics.
1
PHỤ LỤC
Phụ lục A: Văn bản nguồn của các văn bản tóm tắt ví dụ
A.1. Văn bản tiếng Anh
Văn bản nguồn
“Tikrit , Iraq ( CNN ) Mass graves believed to hold Iraqi
soldiers have been discovered in newly liberated Tikrit .
Up to 1,700 bodies may be recovered . ISIS claimed to have
executed that many soldiers captured in June outside Camp
Speicher , a fortified Iraqi base near Tikrit . A total of
47 bodies have been exhumed from two of the 11 mass graves
discovered in Tikrit , an Iraqi government official said
Tuesday . Hundreds are believed to have been executed by
ISIS in June 2014 Grieving Iraqis , apparently not related
to the soldiers , gathered to pray over the bodies . When
the first three bodies were found , 10 Iraqi soldiers
saluted the dead by firing seven shots into the air . The
national anthem was played while soldiers wept . All the
bodies were decomposed . Some had their hands bound , Damon
said . The remains will be sent back to Baghdad for DNA
tests to establish identify , said Ali Tahir , a director
in the Iraqi morgue who was supervising the digging and
extraction . Damon said there may be eight mass graves
inside the presidential palace complex , which contains the
residences of former Iraqi President Saddam Hussein , and
two other sites outside the city . The presidential palaces
complex became ISIS headquarters after the militants
occupied the city . Iraqi soldiers and Shiite militias
retook Tikrit a few days ago after a fierce battle . Damon
interviewed a soldier who said he survived the massacre by
playing dead . The solider said ISIS captured the troops
outside Camp Speicher and marched them to the presidential
palace complex , telling them they would be safe until a
prisoner swap was arranged . Once inside the compound , the
soldiers were separated into smaller groups , executed and
buried in mass graves , the survivor told Damon . He said
he was tossed into a river and floated to an embankment .
On Monday , Prime Minister Haider al - Abadi said revenge
is not the way to deal with the discovery of the bodies .
He said several people involved in the killings have been
detained . Families of the missing soldiers had been
demanding answers from the Iraqi government about what
happened . As ISIS swept through northern Iraq in June ,
2
some military units were ordered to Camp Speicher . Their
families claim the men received orders from their
commanders to leave the base and move closer to Baghdad .
They left unarmed and in civilian clothes , they say .
Military commanders and the Iraqi Defense Ministry denied
any such orders being issued and said the men deserted .
ISIS released videos that showed what seemed to be an
endless line of military recruits marched at gunpoint and
later posted images showing cold - blooded mass killings .
Damon said Iraqi officials told her it may take weeks or
months to exhume all the bodies . Human Rights Watch
described the " Speicher Massacre " -- as it has been
dubbed in Iraq -- as the " largest reported incident "
where " ISIS captured more than 1,000 soldiers fleeing Camp
Speicher ... then summarily executed at least 800 of them .
" Based on satellite imagery and witness testimony , Human
Rights Watch last year was able to identity a number of
mass grave sites inside Tikrit and the presidential palace
complex . The families gave DNA samples to the Iraqi
Ministry of Health last year so authorities would be able
to match them to unidentified bodies the government may
find . CNN 's Arwa Damon reported from Tikrit , and Ralph
Ellis wrote in Atlanta . CNN 's Jomana Karadsheh
contributed to this report .”
A.2. Văn bản tiếng Việt
Văn bản nguồn
“Tại xã Ái Quốc, nơi có hơn 2.000 nữ CNLĐ đang phải thuê ở
trọ, trong đó có khoảng 500 người có con nhỏ ở cùng, các
doanh nghiệp mà họ đang làm việc đều chưa có điều kiện xây
dựng nhà trẻ, vì thế gửi con ở đâu, ai chăm sóc các cháu
khi mình đi làm, chị em đều phải tự lo. Sau khi khảo sát,
bà Nguyễn Thị Láng – Trưởng ban Tuyên giáo Liên đoàn lao
động – đã cùng các cán bộ công đoàn làm việc với chính
quyền địa phương và tổ chức hội nghị đối thoại với sự có
mặt của cả đại diện doanh nghiệp và công nhân lao động. Từ
cuộc đối thoại, vấn đề vướng nhất là tìm chỗ gửi con ổn
định cho nữ công nhân lao động được giải quyết. Công ty
TNHH may Tinh Lợi, có gần 1.000 nữ công nhân lao động đang
ở trọ tại đây đã đồng ý mỗi tháng tài trợ thêm cho Trường
Mầm non Hương Sen 3 triệu đồng để nâng cấp, mở thêm phòng
học, tiếp nhận hơn 200 cháu là con công nhân lao động vào
học. Nhiều công nhân rất vui và tỏ rõ sự hài lòng khi gần 1
năm nay, con họ đã được đi học ở trường, ở lớp chứ không
phải lang thang chơi tạm ở nhà người thân cả ngày, hay
những khi họ phải tăng ca thì con cái đã có người giữ, chứ
không buộc phải đón từ 17h”. Chị Vương Thị Oanh - Hiệu
trưởng Trường Mầm non Hương Sen - cho biết, thực ra trường
không có trách nhiệm phải nhận con công nhân lao động,
3
nhưng vì thông cảm với điều kiện của chị em, giúp họ yên
tâm làm việc nên đã nhận nhiệm vụ này. Còn các Cán bộ công
đoàn đã vui hơn rất nhiều và có cảm giác như vừa hoàn thành
một trọng trách. Việc chủ động đứng ra thu xếp giúp nữ công
nhân lao động của Liên đoàn lao động tỉnh Hải Dương có chỗ
gửi con không chỉ khiến công nhân lao động, mà cả các chủ
DN hết sức hài lòng. "Gánh nặng" mà cả doanh nghiệp và
người lao động đang phải chịu đã được tổ chức Công đoàn
giúp gỡ bỏ và họ có điều kiện toàn tâm, toàn ý tập trung
vào công việc, phấn đấu vì sự tồn tại và phát triển của
doanh nghiệp nói riêng và kinh tế - xã hội đất nước nói
chung.”
Phụ lục B: Biểu đồ phân bố của các bộ dữ liệu thử nghiệm
Thông tin về thời gian thu thập các bộ dữ liệu sử dụng để thử nghiệm cho các mô
hình tóm tắt văn bản đề xuất được trình bày trong bảng dưới đây.
Bộ dữ liệu Ngày được cập nhật lần cuối Ngày thu thập các bộ dữ liệu
CNN/Daily Mail 07/12/2015 08/09/2017
DUC 2001 18/03/2014 19/02/2020
DUC 2002 18/03/2014 19/02/2020
DUC 2004 24/03/2011 21/07/2019
DUC 2007 24/03/2011 30/01/2019
Corpus_TMV 01/11/2013 14/02/2021
ViMs 18/11/2020 27/03/2021
Baomoi 28/07/2017 28/07/2017
B.1. Bộ dữ liệu CNN
Biểu đồ phân bố độ dài trung bình văn bản nguồn
4
Biểu đồ phân bố độ dài trung bình văn bản tóm tắt
B.2. Bộ dữ liệu Daily Mail
Biểu đồ phân bố độ dài trung bình văn bản nguồn
Biểu đồ phân bố độ dài trung bình văn bản tóm tắt
5
B.3. Bộ dữ liệu DUC 2001
Biểu đồ phân bố độ dài trung bình văn bản nguồn
Biểu đồ phân bố độ dài trung bình văn bản tóm tắt
B.4. Bộ dữ liệu DUC 2002
Biểu đồ phân bố độ dài trung bình văn bản nguồn
6
Biểu đồ phân bố độ dài trung bình văn bản tóm tắt
B.5. Bộ dữ liệu DUC 2004
Biểu đồ phân bố độ dài trung bình văn bản nguồn
Biểu đồ phân bố độ dài trung bình văn bản tóm tắt
7
B.6. Bộ dữ liệu DUC 2007
Biểu đồ phân bố độ dài trung bình văn bản nguồn
Biểu đồ phân bố độ dài trung bình văn bản tóm tắt
B.7. Bộ dữ liệu Baomoi
Biểu đồ phân bố độ dài trung bình văn bản nguồn
8
Biểu đồ phân bố độ dài trung bình văn bản tóm tắt
B.8. Bộ dữ liệu Corpus_TMV
Biểu đồ phân bố độ dài trung bình văn bản nguồn
Biểu đồ phân bố độ dài trung bình văn bản tóm tắt
9
B.9. Bộ dữ liệu ViMs
Biểu đồ phân bố độ dài trung bình văn bản nguồn
Biểu đồ phân bố độ dài trung bình văn bản tóm tắt
Phụ lục C: Văn bản nguồn của các mẫu tóm tắt thử nghiệm
C.1. Văn bản nguồn của các mẫu thử nghiệm của mô hình
RoPhoBERT_MLP_ESDS
Nội dung văn bản nguồn trong bộ dữ liệu CNN
“Lois Lilienstein , co - star of " Sharon , Lois & Bram 's
Elephant Show " - the Canadian preschool show that ran on
Nickelodeon during the early 1990s - has died , aged 78 .
Her son , David Lilienstein , told CBC News that his mother
died in Toronto on Wednesday night from a rare form of
cancer first diagnosed last October . " She knew it was
happening , she was at peace with it , and she died very
peacefully and not in pain , " he told the Canadian
10
broadcaster . Liz Smith at 92 Lilienstein was born in
Chicago in 1936 and moved to Toronto in 1996 with her son
and her husband , Ernest . She joined Sharon Hampson and
Bram Morrison to launch their singing trio in 1978 . The TV
show " Sharon , Lois & Bram 's Elephant Show " ran on CBC in
Canada from 1984 to 1989 , before continuing in reruns on
Nickelodeon stateside until 1995 . The 30 most popular film
producers in Hollywood Sally Catto , general manager ,
programming at CBC Television , paid tribute to Lilienstein
for her contribution to Canadian kids TV . " Sharon , Lois
and Bram got their start at CBC back in the ' 80s with the
Elephant Show , and they went on to become icons to children
all across North America through various programs and
specials . Lois will be fondly remembered by her many
friends at CBC , " Catto told The Hollywood Reporter . '
Ghostbusters ' budget cut The Canadian variety show was best
known for songs like " Skinnamarink " and " Peanut Butter .
" Lilienstein left the Sharon , Lois & Bram performance trio
in 2000 . The Hollywood Reporter . All rights reserved.”
Nội dung văn bản nguồn trong bộ dữ liệu Baomoi
“Nhóm thanh tra viên của Cơ quan Năng lượng Nguyên tử Quốc
tế ( IAEA ) ngày 18/1 đã tới thủ đô Tehran của Iran để giám
sát việc thực thi thoả thuận tạm thời giữa nước này và nhóm
P 5+1 . Hãng thông tấn Fars của Iran cho biết , nhóm thanh
tra do kỹ sư hạt nhân Massimo Aparo dẫn đầu sẽ bắt đầu nộp
báo cáo cho IAEA vào ngày 20/1 tới – thời điểm mà thoả thuận
giữa Iran và P 5+1 chính thức có hiệu lực . Đại sứ Iran tại
IAEA Reza Najafi trả lời họp báo tại trụ sở IAEA ở Vienna ,
Áo ( Ảnh AFP ) Các thanh tra sẽ thị sát hai nhà máy hạt nhân
Natanz và Fordow của Iran để đảm bảo rằng nước này sẽ dừng
hoạt động sản xuất uranium cấp độ 20% , đồng thời vô hiệu
hoá kho uranium đã được làm giàu bằng cách pha loãng . Cùng
ngày , IAEA cho biết , cơ quan này hiện cần thêm tiền tài
trợ khoảng 6 triệu Euro trong vòng 6 tháng tới để có thể
trang trải chi phí cho các hoạt động giám sát . Ngày
24/11/2013 , Iran và Nhóm P 5+1 ( gồm Anh , Pháp , Mỹ , Nga
, Trung Quốc và Đức ) đã đạt được một thoả thuận sơ bộ để
giải quyết bế tắc trong đàm phán về chương trình hạt nhân
gây tranh cãi của Iran . Theo thoả thuận trên , Iran sẽ tạm
dừng một phần chương trình hạt nhân của mình để đổi lấy việc
phương Tây nới lỏng các biện pháp trừng phạt kinh tế nhằm
vào nước này . / . Hồng Anh / VOV-Trung tâm Tin Theo
Reuters.”
C.2. Văn bản nguồn của các mẫu thử nghiệm của mô hình
mBERT_CNN_ESDS
11
Nội dung văn bản nguồn trong bộ dữ liệu CNN
“Panama City, Panama (CNN) Ending a decade - long standstill
in U.S. - Cuba relations, President Barack Obama met for an
hour Saturday with his Cuban counterpart Raul Castro, the
first time the two nations' top leaders have sat down for
substantive talks in more than 50 years. The meeting in a
small conference room on the sidelines of the Summit of the
Americas came as the two countries work to end the Cold War
enmity that had led to a total freeze of diplomatic ties.
And while both leaders proclaimed progress had been made, a
key stumbling block -- Cuba's place on the U.S. list of
countries that sponsor terror -- remained unresolved. "This
is obviously an historic meeting, "Obama said at the
beginning of his session with Castro, claiming that decades
of strain had done little to benefit either Cubans or
citizens of the nited States. "It was time for us to try
something new," he said. "We are now in a position to move
on a path toward the future. "Castro, who earlier in the day
said he trusted Obama, acknowledged there would be difficult
stumbling blocks as his nation works to repair ties with the
United States. But he said those differences could be
surmounted. "We are willing to discuss everything, but we
need to be patient, very patient," Castro said. "We might
disagree on something today on which we could agree
tomorrow. "Speaking to reporters after his session with
Castro, Obama said the meeting was "candid and fruitful" and
could prove to be a "turning point" in his push to defrost
ties with Cuba. But he said he hadn't yet decided whether to
remove Cuba's designation as a state sponsor of terror, an
outcome that had previously been expected during the summit.
The State Department provided Obama with a review of the
terror status this week. "I want to make sure I have a
chance to read it, study it before we announce publicly what
the policy outcome is going to be," Obama said. "But in
terms of the overall direction of Cuba policy, I think there
is a strong majority both in the United States and in Cuba
that says our ability to engage, to open up commerce and
travel and people to people exchanges is ultimately going to
be good for Cuban people. "On Friday night, Obama and Castro
greeted each other courteously amid an explosion of camera
flashes, shaking hands before dining at the inaugural
session of the conference. The two sat at the same table but
not directly next to one another. Before Obama arrived in
Panama on Wednesday, he spoke with Castro by phone, laying
the groundwork for what will become a new era of relations
between the neighboring countries. "The Cold War has been
over for a long time, "Obama said during opening remarks at
the summit Saturday. "I'm not interested in having battles,
frankly, that began before I was born. "That exhortation,
however, seemed to be lost on Castro himself, who expanded
12
what was meant to be a six - minute speech into a 50 -
minute address lecturing leaders on Cuba's revolution and
giving a litany of perceived grievances to Cuba over the
past 50 years. But he distinguished Obama from past American
presidents, saying he respected Obama's move toward
reconciliation. "In my opinion, President Obama in an honest
man, "Castro said through an interpreter. "I admire him, and
I think his behavior has a lot to do with his humble
background. " .S. administration official said Castro’s long
list of grievances was expected, despite the move toward
diplomatic ties. "(What’s) unique and new is what he said
about the president, "the official said of Castro’s praise
for Obama. Obama announced in December that he was seeking
to renew diplomatic relations with Cuba after half a century
of strife, including eventually opening embassies in
Washington and Havana. Obama set to test engagement doctrine
with Cuba in Panama His meeting with Castro on Saturday
isn’t being billed as a formal bilateral session, but
Obama’s aides are still characterizing the event as the
highest - level engagement with the Cuban government since
then - Vice President Richard Nixon met with Fidel Castro in
1959. "We’re in new territory here, "Ben Rhodes, Obama’s
deputy national security adviser, said Friday. "The reason
we’re here is because the President strongly believes that
an approach that was focused entirely on isolation, focused
entirely on seeking to cut off the Cuban people from the
United States of America had failed. "The overtures to Cuba
have not been universally popular in the United States; some
lawmakers were irate that Obama was seeking to engage what
they regard as a corrupt government. "A recommendation to
remove Cuba from the list of State Sponsors of Terrorism
would represent another significant misstep in a misguided
policy, "Sen. Bob Menendez, a Democrat who used to the chair
the Foreign Relations Committee, wrote in a statement last
week. In Latin America, however, Obama was receiving a warm
welcome after announcing he was seeking to engage Havana in
talks over reopening embassies and removing barriers to
commerce and travel. 9 things you wanted to ask about the
Cuban embargo He noted to applause during a session Friday
that this was the first summit with Cuba in attendance. And
he’s cast the decision to reopen the .S. relationship with
Cuba as beneficial to the entire hemisphere, which has also
embraced his immigration executive action. But even as Obama
landed in Panama, the longstanding gulfs between the two
countries ' governments were on display. Dissidents opposed
to Castro’s regime were violently accosted this week by
supporters of the Cuban government, a scuffle the White
House said was unacceptable. "As we move toward the process
of normalization, we’ll have our differences, government to
government, with Cuba on many issues -- just as we differ at
times with other nations within the Americas, just as we
13
differ with our closest allies," Obama said at a meeting of
civil society leaders Friday. "There’s nothing wrong with
that." "But I 'm here to say that when we do speak out,
we’re going to do so because the nited States of America
does believe, and will always stand for, a certain set of
universal values, "he said. The long history between the
U.S. and Cuba Obama closed out his time in Panama with a
news conference where he covered topics ranging from Hillary
Clinton’s expected presidential announcement to his
framework deal with Iran on its nuclear program. The
President had pointed criticism for Sen. John McCain, R -
Arizona. Earlier this week, McCain accused Secretary of
State John Kerry of intentionally mischaracterizing what the
sides had agreed to in the Iran nuclear deal. "John Kerry is
delusional, "McCain said on the Hugh Hewitt show, a
conservative talk radio program, adding that the view from
the Supreme Leader of Iran of the provisions agreed to" is
probably right, " rather than what the United States
maintains are the agreed provisions. While discussing the
Iran agreement Saturday, Obama brought up those remarks
without being asked. "When I hear someone like Sen. McCain
recently suggest that our secretary of state, John Kerry,
who served in the United States Senate, (is) a Vietnam
veteran, who’s provided exemplary service to this nation, is
somehow less trustworthy of the interpretation of what’s in
a political agreement than the Supreme Leader of Iran,
that’s an indication of the degree to which partisanship has
crossed all boundaries," he said at the news conference.
After the President’s remarks, McCain tweeted "So Pres.
Obama goes to # Panama, meets with Castro and attacks me - I
'm sure Raul is pleased." As for his 2008 Democratic rival,
Obama said, "If she decides to run, if she makes an
announcement, she’s going to have some strong messages to
deliver," he said.”
Nội dung văn bản nguồn trong bộ dữ liệu Baomoi
“Vụ tai nạn nói trên xảy ra vào khoảng 23h15 ngày 19/1, tại
cầu Bến Thuỷ, trên Quốc lộ 1A. Theo đó, vào khoảng thời gian
trên, khi chiếc xe con mang BKS: 37 A-048. 45 đang điều
khiển xe lưu thông theo hướng Bắc - Nam bất ngờ lao lên dải
phân cách làn đường ô tô và xe máy. Hiện trường vụ tai nạn.
Sau cú đâm mạnh, đầu chiếc xe con bị hư hỏng, toàn bộ chiếc
xe con bị nằm gác trên dải phân cách đường. Những người ngồi
trên chiếc xe con này đã không có ai bị thương. Do buồn ngủ,
thay vì đi sang làn đường cho ô tô, chiếc xe con này chọn
con đường riêng bằng cách leo lên dãi phân cách. Ngay sau
khi vụ tai nạn xảy ra, chủ xe đã tiến hành gọi cứu hộ giao
thông đến để giải cứu chiếc xe này. Tuy nhiên, phải mất gần
giờ đồng hồ sau, chiếc xe này mới tách ra khỏi dải phân
cách. Sau khi "lỡ" leo lên dải phân cách, đầu của chiếc xe
đã bị hư hỏng nặng. Vụ tai nạn xảy ra ngay trên đầu cầu nên
14
đã khiến giao thông qua đây bị hỗn loạn. Các nhân viên của
trạm soát vé cầu Bến Thuỷ đã phải ra điều tiết giao thông,
tránh ùn tắc nghiêm trọng trên tuyến đường. Sau khi bị tai
nạn, chủ xe đã gọi điện nhờ xe cứu hộ đến để giải quyết vụ
việc.”
C.3. Văn bản nguồn của các mẫu thử nghiệm của mô hình mBERT-
Tiny_sep2seq_DeepQL_ASDS
Nội dung văn bản nguồn trong bộ dữ liệu CNN
“Duhok , Iraqi Kurdistan ( CNN ) The children laugh and
shriek , as some of them seem to always have the capacity to
do no matter how depressing the circumstances . Their bright
clothes provide splashes of color against the otherwise drab
monotone white of the endless rows of tents . A small group
plays with rocks , replacements for the toys they left
behind when they fled , while others clamber through a
jagged tear in the wire fence surrounding the refugee camp .
The Shariya refugee camp opened around six months ago , made
up of some 4,000 tents and counting . Thousands of Yazidis
now call this corner of Iraqi Kurdistan home , about 18
miles ( 30 kilometers ) from one of the front lines with
ISIS , where one can hear the occasional reverberation in
the distance of what we are told are airstrikes . The vast
majority of the camp 's occupants are from the town of
Sinjar , which is near the border with Syrian Kurdistan ,
and fled the ISIS assault there back in August . But not
everyone escaped . ISIS took thousands of Yazidis captive .
The fighters separated the young women and girls , some as
young as 8 years old , to be sold as slaves , for their "
masters " to use as concubines . Men faced a choice :
Convert to Islam or be shot . Mahmoud was out running
errands when ISIS fighters arrived , taking his wife , Ahlam
, their three children -- the youngest of which was just a
month old -- and his elderly parents . " They took our
phones , jewelry , money , " Ahlam recalls . " They had guns
. They forced us at gunpoint into big trailer trucks . "
They were taken to a school turned prison in Tal Afar . From
there , the family was moved from village to village -- and
at one stage taken to Mosul . " They wrote everyone 's name
down and they asked where we want to work , in the fields ,
as cleaners or as herders , " she says . Ahlam and her
family chose to herd goats . They were then taken to a Shia
village whose residents had fled , where they were part of a
group of around 40 living in one house . In the home , Ahlam
found a cell phone left behind by its former occupants and
called her husband . " I said we are alive but we are
prisoners . " Ahlam 's husband , who up until that moment
had lost the will to live , thinking his family was dead ,
says he cried out of happiness despite his pain . Ahlam
15
would call when she could , briefly , after midnight ,
hiding under her bedcovers . If she was caught with a phone
, she would be killed . The village itself was a massive
prison , its entrances guarded by ISIS fighters . She
recalls that two men , in their late 40s or 50s , tried to
escape . When they were caught , their bones were broken ,
their bodies tied to the back of a truck and then driven
through the streets . The Yazidi captives were forced to
watch the gruesome spectacle . The men 's corpses were then
tossed into a ditch and an order given not to bury them .
One night , some of the Yazidi men risked their lives to
toss dirt onto the bodies , to give those slain what dignity
they could . Ahlam tells us that about a week before we met
, ISIS fighters came by and took away her in - laws and the
other elderly people living in the house . " We did n't know
where they were taking them , we thought we would be next ,
" she remembers . So she and the rest of the group realized
that they had to try to flee . " We decided that either we
survive or we do n't . " They left at midnight . Ahlam
cradled the baby , as her two other children , ages 3 and 4
years old , clutched at her clothes . She prayed the baby
would n't cry , that the children could keep walking . They
knew the general direction to take , but not the exact route
, and they could only hope it was toward freedom . " When
the sun started to come up , I thought that 's it , we are
going to get caught , " Ahlam says . " And what am I going
to do with the kids ? I ca n't carry all three of them and
run . " Luckily , Ahlam never had to answer that impossible
question . The group made it into Iraqi Kurdistan . The
couple ca n't put into words their emotions when they were
reunited . Mahmoud , gently caressing his daughter 's palm ,
says he could hardly believe that the woman whose stunning
eyes and gentle words he had fallen in love with , and their
three children , were by his side again . It had been eight
agonizing months . But their joy was tainted by fear for
Mahmoud 's parents . A few days after Mahmoud and Ahlam were
reunited , ISIS released 217 captives . No one is disclosing
exactly why . Among them were 60 children , a handful of men
and women , and the rest were elderly -- including Mahmoud
's parents . " We did n't know if they were going to
slaughter us or what they were going to do with us , "
Mahmoud 's father says . " They moved us around a lot , and
at one stage we stayed in in one place for three days . "
But Ahlam 's parents are still with ISIS . Vian Dakhil , a
Yazidi member of Iraq 's parliament , speculates that the
Yazidis ISIS released are individuals they were struggling
to care for . Dakhil is part of Iraqi Prime Minister Haider
al - Abadi 's delegation to the United States this week .
She will be addressing the United Nations -- pleading for
more international support for Iraq and more airstrikes to
help defeat ISIS -- and she will address the plight of the
16
Yazidis . " We sometimes say that we wish we had been
massacred . This would be better than being kidnapped and
raped . We prefer death now over the fate of what is
happening to these girls and women , " Dakhil says . " It is
now on the government and on the international community to
focus on this . How to get these captives back . It 's
inconceivable that in the 21st century , something like this
is happening as if we were living in the Stone Age ." Ahlam
says she was spared because she was breastfeeding and she
had young children , which , we 're told , makes her impure
and therefore unable to be used as a sex slave . For Ahlam ,
what she went through was not the hardest part of her
ordeal. It 's the moment when the ISIS fighters began taking
away the girls and young women . She 's haunted by their
screams , the image of them being dragged away sobbing and
screaming.”
Nội dung văn bản nguồn trong bộ dữ liệu Baomoi
“Chắc chắn rằng SVĐ San Siro sẽ lại rực sáng khi mà các
tifosi của họ sẽ chứng kiến màn ra mắt đầu tiên của cựu cầu
thủ Clarence Seedorf trong cương vị HLV trưởng của AC Milan.
Tuy nhiên , nhiệm vụ của cựu cầu thủ nguời Hà Lan lúc này
đang rất nặng nề vì AC Milan hiện nay đã không còn có sức
mạnh như thời anh còn đang khoác áo nữa . Hiện tại đội bóng
áo đỏ đen thành Milan chỉ đứng khiêm tốn ở vị trí thứ 11 sau
19 vòng đấu . Tức là họ đã kết thúc luợt đi ở nửa cuối của
BXH . Phải tiếp Verona - CLB đang thi đấu rất ổn định ở mùa
này chính là một bài kiểm tra thực sự với Clarence Seedorf
trên cương vị mới khi mà anh chưa hề có kinh nghiệm . Hiện
tại đội khách Verona đã có 32 điểm và đang đứng thứ 6 ,
trong khi số điểm của AC Milan chỉ là 22 . Thế nên chỉ có
chiến thắng trong những trận đấu còn lại , Milan mới hy vọng
chen chân vào nhóm dự cúp châu Âu . Hy vọng rằng ở trận đấu
này , đội bóng chủ sân San Siro sẽ làm cho các khán đài của
họ lại rực sáng trở lại . Ở nửa đầu BXH , Juventus gần như
sẽ chắc chắn sẽ có được trọn vẹn 3 điểm để vững vàng ở ngôi
đầu , khi mà họ được thi đấu trên sân nhà và chỉ phải tiếp
một Sampdoria kém cỏi trong mùa này . Vì vậy , thày trò ông
Antonio Conte hoàn toan tự tin sẽ có trận thắng thứ 18 trong
mùa giải này trong trận đấu vào đêm thứ Bảy tới . Trong khi
đó , với AS Roma , nhiệm vụ của họ cũng dễ dàng như Juventus
khi họ được thi đấu trên sân nhà Olympico và đối thủ của đội
bóng áo bã trầu thành Rome chỉ là Livorno - đội bóng mới chỉ
có 13 điểm và hiện đang đứng thứ 19 . Thế nên , khoảng cách
8 điểm so với Juventus chắc chắn sẽ được giữ nguyên sau vòng
đấu này . Với Napoli thì lại khác , thày trò ông Benitez sẽ
ít nhiều gặp khó khăn khi họ phải hành quân đến Bologna cho
dù thời điểm này , Bologna đang có phong độ không tốt khi
đang phải vật lộn với nhóm cầm đèn đỏ . Phải thực sự tập
trung và biết tôn trọng đối thủ thì may ra Napoli mới nuôi
hy vọng giữ khoảng cách với 2 đội xếp trên là Juventus và
17
Roma khi vòng đầu này khép lại . Trong khi đó , Fiorentina
lại có chuyến làm khách được cho là “ dễ thở ” hơn . Thày
trò ông Vincenzo Montella chỉ phải chơi trên sân đội bóng
cuối bảng Catania . Cặp đấu cân sức cân tài nhất vòng đấu
này có lẽ sẽ thuộc về Genoa và Inter Milan . Hiện Inter đang
đứng thứ 5 và được 32 điểm ( bằng điểm với Verona nhưng hơn
về hiệu số bàn thắng-thua ) , trong khi Genoa dù đang kém
Inter 5 bậc nhưng họ lại được thi đấu trên sân nhà . Thực
sự, phong độ thi đấu trên sân khách của các cầu thủ áo xanh
đen thành Milan ở mùa này không tốt . Thế nên chuyến làm
khách này hứa hẹn là chuyến đi “ lành ít dữ nhiều ” . Nếu
thực sự có được 1 điểm ở trận đấu này đã là thành công với
Inter Milan . Các cặp đấu còn lại , khả năng sẽ không có
nhiều bất ngờ.”
C.4. Văn bản nguồn của các mẫu thử nghiệm của mô hình
PG_Feature_ASDS
Nội dung văn bản nguồn trong bộ dữ liệu CNN
“A Texas English high school teacher has been arrested after
being accused of having an improper relationship with a male
student older than 17 years old . Mary Todd Lowrance , 49 ,
a teacher at Moises E Molina High School , turned herself
into Dallas Independent School District police on Thursday
morning , according to Dallas ISD Police Chief Craig Miller
. Miller said the teacher had been in a relationship with
the student for a couple of months . Officers learned of the
alleged relationship after Lowrance disclosed details to a
coworker who then alerted a Dallas ISD officer . Mary Todd
Lowrance ( above ) , 49 , a Texas English high school
teacher was arrested after being accused of having an
improper relationship with a male student over the age of 17
, according to authorities If the student had been a
juvenile , the case would have been handled by the Dallas
Police Department , Miller told The Dallas Morning News .
When you get 160,000 students and 10,000 teachers , you hear
a lot of rumors , and you have to investigate all of them ,
' said Miller . And in this case , there was something to it
. The student has been offered counseling . We 're doing
everything we can for him as well . Miller said that after
Lowrance 's coworker alerted authorities , it prompted an
investigation where interviews were conducted with Lowrance
, the student and two witnesses . The Dallas ISD police then
got an arrest warrant . Miller said Lowrance has been on
leave for several weeks while investigators worked on the
case , according to NBCDFW . After she turned herself into
authorities , she was booked into the Dallas County jail
around 11 am on Thursday on a $ 5,000 bond and was released
at 4.40 pm , according to county records . Calls made to the
18
Dallas Independent School District police on Friday were not
immediately returned to Daily Mail Online . Lowrance , a
teacher at Moises E Molina High School ( file photo above )
, turned herself in on Thursday morning and was released at
4.40 pm , according to county records.”
Nội dung văn bản nguồn trong bộ dữ liệu Baomoi
“Sự việc bị phanh phui vào ngày 30/8 vừa qua . Cơ_quan an
toàn thực phẩm , phòng công_thương , công_an và chính quyền
thị xã đã phối hợp điều tra sự việc này . ngay tại hiện
trường , 1.000 kg dầu bẩn vừa được chuyển tới bởi một xe_tải
chở hàng . Theo nguồn_tin thân cậy , số dầu này có xuất xứ
từ một xưởng chế biến tại mã điếm , giao châu . Ngày 31/8 ,
một tổ công_tác gồm phòng an toàn thực phẩm , công an và
chính quyền mã điếm , giao châu nhanh chóng điều tra làm rõ
chân tướng vụ việc . Địa chỉ được cung cấp từ nguồn tin trên
không còn tồn tại bởi xưởng sản xuất này đã lặn mất tăm
trước đó vài ngày . Nhưng tại mã điếm vẫn còn một xưởng khác
nằm trên đường giao bình . Được biết , đây vốn là một xưởng
chế biến thực phẩm hợp pháp của xưởng bắc đô , giao châu .
Trước đây , xưởng này kinh doanh sản phẩm nông nghiệp . Vài
ngày trước , một xưởng sản xuất dầu bẩn và tóp mỡ bằng thịt
lợn bầy nhầy và da gà đã chuyển tới đây , núp bóng doanh
nghiệp hợp pháp để hoạt động . Chình ình trước cửa xưởng là
tấm biển lớn với dòng chữ : “ xưởng gia công thực phẩm bắc
đô , giao châu ” . Trong gian xưởng có diện tích hơn 100 m2
, hai chiếc nồi lớn đầy ắp những miếng thịt bầy nhầy được
trộn đều bằng một chiếc xẻng lớn . Những bịch nilong đựng mỡ
chất đống ngổn ngang , ruồi nhặng bâu đen . Mé phía đông có
ba chiếc nồi lớn , bên cạnh là một gian nhà ngói ngập ngụa
khói . Không chỉ dầu ăn siêu bẩn , tóp mỡ đen sì cũng là sản
phẩm được ra lò tại xưởng này . Xưởng sản xuất dầu bẩn và
tóp mỡ đen sì từ thịt bầy nhầy và da gà . Chủ xưởng thừa
nhận không có giấy phép sản xuất , chế biến dầu ăn nhưng vẫn
hoạt_động suôn_sẻ . Loại dầu siêu bẩn này sau đó được chuyển
tới tức mặc , thanh đảo nhưng chị này không khẳng định địa
chỉ tiêu thụ là một xưởng sản xuất bánh trung thu . Tuy
nhiên , theo điều tra , những thùng dầu tại đây hoàn toàn
trùng khớp với 1.000 kg dầu bẩn được một xe tải chở hàng đổ
mối tại xưởng bánh trung thu gần đường di khang , tức mặc .
“ vì chưa tịch thu được sổ nhật ký giao hàng của xưởng dầu
này , nên tạm thời chúng tôi chưa kết luận xưởng bánh trung
thu tại tức mặc có sử dụng loại dầu này không . Sự việc vẫn
đang trong quá trình điều tra ” , một nhân viên thuộc tổ
điều tra giao châu cho biết . “ nếu không lập tức loại bỏ
loại dầu ăn siêu bẩn này , chắc chắn các xưởng sản xuất sẽ
tận_dụng để chế biến thực phẩm gây nguy hại tới sức khoẻ
người tiêu_dùng ” , một người dân tại tức mặc bức xúc chia
sẻ với báo chí . Theo cát miên . báo đất việt.”
19
C.5. Văn bản nguồn của các mẫu thử nghiệm của mô hình
Kmeans_Centroid_EMDS
Nội dung văn bản nguồn trong bộ dữ liệu DUC 2007
Chi tiết xem trong cụm dữ liệu D0716D của bộ dữ liệu DUC 2007 [75].
Nội dung văn bản nguồn trong bộ dữ liệu Corpus_TMV
Chi tiết xem trong cụm dữ liệu Cluster_2 của bộ dữ liệu Corpus_TMV [76].
C.6. Văn bản nguồn của các mẫu thử nghiệm của mô hình
PG_Feature_AMDS
Nội dung văn bản nguồn trong bộ dữ liệu DUC 2004
Chi tiết xem trong cụm dữ liệu D30003T của bộ dữ liệu DUC 2004 [74].
Nội dung văn bản nguồn trong bộ dữ liệu Corpus_TMV
Chi tiết xem trong cụm dữ liệu Cluster_59 của bộ dữ liệu Corpus_TMV [76].
C.7. Văn bản nguồn của các mẫu thử nghiệm của mô hình
Ext_Abs_AMDS
Nội dung văn bản nguồn trong bộ dữ liệu DUC 2004
Chi tiết xem trong cụm dữ liệu D30001T của bộ dữ liệu DUC 2004 [74].
Nội dung văn bản nguồn trong bộ dữ liệu Corpus_TMV
Chi tiết xem trong cụm dữ liệu Cluster_75 của bộ dữ liệu Corpus_TMV [76].