Luận văn Nghiên cứu một số kỹ thuật phát hiện, bám sát đối tượng và ứng dụng

Như ta đã biết, giám sát bằng camera được ứng dụng rộng rãi trong nhiều lĩnh vực của cuộc sống, việc nghiên cứu các vấn đề liên quan đến các hệ thống giám sát này nhằm đưa ra các cảnh báo chính xác, kịp thời là một công việc mang tính thực tiễn cao. Chúng ta cũng biết rằng kết quả thu nhận được từ các camera giám sát là Video. Như vậy việc nghiên cứu chính ở đây là phát hiện đối tượng chuyển động trong Video. Video thu nhận được từ các camera sẽ được xử lý qua các công đoạn sau: Phát hiện đối tượng chuyển động, đánh dấu các đối tượng vừa phát hiện, phân loại chúng và sẽ tiến hành xử lý và cho ra kết quả là đối tượng đang cần theo vết đang ở vị trí nào, ta tiến hành đánh dấu (tô màu, kẻ khung) và từ đó liên tục bám sát đối tượng đó dựa trên một ngưỡng nhất định. Sau khi xác định vị trí đối tượng, ứng dụng sẽ tiếp tục điều khiển thiết bị chuột tới vị trí mong muốn (vị trí của đối tượng đang theo vết), đồng thời quyết định ra sự kiện gì (Click, Double click, Drap & Drop, Zoom out, Zoom in )

pdf81 trang | Chia sẻ: builinh123 | Ngày: 02/08/2018 | Lượt xem: 562 | Lượt tải: 4download
Bạn đang xem trước 20 trang tài liệu Luận văn Nghiên cứu một số kỹ thuật phát hiện, bám sát đối tượng và ứng dụng, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
c theo các phương pháp sử dụng giải pháp của nó. 25 Chương 2 PHÁT HIỆN VÀ GIÁM SÁT ĐỐI TƯỢNG CHUYỂN ĐỘNG TRONG VIDEO 2.1. Phát hiện đối tượng Tổng quan về phát hiện, phân loại và đánh dấu đối tượng chuyển động trong Video với thời gian thực được mô tả như sau: Lược đồ 2.1: Lược đồ khối hệ thống Thu nhận ảnh Phát hiện nổi trội Trích rút đặc trưng đối tượng Đánh dấu đối tượng Xử lý đối tượng Mô hình nền Phân loại đối tượng Ảnh hiện thời Khởi tạo, Cập nhật Ảnh nền Cập nhật Bản đồ nổi trội, ảnh hiện thời Các đối tượng cùng với các đặc trưng Đường đi của đối tượng Kiểu của đối tượng Cập nhật 26 Hệ thống này có thể phân biệt được các đối tượng thoáng qua hoặc đứng yên từ các đối tượng nền tĩnh trong các cảnh động; phát hiện và phân biệt các đối tượng di chuyển và biến mất; phân loại các đối tượng đã được phát hiện vào trong các nhóm khác nhau, như người, nhóm người, xe cộ,; đánh dấu các đối tượng và tạo ra thông tin về đường đi ngay cả các trường hợp bị che khuất và phát hiện ánh sáng trong hình ảnh của Video. Trong phần này và phần sau, sẽ mô tả các mô hình tính toán trong hướng tiếp cận này để tiến gần tới các kết quả thực sự ở trên. Hệ thống này được thừa nhận để làm việc với thời gian thực như là một phần trong hệ thống giám sát Video cơ sở. Độ phức tạp tính toán và cả các nhân tố bất biến của thuật toán mà chúng ta dùng ở đây là rất quan trọng cho việc thực hiện trong thời gian thực. Do đó, cách giải quyết ở đây là chọn ra thuật toán với thời gian chạy tối ưu nhất. Hơn nữa, việc sử dụng hệ thống này bị hạn chế chỉ với các camera tĩnh và Video đầu vào từ các camera Pan/Tilt/Zoom. Hệ thống được khởi tạo bởi hình ảnh Video từ camera tĩnh giám sát một vị trí. Hầu hết các phương thức có thể làm việc với cả hai loại ảnh Video màu và ảnh Video đen trắng. Bước đầu tiên trong hướng tiếp cận này là phân biệt các đối tượng nổi trội từ các nền tĩnh. Để đạt được điều này, ta sử dụng một kết hợp giữa phương pháp trừ nền và phương pháp hậu xử lý ảnh ở mức thấp để tạo ra một bản đồ điểm đặc trưng cho mọi frame. Ta nhóm các vùng liên tục trong bản đồ đó để mở rộng các đặc trưng cho đối tượng riêng biệt như là tạo các đường bao, các miền, điểm trung tâm của khối hoặc biểu đồ màu (color histogram). Điểm mới trong thuật toán phân loại đối tượng này là làm cho việc sử dụng bản đồ các điểm đặc trưng thuộc về mỗi vùng đặc trưng để tạo ra một hình chiếu cho đối tượng đó. Hình chiếu và điểm trung tâm của một khối của 27 một đối tượng được sử dụng để tạo ra một tín hiệu khoảng cách. Tín hiệu này được co giãn, được làm trở lại bình thường và được so sánh với các nhãn tín hiệu trước đó trong cơ sở dữ liệu mẫu để phân biệt kiểu của đối tượng. Đầu ra của bước đánh dấu được dùng để đạt được sự thống nhất theo thời gian trong bước phân loại. Thuật toán đánh dấu đối tượng này tận dụng các đặc trưng của đối tượng đã được trích rút cùng với sự phối hợp phù hợp được xây dựng trong bước trước để làm cho phù hợp với các đối tượng sau khi xảy ra trường hợp bị che khuất. Đầu ra của bước đánh dấu là thông tin về đường đi của đối tượng được dùng để tính toán hướng và tốc độ của các đối tượng trong cảnh. Sau khi chắt lọc thông tin của các đặc điểm trên các đối tượng như loại, đường đi, kích cỡ và tốc độ với mức độ riêng biệt của các mức xử lý cao, có thể được áp dụng trên các dữ liệu đó. Một khả năng sử dụng thời gian thực là đặt cảnh báo bằng tiền điều kiện với các vị từ như: “Một người di chuyển theo phương d với tốc độ lớn hơn s sinh ra cảnh báo a1.” hoặc “một cái xe dừng lại ở một vị trí l trong khoảng thời gian hơn t phút sinh ra cảnh báo a2.”. Một cách khác là ta có thể tạo ra một tham chiếu trên dữ liệu Video đã được lưu trữ cho việc tìm kiếm thông minh và độc lập. Cả hai cách trên đều là các điều kiện cần thiết của hệ thống giám sát để tăng thêm thời gian cần thiết để giám định các sự kiện. 2.1.1. Phát hiện nổi trội Ta sử dụng phối hợp các mô hình nền và các phương pháp hậu xử lý ảnh mức thấp để tạo ra bản đồ điểm nổi bật và trích rút các đặc trưng của đối tượng ở mỗi frame của Video. Các mô hình nền nói chung có 2 giai đoạn phân biệt trong xử lý: khởi tạo và cập nhật. 28 2.1.1.1 Mô hình trừ nền có khả năng thích ứng Sự thực thi của thuật toán trừ nền này làm việc trên mức xám của ảnh Video từ một camera tĩnh [4]. Phương pháp trừ nền này khởi tạo một nền tham khảo với một số frame đầu tiên của Video đầu vào. Sau đó, nó trừ giá trị cường độ của mỗi điểm ảnh trong ảnh hiện thời cho giá trị tương ứng trong ảnh nền tham khảo. Sự khác nhau này được lọc với một ngưỡng thích hợp cho từng điểm ảnh để giải thích nguyên nhân sự thay đổi của các điểm ảnh nhiễu. Gọi In(x) là biểu diễn của giá trị cường độ mức xám ở điểm ảnh có vị trí (x) và ở trường hợp thứ n của dãy Video I thuộc trong đoạn [0,255]. Gọi Bn(x) là giá trị cường độ nền tương ứng cho điểm ảnh ở vị trí (x) ước lượng theo thời gian từ ảnh Video I0 đến In-1. Một điểm ảnh ở vị trí (x) trong ảnh hiện thời thuộc thành phần nổi trội nếu nó thỏa mãn: |In(x) – Bn(x)|>Tn(x) (2.1) Trong đó Tn(x) là giá trị ngưỡng có khả năng thích hợp được khởi tạo cùng với ảnh Video đầu tiên I0, B0 = I0, và ảnh ngưỡng được khởi tạo bởi giá trị đã được xác định trước. Vì hệ thống này sẽ được dùng cho cả trong và ngoài nhà nên mô hình nền cần tự thích ứng với các thay đổi động như sự thay đổi toàn bộ ánh sáng (chuyển giữa ngày và đêm) và cập nhật nền một thời gian dài (một cái xe đỗ trước một tòa nhà). Vì thế nền cơ sở và các ảnh ngưỡng phải được cập nhật liên tục từ các ảnh đầu vào. Sự phối hợp cập nhật này là khác nhau đối với các vị trí điểm, chẳng hạn như một điểm x  FG thì sẽ khác với x BG :       FGxxIxB BGxxIxB xB nn nn n ),()1()( ),()1()( )(1   (2.2) 29       FGxxT BxxBxIxT xT n nnn n ),( ),()()(1()( )(1  (2.3) Trong đó   0.1,0.0,  là các hằng số chỉ ra rằng có bao nhiêu thông tin từ các ảnh vào được đẩy vào nền và các ảnh ngưỡng. Nói cách khác, nếu mỗi điểm ảnh nền được coi như là chuỗi các lần, các ảnh nền là một giá trị trung bình của trọng số vùng theo thời gian của chuỗi các ảnh đầu vào và ảnh ngưỡng là giá trị trung bình của trọng số vùng của  lần khác nhau của các ảnh đầu vào và nền đó. Các giá trị α,  và  được định rõ qua thực nghiệm bởi các Video clip ở cả bên trong và bên ngoài nhà. Ta cập nhật nên cho tất cả các kiểu cũ các điểm ảnh (x  FG, x  BG). Trong các phương pháp trừ nền, ảnh nền nguồn chỉ được cập nhật cho các điểm ảnh thuộc nền (x  BG) Điểm tinh vi trong việc cập nhật này là chọn ra giá trị cho . Nếu nó quá nhỏ, các đối tượng nổi bật sẽ dẫn đến sự phân đoạn sai lệch trong các frame sau. Cũng từ đó mà việc sẽ ít có khả năng phát hiện các đối tượng đã dừng lại. Nếu nó quá lớn, các đối tượng có thể không bao giờ được phổ biến đến ảnh nền, mô hình nền như thế sẽ không thích hợp cho sự thay đổi thời hạn lâu dài của cảnh vật. 30 Ví dụ : (a) (b) (c) 31 Hình 2.1 : Ảnh (a) là ước lượng nền cơ sở, ảnh (b) thu được ở bước tiếp theo. Ảnh (c) thể hiện bản đồ điểm ảnh nổi trội phát hiện được bằng cách sử dụng phép trừ nền. 2.1.1.2. Mô hình hỗn hợp Gaussian tương thích Stauffer và Grimson [17] đã trình bày mô hình hỗn hợp nền trực tuyến tương thích có thể giải quyết đơn giản sự thay đổi của ánh sáng, các chuyển động lặp đi lặp lại, sự hỗn loạn, các đối tượng dời đi từ các cảnh và các đối tượng chuyển động chậm. Chuyển động của chúng ở mô hình nền đơn không thể điều khiển nhiễu, sự thay đổi ánh sáng và sự đa dạng mặt ngoài nhận được từ ảnh đối với mỗi phần của điểm ảnh ở cùng một thời điểm. Trong mô hình này, các giá trị của một điểm ảnh riêng lẻ theo thời gian được coi như là một ‘‘xử lý điểm’’ và sự kiện gần đây của các điểm ảnh, {X1,,Xt}, được mô hình bởi hỗn hợp của phân phối Gaussian K. Khả năng của việc quan sát giá trị của điểm ảnh hiện thời trở thành:       K i titittit XXP 1 ,,, ,,*  (2.4) Trong đó, i,t là một ước lượng trọng số thứ i của Gaussian (Gi,t) trong hỗn hợp ở thời điểm t, i,t là giá trị trung bình của Gi,t và i,t là ma trận hợp của Gi,t và  là một hàm mật độ khả năng Gaussian:       )()( 2 1 2 1 2 1 )2( 1 ),,( tt T tt XX nt eX    (2.5) Việc giải quyết trên K được quyết định bởi sự sẵn sàng của bộ nhớ và sức mạnh của tính toán. Ngoài ra, ma trận hợp nhất được thừa nhận là mẫu sau với hiệu quả tính toán 2 , ktk  I (2.6) 32 Nó thừa nhận ba màu thành phần red, green, blue là độc lập và có cùng biến. Thủ tục cho việc phát hiện các điểm ảnh nổi trội cụ thể như sau. Bước đầu của hệ thống, các phân bố Gaussian K cho một điểm ảnh được khởi tạo với giá trị trung bình được định nghĩa trước, sự khác biệt cao và trọng số ban đầu thấp. Khi một điểm ảnh mới được phát hiện trong dãy ảnh, xác định rõ kiểu của nó, vector RGB của nó được đánh dấu tương phản với các Gaussian K, cho đến khi một điểm tương ứng được tìm thấy. Một điểm tương ứng được định nghĩa như là một giá trị điểm ảnh không vượt quá chuẩn  (=2.5) của một phân bố. tiếp theo, các trọng số chu kỳ của các phân bố K ở thời điểm t, k,t được cập nhật như sau: ),1,, ()1( tktktk M   (2.7) Trong đó α là tỷ lệ và Mk,t bằng 1 tương ứng với phân bố Gaussian và bằng 0 tương ứng với các phân bố còn lại. Sau bước này, các trọng số ban đầu của các phân bố được bình thường hóa và các tham biến của Gaussian phù hợp được cập nhật với sự theo dõi mới như sau : )()1( 1 ttt X   (2.8) )()()1( 2 1 2 tt T tttt XX    (2.9) Trong đó : ),|( kktX  (2.10) Nếu không tìm thấy điểm ảnh tương tự cho điểm ảnh theo dõi mới, phân bố Gaussian với khả năng thấp nhất được thay đổi với một phân bố mới với giá trị điểm ảnh hiện thời như là giá trị trung bình của nó, một khởi tạo với sự khác biệt cao và trọng số ban đầu thấp. 33 Để phát hiện ra kiểu của điểm ảnh mới, các phân bố Gaussian K được sắp xếp theo giá trị của  / . Danh sách đã sắp xếp của các phân bố này tương ứng với hầu hết các nền có khả năng từ đỉnh tới đáy trong công thức (2.7), các xử lý điểm ảnh nền thực hiện phân bố Gaussian tương ứn khi khởi tạo với giá trị trọng số ban đầu lớn và sự cách biệt nhỏ (a) (b) Hình 2.2 : Hai cách nhìn khác nhau về một ví dụ xử lý điểm Khi đó các phân bố B đầu tiên được chọn như là mô hình nền, trong đó : B=argminb         b k k T 1  (2.11) Và T là phần nhỏ nhất của dữ liệu pixel được cho là của nền. Nếu một giá trị nhỏ được chọn cho T, nền thường được mô hình thống nhất. 34 2.1.1.3. Sự khác biệt theo thời gian Sự khác biệt theo thời gian làm cho việc sử dụng các mức độ khác nhau của điểm ảnh giữa hai hoặc ba frame liên tiếp trong Video để trích rút các vùng chuyển động. Nó là một hướng tiếp cận phù hợp cho sự thay đổi các cảnh động ; như vậy, nó sai khi trích rút tất cả các điểm ảnh liên quan của một đối tượng nổi trội, nhất là khi đối tượng đó có kết cấu thống nhất hoặc chuyển động chậm. Khi một đối tượng dừng chuyển động, phương pháp khác biệt theo thời gian sai khi phát hiện sự thay đổi giữa các frame liên tiếp và để mất đối tượng. Các thuật toán hỗ trợ đặc biệt được yêu cầu để phát hiện các đối tượng dừng lại. Ta bổ sung thêm phương pháp sự khác biệt theo thời gian thêm 2 frame trong hệ thống này. Đặt In(x) là giá trị cường độ của mức xám của pixel ở vị trí (x) và ở thời điểm n của dãy ảnh Video I thuộc vào đoạn [0, 255]. Sự phối hợp khác biệt theo thời gian của 2 frame này đề nghị thừa nhận là một điểm ảnh đang chuyển động nếu nó thỏa mãn như sau: )()()( 1 xTxIxI nnn  (2.12) Từ đó, nếu một đối tượng có các vùng màu sắc thống nhất, công thức 2.12 sai khi phát hiện một trong số các điểm ảnh bên trong vùng đó nếu như đối tượng chuyển động, Ngưỡng của mỗi điểm ảnh, T, khởi tạo thiết lập một giá trị quyết định trước và sau đó cập nhật như sau :        FGxxT BxxIxIxT xT n nnn n ),( ),()()(1()( )( 11  (2.13) Việc bổ sung thêm 2 frame khác nhau có thể được thực hiện bởi việc lợi dụng mô hình các tham biến cập nhật của phương pháp trừ nền thể hiện trong 35 công thức 2.2. Nếu α và  bằng 0, nền này chứa ảnh In-1 và sự phối hợp trừ nền trở thành y hệt như cách bổ sung thêm 2 frame khác nhau. 2.1.2. Bước hậu xử lý điểm ảnh Các nhân tố khác nhau là nguyên nhân gây nhiễu trong việc phát hiện cận cảnh như là : - Nhiễu camera : nhiễu này nguyên nhân do các thành phần thu nhận được từ ảnh của camera. Cường độ của các điểm tương tự như một gờ nằm giữa hai đối tượng khác nhau về màu sắc trong một cảnh có thể bị nhập thành một thuộc về màu của một đối tượng trong một frame và thành một màu khác trong một frame khác. - Nhiễu do phản xạ : khi một nguồn sáng, chẳng hạn như mặt trời, chuyển động, nó làm cho một số phần trong cảnh nền phản xạ ánh sáng. Hiện tượng này làm cho các thuật toán phát hiện nổi trội sai và phát hiện phần phản xạ như là các vùng nổi bật. - Nhiễu đối tượng có cùng màu với nền : một số phần của các đối tượng có thể có cùng màu sắc như nền cơ sở đằng sau chúng. Sự tương đồng này là nguyên nhân làm cho một số các thuật toán phát hiện các điểm ảnh đó như không phải là điểm nổi bật và các đối tượng bị phân đoạn thiếu chính xác. - Sự thay đổi ánh sáng đột ngột và bóng : bóng đổ từ các đối tượng được phát hiện như điểm nổi bật bởi hầu hết các thuật toán phát hiện. Ngoài ra, sự thay đổi ánh sáng đột ngột làm cho các thuật toán sai khi phát hiện chính xác các đối tượng thực sự nổi bật. 36 (a) (b) (c) (d) Hình 2.3 : Ví dụ về bước khử nhiễu pixel (a)Ảnh nền ước lượng ; (b) : Ảnh hiện thời ; (c) : Các vùng nổi bật phát hiện trước khi khử nhiễu ; (d) : Các vùng nổi bật phát hiện sau khi khử nhiễu 2.1.2.1. Phát hiện bóng và sự thay đổi ánh sáng đột ngột Hầu hết các thuật toán phát hiện nổi trội đều dễ bị ảnh hưởng bởi bóng và các thay đổi đột ngột của ánh sáng, đó là nguyên nhân phân đoạn nổi trội không đúng. Với các bước xử lý sau như phân loại đối tượng và đánh dấu yêu cầu có sự chính xác trong việc phân đoạn đối tượng, Việc đối phó với bóng và các thay đổi đột ngột của ánh sáng là rất quan trọng trong các hệ thống giám sát thông minh. 37 Trong bài này, ta sử dụng phối hợp phát hiện bóng. Ta làm rõ rằng các điểm ảnh trong các vùng vector màu RGB ở trong cùng một hướng với các vector màu RGB của các điểm ảnh nền tương ứng với một số lượng chênh lệch nhỏ và giá trị độ sáng của bóng điểm ảnh là nhỏ hơn độ sáng của các điểm nền tương ứng. Để định nghĩa chính thức điều này, ta đặt Ix là màu RGB của một điểm ảnh của ảnh hiện thời ở vị trí x, và Bx là màu RGB của điểm ảnh nền tương ứng. Hơn nữa, đặt xIˆ là vector mà được bắt đầu ở gốc O(0,0,0) trong không gian màu RGB và kết thúc ở điểm Ix, đặt xBˆ là vector của điểm nền tương ứng với Bx và đặt dx là phép nhân (.) giữa xIˆ và xBˆ . Hình 2.6 thể hiện các điểm và các vector trong không gian màu RGB. Sự phối hợp phát hiện bóng ở đây phân loại một điểm ảnh là một phần của vùng nổi bật được phát hiện như là bóng nếu thỏa mãn :           x x x x x B B I I d ˆ ˆ ˆ ˆ (2.14) Và xx BI ˆˆ  (2.15) Trong đó τ là ngưỡng định nghĩa trước gần với một. Phép nhân (.) được dùng để kiểm tra xem xIˆ và xBˆ có cùng hướng hay không. Nếu phép nhân này (dx) của xIˆ và xBˆ gần đến một, nó chỉ ra rằng chúng hầu hết ở cùng một hướng với lượng khác biệt nhỏ. Lần kiểm tra thứ hai được thực hiện để bảo đảm rằng giá trị ánh sáng của Ix là nhỏ hơn Bx. Hình 2.7 thể thể hiện một ví dụ các vùng cận cảnh với các bóng trước và sau khi xóa bóng. Bên cạnh việc xóa bóng, việc phát hiện sự thay đổi ánh sáng đột ngột cũng là một yêu cầu cần thiết đáp ứng hệ thống giám sát thông minh để tiếp tục phát hiện và phân tích đối tượng một cách chính xác. Một sự thay đổi tổng 38 thể có thể dẫn đến nhiều trường hợp do mặt trời bị hoặc không bị che khuất bởi mây trong môi trường bên ngoài hoặc do bật đèn trong nhà. Cả hai sự thay đổi đó làm cho ánh sáng thay đổi đột ngột trong cảnh mà mô hình nền tương thích không thể điều khiển được. Hình 2.4 thể hiện một ví dụ các frame trước và sau khi ánh sáng thay đổi đột ngột. Một thực tế cho thấy rằng sự thay đổi ánh sáng tổng thể một cách đột ngột là nguyên nhân dẫn đến các mô hình nền phân loại với tỷ lệ lớn (>50%) của các điểm ảnh trong cảnh như là điểm nổi bật. Như vậy, trong một số tình huống, các đối tượng thông thường chuyển động rất gần camera, giả định này quá đơn giản và sai lầm. Theo đó, mục đích của sự phân biệt thay đổi ánh sáng tổng thể từ chuyển động của một đối tượng lớn, ta làm một kiểm tra khác bằng cách dựa vào thực tế rằng trong trường hợp thay đổi ánh sáng tổng thể, sự thay đổi về hình dáng và kích cỡ của các biên đối tượng trong một cảnh không thay đổi quá nhiều và đường bao xung quanh của các vùng cận cảnh được phát hiện không phù hợp với các biên thực tế trong cảnh trong khi trong trường hợp chuyển động của một đối tượng lớn thì đường bao các vùng nổi bật được phát hiện phù hợp với các đường biên thực tế trong ảnh. 39 Hình 2.4 : Các vector RGB của pixel ảnh hiện thời xIˆ và pixel nền tương ứng xBˆ (a) (b) (c ) (d) Hình 2.5 : Ví dụ về xóa bóng. (a) : Nền ước lượng ; (b) : ảnh hiện thời ; (c) : Các pixel nổi bật được phát hiện (thể hiện ở màu đỏ) và các pixel bóng (Thể hiện màu xanh lá) ; (d) : Các pixel sau khi đã được xóa bóng 40 (a) (b) Hình 2.6 : Ví dụ về sự thay đổi ánh sáng đột ngột (a) Cảnh trước khi ánh sáng đột ngột thay đổi, (b) Cùng cảnh đó sau khi ánh sáng đột ngột thay đổi. Để kiểm tra xem các đường bao của các vùng phát hiện có phù hợp với các đường biên thực sự trong ảnh hiện thời hay không, ta tận dụng các gradient của ảnh hiện thời và của ảnh nền. Các gradient được tìm bằng cách lấy ánh sáng khác nhau giữa các điểm ảnh liên tiếp trong các ảnh theo hai hướng dọc và ngang. Sau khi các gradient được tìm kiếm ở cả nền và ảnh hiện thời, một ngưỡng được áp dụng và đầu ra được biến đổi thành nhị phân. Khi đó, các gradient của ảnh khác của nền và ảnh hiện thời được tính toán để tìm được duy nhất các đường biên phù hợp với các vùng chuyển động. Hình 2.7 thể hiện các ảnh gradient cho nền và các ảnh hiện thời. Kết quả cuối cùng, vùng nổi trội được phát hiện được co lại từ bề ngoài về bên trong cho đến khi vấp phải một điểm biên trong gradient của ảnh khác. Nếu kết quả vùng nổi trội này là rất nhỏ so với nguyên bản, thì đây là một dấu hiệu của sự thay đổi ánh sáng tổng thể, vì thế mô hình nền được khởi tạo lại với các ảnh hiện thời và một số các ảnh được cho phép. Các ảnh có sóng cũng có thể được sử dụng thay cho các gradient để phân biệt sự thay đổi ánh sáng tổng thể một cách đột ngột. 41 (a) (b) ( c) (d) ( e) 42 Hình 2.7 : Phát hiện sự thay đổi ánh sáng thực sự. (a) Nền cơ sở ước lượng ; (b) gradient của nền ; (c) ảnh hiện thời ; (d) gradient của ảnh hiện thời ; ( e) sự khác biệt gradient. (a) (b) ( c) Hình 2.8 : Ví dụ về đánh nhãn các thành phần liên tục. (a) Nền ước lượng ; (b) ảnh hiện thời ; ( c) các điểm ảnh nổi bật được lọc và liên kết và đánh nhãn các vùng với các hộp bao xung quanh. 2.1.3. Phát hiện các vùng liên tục Sau khi phát hiện các vùng nổi bật và ứng dụng các phép toán hậu xử lý để xóa các vùng nhiễu và bóng. Các điểm ảnh nổi bật đã được lọc được nhóm vào các vùng liên tục (các khối) và được đánh nhãn bằng cách sử dụng thuật 43 toán đánh nhãn thành phần liên tục 2 bước. Sau khi tìm các khối màu độc lập tương ứng với các đối tượng, các hộp bao xung quanh của các vùng đó được tính toán. 2.1.4. Bước hậu xử lý vùng Ngay sau bước loại bỏ nhiễu, một vài vùng tự tạo nhỏ còn lại làm cho việc phân đoạn đối tượng không đúng. Để khử các vùng loại này, kích cỡ vùng trung bình () trong giới hạn của các điểm ánh được tính toán cho mỗi frame và các vùng có kích cỡ nhỏ hơn một số thập phân (α) của kích cỡ vùng trung bình (Size(region)<α* ) bị xóa khỏi bản đồ điểm nổi bật. Mặt khác, về các lỗi phân đoạn, một vài phần của các đối tượng được tìm thấy không liên tục từ thân chính. Để hiệu chỉnh nhược điểm này, các hộp bao xung quanh của một vùng là độc lập với các vùng khác mà chúng được trộn lẫn cùng nhau và các nhãn vùng được điều chỉnh. 2.1.5. Trích rút các đặc trưng của đối tượng Ngay khi ta phân đoạn các vùng, chúng ta trích rút các điểm đặc trưng của các đối tượng tương ứng trong ảnh hiện thời. Các điểm đặc trưng đó là kích thước (S), điểm trung tâm của khối (Cm), lược đồ màu (Hc) và đường viền các đốm màu của đối tượng. Việc tính toán kích thước của đối tượng là không quan trọng và ta chỉ đếm số các điểm ảnh nổi bật mà được chứa trong hộp bao của đối tượng. Để tính toán điểm chính giữa của khối điểm, Cm =(xCm,yCm), của một đối tượng O, ta dùng công thức sau [16] : n y yC n x xC n i i m n i i m   , (2.16) 44 Trong đó n là số điểm ảnh trong O Lược đồ màu, Hc được tính toán trên các giá trị cường độ đơn sắc của các điểm ảnh của đối tượng trong ảnh hiện thời. Để giảm độ phức tạp tính toán của các phép toán sử dụng cho Hc, các giá trị màu được lượng tử hóa. Đặt N là số khoảng cách (bin) trong lược đồ, khi đó mọi khoảng cách bao gồm N 255 giá trị màu. Lược đồ màu được tính toán bởi sự lặp đi lặp lại trên các điểm ảnh của O và tốc độ tăng lên của giá trị lưu trữ của khoảng cách màu tương ứng trong lược đồ, Hc. Với mỗi đối tượng O, lược đồ màu đươc cập nhật như sau: Oc N c H N c H i i c i c             ,1 (2.17) Trong đó ci mô tả giá trị màu sắc của điểm ảnh thứ i. Trong bước tiếp theo, lược đồ màu sắc được chuẩn hóa cho phép thích hợp để so sánh với các lược đồ khác trong các bước sau. Lược đồ chuẩn hóa cHˆ được tính như sau     N i c c iH iH ciHˆ (2.18) 2.2. Giám sát đối tượng chuyển động Mục đích của đánh dấu đối tượng là thiết lập sự tương ứng giữa các đối tượng và các phần của đối tượng trong các frame liên tục và để trích rút thông tin theo thời gian về các đối tượng như đường đi, tư thế, tốc độ và phương hướng. Đánh dấu các đối tượng được phát hiện từ frame này đến frame khác trong Video là nhiệm vụ khó khăn và mang nhiều ý nghĩa. Nó là phần chủ yếu của các hệ thống giám sát thông minh, trong khi các đối tượng chưa được đánh dấu, hệ thống không thể trích rút thông tin đi kèm theo thời gian về các đối tượng và các bước phân tích điều khiển ở mức cao hơn sẽ không thể thực hiện. Mặt khác, phân đoạn đối tượng nổi bật không đúng do các bóng, sự 45 phản xạ ánh sáng và các tình trạng bị chồng chéo làm cho việc đánh dấu là một vấn đề nghiên cứu khó khăn. Ta sử dụng một thuật toán đánh dấu mức đối tượng trong hệ thống này. Tức là, ta không đánh dấu các phần đối tượng, như là các chi của người, nhưng ta đánh dấu đối tượng nguyên vẹn từ frame đến frame. Các thông tin trích rút được ở mức này đều đầy đủ cho hầu hết các ứng dụng giám sát thông minh. Hướng tiếp cận này sử dụng các đặc điểm của đối tượng như kích thước, tâm của khối, hộp bao xung quanh và lược đồ màu sắc được trích rút từ các bước trước để xác minh sự liên hệ giữa đối tượng trong các frame liên tiếp [1]. Hơn nữa, thuật toán này phát hiện đối tượng bị bít kín và phân biệt các đặc điểm của đối tượng sau khi chia nhỏ các đối tượng bị bít kín. Bằng cách phân tích thông tin về đường đi của đối tượng, hệ thống phát hiện này có thể phát hiện các đối tượng rời đi và biến mất rất tốt. Lược đồ của hệ thống theo phương pháp đánh dấu này thể hiện trong lược đồ 2.2 46 Lược đồ 2.2: Lược đồ hệ thống đánh dấu đối tượng 2.2.1. Tham chiếu tương tự với các đối tượng cơ bản Biểu đồ hoạt động của thuật toán tham chiếu đối tượng thích hợp cơ bản được thể hiện trong lược đồ 2.3. Bước đầu tiên trong thuật toán đánh dấu đối tượng này là tham chiếu đến các đối tượng (Op’s) trong ảnh trước (In-1) đến các đối tượng mới (Oi’s) phát hiện được trong ảnh hiện thời (In). Phát hiện đối tượng và rút trích đặc trưng Tham chiếu các đối tượng dựa trên sự tương tự Phát hiện và điều khiển sự chồng chéo và tách đối tượng Phát hiện các đối tượng dời đi hoặc biến mất Thông tin về đường đi của đối tượng Đồ thị tương ứng của đối tượng đã được cập nhật Đồ thị tương ứng của đối tượng Các đối tượng mới & đặc trưng Cập nhật Các đối tượng trước 47 Lược đồ 2.3: Phương pháp tham chiếu đối tượng phù hợp cơ bản Op có gần giống với Oi không? Đối tượng tiếp theo của In? Op có tương tự với Oi không? Kết thúc Có tương tự mới tốt hơn của Oi không? Cập nhật tất cả các tương tự Có Với tất cả các Op trong In-1 Với tất cả các Oi trong In Không Có Khai báo một khởi tạo tương tự Không Có Có Không Giữ lại tương tự cũ Không Có Không Với tất cả Op trong In-1 Với tất cả Oi trong In Op có thực sự tương tự với Ok không? So sánh sự tương tự của Oi và Ok với Op 48 Hình 2.9: Ví dụ về đồ thị tham chiếu đối tượng Ta lưu tham chiếu của các đối tượng trong đồ thị chia làm hai phần gốc (Bi – partite) G(m,n). Trong đồ thị này, các đỉnh biểu diễn các đối tượng (một lớp đỉnh biểu diễn các đối tượng trước Op’s và phần còn lại biểu diễn các đối tượng mới Oi’s) và các đường nối biểu diễn một tham chiếu giữa hai đối tượng. Trong G(m,n), m là kích cỡ của các đối tượng trước và n là kích cỡ của các đối tượng mới. Một đồ thị tham chiếu đơn giản thể hiện trong hình 3.13. Để thực hiện việc tham chiếu đối tượng, ta lặp đi lặp lại trên một danh sách của các đối tượng trước và các đối tượng mới để đánh giá sự tương tự của chúng. Với mỗi đối tượng trước, Op, ta đánh giá với tất cả các đối tượng mới và bắt đầu kiểm tra xem một đối tượng mới Oi trong danh sách các đối tượng mới có thể thành một cặp với Op hay không. Ngưỡng để kiểm tra sự tương thích được định nghĩa như là khoảng cách giữa điểm chính giữa của khối của hai đối tượng (Op và Oi) là nhỏ hơn một hằng đã được định nghĩa trước. Việc kiểm tra này được thúc đẩy bởi thực tế rằng sự thay đổi chỗ của một đối tượng giữa các ảnh liên tiếp chỉ nên xẩy ra rất nhỏ. Nói một cách khác, hai đối tượng với các điểm trọng tâm cp và ci được coi là gần nhau nếu thỏa mãn: ),( ip ccDist (2.19) Trong đó hàm Dist() được định nghĩa như là khoảng cách Euclidean giữa hai điểm: Các đối tượng trước , Op’s Các đối tượng mới , Oi’s 49 22 )()(),( ipip ccccip yyxxccD st  (2.20) Trong khi mỗi cặp đối tượng tạo thành một đôi thuộc về một ngưỡng không đảm cần thiết là một sự tham chiếu thành công, trong bước tiếp theo, ta kiểm tra sự tương tự của các cặp đó để cải thiện việc tham chiếu chính xác hơn. Tiêu chuẩn để so sánh tượng tự là tỉ lệ kích cỡ của các đối tượng. Hai đối tượng khác biệt được coi là tương tự nếu nó thỏa mãn:  i p s s hoặc  p i s s (2.21) Trong đó si là kích cỡ của đối tượng Oi và μ là một ngưỡng được định nghĩa trước. Việc kiểm tra các đối tượng theo kích thước là rất hữu ích nếu một đối tượng trong frame trước tách ra thành một vùng lớn và một vùng rất nhỏ thì phân đoạn không đúng. Việc kiểm tra này loại trừ khả năng tham chiếu giữa một vùng lớn và một vùng nhỏ. Nếu chúng ta chỉ thực hiện hai bước trên, ta sẽ tới gần với các trường hợp mà ở đó đối tượng trước được tham chiếu đến nhiều hơn một đối tượng mới.. Như vậy, sau bước thứ hai ta kiểm tra khả năng đối tượng Op có thực sự tham chiếu/ tương tự thêm nữa hay không. Nếu đối tượng Op không có sự tương ứng đầu tiên, ta kết nối đến đỉnh tương ứng trong đồ thị bi-partite G(m,n) và tiếp tục với đối tượng mới tiếp theo là Oi, nhưng nếu Op có một tương tự đầu tiên là Ok, ta thực hiện thêm một bước để giải quyết sự xung đột. Trong việc giải quyết xung đột tham chiếu ta so sánh các sự tương tự của các đối tượng Oi và Ok với Op, ta cố gắng lựa chọn một trong hai là Oi hoặc Ok là tham chiếu đúng của đối tượng Op. Sự tương ứng này được so sánh bằng cách sử dụng khoảng cách giữa điểm trọng tâm của các khối của Op và Oi hoặc Ok. Đặt dpi là khoảng cách giữa trọng tâm của Op và Oi, dpk là khoảng cách giữa điểm trọng tâm của Op và Ok. Sự tương ứng này được giải quyết với 50 sự thiên về Ok nếu dpk<dpi hoặc ngược lại sẽ chọn Oi. Chúng ta có thể sử dụng các chuẩn mạnh hơn trong tham chiếu, như là so sánh lược đồ màu sắc, Một trường hợp xung đột khác nảy sinh trong trường hợp nếu Oi có một đối tượng tương ứng từ đầu đã được xác lập trong danh sách các đối tượng trước đó. Chẳng hạn, Op-1 có thể là tham chiếu của Oi, và trong khi lặp lại việc tìm kiếm tham chiếu lần tiếp theo cho Op, rất có thể rằng Oi sẽ trở thành tham chiếu của Op. Nhưng ta biết Oi đã có đối tượng tương ứng là Op-1. Do đó, nguyên nhân xung đột đối tượng tương ứng tương tự như trường hợp này đòi hỏi ta phải đưa ra cách giải quyết bằng cách sử dụng phối hợp khoảng cách cơ sở thể hiện trong đồ thị trước. Trong khi xác lập tham chiếu giữa các đối tượng trước và các đối tượng mới có 5 trường hợp tham chiếu khác nhau, ta có thể nêu ra như sau: - One – to – one: Mỗi đối tượng trước Op được tham chiếu với một đối tượng đơn Oi. Các đặc điểm của Op được cập nhật thêm thông tin từ Oi - One – to – many: Mỗi đối tượng trước Op được tham chiếu với nhiều hơn một đối tượng mới. Trường hợp xung đột này sẽ được giải quyết bởi việc so sánh khoảng cách cơ sở và nó quay về trường hợp thứ nhất. - One – to – none: Mỗi đối tượng trước Op không tham chiếu đến bất kỳ đối tượng mới nào. Trường hợp này xảy ra nếu một đối tượng biến mất từ cảnh hoặc nếu đối tượng này được bị che khuất bởi các đối tượng khác. Trong trường hợp bị che khuất, đối tượng này sẽ được giữ lại trong quá trình phát hiện của đối tượng tương ứng bị bít kín tách ra, nếu không thì đối tượng này sẽ bị xóa khỏi danh sách trước. 51 - None – to – one: Trường hợp một đối tượng mới Oi không tham chiếu đến bất kỳ một đối tượng nào trong các đối tượng đã tồn tại. Trường hợp này xảy ra nếu một đối tượng mới được thêm vào trong cảnh hoặc các đối tượng bị che khuất tách ra. Trong trường hợp một đối tượng bị che khuất tách ra (sẽ được mô tả ở phần tiếp theo) nếu nó là một đối tượng mới được thêm vào, đối tượng Oi được thêm vào danh sách các đối tượng được đánh dấu. - Many – to – one: Trường hợp một đối tượng mới Oi được tham chiếu với nhiều hơn một đối tượng trước đó. Trường hợp xung đột này được giải quyết bởi việc so sánh sự tương ứng về khoảng cách cơ bản và trở thành trường hợp 1 (n-1)st frame ntn frame Hình 2.10: Ví dụ về trường hợp phát hiện đối tượng bị che khuất 2.2.2. Điều khiển sự chồng chéo của các đối tượng Hầu hết các phương pháp phát hiện đối tượng không thể phát hiện các đối tượng bị che lấp. Vì thế, công nghệ đặc biệt này mong muốn đánh dấu các đối tượng ngay cả trong các trường hợp bị che khuất. Hệ thống đánh dấu này sử dụng phương pháp đánh giá dựa trên kinh nghiệm đơn giản để phát hiện và tách các nhóm đối tượng bị che lấp và phân biệt các đối tượng đồng dạng. 52 2.2.2.1 Phát hiện các đối tượng bị che khuất Ta sử dụng một giả định đơn giản trong việc phát hiện sự che khuất. Khi một đối tượng Op được phát hiện biến mất bằng cách dùng thuật toán tham chiếu đối tượng ban đầu (trường hợp 2, mục 2.2.1), ta kiểm tra xem có một đối tượng mới Oi nào có đường bao xung quanh che lên Op và nó được tham chiếu bởi đối tượng trước là Ot. Trong trường hợp thế này, có khả năng cao là Op và Ot bị che khuất bởi một đối tượng khác có hình dạng mới là Oi. Sau khi phát hiện ra trường hợp này, ta không xóa bỏ đối tượng Op ở trong danh sách các đối tượng trước nhưng đánh dấu là nó bị che khuất. Ta tạo ra một nhóm các đối tượng bị che khuất từ các đối bị che khuất này và chỉ định một nhóm che khuất ID mới cho các đối tượng đó. Với trường hợp, nếu một trong các đối tượng bị che khuất đã tồn tại trong nhóm ID, ta trộn các nhóm bị che khuất lại thành một. Ta cũng lưu lại lược đồ màu trước khi bị che khuất của các đối tượng để sử dụng trong xử lý nhận dạng sau khi tác ra. 2.2.2.2. Phát hiện các đối tượng tách ra Ta cũng dựa theo kinh nghiệm để phát hiện các đối tượng tách ra sau khi bị che khuất. Khi một đối tượng Oi được tìm thấy trong một cảnh bởi thuật toán tham chiếu đối tượng, ta kiểm tra xem có đối tượng trước Ot có đường bao che khuất Oi và có giá trị trong nhóm ID và được tham chiếu bởi một đối tượng mới là Ok. Trong trường hợp này có thể coi như là một đối tượng vừa tách ra. Ta kiểm tra danh sách đối tượng trước về các đối tượng có cùng nhóm bị che khuất ID với Op xem liệu có phải Op và Ot cùng bị che lấp bởi một đối tượng trước đó không. Khi đó ta có 2 đối tượng đánh dấu TO={Op, Ot} và hai đối tượng mới NO={Oi,Ok}. Bây giờ, ta cần nhận dạng đối tượng trong TO tương ứng với đối tượng trong NO. 53 2.2.2.3. Lược đồ cơ sở tham chiếu tương ứng Để tham chiếu các đối tượng trong TO đến các đối tượng tương ứng trong NO, ta sử dụng cách lưu lại lược đồ màu trước khi bị che khuất của việc đánh dấu các đối tượng và lược đồ màu của các đối tượng mới. Dù ta không thể tham chiếu các đối tượng cơ bản ở vị trí của chúng, sử dụng khoảng cách là không khả thi trong trường hợp này. Như vậy, để so sánh sự tương tự của các đối tượng, ta sử dụng khoảng cách lược đồ màu. Khoảng cách dab giữa hai lược đồ màu thông thường Ha và Hb với N bin được tính toán bằng cách sử dụng ma trận L1 như sau:    N i baab iHiHd (2.22) Từ giờ ta giữ hai lược đồ của mỗi đối tượng, một cao hơn phần thân của đối tượng và một thấp hơn, ta tính toán toàn bộ khoảng cách bằng cách tổng kết các khoảng cách giữa các lược đồ màu tương ứng của các đối tượng. Đó là: dtotal = dupper histogram +dlower histogram (2.23) Sau đây là một ví dụ về các đối tượng và các histogram trước và sau khi che khuất và bảng khoảng cách của chúng (a) (b) 54 ( c) (d) (e) (f) Đối tượng A sau Đối tượng B sau Đối tượng A trước 0.283156 0.467758 Đối tượng B trước 0.358641 0.241878 (g) Hình 2.11: Nhận dạng đối tượng sau khi che khuất (a) Ảnh trước khi che lấp (b) Ảnh sau khi che lấp (c) Histogram màu của đối tượng A trước khi che lấp (d) Histogram màu của đối tượng B trước khi che lấp (e) Histogram màu của đối tượng A sau khi che lấp (f) Histogram màu của đối tượng B sau khi che lấp (g) Bảng khoảng cách histogram màu của các đối tượng A, B 55 2.2.3. Phát hiện các đối tượng dời đi và các đối tượng bị loại bỏ Khả năng phát hiện sự dời đi và loại bỏ của các đối tượng là vấn đề sống còn của một số ứng dụng giám sát. Phát hiện các đối tượng dời đi như hành lý không có chủ trong các sân bay hoặc một chiếc xe đỗ trước một tòa nhà an ninh nhạy cảm là rất quan trọng. Những hoạt động đó có thể được thực hiện bởi những kẻ khủng bố làm tổn hại mọi người. Mặt khác, bảo vệ các đối tượng tránh xa khỏi những vật đổi chỗ mà không được phép có những ứng dụng rất quan trọng như là các hệ thống giám sát ở các bảo tàng, triển lãm nghệ thuật hoặc các tòa nhà lưu trữ cần tránh trộm cắp. Nhờ có các ứng dụng đó, đối tượng dời đi và biến mất là một phần quan trọng của hệ thống giám sát. Hệ thống ta trình bày ở đây có thể phát hiện và phân biệt các đối tượng dời đi và biến mất trong Video. Để đạt được điều này, ta sử dụng phối hợp trừ nền tương ứng, phương pháp đánh dấu đối tượng và các kinh nghiệm thực tế để phân biệt các đối tượng dời đi từ các đối tượng biến mất. Có ba bước để phát hiện sự dời đi và sự biến mất của các đối tượng như sau: 1. Phát hiện một sự thay đổi giữa ảnh hiện thời với ảnh nền cơ sở bằng cách sử dụng phối hợp trừ nền tương ứng. 2. Quyết định rằng vùng chuyển động được phát hiện có phù hợp với một sự dời đi và biến mất của đối tượng bằng cách sử dụng phương pháp đánh dấu đối tượng. 3. Phân biệt các đối tượng dời đi từ các đối tượng biến mất bằng cách sử dụng thuộc tính màu thống kê của các vùng được phát hiện và đường bao xung quanh của nó. Không giống như một số thuật toán khác, chẳng hạn như sự khác biệt theo thời gian, thuật toán trừ nền tương ứng này có thể phát hiện được các đối 56 tượng dời đi hoặc biến mất cho một giai đoạn thời gian dài. Với sự trợ giúp của phương pháp đánh dấu, ta phát hiện đối tượng đứng yên bằng thông tin về đường đi của nó. Nếu một phần hiện thời của thông tin về đường đi thể hiện rằng đối tượng không chuyển động một thời gian đã lâu (ví dụ như chu kỳ cảnh báo), ta quyết định vùng tương ứng là đứng yên và có khả năng nó sẽ dời đi hoặc biến mất. Để phân biệt kiểu của đối tượng (dời đi hay biến mất), ta sử dụng các đặc tính tĩnh của các giá trị màu ở bên trong và ở viền của vùng được phát hiện. Đặt R là vùng tương ứng với một sự thay đổi với thời hạn dài trong nền; S là đường bao xung quanh của R và đặt AX là giá trị cường độ màu trung bình trong vùng X. Kinh nghiệm cho thấy từ các cuộc thử nghiệm về đối tượng dời đi/ biến mất là nếu các giá trị của AR và AS là gần nhau, khi đó cho biết rằng vùng các đối tượng được phát hiện và vùng bao của nó hầu hết có cùng màu cho nên vùng này tương ứng với đối tượng chuyển chỗ. Mặt khác, nếu AR và AS không gần nhau cho thấy rằng vùng này tương ứng với đối tượng biến mất. Việc xác định AR và AS có gần nhau hay không như sau: ,1 S R A A  nếu AR ≤ AS (2.24) 1 R S A A  , nếu AS ≤ AR Trong đó  là một hằng được định nghĩa trước(≈0.85). Sau đây là miêu tả hình vẽ thể hiện các vùng AR và AS và hai ảnh Video thể hiện hai trường hợp dời đi và di chuyển của các đối tượng. 57 (a) (b) (c) (d) Hình 2.12: Phân biệt các đối tượng dời đi và biến mất (a) Cảnh nền, (b) Vùng R và S, (c) Ví dụ về đối tượng dời đi, (d) vì dụ về đối tượng biến mất. 58 Chương 3 ỨNG DỤNG 3.1. Giám sát tự động dưới sự trợ giúp của Camera Ngày nay, công nghệ thông tin đã xâm nhập vào mọi ngõ ngách của cuộc sống. Việc sử dụng các hệ thống giám sát bằng camera trở nên vô cùng quan trọng. Trong giao thông, người ta lắp đặt các camera giám sát ở các ngã ba, ngã tư, đường hầm, nhà ga và các vị trí nhạy cảm để giám sát tai nạn giao thông, các vi phạm luật giao thông của các phương tiện, Trong các bảo tàng, người ta sử dụng hệ thống camera để giám sát các vật trưng bày để tránh trường hợp bị mất cắp. Các vùng nhạy cảm về an ninh, ta có các hệ thống giám sát để có thể cảnh báo kịp thời những hành vi khả nghi liên quan đến khủng bố, trộm cắp, hỏa hoạn Ở các siêu thị, người ta dùng hệ thống camera giám sát để tránh các trường hợp trộm cắp hàng hóa,.... Như vậy, các hệ thống giám sát là rất cần thiết và hữu ích cho xã hội. Hiện nay, các hệ thống giám sát hoạt động tốt dựa vào công nghệ phần cứng, tuy nhiên, như đã nói ở trên, phần mềm nhúng ra đời để làm giảm chi phí cho việc sản xuất các thiết bị phần cứng chuyên dụng vốn rất đắt đỏ. Việc cài đặt các phần mềm giám sát vào các hệ thống giám sát là rất cần thiết. Với các phương pháp về phát hiện, đánh dấu, phân loại đối tượng đã nêu ở trên, ta có thể xây dựng một phần mềm giám sát để làm giảm thiếu chi phí cho các thiết bị phần cứng đồng thời có tính bảo mật cao. Nhờ camera và các phương pháp phát hiện đối tượng chuyển động trong camera, ta có thể xây dựng các phần mềm điều khiển, các phần mềm hỗ trợ. Chẳng hạn như phần sử dụng tia laze để điều khiển các chương trình ứng dụng chạy trên máy tính. Phần mềm hỗ trợ giao tiếp giữa người khuyết tật với máy tính, 59 3.2. Chương trình thử nghiệm phát hiện và bám sát đối tượng Bài toán đặt ra là với ảnh thu nhận được từ camera, chương trình ứng dụng sẽ tiến hành xử lý và cho ra kết quả là đối tượng đang cần theo vết đang ở vị trí nào, ta tiến hành đánh dấu (tô màu, kẻ khung) và từ đó liên tục bám sát đối tượng đó dựa trên một ngưỡng nhất định. Sau khi xác định vị trí đối tượng, ứng dụng sẽ tiếp tục điều khiển thiết bị chuột tới vị trí mong muốn (vị trí của đối tượng đang theo vết), đồng thời quyết định ra sự kiện gì (Click, Double click, Drap & Drop). Hình 3.1: Sơ đồ mô tả các tiến trình xử lý của hệ thống Thuật toán phát hiện sự chuyển động Có nhiều phương pháp tiếp cận để phát hiện chuyển động trong hình ảnh Video liên tục. Có thể so sánh khung hình hiện tại với hình nền chúng ta chụp từ ban đầu khi bật camera hoặc từ khung hình trước. Đối với phương pháp thứ nhất thì đơn giản và giảm được việc xử lý. Tuy nhiên, cách tiếp cận có một bất lợi lớn, ví dụ nếu có một đối tượng đang di chuyển ở frame đầu tiên nhưng sau đó nó đã biến mất. Phương pháp thứ hai thì xử lý phức tạp hơn, xử lý nhiều hơn nhưng lại thích nghi với mọi môi trường, kể cả môi trường ít thay đổi hoặc thay đổi nhiều. Nhược điểm là nếu đối tượng di chuyển một cách rất chậm thì hệ thống không phát hiện ra. Nhưng có thể giải quyết bằng cách tăng số khung hình trên giây. Trong đề tài này giới thiệu theo phương pháp Optical Flow. 60 Ngưỡng (Threshold) Nguỡng (Threshold) là một khái niệm khá quen thuộc trong xử lý ảnh cũng như rất nhiều giải thuật khác. Nó dùng để chỉ một giá trị mà người ta dựa vào để phân hoạch một tập hợp thành các miền phân biệt. Ví dụ thang điểm đánh giá học sinh là từ 1 đến 10. Trong một tập hợp gồm 40 học sinh của 1 lớp, người ta muốn phân lọai ra hai miền, miền thứ nhất bao gồm các học sinh đạt yêu cầu và miền thứ hai gồm các học sinh không đạt. Trong tình huống đó người ta dùng giá trị 5 (điểm) như là một ngưỡng (threshold) để phân loại học sinh. Các học sinh có điểm dưới 5 sẽ xem như không đạt, những học sinh có điểm từ 5 trở lên là đạt yêu cầu. Giá trị ngưỡng thường được xác định dựa vào những điểm đặc biệt (ví dụ ở trung bình), dựa vào kinh nghiệm khảo sát. Nếu dựa vào số lượng ngưỡng áp dụng cho cùng một tập dữ liệu người ta sẽ phân ra các phương pháp ứng dụng ngưỡng đơn, ngưỡng kép, hay đa ngưỡng. Nếu dựa vào sự biến thiên của giá trị ngưỡng, trong cùng phạm vi ứng dụng người ta sẽ phân ra các phương pháp dùng ngưỡng cố định (Constant|Fixed Threshold) và không cố định (Adaptive Threshold). Ngưỡng không cố định nghĩa là giá trị của nó sẽ thay đổi tùy theo sự biến thiên của tập dử liệu theo không gian và thời gian. Thông thường giá trị này được xác định thông qua khảo sát bằng phương pháp thống kê. Để dễ hình dung hơn về ứng dụng khái niệm Threshold, sau đây chúng ta sẻ xét một ví dụ bộ lọc ngưỡng (Threshold Filter) đơn giản trong xử lý ảnh. Với mỗi pixel trong hình đa mức xám (grayscale) ở trên giá trị sẽ trong khoảng 0 - 255 vậy pixel nào lớn hơn ngưỡng là 120 ta gán giá trị cho nó thành đen (0), ngược lại gán giá trị trắng (255). Kết quả thu được như sau: 61 Hình 3.2: Trước và sau khi xử lý dựa trên ngưỡng 62 Hình 3.3: Lưu đồ thuật toán phát hiện sự chuyển động End Pixel ảnh đầu ra màu đen Không có sự di chuyển Pixel ảnh đầu ra màu trắng Số điểm trắng > Ngưỡng Có sự di chuyển Begin Thu khung hình hiện tại, và trước Chuyển thành ảnh xám So sánh từng pixel của 2 ảnh xám Giá trị>ngưỡng cho trước N N Y Y 63 3.2.1. Giao diện của chương trình: Hình 3.4: Giao diện chương trình demo 3.2.2. Các chức năng của chương trình: Hình 3.5: Phát hiện và bám sát các đối tượng chuyển động Chức năng này cho phép mở các Video từ một file AVI, từ camera gắn trực tiếp với máy tính. 64 Hình 3.6: Chức năng theo vết đối tượng được lựa chọn để theo vết Chức năng này giám sát đối tượng mà mình muốn theo vết Hình 3.7: Chức năng theo vết đối tượng được lựa chọn để theo vết (tiếp theo) 65 Hình 3.8: Chức năng chọn màu dãy màu của đối tượng cần theo vết Hình 3.9: Chức năng chọn dãy màu từ ảnh chụp từ webcam của đối tượng cần theo vết 66 Hình 3.10: Chức năng dùng đối tượng đang theo vết để điều khiển “Mouse” Chức năng này theo màu của một đối tượng và xác định vị trí của đối tượng để đưa con trỏ tới đúng vị trí đối tượng đang đứng, mục đích là muốn thông qua đối tượng bên ngoài như bàn tay để qua camera có thể duyệt web, sử dụng các thao tác căn bản như Click, Double click 67 KẾT LUẬN Như ta đã biết, giám sát bằng camera được ứng dụng rộng rãi trong nhiều lĩnh vực của cuộc sống, việc nghiên cứu các vấn đề liên quan đến các hệ thống giám sát này nhằm đưa ra các cảnh báo chính xác, kịp thời là một công việc mang tính thực tiễn cao. Chúng ta cũng biết rằng kết quả thu nhận được từ các camera giám sát là Video. Như vậy việc nghiên cứu chính ở đây là phát hiện đối tượng chuyển động trong Video. Video thu nhận được từ các camera sẽ được xử lý qua các công đoạn sau: Phát hiện đối tượng chuyển động, đánh dấu các đối tượng vừa phát hiện, phân loại chúng và sẽ tiến hành xử lý và cho ra kết quả là đối tượng đang cần theo vết đang ở vị trí nào, ta tiến hành đánh dấu (tô màu, kẻ khung) và từ đó liên tục bám sát đối tượng đó dựa trên một ngưỡng nhất định. Sau khi xác định vị trí đối tượng, ứng dụng sẽ tiếp tục điều khiển thiết bị chuột tới vị trí mong muốn (vị trí của đối tượng đang theo vết), đồng thời quyết định ra sự kiện gì (Click, Double click, Drap & Drop, Zoom out, Zoom in) Sau khi nghiên cứu các phương pháp đó, sẽ tìm ra phần ưu, phần nhược của từng phương pháp, từ đó có bước kết hợp giữa các phương pháp hoặc đưa ra các giải pháp để khắc phục các nhược điểm nhằm xây dựng một hệ thống giám sát tối ưu nhất có thể. Trong luận văn này tôi cũng đã cài đặt thành công một số phương pháp phát hiện và đánh dấu đối tượng chuyển động. Hệ thống đầu vào trong bản demo này là lấy hình ảnh trực tiếp từ webcam gắn vào máy tính hoặc lấy một file Video có phần đặc trưng là AVI từ nguồn có sẵn hoặc các Video lấy từ nguồn trực tuyến. Hướng nghiên cứu sâu hơn của đề tài này mà tôi quan tâm đó là phát hiện và phân loại từng phần chuyển động của đối tượng, từ đó xây dựng các ứng 68 dụng hỗ trợ cho con người. Một hướng khác nữa là tìm hiểu rõ về đặc điểm của lửa, từ đó xây dựng các hệ thống cảnh báo hỏa hoạn. TÀI LIỆU THAM KHẢO [1] A. Amer. Voting-based simultaneous tracking of multiple Video objects. In Proc. SPIE Int. Symposium on Electronic Imaging, Santa Clara, USA, January 2005. [2] J. L. Barron, D. J. Fleet, and S. S. Beauchemin. Performance of optical flow techniques. International Journal of Computer Vision, 12(1):43–77, 2004. [3] R. Cutler and L.S. Davis. Robust real-time periodic motion detection, analysis and applications. In IEEE Transactions on Pattern Analysis and Machine Intelligence, 2003. [4] R. T. Collins et al. A system for Video surveillance and monitoring: VSAM final report. Technical report CMU-RI-TR-00-12, Robotics Institute, Carnegie Mellon University, May 2006. [5] T. Brodsky et al. Visual Surveillance in Retail Stores and in the Home, Boston, 2002. [6] I. Haritaoglu, D. Harwood, and L.S. Davis. W4: A real time system for detecting and tracking people. In Computer Vision and Pattern Recognition, 2008. [7] J. Heikkila and O. Silven. A real-time system for monitoring of cyclists and pedestrians. In Proc. of Second IEEE Workshop on Visual Surveillance, Fort Collins, Colorado, June 2009. [8] A. J. Lipton. Local application of optic flow to analyse rigid versus non-rigid motion. Technical Report CMU-RI-TR-99-13, Robotics Institute, Carnegie Mellon University, Pittsburgh, PA, December 2009. [9] A. J. Lipton, H. Fujiyoshi, and R.S. Patil. Moving target classification and tracking from real-time Video. In Proc. of Workshop Applications of Computer Vision, 2008. [10] C. B. Liu and N. Ahuja. Vision based fire detection. In IEEE International Conference on Pattern Recognition, Cambridge, UK, August 2004. to appear. [11] B. D. Lucas and T. Kanade. An iterative image registration technique with an application in stereo vision. In Seventh International Joint Conference on Artificial Intelligence, pages 674–679, Vancouver, 2007. [12] J. S. Marques, P. M. Jorge, A. J. Abrantes, and J. M. Lemos. Tracking groups of pedestrians in Video sequences. In Proc. of IEEE Workshop on Multi-Object Tracking, Madison, June 2003. [13] A. M. McIvor. Background subtraction techniques. In Proc. of Image and Vision Computing, New Zealand, 2008. [14] C. Papageorgiou, T. Evgeniou, and T. Poggio. A trainable pedestrian detection system. In Proc. of IEEE Int. Conf. on Intelligent Vehicles, Germany, October 2008. [15] M. Saptharishi, J.B. Hampshire II, and P. Khosla. Agent-based moving object correspondence using differential discriminative diagnosis. In Proc. Of Computer Vision and Pattern Recognition, 2003. [16] E. Saykol, U. Gudukbay, and O. Ulusoy. A histogram-based approach for object-based query-by-shape-and-color in multimedia databases. Technical Report BUCE-0201, Bilkent University, 2007. [17] C. Stauffer and W. Grimson. Adaptive background mixture models for realtime tracking. In Proc. of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2005. [18] B. U. Toreyin. Moving object detection and tracking in wavelet compressed Video. Master’s thesis, Bilkent University, 2003. [19] Fleet, D.J. and Weiss, Y., Optical flow estimation, Mathematical models for Computer Vision: The Handbook. N. Paragios, Y. Chen, and O. Faugeras (eds.), Springer, 2005. [20] L. Wang, W. Hu, and T. Tan. Recent developments in human motion analysis, March 2003. [21] L. Wixson and A. Selinger. Classifying moving objects as rigid or non-rigid. In Proc. of DARPA Image Understanding Workshop, 2008. [22] M. Xu and T. Ellis. Colour-Invariant Motion Detection under Fast Illumination Changes, Boston, 2002.

Các file đính kèm theo tài liệu này:

  • pdfnghien_cuu_mot_so_ky_thuat_phat_hien_bam_sat_doi_tuong_va_ung_dung_228.pdf
Luận văn liên quan