Như ta đã biết, giám sát bằng camera được ứng dụng rộng rãi trong nhiều
lĩnh vực của cuộc sống, việc nghiên cứu các vấn đề liên quan đến các hệ thống
giám sát này nhằm đưa ra các cảnh báo chính xác, kịp thời là một công việc
mang tính thực tiễn cao. Chúng ta cũng biết rằng kết quả thu nhận được từ các
camera giám sát là Video. Như vậy việc nghiên cứu chính ở đây là phát hiện
đối tượng chuyển động trong Video.
Video thu nhận được từ các camera sẽ được xử lý qua các công đoạn sau:
Phát hiện đối tượng chuyển động, đánh dấu các đối tượng vừa phát hiện, phân
loại chúng và sẽ tiến hành xử lý và cho ra kết quả là đối tượng đang cần theo
vết đang ở vị trí nào, ta tiến hành đánh dấu (tô màu, kẻ khung) và từ đó liên tục
bám sát đối tượng đó dựa trên một ngưỡng nhất định. Sau khi xác định vị trí
đối tượng, ứng dụng sẽ tiếp tục điều khiển thiết bị chuột tới vị trí mong muốn
(vị trí của đối tượng đang theo vết), đồng thời quyết định ra sự kiện gì (Click,
Double click, Drap & Drop, Zoom out, Zoom in )
81 trang |
Chia sẻ: builinh123 | Lượt xem: 2025 | Lượt tải: 1
Bạn đang xem trước 20 trang tài liệu Luận văn Nghiên cứu một số kỹ thuật phát hiện, bám sát đối tượng và ứng dụng, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
c theo các phương pháp sử dụng giải pháp của nó.
25
Chương 2
PHÁT HIỆN VÀ GIÁM SÁT ĐỐI TƯỢNG CHUYỂN
ĐỘNG TRONG VIDEO
2.1. Phát hiện đối tượng
Tổng quan về phát hiện, phân loại và đánh dấu đối tượng chuyển động
trong Video với thời gian thực được mô tả như sau:
Lược đồ 2.1: Lược đồ khối hệ thống
Thu nhận ảnh
Phát hiện nổi trội
Trích rút đặc trưng đối tượng
Đánh dấu đối tượng
Xử lý đối tượng
Mô hình nền
Phân loại đối tượng
Ảnh
hiện thời
Khởi tạo,
Cập nhật
Ảnh nền
Cập nhật
Bản đồ nổi trội, ảnh hiện thời
Các đối tượng cùng với các đặc trưng
Đường đi của
đối tượng
Kiểu của đối tượng
Cập nhật
26
Hệ thống này có thể phân biệt được các đối tượng thoáng qua hoặc đứng
yên từ các đối tượng nền tĩnh trong các cảnh động; phát hiện và phân biệt các
đối tượng di chuyển và biến mất; phân loại các đối tượng đã được phát hiện
vào trong các nhóm khác nhau, như người, nhóm người, xe cộ,; đánh dấu
các đối tượng và tạo ra thông tin về đường đi ngay cả các trường hợp bị che
khuất và phát hiện ánh sáng trong hình ảnh của Video. Trong phần này và
phần sau, sẽ mô tả các mô hình tính toán trong hướng tiếp cận này để tiến gần
tới các kết quả thực sự ở trên.
Hệ thống này được thừa nhận để làm việc với thời gian thực như là một
phần trong hệ thống giám sát Video cơ sở. Độ phức tạp tính toán và cả các
nhân tố bất biến của thuật toán mà chúng ta dùng ở đây là rất quan trọng cho
việc thực hiện trong thời gian thực. Do đó, cách giải quyết ở đây là chọn ra
thuật toán với thời gian chạy tối ưu nhất. Hơn nữa, việc sử dụng hệ thống này
bị hạn chế chỉ với các camera tĩnh và Video đầu vào từ các camera
Pan/Tilt/Zoom.
Hệ thống được khởi tạo bởi hình ảnh Video từ camera tĩnh giám sát một
vị trí. Hầu hết các phương thức có thể làm việc với cả hai loại ảnh Video màu
và ảnh Video đen trắng. Bước đầu tiên trong hướng tiếp cận này là phân biệt
các đối tượng nổi trội từ các nền tĩnh. Để đạt được điều này, ta sử dụng một
kết hợp giữa phương pháp trừ nền và phương pháp hậu xử lý ảnh ở mức thấp
để tạo ra một bản đồ điểm đặc trưng cho mọi frame. Ta nhóm các vùng liên
tục trong bản đồ đó để mở rộng các đặc trưng cho đối tượng riêng biệt như là
tạo các đường bao, các miền, điểm trung tâm của khối hoặc biểu đồ màu
(color histogram).
Điểm mới trong thuật toán phân loại đối tượng này là làm cho việc sử
dụng bản đồ các điểm đặc trưng thuộc về mỗi vùng đặc trưng để tạo ra một
hình chiếu cho đối tượng đó. Hình chiếu và điểm trung tâm của một khối của
27
một đối tượng được sử dụng để tạo ra một tín hiệu khoảng cách. Tín hiệu này
được co giãn, được làm trở lại bình thường và được so sánh với các nhãn tín
hiệu trước đó trong cơ sở dữ liệu mẫu để phân biệt kiểu của đối tượng. Đầu ra
của bước đánh dấu được dùng để đạt được sự thống nhất theo thời gian trong
bước phân loại.
Thuật toán đánh dấu đối tượng này tận dụng các đặc trưng của đối tượng
đã được trích rút cùng với sự phối hợp phù hợp được xây dựng trong bước
trước để làm cho phù hợp với các đối tượng sau khi xảy ra trường hợp bị che
khuất. Đầu ra của bước đánh dấu là thông tin về đường đi của đối tượng được
dùng để tính toán hướng và tốc độ của các đối tượng trong cảnh.
Sau khi chắt lọc thông tin của các đặc điểm trên các đối tượng như loại,
đường đi, kích cỡ và tốc độ với mức độ riêng biệt của các mức xử lý cao, có
thể được áp dụng trên các dữ liệu đó. Một khả năng sử dụng thời gian thực là
đặt cảnh báo bằng tiền điều kiện với các vị từ như: “Một người di chuyển
theo phương d với tốc độ lớn hơn s sinh ra cảnh báo a1.” hoặc “một cái xe
dừng lại ở một vị trí l trong khoảng thời gian hơn t phút sinh ra cảnh báo a2.”.
Một cách khác là ta có thể tạo ra một tham chiếu trên dữ liệu Video đã được
lưu trữ cho việc tìm kiếm thông minh và độc lập. Cả hai cách trên đều là các
điều kiện cần thiết của hệ thống giám sát để tăng thêm thời gian cần thiết để
giám định các sự kiện.
2.1.1. Phát hiện nổi trội
Ta sử dụng phối hợp các mô hình nền và các phương pháp hậu xử lý ảnh
mức thấp để tạo ra bản đồ điểm nổi bật và trích rút các đặc trưng của đối
tượng ở mỗi frame của Video. Các mô hình nền nói chung có 2 giai đoạn
phân biệt trong xử lý: khởi tạo và cập nhật.
28
2.1.1.1 Mô hình trừ nền có khả năng thích ứng
Sự thực thi của thuật toán trừ nền này làm việc trên mức xám của ảnh
Video từ một camera tĩnh [4]. Phương pháp trừ nền này khởi tạo một nền
tham khảo với một số frame đầu tiên của Video đầu vào. Sau đó, nó trừ giá trị
cường độ của mỗi điểm ảnh trong ảnh hiện thời cho giá trị tương ứng trong
ảnh nền tham khảo. Sự khác nhau này được lọc với một ngưỡng thích hợp cho
từng điểm ảnh để giải thích nguyên nhân sự thay đổi của các điểm ảnh nhiễu.
Gọi In(x) là biểu diễn của giá trị cường độ mức xám ở điểm ảnh có vị trí
(x) và ở trường hợp thứ n của dãy Video I thuộc trong đoạn [0,255]. Gọi Bn(x)
là giá trị cường độ nền tương ứng cho điểm ảnh ở vị trí (x) ước lượng theo
thời gian từ ảnh Video I0 đến In-1. Một điểm ảnh ở vị trí (x) trong ảnh hiện thời
thuộc thành phần nổi trội nếu nó thỏa mãn:
|In(x) – Bn(x)|>Tn(x) (2.1)
Trong đó Tn(x) là giá trị ngưỡng có khả năng thích hợp được khởi tạo
cùng với ảnh Video đầu tiên I0, B0 = I0, và ảnh ngưỡng được khởi tạo bởi giá
trị đã được xác định trước.
Vì hệ thống này sẽ được dùng cho cả trong và ngoài nhà nên mô hình
nền cần tự thích ứng với các thay đổi động như sự thay đổi toàn bộ ánh sáng
(chuyển giữa ngày và đêm) và cập nhật nền một thời gian dài (một cái xe đỗ
trước một tòa nhà). Vì thế nền cơ sở và các ảnh ngưỡng phải được cập nhật
liên tục từ các ảnh đầu vào. Sự phối hợp cập nhật này là khác nhau đối với các
vị trí điểm, chẳng hạn như một điểm x FG thì sẽ khác với x BG :
FGxxIxB
BGxxIxB
xB
nn
nn
n
),()1()(
),()1()(
)(1
(2.2)
29
FGxxT
BxxBxIxT
xT
n
nnn
n
),(
),()()(1()(
)(1
(2.3)
Trong đó 0.1,0.0, là các hằng số chỉ ra rằng có bao nhiêu thông tin
từ các ảnh vào được đẩy vào nền và các ảnh ngưỡng. Nói cách khác, nếu mỗi
điểm ảnh nền được coi như là chuỗi các lần, các ảnh nền là một giá trị trung
bình của trọng số vùng theo thời gian của chuỗi các ảnh đầu vào và ảnh
ngưỡng là giá trị trung bình của trọng số vùng của lần khác nhau của các
ảnh đầu vào và nền đó. Các giá trị α, và được định rõ qua thực nghiệm
bởi các Video clip ở cả bên trong và bên ngoài nhà.
Ta cập nhật nên cho tất cả các kiểu cũ các điểm ảnh (x FG, x BG).
Trong các phương pháp trừ nền, ảnh nền nguồn chỉ được cập nhật cho các
điểm ảnh thuộc nền (x BG)
Điểm tinh vi trong việc cập nhật này là chọn ra giá trị cho . Nếu nó quá
nhỏ, các đối tượng nổi bật sẽ dẫn đến sự phân đoạn sai lệch trong các frame
sau. Cũng từ đó mà việc sẽ ít có khả năng phát hiện các đối tượng đã dừng lại.
Nếu nó quá lớn, các đối tượng có thể không bao giờ được phổ biến đến ảnh
nền, mô hình nền như thế sẽ không thích hợp cho sự thay đổi thời hạn lâu dài
của cảnh vật.
30
Ví dụ :
(a)
(b)
(c)
31
Hình 2.1 : Ảnh (a) là ước lượng nền cơ sở, ảnh (b) thu được ở bước tiếp theo.
Ảnh (c) thể hiện bản đồ điểm ảnh nổi trội phát hiện được bằng cách sử dụng
phép trừ nền.
2.1.1.2. Mô hình hỗn hợp Gaussian tương thích
Stauffer và Grimson [17] đã trình bày mô hình hỗn hợp nền trực tuyến
tương thích có thể giải quyết đơn giản sự thay đổi của ánh sáng, các chuyển
động lặp đi lặp lại, sự hỗn loạn, các đối tượng dời đi từ các cảnh và các đối
tượng chuyển động chậm. Chuyển động của chúng ở mô hình nền đơn không
thể điều khiển nhiễu, sự thay đổi ánh sáng và sự đa dạng mặt ngoài nhận được
từ ảnh đối với mỗi phần của điểm ảnh ở cùng một thời điểm.
Trong mô hình này, các giá trị của một điểm ảnh riêng lẻ theo thời gian
được coi như là một ‘‘xử lý điểm’’ và sự kiện gần đây của các điểm ảnh,
{X1,,Xt}, được mô hình bởi hỗn hợp của phân phối Gaussian K. Khả năng
của việc quan sát giá trị của điểm ảnh hiện thời trở thành:
K
i
titittit XXP
1
,,, ,,* (2.4)
Trong đó, i,t là một ước lượng trọng số thứ i của Gaussian (Gi,t) trong
hỗn hợp ở thời điểm t, i,t là giá trị trung bình của Gi,t và i,t là ma trận hợp
của Gi,t và là một hàm mật độ khả năng Gaussian:
)()(
2
1
2
1
2
1
)2(
1
),,(
tt
T
tt XX
nt
eX
(2.5)
Việc giải quyết trên K được quyết định bởi sự sẵn sàng của bộ nhớ và
sức mạnh của tính toán. Ngoài ra, ma trận hợp nhất được thừa nhận là mẫu
sau với hiệu quả tính toán
2
, ktk I (2.6)
32
Nó thừa nhận ba màu thành phần red, green, blue là độc lập và có cùng
biến. Thủ tục cho việc phát hiện các điểm ảnh nổi trội cụ thể như sau. Bước
đầu của hệ thống, các phân bố Gaussian K cho một điểm ảnh được khởi tạo
với giá trị trung bình được định nghĩa trước, sự khác biệt cao và trọng số ban
đầu thấp. Khi một điểm ảnh mới được phát hiện trong dãy ảnh, xác định rõ
kiểu của nó, vector RGB của nó được đánh dấu tương phản với các Gaussian
K, cho đến khi một điểm tương ứng được tìm thấy. Một điểm tương ứng được
định nghĩa như là một giá trị điểm ảnh không vượt quá chuẩn (=2.5) của
một phân bố. tiếp theo, các trọng số chu kỳ của các phân bố K ở thời điểm t,
k,t được cập nhật như sau:
),1,, ()1( tktktk M (2.7)
Trong đó α là tỷ lệ và Mk,t bằng 1 tương ứng với phân bố Gaussian và
bằng 0 tương ứng với các phân bố còn lại. Sau bước này, các trọng số ban đầu
của các phân bố được bình thường hóa và các tham biến của Gaussian phù
hợp được cập nhật với sự theo dõi mới như sau :
)()1( 1 ttt X (2.8)
)()()1(
2
1
2
tt
T
tttt XX (2.9)
Trong đó :
),|( kktX (2.10)
Nếu không tìm thấy điểm ảnh tương tự cho điểm ảnh theo dõi mới, phân
bố Gaussian với khả năng thấp nhất được thay đổi với một phân bố mới với
giá trị điểm ảnh hiện thời như là giá trị trung bình của nó, một khởi tạo với sự
khác biệt cao và trọng số ban đầu thấp.
33
Để phát hiện ra kiểu của điểm ảnh mới, các phân bố Gaussian K được
sắp xếp theo giá trị của / . Danh sách đã sắp xếp của các phân bố này
tương ứng với hầu hết các nền có khả năng từ đỉnh tới đáy trong công thức
(2.7), các xử lý điểm ảnh nền thực hiện phân bố Gaussian tương ứn khi khởi
tạo với giá trị trọng số ban đầu lớn và sự cách biệt nhỏ
(a) (b)
Hình 2.2 : Hai cách nhìn khác nhau về một ví dụ xử lý điểm
Khi đó các phân bố B đầu tiên được chọn như là mô hình nền, trong đó :
B=argminb
b
k
k T
1
(2.11)
Và T là phần nhỏ nhất của dữ liệu pixel được cho là của nền. Nếu một
giá trị nhỏ được chọn cho T, nền thường được mô hình thống nhất.
34
2.1.1.3. Sự khác biệt theo thời gian
Sự khác biệt theo thời gian làm cho việc sử dụng các mức độ khác nhau
của điểm ảnh giữa hai hoặc ba frame liên tiếp trong Video để trích rút các
vùng chuyển động. Nó là một hướng tiếp cận phù hợp cho sự thay đổi các
cảnh động ; như vậy, nó sai khi trích rút tất cả các điểm ảnh liên quan của một
đối tượng nổi trội, nhất là khi đối tượng đó có kết cấu thống nhất hoặc chuyển
động chậm. Khi một đối tượng dừng chuyển động, phương pháp khác biệt
theo thời gian sai khi phát hiện sự thay đổi giữa các frame liên tiếp và để mất
đối tượng. Các thuật toán hỗ trợ đặc biệt được yêu cầu để phát hiện các đối
tượng dừng lại.
Ta bổ sung thêm phương pháp sự khác biệt theo thời gian thêm 2 frame
trong hệ thống này. Đặt In(x) là giá trị cường độ của mức xám của pixel ở vị
trí (x) và ở thời điểm n của dãy ảnh Video I thuộc vào đoạn [0, 255]. Sự phối
hợp khác biệt theo thời gian của 2 frame này đề nghị thừa nhận là một điểm
ảnh đang chuyển động nếu nó thỏa mãn như sau:
)()()( 1 xTxIxI nnn (2.12)
Từ đó, nếu một đối tượng có các vùng màu sắc thống nhất, công thức
2.12 sai khi phát hiện một trong số các điểm ảnh bên trong vùng đó nếu như
đối tượng chuyển động, Ngưỡng của mỗi điểm ảnh, T, khởi tạo thiết lập một
giá trị quyết định trước và sau đó cập nhật như sau :
FGxxT
BxxIxIxT
xT
n
nnn
n
),(
),()()(1()(
)( 11
(2.13)
Việc bổ sung thêm 2 frame khác nhau có thể được thực hiện bởi việc lợi
dụng mô hình các tham biến cập nhật của phương pháp trừ nền thể hiện trong
35
công thức 2.2. Nếu α và bằng 0, nền này chứa ảnh In-1 và sự phối hợp trừ
nền trở thành y hệt như cách bổ sung thêm 2 frame khác nhau.
2.1.2. Bước hậu xử lý điểm ảnh
Các nhân tố khác nhau là nguyên nhân gây nhiễu trong việc phát hiện
cận cảnh như là :
- Nhiễu camera : nhiễu này nguyên nhân do các thành phần thu
nhận được từ ảnh của camera. Cường độ của các điểm tương tự như
một gờ nằm giữa hai đối tượng khác nhau về màu sắc trong một cảnh
có thể bị nhập thành một thuộc về màu của một đối tượng trong một
frame và thành một màu khác trong một frame khác.
- Nhiễu do phản xạ : khi một nguồn sáng, chẳng hạn như mặt trời,
chuyển động, nó làm cho một số phần trong cảnh nền phản xạ ánh
sáng. Hiện tượng này làm cho các thuật toán phát hiện nổi trội sai và
phát hiện phần phản xạ như là các vùng nổi bật.
- Nhiễu đối tượng có cùng màu với nền : một số phần của các đối
tượng có thể có cùng màu sắc như nền cơ sở đằng sau chúng. Sự tương
đồng này là nguyên nhân làm cho một số các thuật toán phát hiện các
điểm ảnh đó như không phải là điểm nổi bật và các đối tượng bị phân
đoạn thiếu chính xác.
- Sự thay đổi ánh sáng đột ngột và bóng : bóng đổ từ các đối tượng
được phát hiện như điểm nổi bật bởi hầu hết các thuật toán phát hiện.
Ngoài ra, sự thay đổi ánh sáng đột ngột làm cho các thuật toán sai khi
phát hiện chính xác các đối tượng thực sự nổi bật.
36
(a) (b)
(c) (d)
Hình 2.3 : Ví dụ về bước khử nhiễu pixel
(a)Ảnh nền ước lượng ; (b) : Ảnh hiện thời ; (c) : Các vùng nổi bật phát
hiện trước khi khử nhiễu ; (d) : Các vùng nổi bật phát hiện sau khi khử nhiễu
2.1.2.1. Phát hiện bóng và sự thay đổi ánh sáng đột ngột
Hầu hết các thuật toán phát hiện nổi trội đều dễ bị ảnh hưởng bởi bóng
và các thay đổi đột ngột của ánh sáng, đó là nguyên nhân phân đoạn nổi trội
không đúng. Với các bước xử lý sau như phân loại đối tượng và đánh dấu yêu
cầu có sự chính xác trong việc phân đoạn đối tượng, Việc đối phó với bóng và
các thay đổi đột ngột của ánh sáng là rất quan trọng trong các hệ thống giám
sát thông minh.
37
Trong bài này, ta sử dụng phối hợp phát hiện bóng. Ta làm rõ rằng các
điểm ảnh trong các vùng vector màu RGB ở trong cùng một hướng với các
vector màu RGB của các điểm ảnh nền tương ứng với một số lượng chênh
lệch nhỏ và giá trị độ sáng của bóng điểm ảnh là nhỏ hơn độ sáng của các
điểm nền tương ứng. Để định nghĩa chính thức điều này, ta đặt Ix là màu RGB
của một điểm ảnh của ảnh hiện thời ở vị trí x, và Bx là màu RGB của điểm ảnh
nền tương ứng. Hơn nữa, đặt xIˆ là vector mà được bắt đầu ở gốc O(0,0,0)
trong không gian màu RGB và kết thúc ở điểm Ix, đặt xBˆ là vector của điểm
nền tương ứng với Bx và đặt dx là phép nhân (.) giữa xIˆ và xBˆ . Hình 2.6 thể
hiện các điểm và các vector trong không gian màu RGB. Sự phối hợp phát
hiện bóng ở đây phân loại một điểm ảnh là một phần của vùng nổi bật được
phát hiện như là bóng nếu thỏa mãn :
x
x
x
x
x
B
B
I
I
d
ˆ
ˆ
ˆ
ˆ
(2.14)
Và
xx BI ˆˆ (2.15)
Trong đó τ là ngưỡng định nghĩa trước gần với một. Phép nhân (.) được
dùng để kiểm tra xem xIˆ và xBˆ có cùng hướng hay không. Nếu phép nhân này
(dx) của xIˆ và xBˆ gần đến một, nó chỉ ra rằng chúng hầu hết ở cùng một hướng
với lượng khác biệt nhỏ. Lần kiểm tra thứ hai được thực hiện để bảo đảm rằng
giá trị ánh sáng của Ix là nhỏ hơn Bx. Hình 2.7 thể thể hiện một ví dụ các vùng
cận cảnh với các bóng trước và sau khi xóa bóng.
Bên cạnh việc xóa bóng, việc phát hiện sự thay đổi ánh sáng đột ngột
cũng là một yêu cầu cần thiết đáp ứng hệ thống giám sát thông minh để tiếp
tục phát hiện và phân tích đối tượng một cách chính xác. Một sự thay đổi tổng
38
thể có thể dẫn đến nhiều trường hợp do mặt trời bị hoặc không bị che khuất
bởi mây trong môi trường bên ngoài hoặc do bật đèn trong nhà. Cả hai sự thay
đổi đó làm cho ánh sáng thay đổi đột ngột trong cảnh mà mô hình nền tương
thích không thể điều khiển được. Hình 2.4 thể hiện một ví dụ các frame trước
và sau khi ánh sáng thay đổi đột ngột. Một thực tế cho thấy rằng sự thay đổi
ánh sáng tổng thể một cách đột ngột là nguyên nhân dẫn đến các mô hình nền
phân loại với tỷ lệ lớn (>50%) của các điểm ảnh trong cảnh như là điểm nổi
bật. Như vậy, trong một số tình huống, các đối tượng thông thường chuyển
động rất gần camera, giả định này quá đơn giản và sai lầm. Theo đó, mục đích
của sự phân biệt thay đổi ánh sáng tổng thể từ chuyển động của một đối tượng
lớn, ta làm một kiểm tra khác bằng cách dựa vào thực tế rằng trong trường
hợp thay đổi ánh sáng tổng thể, sự thay đổi về hình dáng và kích cỡ của các
biên đối tượng trong một cảnh không thay đổi quá nhiều và đường bao xung
quanh của các vùng cận cảnh được phát hiện không phù hợp với các biên thực
tế trong cảnh trong khi trong trường hợp chuyển động của một đối tượng lớn
thì đường bao các vùng nổi bật được phát hiện phù hợp với các đường biên
thực tế trong ảnh.
39
Hình 2.4 : Các vector RGB của pixel ảnh hiện thời xIˆ và pixel nền tương ứng
xBˆ
(a) (b)
(c ) (d)
Hình 2.5 : Ví dụ về xóa bóng. (a) : Nền ước lượng ; (b) : ảnh hiện thời ;
(c) : Các pixel nổi bật được phát hiện (thể hiện ở màu đỏ) và các pixel bóng
(Thể hiện màu xanh lá) ; (d) : Các pixel sau khi đã được xóa bóng
40
(a) (b)
Hình 2.6 : Ví dụ về sự thay đổi ánh sáng đột ngột
(a) Cảnh trước khi ánh sáng đột ngột thay đổi, (b) Cùng cảnh đó sau khi
ánh sáng đột ngột thay đổi.
Để kiểm tra xem các đường bao của các vùng phát hiện có phù hợp với
các đường biên thực sự trong ảnh hiện thời hay không, ta tận dụng các
gradient của ảnh hiện thời và của ảnh nền. Các gradient được tìm bằng cách
lấy ánh sáng khác nhau giữa các điểm ảnh liên tiếp trong các ảnh theo hai
hướng dọc và ngang. Sau khi các gradient được tìm kiếm ở cả nền và ảnh hiện
thời, một ngưỡng được áp dụng và đầu ra được biến đổi thành nhị phân. Khi
đó, các gradient của ảnh khác của nền và ảnh hiện thời được tính toán để tìm
được duy nhất các đường biên phù hợp với các vùng chuyển động. Hình 2.7
thể hiện các ảnh gradient cho nền và các ảnh hiện thời. Kết quả cuối cùng,
vùng nổi trội được phát hiện được co lại từ bề ngoài về bên trong cho đến khi
vấp phải một điểm biên trong gradient của ảnh khác. Nếu kết quả vùng nổi
trội này là rất nhỏ so với nguyên bản, thì đây là một dấu hiệu của sự thay đổi
ánh sáng tổng thể, vì thế mô hình nền được khởi tạo lại với các ảnh hiện thời
và một số các ảnh được cho phép. Các ảnh có sóng cũng có thể được sử dụng
thay cho các gradient để phân biệt sự thay đổi ánh sáng tổng thể một cách đột
ngột.
41
(a) (b)
( c) (d)
( e)
42
Hình 2.7 : Phát hiện sự thay đổi ánh sáng thực sự. (a) Nền cơ sở ước
lượng ; (b) gradient của nền ; (c) ảnh hiện thời ; (d) gradient của ảnh hiện
thời ; ( e) sự khác biệt gradient.
(a) (b)
( c)
Hình 2.8 : Ví dụ về đánh nhãn các thành phần liên tục. (a) Nền ước
lượng ; (b) ảnh hiện thời ; ( c) các điểm ảnh nổi bật được lọc và liên kết và
đánh nhãn các vùng với các hộp bao xung quanh.
2.1.3. Phát hiện các vùng liên tục
Sau khi phát hiện các vùng nổi bật và ứng dụng các phép toán hậu xử lý
để xóa các vùng nhiễu và bóng. Các điểm ảnh nổi bật đã được lọc được nhóm
vào các vùng liên tục (các khối) và được đánh nhãn bằng cách sử dụng thuật
43
toán đánh nhãn thành phần liên tục 2 bước. Sau khi tìm các khối màu độc lập
tương ứng với các đối tượng, các hộp bao xung quanh của các vùng đó được
tính toán.
2.1.4. Bước hậu xử lý vùng
Ngay sau bước loại bỏ nhiễu, một vài vùng tự tạo nhỏ còn lại làm cho
việc phân đoạn đối tượng không đúng. Để khử các vùng loại này, kích cỡ
vùng trung bình () trong giới hạn của các điểm ánh được tính toán cho mỗi
frame và các vùng có kích cỡ nhỏ hơn một số thập phân (α) của kích cỡ vùng
trung bình (Size(region)<α* ) bị xóa khỏi bản đồ điểm nổi bật.
Mặt khác, về các lỗi phân đoạn, một vài phần của các đối tượng được tìm
thấy không liên tục từ thân chính. Để hiệu chỉnh nhược điểm này, các hộp bao
xung quanh của một vùng là độc lập với các vùng khác mà chúng được trộn
lẫn cùng nhau và các nhãn vùng được điều chỉnh.
2.1.5. Trích rút các đặc trưng của đối tượng
Ngay khi ta phân đoạn các vùng, chúng ta trích rút các điểm đặc trưng
của các đối tượng tương ứng trong ảnh hiện thời. Các điểm đặc trưng đó là
kích thước (S), điểm trung tâm của khối (Cm), lược đồ màu (Hc) và đường
viền các đốm màu của đối tượng. Việc tính toán kích thước của đối tượng là
không quan trọng và ta chỉ đếm số các điểm ảnh nổi bật mà được chứa trong
hộp bao của đối tượng.
Để tính toán điểm chính giữa của khối điểm, Cm =(xCm,yCm), của một đối
tượng O, ta dùng công thức sau [16] :
n
y
yC
n
x
xC
n
i i
m
n
i i
m
, (2.16)
44
Trong đó n là số điểm ảnh trong O
Lược đồ màu, Hc được tính toán trên các giá trị cường độ đơn sắc của các
điểm ảnh của đối tượng trong ảnh hiện thời. Để giảm độ phức tạp tính toán
của các phép toán sử dụng cho Hc, các giá trị màu được lượng tử hóa. Đặt N
là số khoảng cách (bin) trong lược đồ, khi đó mọi khoảng cách bao gồm
N
255
giá trị màu.
Lược đồ màu được tính toán bởi sự lặp đi lặp lại trên các điểm ảnh của O
và tốc độ tăng lên của giá trị lưu trữ của khoảng cách màu tương ứng trong
lược đồ, Hc. Với mỗi đối tượng O, lược đồ màu đươc cập nhật như sau:
Oc
N
c
H
N
c
H i
i
c
i
c
,1 (2.17)
Trong đó ci mô tả giá trị màu sắc của điểm ảnh thứ i. Trong bước tiếp
theo, lược đồ màu sắc được chuẩn hóa cho phép thích hợp để so sánh với các
lược đồ khác trong các bước sau. Lược đồ chuẩn hóa cHˆ được tính như sau
N
i c
c
iH
iH
ciHˆ (2.18)
2.2. Giám sát đối tượng chuyển động
Mục đích của đánh dấu đối tượng là thiết lập sự tương ứng giữa các đối
tượng và các phần của đối tượng trong các frame liên tục và để trích rút thông
tin theo thời gian về các đối tượng như đường đi, tư thế, tốc độ và phương
hướng. Đánh dấu các đối tượng được phát hiện từ frame này đến frame khác
trong Video là nhiệm vụ khó khăn và mang nhiều ý nghĩa. Nó là phần chủ yếu
của các hệ thống giám sát thông minh, trong khi các đối tượng chưa được
đánh dấu, hệ thống không thể trích rút thông tin đi kèm theo thời gian về các
đối tượng và các bước phân tích điều khiển ở mức cao hơn sẽ không thể thực
hiện. Mặt khác, phân đoạn đối tượng nổi bật không đúng do các bóng, sự
45
phản xạ ánh sáng và các tình trạng bị chồng chéo làm cho việc đánh dấu là
một vấn đề nghiên cứu khó khăn.
Ta sử dụng một thuật toán đánh dấu mức đối tượng trong hệ thống này.
Tức là, ta không đánh dấu các phần đối tượng, như là các chi của người,
nhưng ta đánh dấu đối tượng nguyên vẹn từ frame đến frame. Các thông tin
trích rút được ở mức này đều đầy đủ cho hầu hết các ứng dụng giám sát thông
minh.
Hướng tiếp cận này sử dụng các đặc điểm của đối tượng như kích thước,
tâm của khối, hộp bao xung quanh và lược đồ màu sắc được trích rút từ các
bước trước để xác minh sự liên hệ giữa đối tượng trong các frame liên tiếp
[1]. Hơn nữa, thuật toán này phát hiện đối tượng bị bít kín và phân biệt các
đặc điểm của đối tượng sau khi chia nhỏ các đối tượng bị bít kín. Bằng cách
phân tích thông tin về đường đi của đối tượng, hệ thống phát hiện này có thể
phát hiện các đối tượng rời đi và biến mất rất tốt. Lược đồ của hệ thống theo
phương pháp đánh dấu này thể hiện trong lược đồ 2.2
46
Lược đồ 2.2: Lược đồ hệ thống đánh dấu đối tượng
2.2.1. Tham chiếu tương tự với các đối tượng cơ bản
Biểu đồ hoạt động của thuật toán tham chiếu đối tượng thích hợp cơ bản
được thể hiện trong lược đồ 2.3. Bước đầu tiên trong thuật toán đánh dấu đối
tượng này là tham chiếu đến các đối tượng (Op’s) trong ảnh trước (In-1) đến
các đối tượng mới (Oi’s) phát hiện được trong ảnh hiện thời (In).
Phát hiện đối tượng và rút trích
đặc trưng
Tham chiếu các đối tượng dựa
trên sự tương tự
Phát hiện và điều khiển sự chồng
chéo và tách đối tượng
Phát hiện các đối tượng dời đi
hoặc biến mất
Thông tin về đường
đi của đối tượng
Đồ thị tương ứng của đối
tượng đã được cập nhật
Đồ thị tương ứng của đối tượng
Các đối tượng
mới & đặc trưng
Cập nhật
Các đối
tượng trước
47
Lược đồ 2.3: Phương pháp tham chiếu đối tượng phù hợp cơ bản
Op có gần giống với Oi không? Đối tượng tiếp theo của In?
Op có tương tự với Oi không?
Kết
thúc
Có tương tự mới tốt hơn của Oi
không?
Cập nhật tất cả các tương tự
Có
Với tất cả các Op
trong In-1
Với tất cả các Oi trong In
Không
Có
Khai báo một khởi tạo
tương tự
Không
Có
Có
Không
Giữ lại tương tự cũ
Không
Có
Không
Với tất cả Op trong In-1
Với tất cả Oi trong In
Op có thực sự tương tự với Ok
không?
So sánh sự tương tự của Oi và Ok
với Op
48
Hình 2.9: Ví dụ về đồ thị tham chiếu đối tượng
Ta lưu tham chiếu của các đối tượng trong đồ thị chia làm hai phần gốc
(Bi – partite) G(m,n). Trong đồ thị này, các đỉnh biểu diễn các đối tượng (một
lớp đỉnh biểu diễn các đối tượng trước Op’s và phần còn lại biểu diễn các đối
tượng mới Oi’s) và các đường nối biểu diễn một tham chiếu giữa hai đối
tượng. Trong G(m,n), m là kích cỡ của các đối tượng trước và n là kích cỡ của
các đối tượng mới. Một đồ thị tham chiếu đơn giản thể hiện trong hình 3.13.
Để thực hiện việc tham chiếu đối tượng, ta lặp đi lặp lại trên một danh sách
của các đối tượng trước và các đối tượng mới để đánh giá sự tương tự của
chúng. Với mỗi đối tượng trước, Op, ta đánh giá với tất cả các đối tượng mới
và bắt đầu kiểm tra xem một đối tượng mới Oi trong danh sách các đối tượng
mới có thể thành một cặp với Op hay không. Ngưỡng để kiểm tra sự tương
thích được định nghĩa như là khoảng cách giữa điểm chính giữa của khối của
hai đối tượng (Op và Oi) là nhỏ hơn một hằng đã được định nghĩa trước. Việc
kiểm tra này được thúc đẩy bởi thực tế rằng sự thay đổi chỗ của một đối
tượng giữa các ảnh liên tiếp chỉ nên xẩy ra rất nhỏ. Nói một cách khác, hai đối
tượng với các điểm trọng tâm cp và ci được coi là gần nhau nếu thỏa mãn:
),( ip ccDist (2.19)
Trong đó hàm Dist() được định nghĩa như là khoảng cách Euclidean giữa
hai điểm:
Các đối tượng
trước , Op’s
Các đối tượng
mới , Oi’s
49
22 )()(),(
ipip ccccip
yyxxccD st (2.20)
Trong khi mỗi cặp đối tượng tạo thành một đôi thuộc về một ngưỡng
không đảm cần thiết là một sự tham chiếu thành công, trong bước tiếp theo, ta
kiểm tra sự tương tự của các cặp đó để cải thiện việc tham chiếu chính xác
hơn. Tiêu chuẩn để so sánh tượng tự là tỉ lệ kích cỡ của các đối tượng. Hai đối
tượng khác biệt được coi là tương tự nếu nó thỏa mãn:
i
p
s
s
hoặc
p
i
s
s
(2.21)
Trong đó si là kích cỡ của đối tượng Oi và μ là một ngưỡng được định
nghĩa trước. Việc kiểm tra các đối tượng theo kích thước là rất hữu ích nếu
một đối tượng trong frame trước tách ra thành một vùng lớn và một vùng rất
nhỏ thì phân đoạn không đúng. Việc kiểm tra này loại trừ khả năng tham
chiếu giữa một vùng lớn và một vùng nhỏ.
Nếu chúng ta chỉ thực hiện hai bước trên, ta sẽ tới gần với các trường
hợp mà ở đó đối tượng trước được tham chiếu đến nhiều hơn một đối tượng
mới.. Như vậy, sau bước thứ hai ta kiểm tra khả năng đối tượng Op có thực sự
tham chiếu/ tương tự thêm nữa hay không. Nếu đối tượng Op không có sự
tương ứng đầu tiên, ta kết nối đến đỉnh tương ứng trong đồ thị bi-partite
G(m,n) và tiếp tục với đối tượng mới tiếp theo là Oi, nhưng nếu Op có một
tương tự đầu tiên là Ok, ta thực hiện thêm một bước để giải quyết sự xung đột.
Trong việc giải quyết xung đột tham chiếu ta so sánh các sự tương tự của
các đối tượng Oi và Ok với Op, ta cố gắng lựa chọn một trong hai là Oi hoặc Ok
là tham chiếu đúng của đối tượng Op. Sự tương ứng này được so sánh bằng
cách sử dụng khoảng cách giữa điểm trọng tâm của các khối của Op và Oi
hoặc Ok. Đặt dpi là khoảng cách giữa trọng tâm của Op và Oi, dpk là khoảng
cách giữa điểm trọng tâm của Op và Ok. Sự tương ứng này được giải quyết với
50
sự thiên về Ok nếu dpk<dpi hoặc ngược lại sẽ chọn Oi. Chúng ta có thể sử dụng
các chuẩn mạnh hơn trong tham chiếu, như là so sánh lược đồ màu sắc,
Một trường hợp xung đột khác nảy sinh trong trường hợp nếu Oi có một
đối tượng tương ứng từ đầu đã được xác lập trong danh sách các đối tượng
trước đó. Chẳng hạn, Op-1 có thể là tham chiếu của Oi, và trong khi lặp lại việc
tìm kiếm tham chiếu lần tiếp theo cho Op, rất có thể rằng Oi sẽ trở thành tham
chiếu của Op. Nhưng ta biết Oi đã có đối tượng tương ứng là Op-1. Do đó,
nguyên nhân xung đột đối tượng tương ứng tương tự như trường hợp này đòi
hỏi ta phải đưa ra cách giải quyết bằng cách sử dụng phối hợp khoảng cách cơ
sở thể hiện trong đồ thị trước.
Trong khi xác lập tham chiếu giữa các đối tượng trước và các đối tượng
mới có 5 trường hợp tham chiếu khác nhau, ta có thể nêu ra như sau:
- One – to – one: Mỗi đối tượng trước Op được tham chiếu với một
đối tượng đơn Oi. Các đặc điểm của Op được cập nhật thêm thông tin từ
Oi
- One – to – many: Mỗi đối tượng trước Op được tham chiếu với
nhiều hơn một đối tượng mới. Trường hợp xung đột này sẽ được giải
quyết bởi việc so sánh khoảng cách cơ sở và nó quay về trường hợp thứ
nhất.
- One – to – none: Mỗi đối tượng trước Op không tham chiếu đến
bất kỳ đối tượng mới nào. Trường hợp này xảy ra nếu một đối tượng
biến mất từ cảnh hoặc nếu đối tượng này được bị che khuất bởi các đối
tượng khác. Trong trường hợp bị che khuất, đối tượng này sẽ được giữ
lại trong quá trình phát hiện của đối tượng tương ứng bị bít kín tách ra,
nếu không thì đối tượng này sẽ bị xóa khỏi danh sách trước.
51
- None – to – one: Trường hợp một đối tượng mới Oi không tham
chiếu đến bất kỳ một đối tượng nào trong các đối tượng đã tồn tại.
Trường hợp này xảy ra nếu một đối tượng mới được thêm vào trong
cảnh hoặc các đối tượng bị che khuất tách ra. Trong trường hợp một đối
tượng bị che khuất tách ra (sẽ được mô tả ở phần tiếp theo) nếu nó là
một đối tượng mới được thêm vào, đối tượng Oi được thêm vào danh
sách các đối tượng được đánh dấu.
- Many – to – one: Trường hợp một đối tượng mới Oi được tham
chiếu với nhiều hơn một đối tượng trước đó. Trường hợp xung đột này
được giải quyết bởi việc so sánh sự tương ứng về khoảng cách cơ bản
và trở thành trường hợp 1
(n-1)st frame ntn frame
Hình 2.10: Ví dụ về trường hợp phát hiện đối tượng bị che khuất
2.2.2. Điều khiển sự chồng chéo của các đối tượng
Hầu hết các phương pháp phát hiện đối tượng không thể phát hiện các
đối tượng bị che lấp. Vì thế, công nghệ đặc biệt này mong muốn đánh dấu các
đối tượng ngay cả trong các trường hợp bị che khuất. Hệ thống đánh dấu này
sử dụng phương pháp đánh giá dựa trên kinh nghiệm đơn giản để phát hiện và
tách các nhóm đối tượng bị che lấp và phân biệt các đối tượng đồng dạng.
52
2.2.2.1 Phát hiện các đối tượng bị che khuất
Ta sử dụng một giả định đơn giản trong việc phát hiện sự che khuất. Khi
một đối tượng Op được phát hiện biến mất bằng cách dùng thuật toán tham
chiếu đối tượng ban đầu (trường hợp 2, mục 2.2.1), ta kiểm tra xem có một
đối tượng mới Oi nào có đường bao xung quanh che lên Op và nó được tham
chiếu bởi đối tượng trước là Ot. Trong trường hợp thế này, có khả năng cao là
Op và Ot bị che khuất bởi một đối tượng khác có hình dạng mới là Oi. Sau khi
phát hiện ra trường hợp này, ta không xóa bỏ đối tượng Op ở trong danh sách
các đối tượng trước nhưng đánh dấu là nó bị che khuất. Ta tạo ra một nhóm
các đối tượng bị che khuất từ các đối bị che khuất này và chỉ định một nhóm
che khuất ID mới cho các đối tượng đó. Với trường hợp, nếu một trong các
đối tượng bị che khuất đã tồn tại trong nhóm ID, ta trộn các nhóm bị che
khuất lại thành một. Ta cũng lưu lại lược đồ màu trước khi bị che khuất của
các đối tượng để sử dụng trong xử lý nhận dạng sau khi tác ra.
2.2.2.2. Phát hiện các đối tượng tách ra
Ta cũng dựa theo kinh nghiệm để phát hiện các đối tượng tách ra sau khi
bị che khuất. Khi một đối tượng Oi được tìm thấy trong một cảnh bởi thuật
toán tham chiếu đối tượng, ta kiểm tra xem có đối tượng trước Ot có đường
bao che khuất Oi và có giá trị trong nhóm ID và được tham chiếu bởi một đối
tượng mới là Ok. Trong trường hợp này có thể coi như là một đối tượng vừa
tách ra. Ta kiểm tra danh sách đối tượng trước về các đối tượng có cùng nhóm
bị che khuất ID với Op xem liệu có phải Op và Ot cùng bị che lấp bởi một đối
tượng trước đó không. Khi đó ta có 2 đối tượng đánh dấu TO={Op, Ot} và hai
đối tượng mới NO={Oi,Ok}. Bây giờ, ta cần nhận dạng đối tượng trong TO
tương ứng với đối tượng trong NO.
53
2.2.2.3. Lược đồ cơ sở tham chiếu tương ứng
Để tham chiếu các đối tượng trong TO đến các đối tượng tương ứng
trong NO, ta sử dụng cách lưu lại lược đồ màu trước khi bị che khuất của việc
đánh dấu các đối tượng và lược đồ màu của các đối tượng mới. Dù ta không
thể tham chiếu các đối tượng cơ bản ở vị trí của chúng, sử dụng khoảng cách
là không khả thi trong trường hợp này. Như vậy, để so sánh sự tương tự của
các đối tượng, ta sử dụng khoảng cách lược đồ màu.
Khoảng cách dab giữa hai lược đồ màu thông thường Ha và Hb với N bin
được tính toán bằng cách sử dụng ma trận L1 như sau:
N
i
baab iHiHd (2.22)
Từ giờ ta giữ hai lược đồ của mỗi đối tượng, một cao hơn phần thân của
đối tượng và một thấp hơn, ta tính toán toàn bộ khoảng cách bằng cách tổng
kết các khoảng cách giữa các lược đồ màu tương ứng của các đối tượng. Đó
là:
dtotal = dupper histogram +dlower histogram (2.23)
Sau đây là một ví dụ về các đối tượng và các histogram trước và sau khi
che khuất và bảng khoảng cách của chúng
(a) (b)
54
( c) (d)
(e) (f)
Đối tượng A sau Đối tượng B sau
Đối tượng A trước 0.283156 0.467758
Đối tượng B trước 0.358641 0.241878
(g)
Hình 2.11: Nhận dạng đối tượng sau khi che khuất
(a) Ảnh trước khi che lấp
(b) Ảnh sau khi che lấp
(c) Histogram màu của đối tượng A trước khi che lấp
(d) Histogram màu của đối tượng B trước khi che lấp
(e) Histogram màu của đối tượng A sau khi che lấp
(f) Histogram màu của đối tượng B sau khi che lấp
(g) Bảng khoảng cách histogram màu của các đối tượng A, B
55
2.2.3. Phát hiện các đối tượng dời đi và các đối tượng bị loại bỏ
Khả năng phát hiện sự dời đi và loại bỏ của các đối tượng là vấn đề sống
còn của một số ứng dụng giám sát. Phát hiện các đối tượng dời đi như hành lý
không có chủ trong các sân bay hoặc một chiếc xe đỗ trước một tòa nhà an
ninh nhạy cảm là rất quan trọng. Những hoạt động đó có thể được thực hiện
bởi những kẻ khủng bố làm tổn hại mọi người. Mặt khác, bảo vệ các đối
tượng tránh xa khỏi những vật đổi chỗ mà không được phép có những ứng
dụng rất quan trọng như là các hệ thống giám sát ở các bảo tàng, triển lãm
nghệ thuật hoặc các tòa nhà lưu trữ cần tránh trộm cắp. Nhờ có các ứng dụng
đó, đối tượng dời đi và biến mất là một phần quan trọng của hệ thống giám
sát.
Hệ thống ta trình bày ở đây có thể phát hiện và phân biệt các đối tượng
dời đi và biến mất trong Video. Để đạt được điều này, ta sử dụng phối hợp trừ
nền tương ứng, phương pháp đánh dấu đối tượng và các kinh nghiệm thực tế
để phân biệt các đối tượng dời đi từ các đối tượng biến mất. Có ba bước để
phát hiện sự dời đi và sự biến mất của các đối tượng như sau:
1. Phát hiện một sự thay đổi giữa ảnh hiện thời với ảnh nền cơ sở bằng
cách sử dụng phối hợp trừ nền tương ứng.
2. Quyết định rằng vùng chuyển động được phát hiện có phù hợp với
một sự dời đi và biến mất của đối tượng bằng cách sử dụng phương
pháp đánh dấu đối tượng.
3. Phân biệt các đối tượng dời đi từ các đối tượng biến mất bằng cách
sử dụng thuộc tính màu thống kê của các vùng được phát hiện và
đường bao xung quanh của nó.
Không giống như một số thuật toán khác, chẳng hạn như sự khác biệt
theo thời gian, thuật toán trừ nền tương ứng này có thể phát hiện được các đối
56
tượng dời đi hoặc biến mất cho một giai đoạn thời gian dài. Với sự trợ giúp
của phương pháp đánh dấu, ta phát hiện đối tượng đứng yên bằng thông tin về
đường đi của nó. Nếu một phần hiện thời của thông tin về đường đi thể hiện
rằng đối tượng không chuyển động một thời gian đã lâu (ví dụ như chu kỳ
cảnh báo), ta quyết định vùng tương ứng là đứng yên và có khả năng nó sẽ
dời đi hoặc biến mất.
Để phân biệt kiểu của đối tượng (dời đi hay biến mất), ta sử dụng các đặc
tính tĩnh của các giá trị màu ở bên trong và ở viền của vùng được phát hiện.
Đặt R là vùng tương ứng với một sự thay đổi với thời hạn dài trong nền; S là
đường bao xung quanh của R và đặt AX là giá trị cường độ màu trung bình
trong vùng X. Kinh nghiệm cho thấy từ các cuộc thử nghiệm về đối tượng dời
đi/ biến mất là nếu các giá trị của AR và AS là gần nhau, khi đó cho biết rằng
vùng các đối tượng được phát hiện và vùng bao của nó hầu hết có cùng màu
cho nên vùng này tương ứng với đối tượng chuyển chỗ. Mặt khác, nếu AR và
AS không gần nhau cho thấy rằng vùng này tương ứng với đối tượng biến mất.
Việc xác định AR và AS có gần nhau hay không như sau:
,1
S
R
A
A
nếu AR ≤ AS
(2.24)
1
R
S
A
A
, nếu AS ≤ AR
Trong đó là một hằng được định nghĩa trước(≈0.85). Sau đây là miêu tả
hình vẽ thể hiện các vùng AR và AS và hai ảnh Video thể hiện hai trường hợp
dời đi và di chuyển của các đối tượng.
57
(a) (b)
(c) (d)
Hình 2.12: Phân biệt các đối tượng dời đi và biến mất
(a) Cảnh nền, (b) Vùng R và S, (c) Ví dụ về đối tượng dời đi, (d) vì dụ
về đối tượng biến mất.
58
Chương 3
ỨNG DỤNG
3.1. Giám sát tự động dưới sự trợ giúp của Camera
Ngày nay, công nghệ thông tin đã xâm nhập vào mọi ngõ ngách của cuộc
sống. Việc sử dụng các hệ thống giám sát bằng camera trở nên vô cùng quan
trọng. Trong giao thông, người ta lắp đặt các camera giám sát ở các ngã ba,
ngã tư, đường hầm, nhà ga và các vị trí nhạy cảm để giám sát tai nạn giao
thông, các vi phạm luật giao thông của các phương tiện, Trong các bảo
tàng, người ta sử dụng hệ thống camera để giám sát các vật trưng bày để tránh
trường hợp bị mất cắp. Các vùng nhạy cảm về an ninh, ta có các hệ thống
giám sát để có thể cảnh báo kịp thời những hành vi khả nghi liên quan đến
khủng bố, trộm cắp, hỏa hoạn Ở các siêu thị, người ta dùng hệ thống
camera giám sát để tránh các trường hợp trộm cắp hàng hóa,....
Như vậy, các hệ thống giám sát là rất cần thiết và hữu ích cho xã hội.
Hiện nay, các hệ thống giám sát hoạt động tốt dựa vào công nghệ phần cứng,
tuy nhiên, như đã nói ở trên, phần mềm nhúng ra đời để làm giảm chi phí cho
việc sản xuất các thiết bị phần cứng chuyên dụng vốn rất đắt đỏ. Việc cài đặt
các phần mềm giám sát vào các hệ thống giám sát là rất cần thiết.
Với các phương pháp về phát hiện, đánh dấu, phân loại đối tượng đã nêu
ở trên, ta có thể xây dựng một phần mềm giám sát để làm giảm thiếu chi phí
cho các thiết bị phần cứng đồng thời có tính bảo mật cao.
Nhờ camera và các phương pháp phát hiện đối tượng chuyển động trong
camera, ta có thể xây dựng các phần mềm điều khiển, các phần mềm hỗ trợ.
Chẳng hạn như phần sử dụng tia laze để điều khiển các chương trình ứng
dụng chạy trên máy tính. Phần mềm hỗ trợ giao tiếp giữa người khuyết tật với
máy tính,
59
3.2. Chương trình thử nghiệm phát hiện và bám sát đối tượng
Bài toán đặt ra là với ảnh thu nhận được từ camera, chương trình ứng
dụng sẽ tiến hành xử lý và cho ra kết quả là đối tượng đang cần theo vết đang
ở vị trí nào, ta tiến hành đánh dấu (tô màu, kẻ khung) và từ đó liên tục bám sát
đối tượng đó dựa trên một ngưỡng nhất định. Sau khi xác định vị trí đối
tượng, ứng dụng sẽ tiếp tục điều khiển thiết bị chuột tới vị trí mong muốn (vị
trí của đối tượng đang theo vết), đồng thời quyết định ra sự kiện gì (Click,
Double click, Drap & Drop).
Hình 3.1: Sơ đồ mô tả các tiến trình xử lý của hệ thống
Thuật toán phát hiện sự chuyển động
Có nhiều phương pháp tiếp cận để phát hiện chuyển động trong hình
ảnh Video liên tục. Có thể so sánh khung hình hiện tại với hình nền chúng ta
chụp từ ban đầu khi bật camera hoặc từ khung hình trước. Đối với phương
pháp thứ nhất thì đơn giản và giảm được việc xử lý. Tuy nhiên, cách tiếp cận
có một bất lợi lớn, ví dụ nếu có một đối tượng đang di chuyển ở frame đầu
tiên nhưng sau đó nó đã biến mất. Phương pháp thứ hai thì xử lý phức tạp
hơn, xử lý nhiều hơn nhưng lại thích nghi với mọi môi trường, kể cả môi
trường ít thay đổi hoặc thay đổi nhiều. Nhược điểm là nếu đối tượng di
chuyển một cách rất chậm thì hệ thống không phát hiện ra. Nhưng có thể giải
quyết bằng cách tăng số khung hình trên giây. Trong đề tài này giới thiệu theo
phương pháp Optical Flow.
60
Ngưỡng (Threshold)
Nguỡng (Threshold) là một khái niệm khá quen thuộc trong xử lý ảnh
cũng như rất nhiều giải thuật khác. Nó dùng để chỉ một giá trị mà người ta
dựa vào để phân hoạch một tập hợp thành các miền phân biệt.
Ví dụ thang điểm đánh giá học sinh là từ 1 đến 10. Trong một tập hợp gồm 40
học sinh của 1 lớp, người ta muốn phân lọai ra hai miền, miền thứ nhất bao
gồm các học sinh đạt yêu cầu và miền thứ hai gồm các học sinh không
đạt. Trong tình huống đó người ta dùng giá trị 5 (điểm) như là một ngưỡng
(threshold) để phân loại học sinh. Các học sinh có điểm dưới 5 sẽ xem như
không đạt, những học sinh có điểm từ 5 trở lên là đạt yêu cầu. Giá trị ngưỡng
thường được xác định dựa vào những điểm đặc biệt (ví dụ ở trung bình), dựa
vào kinh nghiệm khảo sát. Nếu dựa vào số lượng ngưỡng áp dụng cho cùng
một tập dữ liệu người ta sẽ phân ra các phương pháp ứng dụng ngưỡng đơn,
ngưỡng kép, hay đa ngưỡng. Nếu dựa vào sự biến thiên của giá trị
ngưỡng, trong cùng phạm vi ứng dụng người ta sẽ phân ra các phương pháp
dùng ngưỡng cố định (Constant|Fixed Threshold) và không cố định (Adaptive
Threshold). Ngưỡng không cố định nghĩa là giá trị của nó sẽ thay đổi tùy theo
sự biến thiên của tập dử liệu theo không gian và thời gian. Thông thường giá
trị này được xác định thông qua khảo sát bằng phương pháp thống kê. Để dễ
hình dung hơn về ứng dụng khái niệm Threshold, sau đây chúng ta sẻ xét một
ví dụ bộ lọc ngưỡng (Threshold Filter) đơn giản trong xử lý ảnh.
Với mỗi pixel trong hình đa mức xám (grayscale) ở trên giá trị sẽ trong
khoảng 0 - 255 vậy pixel nào lớn hơn ngưỡng là 120 ta gán giá trị cho nó
thành đen (0), ngược lại gán giá trị trắng (255). Kết quả thu được như sau:
61
Hình 3.2: Trước và sau khi xử lý dựa trên ngưỡng
62
Hình 3.3: Lưu đồ thuật toán phát hiện sự chuyển động
End
Pixel ảnh đầu ra
màu đen
Không có sự di
chuyển
Pixel ảnh đầu ra
màu trắng
Số điểm trắng >
Ngưỡng
Có sự di chuyển
Begin
Thu khung hình
hiện tại, và trước
Chuyển thành ảnh
xám
So sánh từng pixel
của 2 ảnh xám
Giá trị>ngưỡng cho
trước
N
N
Y
Y
63
3.2.1. Giao diện của chương trình:
Hình 3.4: Giao diện chương trình demo
3.2.2. Các chức năng của chương trình:
Hình 3.5: Phát hiện và bám sát các đối tượng chuyển động
Chức năng này cho phép mở các Video từ một file AVI, từ camera gắn trực
tiếp với máy tính.
64
Hình 3.6: Chức năng theo vết đối tượng được lựa chọn để theo vết
Chức năng này giám sát đối tượng mà mình muốn theo vết
Hình 3.7: Chức năng theo vết đối tượng được lựa chọn để theo vết (tiếp theo)
65
Hình 3.8: Chức năng chọn màu dãy màu của đối tượng cần theo vết
Hình 3.9: Chức năng chọn dãy màu từ ảnh chụp từ webcam của đối tượng
cần theo vết
66
Hình 3.10: Chức năng dùng đối tượng đang theo vết để điều khiển “Mouse”
Chức năng này theo màu của một đối tượng và xác định vị trí của đối tượng
để đưa con trỏ tới đúng vị trí đối tượng đang đứng, mục đích là muốn thông
qua đối tượng bên ngoài như bàn tay để qua camera có thể duyệt web, sử
dụng các thao tác căn bản như Click, Double click
67
KẾT LUẬN
Như ta đã biết, giám sát bằng camera được ứng dụng rộng rãi trong nhiều
lĩnh vực của cuộc sống, việc nghiên cứu các vấn đề liên quan đến các hệ thống
giám sát này nhằm đưa ra các cảnh báo chính xác, kịp thời là một công việc
mang tính thực tiễn cao. Chúng ta cũng biết rằng kết quả thu nhận được từ các
camera giám sát là Video. Như vậy việc nghiên cứu chính ở đây là phát hiện
đối tượng chuyển động trong Video.
Video thu nhận được từ các camera sẽ được xử lý qua các công đoạn sau:
Phát hiện đối tượng chuyển động, đánh dấu các đối tượng vừa phát hiện, phân
loại chúng và sẽ tiến hành xử lý và cho ra kết quả là đối tượng đang cần theo
vết đang ở vị trí nào, ta tiến hành đánh dấu (tô màu, kẻ khung) và từ đó liên tục
bám sát đối tượng đó dựa trên một ngưỡng nhất định. Sau khi xác định vị trí
đối tượng, ứng dụng sẽ tiếp tục điều khiển thiết bị chuột tới vị trí mong muốn
(vị trí của đối tượng đang theo vết), đồng thời quyết định ra sự kiện gì (Click,
Double click, Drap & Drop, Zoom out, Zoom in)
Sau khi nghiên cứu các phương pháp đó, sẽ tìm ra phần ưu, phần nhược
của từng phương pháp, từ đó có bước kết hợp giữa các phương pháp hoặc đưa
ra các giải pháp để khắc phục các nhược điểm nhằm xây dựng một hệ thống
giám sát tối ưu nhất có thể. Trong luận văn này tôi cũng đã cài đặt thành công
một số phương pháp phát hiện và đánh dấu đối tượng chuyển động. Hệ thống
đầu vào trong bản demo này là lấy hình ảnh trực tiếp từ webcam gắn vào máy
tính hoặc lấy một file Video có phần đặc trưng là AVI từ nguồn có sẵn hoặc
các Video lấy từ nguồn trực tuyến.
Hướng nghiên cứu sâu hơn của đề tài này mà tôi quan tâm đó là phát hiện
và phân loại từng phần chuyển động của đối tượng, từ đó xây dựng các ứng
68
dụng hỗ trợ cho con người. Một hướng khác nữa là tìm hiểu rõ về đặc điểm của
lửa, từ đó xây dựng các hệ thống cảnh báo hỏa hoạn.
TÀI LIỆU THAM KHẢO
[1] A. Amer. Voting-based simultaneous tracking of multiple Video objects. In
Proc. SPIE Int. Symposium on Electronic Imaging, Santa Clara, USA, January
2005.
[2] J. L. Barron, D. J. Fleet, and S. S. Beauchemin. Performance of optical flow
techniques. International Journal of Computer Vision, 12(1):43–77, 2004.
[3] R. Cutler and L.S. Davis. Robust real-time periodic motion detection, analysis
and applications. In IEEE Transactions on Pattern Analysis and Machine
Intelligence, 2003.
[4] R. T. Collins et al. A system for Video surveillance and monitoring: VSAM final
report. Technical report CMU-RI-TR-00-12, Robotics Institute, Carnegie Mellon
University, May 2006.
[5] T. Brodsky et al. Visual Surveillance in Retail Stores and in the Home,
Boston, 2002.
[6] I. Haritaoglu, D. Harwood, and L.S. Davis. W4: A real time system for detecting
and tracking people. In Computer Vision and Pattern Recognition, 2008.
[7] J. Heikkila and O. Silven. A real-time system for monitoring of cyclists and
pedestrians. In Proc. of Second IEEE Workshop on Visual Surveillance, Fort
Collins, Colorado, June 2009.
[8] A. J. Lipton. Local application of optic flow to analyse rigid versus non-rigid
motion. Technical Report CMU-RI-TR-99-13, Robotics Institute, Carnegie Mellon
University, Pittsburgh, PA, December 2009.
[9] A. J. Lipton, H. Fujiyoshi, and R.S. Patil. Moving target classification and
tracking from real-time Video. In Proc. of Workshop Applications of Computer
Vision, 2008.
[10] C. B. Liu and N. Ahuja. Vision based fire detection. In IEEE International
Conference on Pattern Recognition, Cambridge, UK, August 2004. to appear.
[11] B. D. Lucas and T. Kanade. An iterative image registration technique with an
application in stereo vision. In Seventh International Joint Conference on Artificial
Intelligence, pages 674–679, Vancouver, 2007.
[12] J. S. Marques, P. M. Jorge, A. J. Abrantes, and J. M. Lemos. Tracking groups
of pedestrians in Video sequences. In Proc. of IEEE Workshop on Multi-Object
Tracking, Madison, June 2003.
[13] A. M. McIvor. Background subtraction techniques. In Proc. of Image and
Vision Computing, New Zealand, 2008.
[14] C. Papageorgiou, T. Evgeniou, and T. Poggio. A trainable pedestrian detection
system. In Proc. of IEEE Int. Conf. on Intelligent Vehicles, Germany, October
2008.
[15] M. Saptharishi, J.B. Hampshire II, and P. Khosla. Agent-based moving object
correspondence using differential discriminative diagnosis. In Proc. Of Computer
Vision and Pattern Recognition, 2003.
[16] E. Saykol, U. Gudukbay, and O. Ulusoy. A histogram-based approach for
object-based query-by-shape-and-color in multimedia databases. Technical Report
BUCE-0201, Bilkent University, 2007.
[17] C. Stauffer and W. Grimson. Adaptive background mixture models for realtime
tracking. In Proc. of the IEEE Computer Society Conference on Computer Vision
and Pattern Recognition, 2005.
[18] B. U. Toreyin. Moving object detection and tracking in wavelet compressed
Video. Master’s thesis, Bilkent University, 2003.
[19] Fleet, D.J. and Weiss, Y., Optical flow estimation, Mathematical models for
Computer Vision: The Handbook. N. Paragios, Y. Chen, and O. Faugeras (eds.),
Springer, 2005.
[20] L. Wang, W. Hu, and T. Tan. Recent developments in human motion analysis,
March 2003.
[21] L. Wixson and A. Selinger. Classifying moving objects as rigid or non-rigid. In
Proc. of DARPA Image Understanding Workshop, 2008.
[22] M. Xu and T. Ellis. Colour-Invariant Motion Detection under Fast
Illumination Changes, Boston, 2002.
Các file đính kèm theo tài liệu này:
- nghien_cuu_mot_so_ky_thuat_phat_hien_bam_sat_doi_tuong_va_ung_dung_228.pdf