Khóa luận Phân tích hệ thám mã vigenere

TÓM TẮT NỘI DUNG Nội dung của khóa luận là tìm hiểu về hệ mã hóa Vigenere nổi tiếng, nó được phát minh vào thế kỷ thứ 16 và được viết đầu tiên bởi nhà ngoại giao Pháp Blaise de Vigenère. Trước hết ta đi tìm hiểu về một vài hệ mã hóa cổ điển như hệ mã hóa truyền thống mã thay thế, mã dịch chuyển, mã affine, mã caesar, (hay chúng còn được gọi là hệ mã hóa đơn biểu). Đặc biệt đi sâu vào tìm hiểu hệ mã hóa Vigenere (hệ mã hóa đa biểu) để làm rõ hơn độ an toàn của hệ mật mã này so với các hệ mật mã trên. Đồng thời, làm rõ thêm tính chất của hệ mã hóa Vigenere và cách thức mã hóa và thám mã khi có khóa cho trước. Trong đó, đi nghiên cứu về tần số đơn, tần số đôi, tần số ba và cả sự trùng lặp trong bản rõ và bản mã. Đó cũng là một cách thám mã hiệu quả. Cách phá mã khi không có khóa cho trước, khi đó ta cần thực hiện 2 bước: đầu tiên là tìm chu kỳ khóa, sau đó thám mã, trong đó sử dụng hai cách là thám mã nổi tiếng là của Kasiski và dùng chỉ số trùng khớp. Cuối cùng là chương trình mô tả về toàn bộ cách mã hóa, thám mã khi có khóa và khi không có khóa.( Là chương trình đính kèm theo Vigenere.c). MỤC LỤC Lời mở đầu 1 Chương 1: Hệ mật mã truyền thống 4 1.1 Mở đầu – một số hệ mã hóa đơn giản 4 1.1.1 Định nghĩa về hệ mật mã 4 1.1.2.Một số loại mã hóa truyền thống như 5 1.2. Mã Vigenere và các đặc tính của nó 11 1.2.1 Định nghĩa 11 1.2.2 Tính chất 12 1.3.Phương pháp mã hóa và giải mã Vigenere(khi có khóa cho trước) 13 1.3.1 Mã hóa 13 1.3.2 Giải mã 15 1.3.3 Chương trình mã hóa 15 1.3.4 Kết luận 16 Chương 2: Phân tích trong trường hợp không có khóa cho trước 16 2.1 Những đặc trưng thống kê của bản rõ: Tần số đơn, bộ đôi, trùng lặp 16 2.1.1 Tần suất của 1 ký tự 17 2.1.2 Tần suất bộ đôi phổ biến nhất xuất hiện trong tiếng Anh 18 2.1.3 Những bộ ba phổ biến nhất 19 2.2 Những đặc trưng thống kê của bản mã: Tần số đơn, bộ đôi, trùng lặp 20 2.3. Thống kê của bản mã được mã bởi khóa giả ngẫu nhiên, không có chu kỳ 26 2.3.1 Lý thuyết trùng khớp(coincident theory) 26 2.4 Mô tả 2 cách thám mã Vigenere 30 2.4.1 Phép thử Kasiski 30 2.4.2 Việc xác minh tiếp cho giá trị của m có thể nhận được bằng chỉ số trùng hợp 32 Chương 3: Thực hành phân tích một bản mã Vigenere 33 3.1 Thử với phép thử Kasiski 33 3.2 Tính theo chỉ số trùng hợp 33 Chương 4 Kết Luận và mô tả chương trình nguồn 39 4.1 Mô tả chương trình 39 4.2 Kết luận 39 Các thuật ngữ 39 Danh sách tham khảo 40

48 trang | Chia sẻ: lvcdongnoi | Lượt xem: 6579 | Lượt tải: 1

Bạn đang xem trước 20 trang tài liệu Khóa luận Phân tích hệ thám mã vigenere, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

G ĐẠI HỌC CÔNG NGHỆ Trịnh Thị Dịu PHÂN TÍCH HỆ THÁM MÃ VIGENERE KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công Nghệ Thông Tin HÀ NỘI - 2009 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Trịnh Thị Dịu PHÂN TÍCH HỆ THÁM MÃ VIGENERE KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin Cán bộ hướng dẫn:Tiến sĩ.Hồ Văn Canh HÀ NỘI - 2009 LỜI CẢM ƠN Sau thời gian học tập tại trường bằng sự nỗ lực của bản thân cùng với sự chỉ bảo dạy dỗ tận tình của các thầy cô trong trường Đại học công nghệ nói chung và các thầy cô trong Khoa nói riêng em đã tích luỹ được nhiều kiến thức bổ ích trang bị cho công việc của một cử nhân tương lai. Luận văn tốt nghiệp là kết quả của sự cố gắng trong suốt 4 năm học tập và tìm hiểu kiến thức tại trường , đó là sự đánh giá tổng kết công tác học tập trong suốt thời gian qua của mỗi sinh viên. Trong thời gian luận văn tốt nghiệp này em đã được sự giúp đỡ nhiệt tình của các thầy cô giáo trong bộ môn. Em xin gửi lời cảm ơn sâu sắc tới các thầy cô những người đã trang bị cho chúng em hành trang kiến thức, đặc biệt thầy: Hồ Văn Canh đã tận tình giúp em hoàn thành luận văn. Do thời gian tiến hành làm luận văn và trình độ lý thuyết cũng như các kinh nghiệm thực tế còn có hạn nên trong luận văn này chắc chắn sẽ không tránh khỏi những thiếu sót . Em xin kính mong các thầy cô chỉ bảo để em có thể hoàn thiện hơn luận văn cũng như kiến thức chuyên môn của mình. Em xin chân thành cảm ơn ! Hà Nội, tháng 05 năm 2009. Sinh viên : Trịnh Thị Dịu. TÓM TẮT NỘI DUNG Nội dung của khóa luận là tìm hiểu về hệ mã hóa Vigenere nổi tiếng, nó được phát minh vào thế kỷ thứ 16 và được viết đầu tiên bởi nhà ngoại giao Pháp Blaise de Vigenère. Trước hết ta đi tìm hiểu về một vài hệ mã hóa cổ điển như hệ mã hóa truyền thống mã thay thế, mã dịch chuyển, mã affine, mã caesar, (hay chúng còn được gọi là hệ mã hóa đơn biểu). Đặc biệt đi sâu vào tìm hiểu hệ mã hóa Vigenere (hệ mã hóa đa biểu) để làm rõ hơn độ an toàn của hệ mật mã này so với các hệ mật mã trên. Đồng thời, làm rõ thêm tính chất của hệ mã hóa Vigenere và cách thức mã hóa và thám mã khi có khóa cho trước. Trong đó, đi nghiên cứu về tần số đơn, tần số đôi, tần số ba và cả sự trùng lặp trong bản rõ và bản mã. Đó cũng là một cách thám mã hiệu quả. Cách phá mã khi không có khóa cho trước, khi đó ta cần thực hiện 2 bước: đầu tiên là tìm chu kỳ khóa, sau đó thám mã, trong đó sử dụng hai cách là thám mã nổi tiếng là của Kasiski và dùng chỉ số trùng khớp. Cuối cùng là chương trình mô tả về toàn bộ cách mã hóa, thám mã khi có khóa và khi không có khóa.( Là chương trình đính kèm theo Vigenere.c). MỤC LỤC Lời mở đầu Ngày nay, với sự phát triển mạnh mẽ của công nghệ thông tin việc ứng dụng các công nghệ mạng máy tính trở nên vô cùng phổ cập và cần thiết. Sự ra đời và tiến bộ vượt bậc của nó là bước ngoặt trong lịch sử phát triển của xã hội, đưa thế giới từ kỷ nguyên công nghiệp sang kỷ nguyên thông tin và phát triển kinh tế tri thức. Công nghệ mạng máy tính đã mang lại những lợi ích to lớn. Chúng được áp dụng trong hầu hết các công việc trong mọi lĩnh vực như : chính trị, quân sự, quốc phòng… Sự xuất hiện mạng Internet cho phép mọi người có thể truy cập, chia sẽ và khai thác thông tin một cách dễ dàng và hiệu quả. Các công nghệ E-mail cho phép mọi người có thể gửi thư cho người khác cũng như nhận thư ngay trên máy tính của mình. Gần đây có công nghệ E-business cho phép thực hiện các hoạt động thương mại trên mạng máy tính. Việc ứng dụng các mạng cục bộ trong các tổ chức, công ty hay trong một quốc gia là rất phong phú. Các hệ thống chuyển tiền của các ngân hàng hàng ngày có thể chuyển hàng tỷ đôla qua hệ thống của mình. Các thông tin về kinh tế, chính trị, khoa học xã hội được trao đổi rông rãi. Tuy nhiên lại nảy sinh vấn đề về an toàn thông tin. Đó cùng là một quá trình tiến triển hợp logic: khi những vui thích ban đầu về một siêu xa lộ thông tin, bạn nhất định nhận thấy rằng không chỉ cho phép bạn truy nhập vào nhiều nơi trên thế giới, Internet còn cho phép nhiều người không mời mà tự ý ghé thăm máy tính của bạn. Thực vậy, Internet có những kỹ thuật tuyệt vời cho phép mọi người truy nhập, khai thác, chia sẻ thông tin. Những nó cũng là nguy cơ chính dẫn đến thông tin của bạn bị hư hỏng hoặc phá huỷ hoàn toàn. Có những thông tin vô cùng quan trọng mà việc bị mất hay bị làm sai lệch có thể ảnh hưởng đến các tổ chức, các công ty hay cả một quốc gia. Các thông tin về an ninh quốc gia, bí mật kinh doanh hay các thông tin tài chính là mục tiêu của các tổ chức tình báo nước ngoài về chính trị hay công nghiệp hoặc kẻ cắp nói chung. Bọn chúng có thể làm mọi việc có thể để có được những thông tin quý giá này. Thử tưởng tượng nếu có kẻ xâm nhập được vào hệ thống chuyển tiền của các ngân hàng thì ngân hàng đó sẽ chịu những thiệt hại to lớn như mất tiền có thể dẫn tới bị phá sản. Chưa kể nếu hệ thông thông tin an ninh quốc gia bị đe doạ thì hậu quả không thể lường trước được. [9]Theo số liệu của CERT(Computer Emegency Response Team - “Đội cấp cứu máy tính”), số lượng các vụ tấn công trên Internet được thông báo cho tổ chức này là ít hơn 200 vào năm 1989, khoảng 400 vào năm 1991, 1400 vào năm 1993, và 2241 vào năm 1994. Những vụ tấn công này nhằm vào tất cả các máy tính có mặt trên Internet, các máy tính của tất cả các công ty lớn như AT&T, IBM, các trường đại học, các cơ quan nhà nước, các tổ chức quân sự, nhà băng... Một số vụ tấn công có quy mô khổng lồ (có tới 100.000 máy tính bị tấn công). Hơn nữa, những con số này chỉ là phần nổi của tảng băng. Một phần rất lớn các vụ tấn công không được thông báo, vì nhiều lý do, trong đó có thể kể đến nỗi lo bị mất uy tín, hoặc đơn giản những người quản trị hệ thống không hề hay biết những cuộc tấn công nhằm vào hệ thống của họ. Không chỉ số lượng các cuộc tấn công tăng lên nhanh chóng, mà các phương pháp tấn công cũng liên tục được hoàn thiện. Điều đó một phần do các nhân viên quản trị hệ thống được kết nối với Internet ngày càng đề cao cảnh giác. Cũng theo CERT, những cuộc tấn công thời kỳ 1988-1989 chủ yếu đoán tên người sử dụng-mật khẩu (UserID-password) hoặc sử dụng một số lỗi của các chương trình và hệ điều hành (security hole) làm vô hiệu hệ thống bảo vệ, tuy nhiên các cuộc tấn công vào thời gian gần đây bao gồm cả các thao tác như giả mạo địa chỉ IP, theo dõi thông tin truyền qua mạng, chiếm các phiên làm việc từ xa (telnet hoặc rlogin). Để vừa bảo đảm tính bảo mật của thông tin lại không làm giảm sự phát triển của việc trao đổi thông tin quảng bá trên toàn cầu thì một giải pháp tốt nhất là mã hoá thông tin. Có thể hiểu sơ lược mã hoá thông tin là che đi thông tin của mình làm cho kẻ tấn công nếu chặn được thông báo trên đường truyền thì cũng không thể đọc được và phải có một giao thức giữa người gửi và người nhận để có thể trao đổi thông tin, đó là các cơ chế mã và giải mã thông tin. Ngày nay thì việc mã hoá đã trở nên phổ cập. Các công ty phần mềm lớn trên thế giới đều có nghiên cứu và xây dựng các công cụ, thuật toán mã hoá để áp dụng cho thực tế. Mỗi quốc gia hay tổ chức đều có những cơ chế mã hoá riêng để bảo vệ hệ thống thông tin của mình. Một số vấn đề an toàn đối với nhiều mạng hiện nay: Một người dùng chuyển một thông báo điện tử cho một người sử dụng khác. Một bên thứ ba trên cùng mạng LAN này sử dụng một thiết bị nghe trộm gói để lấy thông báo và đọc các thông tin trong đó. Cũng trong tình huống trên bên thứ ba chặn thông báo, thay đổi các thành phần của nó và sau đó lại gửi cho người nhận. Người nhận không hề nghi ngờ gì trừ khi nhận ra thông báo đó là vô lý, và có thể thực hiện vài hành động dựa trên các thành phần sai này đem lại lợi ích cho bên thứ ba. Người dùng log vào một server mà không sử dụng mật khẩu được mã hoá. Một người khác đang nge trộm trên đường truyền và bắt được mật khẩu logon của người dùng, sau đó có thể truy nhập thông tin trên server như người sử dụng. Một người quản trị hệ thống không hiểu về khía cạnh an toàn và yêu cầu của hệ thống và vô tình cho phép người dùng khác truy nhập vào thư mục chứa các thông tin hệ thống. Người dùng phát hiện ra họ có thể có được các thông tin hệ thống và có thể dùng nó phục vụ cho lợi ích của mình. Thật tai hại nếu các vấn đề trên xảy ra, nó có thể ảnh hưởng không chỉ lợi ích cá nhân mà còn ảnh hưởng tới lợi ích của tập đoàn, có khi là quốc gia. Vậy nên vấn đề bảo mật thông tin ngày càng trở lên cần thiết và được sử dụng rất nhiều trong các công ty, tập đoàn, ban bộ…Vì đó các hệ mã hóa mang lại lợi ích rất lớn và đóng vai trò không thể thiếu trong đời sống công nghệ thông tin. Trong tài liệu này, tôi xin giới thiệu với các bạn một số hệ mã hóa như: Caesar, mã thay thế, mã dịch vòng…và đặc biệt hệ về hệ mã hóa Vigenere nổi tiếng. Hệ mã hóa này được phát minh vào thế kỷ thứ 16 và được viết đầu tiên bởi nhà ngoại giao Pháp Blaise de Vigenère và là một kiểu của mã hóa thay thế được xem xét là chưa từng bị phá vỡ trong suốt 4 thế kỷ và nó được sử dụng phổ biến rộng rãi cho việc mã hóa những dữ liệu được truyền qua hệ thống điện tín trong suốt thế kỷ 19. Chương 1: Hệ mật mã truyền thống 1.1 Mở đầu – một số hệ mã hóa đơn giản: Trong thực tế, giả sử bên A muốn liên lạc với B thương lượng một vấn đề bí mật nào đó( ví dụ như: hợp đồng, bầu cử, thông điệp bí mật …) trên một kênh mật an toàn sao cho C(kẻ trộm) không thể hiểu được thông tin được truyền đi giữa hai người là gì, để tránh tình trạng nghe nén và ăn trộm thông tin quan trọng. Kênh liên lạc này có thể là một đường dây điện thoại hay một mạng máy tính. Đối tượng cơ bản của mật mã chính là khả năng tạo ra các kênh liên lạc đó. Thông tin mà bên A và B muốn gửi cho nhau có thể là những tài liệu liên quan đến bất kỳ một vấn đề gì được thể hiện bằng một văn bản tiếng Anh, các dữ liệu bằng số hay bất cứ tài liệu nào có cấu trúc tùy ý. A sẽ tìm cách làm thế nào đó để gửi an toàn cho bên B một cách an toàn nhất, vậy nên, bên A sẽ mã hóa tài liệu đó (bản rõ) bằng một khóa được xác định trước và gửi bản mã kết quả trên kênh. Bên C có bản mã thu trộm được trên kênh song không thể xác định nội dung của bản rõ, nhưng B( người đã biết khóa mã) có thể giải mã và thu được bản rõ. Đó là mục đích của mật mã- đảm bảo an toàn thông tin. 1.1.1 Định nghĩa về hệ mật mã [1]: Hệ mật mã là một bộ gồm 5 thành phần(P,C,K,E,D) thỏa mãn các điều kiện sau: P là một tập hữu hạn các bản rõ có thể C là một tập hữu hạn các bản mã có thể K là tập hữu hạn các khóa có thể(không gian khóa) Đối với mỗi k thuộc K có một quy tắc mã ek : P->C và một quy tắc giải mã tương ứng dk thuộc D, dk : C->P và ek :P->C, là hàm mà: dk(ek(x))=x với mọi bản rõ x P. Khi bên A muốn gửi một tài liệu (bản rõ x) đến cho bên B, bên A sẽ mã hóa bản rõ đó bằng ek : P->C và gửi đi trên đường truyền qua cho bên B, bên B nhận được sau đó sẽ giải mã bằng dk : C->P để thu lại bản rõ ban đầu. Bên A và B sẽ áp dụng thủ tục sau dùng hệ mật khóa riêng. Trước tiên họ chọn một khóa ngẫu nhiên K Î K . Điều này được thực hiện khi họ ở cùng một chỗ và không bị bên C theo dõi hoặc họ có một kênh mật trong trường hợp họ ở xa nhau. Sau đó giả sử bên A muốn gửi một thông báo cho B trên một kênh không mật và ta xem thông báo này là một chuỗi: x = x1,x2 ,. . .,xn với số nguyên b ³ 1 nào đó. Ở đây mỗi kí hiệu của mỗi bản rõ xi Î P , 1 £ i £ n . Mỗi xi sẽ được mã hóa bằng quy tắc mã ek với khóa K xác định trước đó. Bởi vậy bên A sẽ tính yi = ek(xi), 1 £ i £ n và chuỗi bản mã nhận được y = y1,y2 ,. . .,y sẽ được gửi trên kênh. Khi bên B nhận được y = y1,y2 ,. . .,y anh ta sẽ giải mã bằng hàm giải mã dk và thu được bản rõ gốc x = x1,x2 ,. . .,xn 1.1.2.Một số loại mã hóa truyền thống như: 1.1.2.1 Mã dịch chuyển vòng( shift cipher): Định nghĩa[2]: Giả sử P = C = K = Z26 với 0 £ k £ 25 , định nghĩa: eK(x) = x +K mod 26 và dK(x) = y -K mod 26 (x,y Î Z26) Nhận xét: Trong trường hợp K=3, hệ mật thường được gọi là mã Caeser. Ta sẽ sử dụng mã dịch vòng(với modulo 26) để mã hóa một văn bản tiếng Anh thông thường bằng cách thiết lập sự tương ứng giữa các kí tự và các thặng dư theo modulo 26 như sau: A « 0,B « 1, . . ., Z « 25. A B C D E F G H I J K L M 0 1 2 3 4 5 6 7 8 9 10 11 12 N O P Q R S T U V W X Y Z 13 14 15 16 17 18 19 20 21 22 23 24 25 Ví dụ: Giả sử khóa cho mã dịch vòng là K=11 Bản rõ: “wewillmeetatmidnight” Trước tiên biến đổi bản rõ thành dãy các số nguyên ta có: Bản rõ số: 22 4 22 8 11 11 12 4 4 19 0 9 12 8 3 13 8 6 7 19 Sau đó cộng 11 vào mỗi giá trị rồi rút gọn tổng theo modulo 26, ta được: Bản mã số: 7 15 7 19 22 22 23 15 15 4 11 4 23 19 14 24 19 17 18 4 Cuối cùng biến đổi dãy số nguyên này thành các kí tự thu được bản mã: Bản mã chữ: “HPHTWWXPPELEXTOYTRSE” Tương tự, khi bên B muốn xem bản mã này, trước tiên bên B sẽ biến đổi bản mã thành dãy các số nguyên rồi trừ đi giá trị cho 11 (rút gọn theo modulo 26) và cuối cùng lại biến đổi dãy này thành các ký tự. Kết luận: Mã dịch vòng là không an toàn vì nó có thể bị thám theo phương pháp vét cạn. Do chỉ có 26 khóa nên dễ dàng thử mọi khóa dk có thể cho tới khi nhận được bản rõ có ý nghĩa. 1.1.2.2 Mã thay thế: Định nghĩa[2]: Cho P =C = Z26 . K chứa mọi hoán vị có thể của 26 kí hiệu 0,1, . . . ,25 Với mỗi phép hoán vị p ÎK , ta định nghĩa: ep(x) = p(x) và dp(y) = p -1(y) Trong đó p -1 là hoán vị ngược p. Hệ mã hoá thay thế là hệ mã hoá trong đó mỗi ký tự của bản rõ được thay thế bằng ký tự khác trong bản mã (có thể là một chữ cái, một số hoặc một ký hiệu).Có 4 kỹ thuật thay thế sau đây:1. Thay thế đơn (A simple substitution cipher): Là hệ trong đó một ký tự của bản rõ được thay bằng một ký tự tương ứng trong bản mã. Một ánh xạ 1-1 từ bản rõ tới bản mã được sử dụng để mã hoá toàn bộ thông điệp.2. Thay thế đồng âm (A homophonic substitution cipher): Giống như hệ thống mã hoá thay thế đơn, ngoại trừ một ký tự của bản rõ có thể được ánh xạ tới một trong số một vài ký tự của bản mã: sơ đồ ánh xạ 1-n (one-to-many). Ví dụ, “A” có thể tương ứng với 5, 13, 25, hoặc 56, “B” có thể tương ứng với 7, 19, 31, hoặc 42, v.v.3. Thay thế đa mẫu tự (A polyalphbetic substitution cipher): Được tạo nên từ nhiều thuật toán mã hoá thay thế đơn. ánh xạ 1-1 như trong trường hợp thay thế đơn, nhưng có thể thay đổi trong phạm vi một thông điệp. Ví dụ, có thể có năm thuật toán mã hoá đơn khác nhau được sử dụng; đặc biệt thuật toán mã hoá đơn được sử dụng thay đổi theo vị trí của mỗi ký tự trong bản rõ.4. Thay thế đa sơ đồ (A polygram substitution cipher): Là thuật toán trong đó các khối ký tự được mã hoá theo nhóm. Đây là thuật toán tổng quát nhất, cho phép thay thế các nhóm ký tự của văn bản gốc. Ví dụ, “ABA” có thể tương ứng với “RTQ”, “ABB” có thể tương ứng với “SLL”, v.v. Ta xét ví dụ về phép hoán vị ngẫu nhiên tạo nên một hàm mã hóa( các kí hiệu của bản rõ được viết bằng chữ thường còn các kí hiệu của bản mã là chữ in hoa). Ví dụ: a b c d e f g h I j k l m X N Y A H P O G Z Q W B T n o p q r s t u V w x y z S F L R C V M U E K J D I Như vậy, ep (a) = X, ep (b) = N,. . . .. Hàm giải mã là phép hoán vị ngược. Điều này được thực hiện bằng cách viết hàng thứ 2 lên trước rồi sắp xếp theo thứ tự chữ cái. Ta nhận được: A B C D E F G H I J K L M d l r y v o h e z x w p T A B C D E F G H I J K L M d l r y v o h e z x w p T Bởi vậy, dp (A) = d, dp(B) = 1, . . . Kết luận: Mỗi khóa của mã thay thế là một phép hoán vị của 26 ký tự. Số các hoán vị này là 26! Là một số rất lớn. Bởi vậy phép tìm khóa vét cạn không thể thực hiện được, thậm chí bằng máy tính. Tuy nhiên, sau này sẽ thầy rằng mã thay thế có thể dễ dàng bị thám bằng các phương pháp khác. 1.1.2.3 Hệ mã hoá CAESAR: Hệ mã hoá CAESAR là một hệ mã hóa thay thế đơn làm việc trên bảng chữ cái tiếng Anh 26 ký tự (A, B, …, Z). Trong hệ Caesar và các hệ tương tự còn lại ta sử dụng các số tự nhiên thay cho các ký tự - đánh số các ký tự trong bảng chữ cái theo thứ tự: A B C D E F …. X Y Z 0 1 2 3 4 5 …. 23 24 25 Các phép toán số học thực hiện theo modul 26. Có nghĩa là 26 đồng nhất với 0, 27 đồng nhất với 1, …. Hệ Caesar sử dụng thuật toán mã hóa trong đó mỗi ký tự được thay thế bởi một ký tự khác được xác định bằng cách dịch ký tự cần mã hóa sang phải k bước theo modulo 26: Ek() = ( + k)mod 26. Trong đó là một ký tự, 0 k 26 Thuật toán giải mã tương ứng Dk là lùi lại k bước trong bảng chữ cái theo modul 26: Dk() = ( - k)mod 26 Không gian khóa của hệ Caesar bao gồm 26 số Ví dụ : Mã Hóa Plaint: “TRICH” Bản rõ số: 19 17 8 2 7 Khóa: k=3 Bản mã số: 22 20 11 5 10 Bản mã chữ là : “WULFK” Giải mã: Lùi lại với k=3 ta thu được bản rõ: “TRICH” Nhận xét: hệ mã hóa Caesar là hệ mã hóa cũ và không an toàn vì không gian khóa của nó rất nhỏ, do đó có thể thám mã theo phương pháp vét cạn. Khóa giải mã có thể tính ngay đươc từ khóa mã hóa. Do chỉ có 26 khóa nên ta có thể thử lần lượt các khóa cho đến khi tìm được khóa đúng. 1.1.2.4. Mã Affine: Định nghĩa[2]: Cho P = C = Z26 và giả sử: P = { (a,b) Î Z26 ´ Z26 : UCLN(a,26) =1 } Với K = (a,b) ÎK , ta định nghĩa: eK(x) = ax +b mod 26 và dK(y) = a-1(y-b) mod 26, x,y Î Z26 Ví dụ: giả sử K=(7,3). Áp dụng công thức của hàm mã hóa: Ek(x) = 7x+3 Và hàm giải mã tương ứng là: dk(x)=15(y-3)=15y-19 Bản rõ là: “Iwillwin” Bản số: 8 22 8 11 11 22 8 13 Ta có: 7 ´ 8 +3 mod 26 = 59 mod 26 = 7 7 ´ 22 + 3 mod 26 = 157 mod 26 =1 7 ´ 8 +3 mod 26 = 59 mod 26 = 7 7 ´ 11 +3 mod 26 = 80 mod 26 = 2 7 ´ 11 + 3 mod 26 = 80 mod 26 =2 7 ´ 22 +3 mod 26 = 157 mod 26 = 1 7 ´ 8 +3 mod 26 = 59 mod 26 = 7 7 ´ 13 +3 mod 26 = 94 mod 26 = 16 Bản mã số thu được là: 7 1 7 2 2 1 7 16 Bản mã chữ thu được là: “HBHCCBHQ” Việc giải mã chỉ việc áp dụng dK(y) = a-1(y-b) mod 26, 1.2. Mã Vigenere và các đặc tính của nó: 1.2.1 Định nghĩa: Trong cả hai hệ mã dịch vòng và mã thay thế( một khi khóa đã được chọn) mỗi ký tự được ánh xạ vào một ký tự duy nhất. Vì đó mà các hệ mật còn được gọi là hệ thay thế đơn biểu. Bây giờ ta sẽ trình bày một hệ mật không phải là bộ chữ đơn, đó là hệ mã Vigenere nổi tiếng. Nó được gọi là hệ mã hóa đa biểu Giống như Caesar nhưng ở đây khóa được thay đổi theo từng bước. Định nghĩa[2]: Cho m là một số nguyên dương cố định nào đó. Định nghĩa P=C=K=(Z26)m Với khóa K = (k1,k2, …,km) ta xác định: ek (x1,x2,…,xm) =(x1+k1, x2+k2,….,xm+km) dk(y1,y2,…ym) = (y1-k1, y2-k2,….,ym-km). Trong đó tất cả các phép toán được thực hiện trong Z26. Ta sẽ biến đổi các phần tử của bản rõ theo thặng dư 26, viết chúng thành các nhóm 6 rồi cộng với từ khóa theo modulo 26. Ví dụ: giả sử m=5 và từ khóa là “TRICH”. Từ khóa này tương ứng với dãy số K=(19,17,8,2,7). Giả sử bản rõ là xâu: Bản rõ: “CHIPHEO” Ta sẽ biến đổi các phần tử của bản rõ thành các số từ 0-25, ta được: Bản rõ số: C H I P H E O 2 7 8 15 7 4 14 viết chúng thành các nhóm 5 rồi cộng với từ khóa theo modulo 26 ta được: Bản rõ : C H I P H E O Bản rõ số: 2 7 8 15 7 4 14 Khóa số viết lặp lại: 19 17 8 2 7 19 17 =>> Bản mã số: 21 24 16 17 14 23 5 Bởi vậy, dãy ký tự tương ứng của xâu bản mã sẽ là: “VYQROXF” Để giải mã ta có thể dùng cùng từ khóa nhưng thay cho cộng, ta trừ cho nó theo modulo 26. 1.2.2 Tính chất: Ta thấy, khóa có độ dài là m, nên các khóa có thể là 26m , bởi vậy phương pháp tìm kiếm vét cạn cũng yêu cầu thời gian khá lớn.Việc thám mã là rất phức tạp. Thứ hai, từ khóa có độ dài m, mỗi ký tự có thể được ánh xạ vào trong m ký tự có thể có, như trong ví dụ xét trên có đến 2 ký tự H nhưng khi mã hóa ký tự H được mã hóa thành Y và O. Đó là một đặc điểm khác so với các hệ mã hóa đơn biểu. Một hệ như vậy được gọi là hệ mật thay thế đa biểu. Việc thám mã đa biểu khó khăn hơn nhiều so với việc thám mã hệ đơn biểu. Đó là một tiến bộ hơn so với các phép mã hóa cổ điển ta xét bên trên. 1.3.Phương pháp mã hóa và giải mã Vigenere(khi có khóa cho trước): Chúng ta xét một ví dụ sau: Ví dụ: Bản rõ: “Now is the time for all good men” Keywords là: TABLE Ta viết theo hàng của bản rõ và sự lặp lại của từ khóa phía dưới bản rõ, ta được: Bản rõ: n o w i s t h e t i m e f o r a l l g o o d m e n Lặp khóa: T A B L E T A B L E T A B L E T A B L E T A B L E 1.3.1 Mã hóa: Chúng ta nhìn vào hình A polyalphabetic tableau ứng với mỗi ký tự của bản rõ là một ký tự trên hàng của bảng đa biểu, và ứng với mỗi ký tự từ khóa là một ký tự trên cột của bảng đa biểu, khi đó tìm được ký tự mà là giao của cột ký tự khóa với hàng ký tự của bản rõ, ta được: n o w i s t h e t i m e f o r a l l g o o d m e n T A B L E T A B L E T A B L E T A B L E T A B L E G O X T W M H F E M F E G Z V T L M R S H D N P R Vậy nên, ta thu được bản mã là: “GOXTWMHFEMFEGZVTLMRSHDNPR” Chúng ta xem xét một vài đặc điểm. Trong từ “all” của bản rõ, xuất hiên 2 chữ ‘l’ nhưng khi được mã hóa chúng thành L và M, chữ ‘t’ ở trong “the” và “time” được mã hóa thành M và E…Vì vậy, những ký tự giống nhau của bản rõ có thể mã hóa thành những ký tự mã khác nhau, và những ký tự giống nhau của bản mã lại có thể được tạo nên bởi các ký tự khác nhau của bản rõ. Hình1 : A polyalphabetic tableau 1.3.2 Giải mã: Sự giải mã là quá trình ngược lại của mã hóa. Chúng ta viết dưới bản mã với keyword được lặp lại, sau đó nhìn theo cột của keyword khi nào thấy ký tự mã hóa, chiếu sang hàng ngang ta sẽ tìm ra ký tự rõ tương ứng. Ví dụ, ký tự mã là G, ký tự khóa là T, ta nhìn dọc theo cột T khi nào tìm thấy G, chiếu sang hàng ngang thì hàng đó là của ký tự N, vậy nên bản rõ là N. Tương tự lần lượt như vậy ta tìm ra được bản rõ. Ví dụ: Ciphertext: G O X T W M H F E M F E G Z V T L M R S H D N P R Keyword: T A B L E T A B L E T A B L E T A B L E T A B L E Paintext: n o w i s t h e t i m e f o r a l l g o o d m e n Trong hệ mã hóa này, có sử dụng sự quay vòng một số trong hệ mã hóa Caesar. Trong mỗi cột, đại diện một phép mã hóa Caesar đơn giản với một phép dịch chuyển. 1.3.3 Chương trình mã hóa: Chúng ta nhìn vào hàng đầu tiên trong tableau. Trong mỗi cột,A được miêu tả bởi một ký tự khóa, B sẽ được miêu tả ký tự khóa cộng thêm 1, ngoại trừ cột cuối cùng, nơi nó sẽ được thay thế bởi lý tự A. C sẽ được miêu tả bởi ký tự khóa cộng với 2, ngoại trừ 2 cột cuối cùng. Paintext :P Ciphertext: C Keyword: K Do đó, ta có: C= [P+K-1]mod 26 Ví dụ: Ta xét hàng đầu tiên P=13(M), K= 20(T) ,chúng ta sẽ có: C=[13+20-1]mod 26 =6 (F). Theo như trên, cột T và hàng M giao nhau tại F. Nếu bản rõ là vector T% và khóa là vector K%, khi đó bản rõ sẽ được xác định theo công thức: C%(X)=T%(I)+K%(KP)-1 IF C%(X)>26 THEN C%(X)=C%(X)-26 Quá trình giải mã là sự ngược lại của giải mã, khi đó thay công thức trên thành: C%(I)=T%(K)-K%(L)+1 IF C%(I)<0 THEN C%(I)=C%(I)+26 1.3.4 Kết luận: Việc mã hóa và giải mã của hệ mã hóa Vigenere khi có khóa cho trước là một việc không phải phức tạp, chỉ cần viết khóa lặp lại dưới bản rõ(mã) khi mã (giải) hóa, rồi tìm giao của chúng trên bảng đa biểu ta sẽ được bản mã (rõ) tương ứng. Chương 2: Phân tích trong trường hợp không có khóa cho trước 2.1 Những đặc trưng thống kê của bản rõ: Tần số đơn, bộ đôi, trùng lặp: Giả sử ta xét bản rõ: Có 3 cách phân tích mang lại hiểu quả nhất là: theo tần suất các ký tự đơn(letter frequences) và tần suất của các cặp ký tự đôi(digram frequences), và bộ ba(trigram). 2.1.1 Tần suất của 1 ký tự: Bảng 1. Bảng tần suất các ký tự trong Tiếng Anh của Robert Edward Lewand Letter Frequency Letter Frequency a 0.08167 n 0.06749 b 0.01492 o 0.07507 c 0.02782 p 0.01929 d 0.04253 q 0.00095 e 0.12702 r 0.05987 f 0.02228 s 0.06327 g 0.02015 t 0.09056 h 0.06094 u 0.02758 i 0.06966 v 0.00978 j 0.00153 w 0.02360 k 0.00772 x 0.00150 l 0.04025 y 0.01974 m 0.02406 z 0.00074 2.1.2 Tần suất bộ đôi phổ biến nhất xuất hiện trong tiếng Anh th, he, in, en, nt, re, er, an, ti, es, on, at, se, nd, or, ar, al, te, co, de, to, ra, et, ed, it, sa, em, ro. Chúng ta hãy nhìn vào bảng sau, ký tự đầu sẽ nằm bên cột ngoài cùng của bảng, ký tự thứ 2 tương ứng sẽ là hàng đầu tiên của bảng. Khi đó, con số trong mỗi ô đó chính là tuần suất xuất hiện của cặp ký tự đó trong tiếng Anh. Ví dụ: tần suất của ‘TH’ là 315, tần suất của “HT” là 22. Bảng 2: Bảng tần số đôi A B C D E F G H I J K L M N O P Q R S T U V W X Y Z A 1 32 39 15 10 18 16 10 77 18 172 2 31 1 101 67 124 12 24 7 27 1 B 8 58 6 2 21 1 11 6 5 25 19 C 44 12 55 1 46 15 8 16 59 1 7 1 38 16 1 D 45 18 4 10 39 12 2 3 57 1 7 9 5 37 7 1 10 32 39 8 4 9 6 E 131 11 64 107 39 23 20 15 40 1 2 46 43 120 46 32 14 154 145 80 7 16 41 17 17 F 21 2 9 1 25 14 1 6 21 1 10 3 2 38 3 4 8 42 11 1 4 1 G 11 2 1 1 32 3 1 16 10 4 1 3 23 1 21 7 13 8 2 1 H 84 1 2 1 251 2 5 72 3 1 2 46 1 8 3 22 2 7 1 I 18 7 55 16 37 27 10 8 39 32 169 63 3 21 106 88 14 1 1 4 J 2 4 4 K 28 8 3 3 2 1 3 3 L 34 7 8 28 72 5 1 57 1 3 55 4 1 28 2 2 2 12 19 8 2 5 47 M 56 9 1 2 48 1 26 5 3 28 16 6 6 13 2 3 N 54 7 31 118 64 8 75 9 37 3 3 10 7 9 65 7 5 51 110 12 4 15 1 14 O 9 18 18 16 3 94 3 3 13 5 17 44 145 23 29 113 37 53 96 13 36 4 2 P 21 1 40 7 8 29 28 26 42 3 14 7 1 2 Q 20 R 57 4 14 16 148 6 6 3 77 1 11 12 15 12 54 8 18 39 63 6 5 10 17 S 75 13 21 6 84 13 6 30 42 2 6 14 19 71 24 2 6 41 121 30 2 27 4 T 56 14 6 9 94 5 1 315 128 12 14 8 111 8 30 32 53 22 4 16 21 U 18 5 17 11 11 1 12 2 5 28 9 33 2 17 49 42 45 1 1 1 V 15 53 19 6 W 32 3 4 30 1 48 37 4 1 10 17 2 1 3 6 1 1 2 X 3 5 1 4 1 4 1 1 Y 11 11 10 4 12 3 5 5 18 6 4 3 28 7 5 17 21 1 3 14 Z 5 2 1 1 2.1.3 Những bộ ba phổ biến nhất: the, and, tha, ent, ing, ion, tio, for, nde, has, nce, edt, tis, oft, sth, men Sau đây là ví dụ về tần số đơn của các ký tự trong bản rõ: “Our latest shipment of one hundred bales is now loaded. Leave haror police will not interfere. We can sail anytime this we Please advise conditions at your end.” Từ đó ta có bảng tần số đơn của từng kí tự là: Plaint E: 28 H: 4 N: 12 W: 4 A: 11 P: 3 I: 11 U: 3 O: 11 B: 2 L: 10 F: 2 S: 9 M: 2 T: 9 Y: 2 D: 7 K: 1 R: 7 V: 1 C: 4 Không có G, J, Q, X và Z 2.2 Những đặc trưng thống kê của bản mã: Tần số đơn, bộ đôi, trùng lặp Ta xét 1 ví dụ thám mã sử dụng tần suất đơn( letter frequencies),bộ đôi( digram frequencies) và bộ ba(trigram frequencies). Cho bản mã sau: “CKPKH GVGCK UGZQA GCKUG CLGPQ FJZIG PQQAF QQLHG FJZEF QGKEF CCQAG LOULJ QFRGM OGPQA FUGZO SJBQA GLOTS MFOKS JZKOQ VKIGE KOGFJ ZKJGI XKJGT OGMQP LCGJQ CXQKO GPQYD” Bước 1 : Chúng ta tính được tần suất xuất hiện của các ký tự trong bản mã. Và bên phải là bảng tần suất của các ký tự trong tiếng Anh. Cryptogram English(based on 135 letters) G ............. 21 e ............... 17 Q ............. 16 t ............... 13 K .......... …12 a, o............ 11 F,J,O ...... .. 9 n, i............. 10 C .......... …8 s ............... 9 L,P,Z ...... ..6 r ............... 8 A .......... …5 h ............... 7 U .......... …4 l, d............. 5 E,I,M,S .... .3 c, u............. 4 H,T,V,X .... 2 p,f,m,w....... 3 B,D,R,Y .... 1 y,b,g .......... 2 v,k .............. 1 Và tần suất xuất hiện của bộ đôi và bộ 3 trong bản mã là: Digrams in Cryptogram English Digrams QA ...................... ………5 th ......................... 4 GP,JZ,OG,PQ .................4 he ….................... 3 KO,FJ,CK,AG,UG ..........3 an,in,er,re,es ........ 2 GC,GZ,GF,GL,GM,QF on,ea,ti,at,st QQ,KU,KJ,FQ,JQ,JG en,nd,or,to,nt LO,ZK,AF,EF,IG,SJ ...... 2 ed,is,ar,ou,te of,it,ha,se,et …...... 1 Trigrams in Cryptogram English Trigrams (in order of frequency) GPQ ................................. 4 the QAG, FJZ ......................... 3 and QAF,JZK,OGP,KOG tha CKU,AGL,UGZ,GFJ ent GLO,KUG,KJG ................ 2 ion Bước 2: Chúng ta nhận thấy rằng: Ký tự G có tần suất cao nhất, vì vậy chúng ta thừa nhận nó là ‘A’. “the” là bộ đôi có tần suất xuất hiện cao nhất trong tiếng Anh, vì vậy chúng ta nhìn trong bộ 3 những bộ mà kết thúc là G, có: QAG, KOG, KJG ‘t’ cũng là ký tự có tần suất cao, ‘h’ tần suất trung bình. ‘QA’ là bộ đôi tần suất cao nhất trong bản mã, nên QAG là một lựa chọn chính xác và được thay thế cho ‘the’. Khi đó ta có: e e e th e e e t e tth tt e CKPKH GVGCK UGZQA GCKUG CLGPQ FJZIG PQQAF QQLHG te the t e e th e th FJZEF QGKEF CCQAG LOULJ QFRGM OGPQA FUGZO SJBQA e t e e e e e t GLOTS MFOKS JZKOQ VKIGE KOGFJ ZKJGI XKJGT OGMQP e t t e t LCGJQ CXQKO GPQYD Bước 3: Chúng ta nhìn lại bản cryptogram, nhận thấy: - F( ở khối thứ 7) phải là một nguyên âm và có 1 tần suất cao giống ‘a’ hoặc ‘o’. ‘tha’ là bộ ba có tần suất cao nên F đại diện cho ‘a’ - ‘an’ là bộ đôi và ‘and’ là bộ ba có tần suất cao, chúng ta nhận thấy FJ và FJZ là phù hợp, vì vậy J được thay thế cho ‘n’ và Z cho ‘d’. Nên ta có bản cryptogram mới: e e ed th e e e t and e ttha tt e CKPKH GVGCK UGZQA GCKUG CLGPQ FJZIG PQQAF QQLHG and a t e a the n ta e e th a ed n th FJZEF QGKEF CCQAG LOULJ QFRGM OGPQA FUGZO SJBQA e a nd t e e an d ne ne e t GLOTS MFOKS JZKOQ VKIGE KOGFJ ZKJGI XKJGT OGMQP en t t e t LCGJQ CXQKO GPQYD Bước 4: Nhìn lại bản cryptgram ở bước 3, ta nhận thấy: - e,t,a,o,n là những ký tự có tần suất cao nhất và chúng ta đã tìm thấy 4 ký tự. K kết hợp với o. -‘he’ và ‘re’ , O kết hợp với r Ta có: o o e e o ed th e o e e t and e ttha tt e CKPKH GVGCK UGZQA GCKUG CLGPQ FJZIG PQQAF QQLHG and a teo a the r n ta e re th a edr n th FJZEF QGKEF CCQAG LOULJ QFRGM OGPQA FUGZO SJBQA e r aro ndort o e or ean d one one re t GLOTS MFOKS JZKOQ VKIGE KOGFJ ZKJGI XKJGT OGMQP ent tor e t LCGJQ CXQKO GPQYD Bước 5: Chúng ta hãy nhìn khối thứ 21 và 22, chúng ta thấy xuất hiện cụm từ “…oreandone…one…” đó là “and one …one…”, ta sẽ tìm được một cụm phù hợp thụ thuộc vào IX. Chúng ta thay thế P sẽ là s, Y là z, N là q. Ta có: o s o e e o edth e o e est andbe st th a tt e CKPKH GVGCK UGZQA GCKUG CLGPQ FJZIG PQQAF QQLHG and a t e o a the r n ta e res th a edr n th FJZEF QGKEF CCQAG LOULJ QFRGM OGPQA FUGZO SJBQA e r aro ndort obe orean doneb yon e re ts GLOTS MFOKS JZKOQ VKIGE KOGFJ ZKJGI XKJGT OGMQP ent ytor estz LCGJQ CXQKO GPQYD Bước 6: Chúng ta xét các khối xem chúng có nghĩa không, khi đó tìm ký tự phù hợp: L được thay thế bởi i C bởi l U bởi v H bởi m E bởi f R bởi g T bởi c losom e e lo vedth elove liest andbe sttha ttime CKPKH GVGCK UGZQA GCKUG CLGPQ FJZIG PQQAF QQLHG andfa teofa llthe irvin tagep resth avedr n th FJZEF QGKEF CCQAG LOULJ QFRGM OGPQA FUGZO SJBQA eirc paro ndort obef orean doneb yonec repts GLOTS MFOKS JZKOQ VKIGE KOGFJ ZKJGI XKJGT OGMQP ilent ytor estz LCGJQ CXQKO GPQYD Bước 7: Lần cuối kiểm tra lại tất cả các ký tự chưa được thay thế: j bởi D k bởi B u bởi S w bởi V x bởi W Ta xác định được từ khóa: “FITZGERALD” Ta có bản rõ tìm được là “Lo! some we loved, the lovliest and bestThat Time and Fate of all their Vintage prest,Have drunk their Cup a Round or two beforeAnd one by one crept silently to rest. “ 2.3. Thống kê của bản mã được mã bởi khóa giả ngẫu nhiên, không có chu kỳ Trước tiên chúng ta đi tìm hiểu về một số khái niệm: 2.3.1 Lý thuyết trùng khớp(coincident theory): Giả sử X0, X1 là 2 vecto ngẫu nhiên cùng phân bố, nhận giá trị trên bảng chữ cái A={a,b,…,z} X0=(X00,X01,…,X0,n-1) X1=(X10,X11,…,X1,n-1) Ta có xác suất Pj(t)=P{XiJ = t}= P(t), i=0,n-1 , j=0,1, t € A (do cùng phân bố) Bây giờ ta hãy viết thành hàng ngang: X0 : X00, X01, X02, …., X0,n-1 X1 : X10, X11, X12, …., X1,n-1 Nếu có i sao cho X0i = X1i thì ta nói rằng 2 vecto X0 , X1 có một sự trùng khớp ở vị trí i (i=0,n-1). Ta có công thức tính chỉ số trùng khớp mà hiện nay người ta gọi là “hệ số tự tương quan”: Trong đó : Ci là số lần xuất hiện chữ cái i trong cột của bảng tần số định kỳ. Vấn đề đặt ra là: Vậy có bao nhiêu sự trùng khớp như vậy? Rõ ràng sự trùng khớp này phụ thuộc vào tính ngẫu nhiên của 2 vecto X0, X1 . Có 2 trường hợp cơ bản được đặt ra là: + TH1: X0, X1 là 2 bản rõ tùy ý thuộc vào ngôn ngữ tự nhiên nào đó (chẳng hạn như tiếng Anh). + TH2: Ít nhất 1 trong 2 vecto đó là hoàn toàn ngẫu nhiên có phân bố đều trên A. + Ta xét TH1: kí hiệu θ(X0, X1) là số lượng những trùng khớp giữa X0, X1. Ta đặt ra ΧX0,i (X1, i)= 1 nếu X0,i = X1,i 0 nếu trái lại Với i=(0,n-1) Rõ ràng rằng: θ(X0, X1) = Ta nhận được bổ đề sau: Bổ Đề: Ta có xác suất: P{X0,i = X1,i} =S2 Trong đó: S2 = Chứng minh: Thật vậy, biến cố {X0,i = X1,i} là hợp của m biến cố (m là lực lượng của A) độc lập, tức là {X0,i = X1,i} = {X0,i = X1,i = t}. Do đó xác suất P{X0,i = X1,i} = P{{X0,i = X1,i = t} } = = = S2 (đpcm) ≈ 0,0678 Như vậy, trong trường hợp X0 và X1 là 2 bản rõ độ dài n bằng nhau và được lấy từ cùng một ngôn ngữ thì số trung bình của sự trùng khớp là n.S2 (1). + TH2: Giả sử X0 là mẫu ngẫu nhiên độc lập, phân phối đều, có mật độ xác suất P0 = (P0,0, P0,1, P0,2……..P0,m-1). Còn X1 là mẫu ngẫu nhiên tùy ý với mật độ xác suất P1 = (P1,0, P1,1, P1,2……..P1,m-1). Đặt Y = X0 + X1 Khi đó phân phối xác suất của Y với hàm mật độ PY(y) y A có dạng : PY(y) = Vì P0(x) = x A nên có: PY(y) = = = V2 = 0.0385 Vậy giá trị trung bình của những trùng khớp trong trường hợp này sẽ là nV2 Chý ý rằng, nếu 2 bản mã Y0, Y1 được mã cùng một loạn số tùy ý (K1, K2,……..,Kr) và các bản rõ tương ứng là X0, X1. Khi đó nếu lấy X0 trừ đi X1 (theo modulo 26) thì ta có: Y0 – Y1 = (X0 + K)- (X1 + K) = X0 – X1 Vì vậy số các trùng khớp của Y0 , Y1 bằng số các trùng khớp của X0 , X1 Trên cơ sở đó, chúng ta đưa ra 2 giả thuyết: H0: Y0, Y1 được mã bởi cùng một phép thay thế ∏ E H1: Y0, Y1 được mã hóa bởi 2 phép thế độc lập ∏0 , ∏1 E Khi đó xác suất của biến cố: {Y0,i = Y1,i} theo lần lượt từng giả thiết H0 , H1 là: P{Y0,i = Y1,i / H0 } = = S2 và P{Y0,i = Y1,i / H1 } = = =V2 Do đó, số trùng khớp kỳ vọng có thể theo giả thuyết H0, H1 với mẫu độ dài n sẽ là: E{θ(Y0, Y1) / H0 } = n.S2 E{θ(Y0, Y1) / H1 } = n.V2 Nếu X0 , X1đều thuộc ngôn ngữ tiếng Anh thì ta có: S2 = ≈ 0,076355 Và nếu khóa là dãy hoàn toàn ngẫu nhiên không chu kỳ thì V2 ≈ 0,038462 + Xác định chiều dài khóa Vigenere: Một cách lý thuyết: giả sử X= (X0, …, Xn-1) là n biến ngẫu nhiên (không nhất thiết độc lập) và cho khóa = ( , …, ) với r n, là r biến ngẫu nhiên độc lập. Ta ký hiệu: Prõ{Xi = t} = P(t) với t {a,z} (hoặc t {0,25}), 0i <n Và Pkhóa {i = } = q() với i = 0,….,r-1 Nếu Y = (Y0, Y1, …. ,Yn-1) là bản mã nhận được từ bản rõ X và khóa bằng hệ mã Vigenere, Trong đó, Yi = với i = 0,1,….,n-1 Thì số khả năng trùng khớp θ(Y, Y-S) giữa dãy Y và dãy Y-S = (Ys, Ys+1, ….,Yn-s, Y0, Ys-1) là bằng s2 nếu Y, Y-S được mã cùng một phép thay thế đơn và bằng V2 nếu được mã hóa bởi 2 phép thế độc lập ∏0 , ∏1 E Tức là ta có bổ đề sau: kỳ vọng, E{ θ(Y, Y-S) } = nV2 nếu s o mod r nS2 nếu s o mod r Trong thực hành ta lấy S2 = = 0,75, còn V2 = 0,0385. Độ dài n càng lớn càng tốt. Điều này có nghĩa: Nếu i mod r = (i+s) mod r => s là chiều dài khóa Nếu i mod r (i+s)mod r => s không phải là chiều dài khóa. Sau khi xác định được chiều dài khóa ta viết bản mã thành chu kỳ độ dài chu kỳ đó. Rồi tìm từng phần tử khóa bằng cách thám mã từng cột như thám mã Caser. 2.4 Mô tả 2 cách thám mã Vigenere: phép thử Kasiski và phép thử sử dụng chỉ số trùng hợp: Mô tả một số phương pháp thám hệ mã Vigenere. Bước đầu tiên là ta phải xác định độ dài từ khóa mà ta ký hiệu là m. Dùng 2 kỹ thuật: phép thử Kasiski và sử dụng chỉ số trùng hợp. 2.4.1 Phép thử Kasiski: Được mô tả vào năm 1863 của nhà thám mã Kasiski Friendrich. Kỹ thuật này được xây dựng trên nhận xét là: hai đoạn giống nhau của bản rõ sẽ được mã hóa thành cùng một bản mã khi chúng xuất hiện trong bản rõ cách nhau x vị trí, trong đó x º o md m. Ngược lại, nếu ta thấy hai đoạn giống nhau của bản mã (mỗi đoạn có ít nhất là 3) thì đó là một dấu hiệu tốt để nói rằng chúng tương ứng với các đoạn bản rõ giống nhau. + Phép thử Kasiski như sau. Ta tìm trong bản mã các cặp trùng mã bộ ba bộ bốn v.v. và ghi lại khoảng cách giữa các vị trí bắt đầu của hai đoạn. Chúng ta thu được các giá trị d1,d2,….Ta hy vọng rằng m sẽ chia hết cho ước chung của các di . Ví dụ: Cho bản mã sau: VKMHG QFVMO IJOII OHNSN IZXSS CSZEA WWEXU LIOZB AGEKQ UHRDH IKHWE OBNSQ RVIES LISYK BIOVF IEWEO BQXIE UUIXK EKTUH NSZIB SWJIZ BSKFK YWSXS EIDSQ INTBD RKOZD QELUM AAAEV MIDMD GKJXR UKTUH TSBGI EQRVF XBAYG UBTCS XTBDR SLYKW AFHMM TYCKU JHBWV TUHRQ XYHWM IJBXS LSXUB BAYDI OFLPO XBULU OZAHE JOBDT ATOUT GLPKO FHNSO KBHMW XKTWX SX Chúng ta đi tìm các bộ 3 lặp lại và tìm khoảng cách xuất hiện của chúng, sau đó phân tích ra các thừa số. Ta có: HNS: xuất hiện 3 lần tại vị trí 16, 94, 256 Khoảng cách tương ứng là: 78, 240, 162 UHR: xuất hiện 2 lần tại 45, 201 Khoảng cách là: 156 WEO: xuất hiện 2 lần tại 53, 77 Khoảng cách là: 24 EOB: xuất hiện 2 lần tại 54, 78 Khoảng cách là: 24 QRV: xuất hiện 2 lần tại 59, 161 Khoảng cách: 102 KTU: xuất hiện 2 lần tại 91, 151 Khoảng cách là: 60 TUH: xuất hiện 3 lần tại 92, 152, 200 Khoảng cách: 60, 108, 48 TBD: 2 lần tại 122, 176 Khoảng cách: 54 BDR: xuất hiện 2 lần tại 123, 177 Khoảng cách: 54 BAY: 2 lần tại 166, 220 Khoảng cách là: 54 Ta liệt kê các khoảng cách là: 78, 240, 162, 156, 24, 24, 102, 60, 60, 108, 48, 54, 54, 54. Tất cả đều là bội số của 2 và 6- đó là một dấu hiệu tốt cho việc chiều dài khóa là 2 hoặc 6. Nhưng độ dài khóa là 6 thì sẽ hợp lý. Vậy m=6 2.4.2 Việc xác minh tiếp cho giá trị của m có thể nhận được bằng chỉ số trùng hợp: Giả sử x = x1x2 . . . xn là một xâu ký tự. Chỉ số trùng khớp của x (ký hiệu là Ic(x)) được định nghĩa là xác suất để hai phần tử ngẫu nhiên của x là đồng nhất. Nếu kí hiệu các tần suất của A, B, C,….,Z trong x tương ứng là F0,F1 ,. . . F25 , Ta có công thức ước lượng chỉ số trùng khớp là: Ic(x) = Trong đó Ci là số lần xuất hiện chữ cái I trong một cột của bảng tần số định kỳ. Hoặc : IC = Trong đó Fi là xác suất xuất hiện của ký tự thứ i. N là chiều dài của bản mã. Hai giá trị 0,065 và 0,038 đủ cách xa nhau để có thể xác định được độ dài từ khóa đúng( hoặc xác nhận giả thuyết đã được làm theo phép thử Kasiski). Hai kỹ thuật này sẽ được minh họa qua ví dụ chương 3 sau. Chương 3: Thực hành phân tích một bản mã Vigenere Giả sử có bản mã nhận được từ mật mã Vigenere: “CHEEVOAHMAERATBTAXXWTNXBEEOPHBSBQMQEQERBW RVXUOAKXAOSXXWEAHBWGJMMQMNKGRFVGXWTRZXWIAK LXFPSKAUTEMNDCMGTSXMXBTUIADNGMGPSRELXNJELX VRVPRTULHDNQWTWDTYGBPHXTFEALJHASVBFXNGLLCHR ZBWELEKMSJIKNBHWRJGNMGJSGLXFEYPHAGNRBIEQJT AMRVLCRRREMNDGLXRRIMGNSNRWCHRQHAEYEVTAQEBBI PEEWEVKAKOEWADREMXMTBHHCHRTKDNVRZCHRCLQOHP WQAIIWXNRMGWOIIFKEE “ 3.1 Thử với phép thử Kasiski: Ta xét xâu CHR xuất hiện ở bốn vị trí trong bản mã, bắt đầu các vị trí 1, 166, 236 và 286. Khoảng cách từ lần xuất hiện đầu tiên tới 3 lần xuất hiện còn lại tương ứng là: 165, 235, 285. UCLN của 3 số nguyên này là 5, bởi vậy giá trị này rất có thể là độ dài từ khóa. 3.2 Tính theo chỉ số trùng hợp : Với m=1 chỉ số trùng hợp là 0,045 . Với m=2, có 2 chỉ số trùng hợp là 0,046 và 0,041. Với m=3 ta có 3 chỉ số là 0.043; 0,050; 0,047. Với m=4 có 4 chỉ số là: 0,042; 0,039; 0,046; 0,040. Với m=5 ta có các giá trị 0,063; 0,068; 0,069; 0,061 và 0,072. Điều này càng chứng tỏ rằng độ dài từ khóa là 5. Vậy với giả thiết như trên, làm thế nào để xác đinh được khóa? Ta sẽ sử dụng khái niệm chỉ số trùng khớp tương hỗ của hai xâu sau: Định nghĩa: Giả sử x = x1x2. . .xn và y = y1y2. . .yn' là các xâu có n và n' kí tự anphabet tương ứng. Chỉ số trùng khớp tương hỗ của x và y (ký hiệu là MIc(x,y)) được xác định là xác suất để một phần tử ngẫu nhiên của x giống với một phần tử ngẫu nhiên của y. Nếu ta ký hiệu các tần suất của A,B,…,Z trong x và y tương ứng là f0,f1,. . .,f25 thì MIc(x,y) sẽ được tính bằng: Với các giá trị m đã xác định, các xâu con yi thu được bằng mã dịch vòng bản rõ. Giả sử K= (k1,k2,. . .,km) là từ khóa. Ta sẽ xem xét có thể đánh giá MIc(yi,yj) như thế nào. Xét một kí tự ngẫu nhiên trong yi và một kí tự ngẫu nhiên trong yj. Xác suất để cả hai kí tự là A là bằng p-ki p-kj , xác suất để cả 2 là B bằng p1-ki p1-kj,. . .(Cần chú ý rằng tất cả các chỉ số dưới đều được rút gọn theo modulo26). Bởi vậy có thể ước lượng rằng: MIc(yi, yj) ≈ = Ta thấy rằng, giá trị ước lượng này chỉ phụ thuộc vào kí hiệu Ki - Kj mod 26 (được gọi là độ dịch tương đối của yi và yj ). Cũng vậy, ta thấy rằng: = Bởi vậy độ dịch tương đối l sẽ dẫn đến cùng một ước lượng MIc như độ dịch tương đối 26-l. Ta lập bảng các ước lượng cho độ dịch tương đối trong phạm vi từ 0 đến 13. Bảng 3: Các chỉ số trùng hợp tương hỗ tính được Độ dịch tương đối Giá trị tính được MIc 0 0.065 1 0,039 2 0,032 3 0,034 4 0,044 5 0,033 6 0,036 7 0,039 8 0,034 9 0,034 10 0,038 11 0,045 12 0,039 13 0,043 Xét thấy rằng, nếu độ dịch tương đối khác 0 thì các ước lượng này thay đổi trong khoảng từ 0,031 đến 0,045; ngược lại nếu độ dịch chuyển tương đối bằng 0 thì ước lượng bằng 0,065. Có thể dùng nhận xét này để tạo nên một phỏng đoán thích hợp cho l=ki – kj (độ dịch tương đối của yi và yj) như sau: Giả sử cố định yi và xét việc mã hóa yj bảng e0,e1,e2. . .Ta kí hiệu các kết quả bằng yj0,yj1,. . .Dễ dàng dùng chỉ số MIc(yi,yjg), 0 £ g £ 25 theo công thức sau: MIc( x, yg ) = Khi g = l thì MIc phải gần với giá trị 0,065 vì độ dịch tương đối của yi và yj bằng 0. Tuy nhiên, với các giá trị g # l thì MIc sẽ thay đổi giữa 0,031 và 0,045. Bằng kỹ thuật này, có thể thu được các độ dịch tương đối của hai xâu con yi bất kỳ. Vấn đề còn lại chỉ là 26 từ khóa có thể và điều này dễ dàng tìm được bằng phương pháp vét cạn Trở lại ví dụ: Ở trên ta đã giả định rằng, độ dài khóa là 5. Bây giờ ta thử tính các độ dịch tương đối. Nhờ máy tính, dễ dàng tính 260 giá trị MIc(yi, yjg) , trong đó ; . Các giá trị này được biểu diễn trong bảng sau: Bảng4: Các chỉ số trùng hợp tương hỗ quan sát được i j Giá trị của MIc(yj,yjg) 1 2 0,028 0,027 0,028 0,034 0,039 0,037 0,026 0,025 0,052 0,068 0,044 0,026 0,037 0,043 0,037 0,043 0,037 0,028 0,041 0,041 0,041 0,034 0,037 0,051 0,045 0,042 0,036 1 3 0,039 0,033 0,040 0,034 0,028 0,053 0,048 0,033 0,029 0,056 0,050 0,045 0,039 0,040 0,036 0,037 0,032 0,027 0,037 0,047 0,032 0,027 0,039 0,037 0,039 0,035 1 4 0,034 0,043 0,025 0,027 0,038 0,049 0,040 0,032 0,029 0,034 0,039 0,044 0,044 0,034 0,039 0,045 0,044 0,037 0,055 0,047 0,032 0,027 0,039 0,037 0,039 0,035 1 5 0,043 0,033 0,028 0,046 0,043 0,044 0,039 0,031 0,026 0,030 0,036 0,040 0,041 0,024 0,019 0,048 0,070 0,044 0,028 0,038 0,044 0,043 0,047 0,033 0,026 2 3 0,046 0,048 0,041 0,032 0,036 0,035 0,036 0,020 0,024 0,039 0,034 0,029 0,040 0,067 0,061 0,033 0,037 0,045 0,033 0,033 0,027 0,033 0,045 0,052 0,042 0,030 2 4 0,046 0,034 0,043 0,044 0,034 0,031 0,040 0,045 0,040 0,048 0,044 0,033 0,024 0,028 0,042 0,039 0,026 0,034 0,050 0,035 0,032 0,040 0,056 0,043 0,028 0,028 2 5 0,033 0,033 0,036 0,046 0,026 0,018 0,043 0,080 0,050 0,029 0,031 0,045 0,039 0,037 0,027 0,026 0,031 0,039 0,040 0,037 0,041 0,046 0,045 0,043 0,035 0,030 3 4 0,038 0,036 0,040 0,033 0,036 0,060 0,035 0,041 0,029 0,058 0,035 0,035 0,034 0,053 0,030 0,032 0,035 0,036 0,036 0,028 0,043 0,032 0,051 0,032 0,034 0,030 3 5 0,035 0,038 0,034 0,036 0,030 0,043 0,043 0,050 0,025 0,041 0,051 0,050 0,035 0,032 0,033 0,033 0,052 0,031 0,027 0,030 0,072 0,035 0,034 0,032 0,043 0,027 4 5 0,052 0,038 0,033 0,038 0,041 0,043 0,037 0,048 0,028 0,028 0,036 0,061 0,033 0,033 0,032 0,052 0,034 0,027 0,039 0,043 0,033 0,027 0,030 0,039 0,048 0,035 Với mỗi cặp (i, j) , ta tìm các giá trị của MIc(yi , yjg) nào gần với 0,065. Nếu có một giá trị duy nhất như vậy (Đối với mỗi cặp (i,j) cho trước), thì có thể phán đoán đó chính là giá trị độ dịch tương đối. Trong bảng trên có 6 giá trị được đóng khung. Chúng chứng tỏ khá rõ ràng là độ dịch tương đối của y1 và y2 là 9; độ dịch tương đối của y2 và y3 là 13, độ dịch tương đối của y2 và y5 là 7; độ dịch tương đối của y3 và y5 bằng 20; của y4 và y5 bằng 11. Từ đây ta có phương trình theo 5 ẩn số K1, K2, K3, K4, K5 như sau: K1 - K2 = 9 K1 - K2 = 16 K2 - K3 = 13 K2 - K5 = 17 K3 - K5 = 20 K4 - K5 = 11 Điều này cho phép biểu thị các Ki theo K1 ; K2 = K1 + 17 K3 = K1 + 4 K4 = K1 + 21 K5 = K1 + 10 Như vậy khóa có khả năng là ( K1, K1+17, K1+4, K1+21, K1+10) với giá trị K1 nào đó Î Z26. Từ đây ta hy vọng rằng, từ khóa là một dịch vòng nào đó của AREVK. Bây giờ , không tốn nhiều công sức lắm cũng có thể xác định được từ khóa là JANET. Giải mã bản mã theo khóa này, ta thu được bản rõ sau: The almond tree was in tentative blossom. The days were longer often ending with magnificient evenings of corrugated pink skies. The hunting seasun was over, with hounds and guns put away for six months. The vineyards were busy again as the well-organized farmers treated their vinesand the more lackadaisical neighbors hurried to do the pruning they have done in November. Chương 4 Kết Luận và mô tả chương trình nguồn 4.1 Mô tả chương trình: Chương trình nguồn được viết bởi ngôn ngữ C, gồm 1 file Vigenere.c. Gồm có 4 phần: Phần 1: Mã hóa một bản rõ khi có khóa cho trước Phần 2: Thám mã một bản mã khi có khóa cho trước Phần 3: Thám mã khi chưa biết khóa Phần 4: Thoát khỏi chương trình. 4.2 Kết luận: Như vậy các chữ mã khác nhau có thể cho cùng một chữ của bản rõ. Suy ra tần suất của các chữ cái là phẳng, nghĩa là tần suất xuất hiện các chữ trên bản mã tương đối đều nhau. Tuy nhiên chưa mất hoàn toàn, do độ dài của khoá có hạn, nên có thể tạo nên chu kỳ vòng lặp. Kẻ thám mã bắt đầu từ tần suất của chữ để xem có phải đây là mã đơn chữ cái hay không. Giả sử đây là mã đa chữ vần chữ cái, khi đó ta xác định số chữ cái trong từ khoá và lần tìm từng chữ. Như vậy cần tăng độ dài từ khoá để tăng số chữ cái dùng khi mã để “là” tần suất của các chữ. Rõ ràng rằng, nếu độ dài của khóa mã mà bằng độ dài của bản thông báo cần mã thì mã pháp trở nên bền vững, thêm vào đó nếu khóa mã không phải là một dãy các từ khóa có quy luật mà là một dãy giả ngẫu nhiên thì người ta đã chứng minh được loại mã pháp này cho đến nay được đánh giá là mã pháp không thể phá vở. Vì vậy, hệ mã hóa Vigenere vẫn được sử dụng phổ biến rộng rãi cho việc mã hóa những dữ liệu được truyền qua hệ thống điện tín. Các thuật ngữ 1. Hệ mật mã là tập hợp các thuật toán và các thủ tục kết hợp để che dấu thông tin cũng như làm rõ nó. 2. Mật mã học nghiên cứu mật mã bởi các nhà mật mã học, người viết mật mã và các nhà phân tích mã. 3. Mã hóa là quá trình chuyển thông tin có thể đọc gọi là bản rõ thành thông tin không thể đọc được gọi là bản mã. 4. Giải mã là quá trình chuyển ngược lại thông tin được mã hóa thành bản rõ ( khi cho trước khóa mã). 5. Thuật toán mã hóa là các thủ tục tính toán sử dụng để che dấu và làm rõ thông tin, Thuât toán càng phức tạp thì bản mã càng an toàn. 6.Một Khóa là một giá trị làm cho thuật toán mã hóa chạy theo cách riêng biệt và sinh ra bản rõ riêng biệt tùy theo khóa. Khóa càng lớn thì bản mã kết quả càng an toàn. Kích thước của khóa được đo bằng bit. Phạm vi các giá trị có thể có của khóa được gọi là không gian khóa. 7. Phân tích mã là quá trình hay nghệ thuật phân tích hệ mật mã khi không cho trước bất kỳ một thông tin gì về khóa mã, thậm chí kể cả thuật toán mã hóa cũng không cho trước. 8. Kẻ tấn công là một người hay một hệ thống thực hiện phân tích mã để làm hại hệ thống. Những kẻ tấn công là những kẻ thọc mũi vào chuyện của người khác, các tay hacker, những kẻ nghe trộm hay những tên đáng ngờ khác và họ làm những việc gọi là cracking. Danh sách tham khảo 1] Nguyễn Hoàng Cường, Lý thuyết mật mã và ứng dụng, tr.15- tr.16 [2] PGS.TS. Trịnh Nhật Tiến, An toàn dữ liệu, tr.53- tr.56 [3] Alfred J. Menezes, Paul C.vanOorschot, Scott A.Vanstone: Handbook of APPLIED CRYPTOGRAPHY, chapter 1. [4] Douglas R. Stinson, Cryptography: Theory and Practice, “Chapter 1: Classical Cryptography”. [5] Friedman, W.F. and Callimahos, L.D. (1985) [1956]. Military Cryptanalytics, Part I – Volume 2. Reprinted by Aegean Park Press. ISBN 0-89412-074-3. [6] Friedman, W.F.. The index of coincidence and its applications in cryptology. Department of Ciphers. Publ 22. Geneva, Illinois, USA: Riverbank Laboratories. OCLC 55786052. The original application ignored normalization. [7] Kahn, David (1996) [1967]. The Codebreakers - The Story of Secret Writing. New York: Macmillan. ISBN 0-684-83130-9 [8] Mark Stamp, Richard M. Low: APPLIED CRYPTANALYSIS- Breaking Ciphers in the Real World ( Wiley-interscience publication 2007) [9] ,”nhu cầu bảo vệ thông tin” [10] [11] [12]

Các file đính kèm theo tài liệu này:

Phân tích hệ thám mã vigenere.doc