Máy tính ngày càng giỏi “nhìn thấy” thế giới. Nhưng liệu chúng còn “mù” được bao lâu nữa?
Nếu bạn từng dùng máy tính, gần như chắc chắn đã bị hỏi: “Hãy chọn tất cả hình có đèn giao thông” hoặc “Nhập những chữ bạn thấy bên dưới để xác nhận bạn là con người”. Những bài test kiểu đó – gọi là reCAPTCHA – khiến ta phải nheo mắt suy nghĩ: “Cái góc đèn đỏ lòi sang ô bên cạnh có tính không nhỉ?”
Chính những bài test này phản ánh một điều: thị giác từ lâu được xem là ranh giới rõ ràng giữa con người và máy tính. Nhưng khoảng cách đó đang thu hẹp rất nhanh.
Khoảng 15 năm trước, máy tính chỉ đoán đúng nội dung một bức ảnh với tỷ lệ khoảng 60%. Ngày nay, những hệ thống nhận dạng ảnh hàng đầu đạt mức gần 90%. Dù vậy, nhiều hệ thống vẫn có thể “ngã sấp mặt” trước những bài test thị giác đơn giản – đó là lý do reCAPTCHA vẫn còn đất sống.
Từ đếm pixel đến “thấy” đồ vật
Các cách tiếp cận mới trong thị giác máy tính đang cố gắng giống não người hơn: thay vì chỉ nhìn ảnh như một đống pixel, máy tính được huấn luyện để nhìn thấy “đồ vật” trong ảnh – mèo, ghế, đèn, tay người…
Những tiến bộ này đã được dùng để tạo ra robot biết “nhìn” và chộp đồ vật, mở tủ, xoay vòi nước, nhặt trái cây…
Cốt lõi của các hệ thống này là những mô hình gọi là mạng nơ-ron thị giác (visual neural networks). Chúng gồm các “nơ-ron nhân tạo” kết nối với nhau, giống phần nào cách các nơ-ron trong não liên kết. Thường, ta huấn luyện mạng bằng một tập ảnh có gán nhãn – ví dụ “mèo”, “xe đạp”, “cái ghế” – rồi dần dần mạng học cách đoán đúng nội dung của những bức ảnh chưa từng thấy.
Một bước ngoặt lớn xảy ra năm 2012, khi một mô hình dùng biến thể mạnh của mạng nơ-ron tích chập (convolutional neural network – CNN), có tên AlexNet, đã tự học phân loại ảnh từ một tập huấn luyện lớn và đánh bại đối thủ với khoảng cách rất xa trong cuộc thi ImageNet Large Scale Visual Recognition Challenge – cuộc thi chuẩn để đánh giá hiệu năng thị giác máy tính.
(AlexNet do hai học trò của nhà khoa học máy tính Geoffrey Hinton – người thường được gọi là “Cha đỡ đầu của AI” – phát triển. Ông được đồng nhận giải Nobel Vật lý năm 2024.)
Từ đó, CNN trở thành “xương sống” của thị giác máy tính trong gần một thập kỷ.
Những cú “ngã” khó hiểu: mèo biến thành… guacamole
Nhưng dù đã tiến bộ vượt bậc, các mạng nơ-ron thị giác vẫn phạm những lỗi rất kỳ cục.
Một ví dụ kinh điển năm 2017: một nhóm sinh viên nghiên cứu AI tại MIT đã “lừa” một mạng nơ-ron để nó gán nhãn bức ảnh một con mèo là… guacamole (một món sốt bơ nghiền).
Nhóm này chỉ cần thêm vào bức ảnh mèo một lớp “nhiễu” pixel cực kỳ nhỏ, mắt người không nhận ra được, nhưng mô hình thì bị đánh lừa hoàn toàn.
“Tôi bị sốc vì chuyện này dễ đến vậy – khiến mô hình nghĩ sai hoàn toàn,” nhà khoa học máy tính Andrew Ilyas, thành viên nhóm nghiên cứu, kể lại.
Không chỉ vậy. Trong một nghiên cứu khác năm 2019, các nhà khoa học chỉ việc dịch mỗi pixel trong ảnh sang trái hoặc phải một chút, với ảnh rái cá, máy bay, ống nhòm… Mắt người vẫn thấy y như cũ, nhưng mô hình thì mất luôn khả năng nhận dạng.
Nguyên nhân nằm ở cách học “mảnh vụn” của các mạng này. Thay vì thật sự “hiểu” một con mèo trông như thế nào, mô hình chỉ học một tập hợp các đặc trưng mà nó gắn với nhãn “mèo”: họa tiết lông, đường biên, màu sắc, kiểu texture…
Những đặc trưng đó không phải là “bản chất” của mèo, nên chỉ cần thay đổi rất nhỏ là mối liên hệ “mèo → những đặc trưng này” bị phá vỡ. Ilyas và đồng nghiệp đã khai thác chính điểm yếu này trong ví dụ mèo–guacamole.
“Máy tính thích học những lối tắt lười biếng, rất dễ bị can thiệp,” Ilyas nhận xét.
Thế hệ mới: Vision Transformer (ViT)
Ngày nay, CNN dần nhường chỗ cho một kiến trúc mới: Vision Transformer (ViT).
ViT thường được huấn luyện trên hàng triệu, thậm chí hàng tỷ ảnh, và nó xử lý ảnh theo cách khác:
- Chia ảnh thành các “mảnh” pixel (patches),
- Gom nhóm các vùng dựa trên màu sắc, hình dạng,
- Từ đó nhận diện các cụm như những bộ phận, đồ vật: một cánh tay, một cái ghế, một góc bàn…
Theo nhà nghiên cứu học máy Alexey Dosovitskiy, người từng làm việc với ViT tại Google, các mô hình này thường hoạt động tốt hơn CNN vì chúng có thể kết hợp thông tin từ nhiều vùng ảnh một cách hiệu quả hơn.
Tuy nhiên, kể cả ViT cũng không hoàn hảo. Các mô hình thị giác hiện đại vẫn có những “điểm mù”, mà ta có thể lộ ra bằng những bức ảnh chỉnh sửa rất nhẹ – vẫn bình thường với mắt người nhưng đủ gây rối cho máy tính.
Bắt chước cách não người “nhìn”
Một hướng nghiên cứu mới là kết hợp nhiều kiểu mạng để giúp máy tính “suy nghĩ” giống người hơn.
Trong đó, nổi bật là các mô hình định hướng đối tượng (object-centric neural networks). Thay vì chỉ nhóm các vùng có cùng đặc tính (ví dụ “vùng màu vàng”) rồi nhận dạng, các mô hình này xem hình ảnh như sự sắp đặt của các đồ vật riêng biệt: cái này là tiền cảnh, cái kia là nền, đây là vật A, kia là vật B.
Điểm mạnh của chúng là khả năng tách một vật thể ra khỏi nền, giữ được khái niệm “đây là một cái vật” chứ không chỉ là các mảng pixel.
Trong một thí nghiệm gần đây, các nhà khoa học so sánh mô hình object-centric với các mạng thị giác khác bằng loạt bài test: yêu cầu máy tính tìm và ghép những hình giống nhau.
Tất cả mô hình được huấn luyện trên các đa giác đều (hình học cơ bản) và cho kết quả tương đương nhau với dạng hình này. Nhưng khi chuyển sang hình “quái”: méo mó, màu mè, kẻ sọc, mô hình object-centric cho thấy ưu thế rõ rệt:
- Mô hình tốt nhất trong nhóm này ghép đúng 86,4% các hình bất thường.
- Mô hình thị giác “thường” chỉ đạt 65,1%.
Kết quả do nhà tâm lý học Jeffrey Bowers (Đại học Bristol, Anh) và cộng sự Guillermo Puebla (ĐH Tarapacá, Chile) báo cáo.
Các mô hình định hướng đối tượng giờ đây không chỉ xử lý được ảnh tĩnh 2D. Nhiều hệ thống có thể xem video rồi trả lời câu hỏi về những gì chúng thấy, chẳng hạn: “Người này chơi cầu lông giỏi cỡ nào?”
Khi robot bắt đầu “nhìn” và chạm
Các thuật toán object-centric cũng được đưa lên robot thực tế.
Nhờ chúng, robot có thể:
- Bắt đồ vật chính xác hơn trong không gian 3D,
- Xoay, vặn, mở – như mở ngăn kéo, xoay vòi nước,
- Tránh va đập khi hoạt động trong không gian chật chội.
Một công ty thậm chí đang xây dựng robot bay dùng các chiến lược nhận dạng đối tượng này để hái táo, đào, mận. Nhờ khả năng phát hiện vật thể rất chính xác, robot có thể:
- Nhận biết quả đã đủ độ chín,
- Lách mình qua tán cây,
- Khéo léo “bứt” trái mà không làm trầy vỏ.
Đây là những nhiệm vụ đòi hỏi thị giác và điều khiển tinh tế – thứ mà vài năm trước ta chỉ dám giao cho con người.
Vẫn còn lâu mới bằng não người
Các nhà khoa học kỳ vọng thị giác máy tính sẽ còn tiến rất xa – các mạng nơ-ron thị giác ngày càng lớn, dữ liệu ngày càng phong phú, thuật toán ngày càng thông minh hơn.
Nhưng để sánh ngang bộ não thì vẫn còn quãng đường dài.
Như Bowers nói vui:
“Não người đôi khi cũng làm những điều kỳ quặc. Nhưng chưa bao giờ có chuyện nó nhìn con mèo mà tưởng là bát guacamole cả.”
Con người vẫn nhìn thế giới bằng một hệ thống thị giác không chỉ nhận diện “cái gì là cái gì”, mà còn gắn điều ta thấy với ngữ cảnh, kinh nghiệm, ý nghĩa, cảm xúc. Máy tính bắt đầu học được vài bước đầu tiên – và đang tiến rất nhanh – nhưng để thật sự “nhìn” như con người, chúng vẫn còn nhiều bài phải học.









