YOLO (You Only Look Once) là một phương pháp nhận diện vật thể được giới thiệu bởi Facebook AI Research (FAIR). YOLOv1 đã thay đổi hoàn toàn cách tiếp cận của các phương pháp trước đó về việc nhận diện vật thể trong ảnh.
YOLO - Nhìn một lần và dự đoán toàn bộ
YOLO sử dụng một mạng neural network duy nhất để dự đoán trực tiếp vị trí và xác suất của các vật thể trong toàn bộ bức ảnh chỉ trong một lần đánh giá. Điều này có nghĩa là chúng ta chỉ cần nhìn một lần duy nhất vào bức ảnh để có thể dự đoán vật thể và vị trí của chúng. Tốc độ xử lý của YOLO rất nhanh và có thể được tối ưu end-to-end.
YOLOv1 - Nhận diện vật thể chỉ ngó 1 lần - Khởi nguồn
Cách thức hoạt động của YOLO
YOLO chia bức ảnh thành một ô lưới và dự đoán bounding boxes và xác suất của các vật thể trong mỗi ô lưới đó. Mỗi grid cell sẽ chịu trách nhiệm tìm kiếm vật thể trong ô lưới đó.
Mạng neural network của YOLO được huấn luyện trên toàn bộ bức ảnh, không sử dụng cơ chế pipeline phức tạp. Các dự đoán của YOLO được encode thành một tensor với kích thước S×S×(B×5+C), trong đó S là kích thước của ô lưới, B là số lượng bounding boxes và C là số lượng classes.
YOLOv1 - Nhận diện vật thể chỉ ngó 1 lần - Khởi nguồn
Ưu điểm của YOLO
YOLO có một số ưu điểm so với các phương pháp detection truyền thống:
- Tốc độ xử lý nhanh: YOLO có tốc độ xử lý real-time, giúp xử lý video streaming trong thời gian thực với độ trễ nhỏ.
- Lập luận toàn cục về ảnh: YOLO nhìn vào toàn bộ bức ảnh trong quá trình huấn luyện và test, hiểu thông tin về ngữ cảnh và ngoại hình của các vật thể.
- Học được sự tổng quát hóa của vật thể: YOLO có khả năng học được biểu diễn tổng quát hóa của vật thể, giúp nó tương đối chính xác trong các lĩnh vực mới.
Kết luận
YOLOv1 đã thực sự thay đổi cách tiếp cận vấn đề nhận diện vật thể và đạt được tốc độ và độ chính xác cao. YOLOv1 đơn giản và dễ dàng huấn luyện, phù hợp cho các ứng dụng thời gian thực.
Nguồn: YOLOv1 - Nhận diện vật thể chỉ ngó 1 lần - Khởi nguồn