Hình 1: Các cột mốc phát triển của mạng CNN
Trong ngành computer vision, mạng CNN (Convolutional Neural Network) đã đóng vai trò quan trọng trong quá trình phát triển. Hiện nay, có rất nhiều kiến trúc mạng CNN khác nhau và các kiến trúc mới vẫn đang được khám phá. Nhưng ít ai biết rằng đằng sau những khám phá đó là một tiến trình khoa học lâu dài và bền bỉ trong gần 20 năm.
Trong bài viết này, chúng ta sẽ tìm hiểu lược sử hình thành của các kiến trúc CNN tiêu biểu và những đóng góp tiến bộ của từng kiến trúc này so với trước đó. Từ đó, bạn đọc sẽ hiểu được lộ trình hình thành và phát triển cho tới ngày nay của các mạng CNN và đặc trưng trong kiến trúc của từng mạng.
Các Dấu Mốc Quan Trọng
Hình 2: Các cột mốc phát triển của mạng CNN
Tiến trình phát triển của các kiến trúc CNN có thể được khái quát qua các dấu mốc quan trọng sau:
-
1998: Yan Lecun lần đầu tiên sử dụng mạng tích chập trong tác vụ phân loại chữ số viết tay và đạt hiệu quả cao. Tuy nhiên, do chưa có sự phát triển của dữ liệu và khả năng tính toán, mạng CNN vẫn chưa có cơ hội phát triển toàn diện. Các mô hình machine learning truyền thống như SVM, kNN vẫn được sử dụng phổ biến.
-
2009: Bộ dữ liệu ImageNet được giới thiệu vào năm 2009. Đây là bộ dữ liệu lớn nhất và đa dạng nhất có kích thước lên tới 1 triệu ảnh và phân bố đều trên 1000 nhãn. Bộ dữ liệu này đã tạo ra sự thay đổi lớn trong cộng đồng computer vision.
-
2012: Mạng AlexNet xuất sắc vượt qua các phương pháp truyền thống như HOG, SHIFT trong cuộc thi ImageNet và trở thành sự khởi đầu cho sự phát triển của CNN trong computer vision.
-
2014: Xuất hiện nhiều kiến trúc mới như VGG-16, GoogleNet, ResNet, DenseNet, mang tính cải tiến so với những kiến trúc trước đó. Cùng với sự phát triển phần cứng và framework hỗ trợ deep learning, các kiến trúc này đã đóng góp vào sự phát triển toàn diện của CNN.
Từ các kiến trúc ban đầu như LeNet, AlexNet, VGG-16, GoogleNet, ResNet cho đến DenseNet, các nhà nghiên cứu đã đưa ra nhiều cải tiến trong cách thiết kế, số lượng layer và kích thước bộ lọc, tạo ra sự đa dạng và tính toàn diện cho các mô hình CNN.
LeNet-5 (1998)
Hình 3: Kiến trúc LeNet
LeNet-5 là kiến trúc đầu tiên áp dụng mạng tích chập 2 chiều và có kết quả tốt trong việc phân loại chữ số viết tay. Mô hình ban đầu đơn giản và chỉ bao gồm 2 layers tích chập và 3 layers fully-connected.
AlexNet (2012)
Hình 4: Kiến trúc AlexNet
AlexNet là kiến trúc được giới thiệu vào năm 2012 và đạt chiến thắng trong cuộc thi ImageNet với độ chính xác cao hơn các mô hình trước đó. AlexNet đã phá vỡ định kiến rằng đặc trưng được học từ mô hình không tốt bằng các đặc trưng được tạo thủ công.
VGG-16 (2014)
Hình 5: Kiến trúc VGG-16
VGG-16 là một trong những kiến trúc đầu tiên gia tăng độ sâu của mạng CNN để cải thiện độ chính xác. Nó bao gồm 13 layers tích chập và 3 layers fully-connected.
GoogleNet - Inception-V1 (2014)
Hình 6: Kiến trúc GoogleNet - Inception-V1
GoogleNet - Inception-V1 là một kiến trúc đặc biệt với khối Inception. Kiến trúc này kết hợp nhiều bộ lọc kích thước khác nhau để trích xuất đặc trưng từ ảnh.
GoogleNet - Inception-V3 (2015)
Hình 7: Kiến trúc GoogleNet - Inception-V3
GoogleNet - Inception-V3 là phiên bản cải tiến của Inception-V1. Nó sử dụng các phương pháp nhân tố để giảm kích thước dữ liệu và giải quyết vấn đề thắt cổ chai.
ResNet-50 (2015)
Hình 8: Kiến trúc ResNet-50
ResNet-50 là một mạng CNN rất sâu với 50 layers. Nó áp dụng kết nối tắt để giữ thông tin không bị mất và giảm độ sâu của mạng.
DenseNet (2016)
DenseNet là một kiến trúc mạng CNN dày đặc và mô-đun. Nó kết hợp nhiều khối liên kết được liên kết với nhau để duy trì thông tin và làm giảm độ sâu của mạng.
Kết Luận
Trên đây là những kiến trúc mạng CNN tiêu biểu và các dấu mốc quan trọng trong quá trình phát triển của chúng. Đến từ LeNet-5, AlexNet, VGG-16, GoogleNet, ResNet cho đến DenseNet, các mô hình CNN đã đóng vai trò quan trọng và đưa ra nhiều cải tiến để đạt độ chính xác tốt hơn trong việc phân loại ảnh.
Từ những mô hình này, chúng ta đã thấy sự phát triển của các kiến trúc mạng CNN từ giai đoạn ban đầu đến hôm nay. Các nhà nghiên cứu đã không ngừng tìm kiếm và cải tiến để mang lại sự tiến bộ và đột phá trong lĩnh vực này.
Hy vọng bài viết này đã giúp bạn có cái nhìn tổng quan về các kiến trúc mạng CNN và đóng góp của chúng trong sự phát triển của lĩnh vực học sâu và thị giác máy tính.
- Đắm mình vào học sâu - Chapter 7 - Mạng nơ ron tích chập sâu hiện đại
- Các kiến trúc mạng CNN - dlapplication.github.io
- Illustrated: 10 CNN Architectures - Raimi Karim
- Bài 8 - Convolutional Neural Network - Khanh blog
- Overview of CNN research: 25 years history and the current trends
- CNN Architectures: LeNet, AlexNet, VGG, GoogLeNet, ResNet and more.