Xem thêm

Giới thiệu về phép nhúng từ (phần 2)

Huy Erick

00:00 12/04/2024

Trong loạt bài viết "Giới thiệu về phép nhúng từ", chúng ta đã khám phá phần 1 về khái niệm và công dụng của phép nhúng từ. Cũng như cùng nhau tìm hiểu về hai...

Trong loạt bài viết "Giới thiệu về phép nhúng từ", chúng ta đã khám phá phần 1 về khái niệm và công dụng của phép nhúng từ. Cũng như cùng nhau tìm hiểu về hai mô hình nhúng từ cơ bản là BoW và TF-IDF.

Trong phần 2 này, chúng ta sẽ tiếp tục khám phá các phép nhúng từ phức tạp hơn, xuất hiện trong thời kỳ học sâu trở nên phổ biến trong những năm gần đây.

3. Các phép nhúng từ thông dụng (tiếp theo)

c) Word2Vec

Word2Vec (Word to vector) là phương pháp được công bố bởi Google vào năm 2013. Bằng cách dự đoán từ xuất hiện trong một phạm vi từ xung quanh (cửa sổ ngữ cảnh), Word2Vec học được ma trận nhúng từ W[V x N], trong đó:

Xem thêm:

Bài Tập Đếm Hình Lớp 1: Tìm Hiểu Vui Vẻ Với Toán Hình

V là số lượng từ vựng.
N là số đặc trưng.

Phương pháp Word2Vec đề xuất hai cách để huấn luyện ma trận nhúng từ là Túi từ liên tục (Continuous Bag of Words - CBOW) và Skip-gram. CBOW thường có thời gian huấn luyện nhanh hơn, trong khi Skip-gram có khả năng biểu diễn các từ hiếm gặp tốt hơn. Skip-gram thường được sử dụng chung với phương pháp Lấy mẫu phủ định (negative sampling) để tăng hiệu suất, đặc biệt khi làm việc với dữ liệu lớn.

Dưới đây là hình minh họa cho CBOW và Skip-gram cơ bản:

Illustration-of-the-word2vec-models-a-CBOW-b-skip-gram-16-33 Hình minh họa cho CBOW và Skip-gram cơ bản (Nguồn)

d) FastText

FastText là thư viện mã nguồn mở do Facebook tạo ra năm 2016, hỗ trợ huấn luyện phép nhúng từ và phân loại văn bản. FastText được viết bằng ngôn ngữ C++ 11, có thể chạy đa luồng, trừ khi đọc dữ liệu. FastText là một dạng mở rộng của Word2Vec và khác biệt ở chỗ nó sử dụng các n-gram để học. Ví dụ, từ "đồng" với n-gram=3 sẽ được tách thành ["<đồng>", "<đồ", "đồn", "ồng", "ng>"]. Dấu "<", ">" được sử dụng để phân biệt các n-gram với các từ hoàn chỉnh. Khi huấn luyện xong, vector nhúng từ của từ "đồng" sẽ là tổng các vector nhúng từ của ["<đồng>", "<đồ", "đồn", "ồng", "ng>"] nhân với vector của từ "đồng". Điều này cho phép FastText tạo ra vector nhúng từ cho các từ chưa xuất hiện trong quá trình huấn luyện bằng cách kết hợp các vector n-gram có sẵn.

e) GloVe

GloVe (Global Vectors) là thuật toán học phép nhúng từ do đại học Stanford công bố vào năm 2014. Ý tưởng chính của GloVe là từ việc quan sát rằng những từ có cùng ý nghĩa hoặc mối quan hệ gần gũi sẽ có xác suất xuất hiện đồng thời cao hơn.

GloVe xây dựng một ma trận xuất hiện đồng thời X dựa trên quan sát này. Từ ma trận X, nó tính toán ma trận log xác suất xuất hiện đồng thời P. Sau đó, GloVe sử dụng hai ma trận word_vector[V x N] và context_vector[N x V] để tối ưu hóa tích vô hướng của chúng sao cho bằng ma trận P. Cuối cùng, ma trận word_vector là ma trận nhúng từ được tìm thấy.

Đây là một hình minh họa cho ma trận xuất hiện đồng thời và ma trận log xác suất xuất hiện đồng thời:

Ma trận xuất hiện đồng thời:

Ma trận xuất hiện đồng thời

Ma trận log xác suất xuất hiện đồng thời:

Ma trận log xác suất xuất hiện đồng thời

Qua phần 2 này, chúng ta đã được giới thiệu đến 3 trong số các phương pháp nhúng từ phổ biến nhất hiện nay. Những phương pháp này đã được cộng đồng học máy sử dụng trong nhiều năm và đã tạo ra nhiều mô hình huấn luyện cho nhiều ngôn ngữ và thư viện khác nhau. Đối với các bài toán học máy đơn giản và nhỏ, hoặc làm thước đo cơ bản trước khi áp dụng các phương pháp nhúng từ cao cấp hơn, các phương pháp này là sự lựa chọn tốt.

Trong phần tiếp theo, chúng ta sẽ tổng kết vài phương pháp nhúng từ mới xuất hiện trong 2 năm gần đây như ELMo, BERT, XLNet và ERNIE. Những phương pháp này đòi hỏi tập dữ liệu lớn và nguồn lực tính toán mạnh mẽ, nhưng mang lại hiệu suất cao và đã vượt qua con người trong một số tác vụ như Trả lời câu hỏi (question answering SQuAD 2.0) và Đánh giá hiểu biết ngôn ngữ tổng quát (General Language Understanding Evaluation - GLUE).

BÀI LIÊN QUAN

1

Cùng chủ đề

Bài Học Từ http ebay chodientu vn: Khi Nhà Đầu Tư Chiến Lược Không Đồng Hành

Bài tập

Bài Học Từ http ebay chodientu vn: Khi Nhà Đầu Tư Chiến Lược Không Đồng Hành

http ebay chodientu vn, câu chuyện về thương vụ hợp tác giữa eBay và sàn thương mại điện tử chodientu.vn...

Công thức nguyên hàm, bảng nguyên hàm đầy đủ & mở rộng

Bài tập

Công thức nguyên hàm, bảng nguyên hàm đầy đủ & mở rộng

Giải Mã Bí Ẩn Nguyên Hàm 4x: Từ Khái Niệm Đến Ứng Dụng Bạn đã bao giờ cảm thấy bối rối...

Bài tập

Khám Phá Nguyên Hàm 1/x^2+4: Từ Lý Thuyết Tới Ứng Dụng Nguyên hàm 1/x^2+4 là một khái niệm quan trọng trong...

Khám Phá Sức Mạnh Của Cấu Trúc Dữ Liệu Và Giải Thuật Python

Bài tập

Khám Phá Sức Mạnh Của Cấu Trúc Dữ Liệu Và Giải Thuật Python

Cấu trúc dữ liệu và giải thuật Python là nền tảng cốt lõi cho bất kỳ lập trình viên nào....

Sắc màu Thiếu Niên Ca Hành Tập 34: Hành Trình Âm Nhạc Của Hoa Vui Ca

Bài tập

Sắc màu Thiếu Niên Ca Hành Tập 34: Hành Trình Âm Nhạc Của Hoa Vui Ca

"Thiếu niên ca hành tập 34" đang được mong chờ, nhưng trước đó, hãy cùng nhìn lại những sắc màu...

Xử lý hàm date (ngày tháng) trong PHP

Bài tập

Xử lý hàm date (ngày tháng) trong PHP

Cộng Trừ Thời Gian trong PHP: Bí Kíp Tính Toán Thời Gian Như Chớp Việc cộng trừ thời gian trong PHP...

Mới cập nhật

Bài Học Từ http ebay chodientu vn: Khi Nhà Đầu Tư Chiến Lược Không Đồng Hành

Bài Học Từ http ebay chodientu vn: Khi Nhà Đầu Tư Chiến Lược Không Đồng Hành

http ebay chodientu vn, câu chuyện về thương vụ hợp tác giữa eBay và sàn thương mại điện tử chodientu.vn của Shark Bình vào những năm 2010-2011, mang đến bài học sâu sắc cho các...

18:58 21/11/2024 Bài tập

Code Ứng Dụng Nghe Nhạc Online Cho Android: Hướng Dẫn Từ A Đến Z

Code Ứng Dụng Nghe Nhạc Online Cho Android: Hướng Dẫn Từ A Đến Z

Bạn đam mê công nghệ và muốn tự tay code ứng dụng nghe nhạc online cho Android? Bạn tìm kiếm một hướng dẫn chi tiết, dễ hiểu, và đậm chất Việt Nam? Bài viết này...

16:59 21/11/2024 Tài liệu

Khám Phá Sức Mạnh Của Bài Tập Thủ Tục Trong SQL

Khám Phá Sức Mạnh Của Bài Tập Thủ Tục Trong SQL

Bài tập thủ tục trong SQL, hay còn gọi là Stored Procedure, là một công cụ mạnh mẽ giúp tối ưu hóa hiệu suất và bảo mật cơ sở dữ liệu. Trong 50 từ đầu...

14:59 21/11/2024 Tài liệu

Nghề Lập Trình Máy Tính Là Gì? Khám Phá Thế Giới Code Huyền Bí!

Nghề Lập Trình Máy Tính Là Gì? Khám Phá Thế Giới Code Huyền Bí!

Nghề lập trình máy tính là gì? Chỉ trong 50 từ đầu tiên, bạn sẽ hiểu: đó là việc tạo ra phần mềm, ứng dụng, website... bằng cách viết mã code. Hãy cùng tôi khám...

12:59 21/11/2024 Lập trình

Công thức nguyên hàm, bảng nguyên hàm đầy đủ & mở rộng

Công thức nguyên hàm, bảng nguyên hàm đầy đủ & mở rộng

Giải Mã Bí Ẩn Nguyên Hàm 4x: Từ Khái Niệm Đến Ứng Dụng Bạn đã bao giờ cảm thấy bối rối trước "nguyên hàm 4x"? Đừng lo, bạn không đơn độc! Trong vòng 50 từ...

10:59 21/11/2024 Bài tập

Hướng Dẫn Tài Liệu Django Tiếng Việt Cho Người Mới Bắt Đầu

Hướng Dẫn Tài Liệu Django Tiếng Việt Cho Người Mới Bắt Đầu

Bạn đang tìm kiếm tài liệu Django tiếng Việt? Django, một framework web mạnh mẽ của Python, có thể ban đầu hơi khó nắm bắt. Bài viết này sẽ cung cấp cho bạn một hướng...

08:59 21/11/2024 Tài liệu

Khám Phá Nguyên Hàm 1/x^2+4: Từ Lý Thuyết Tới Ứng Dụng Nguyên hàm 1/x^2+4 là một khái niệm quan trọng trong giải tích, mở ra cánh cửa cho việc tìm diện tích, thể tích và...

06:59 21/11/2024 Bài tập

Quy Trình Tiếp Thị: Bí Quyết Chạm Đến Thành Công Trong Kinh Doanh

Quy Trình Tiếp Thị: Bí Quyết Chạm Đến Thành Công Trong Kinh Doanh

Quy trình tiếp thị là xương sống của bất kỳ doanh nghiệp nào, dù lớn hay nhỏ. Nó là kim chỉ nam dẫn đường cho mọi hoạt động, từ việc hiểu khách hàng đến việc...

04:59 21/11/2024 FOUNDATION OF MARKETING

Xây dựng Lòng Trung Thành: Chìa Khóa Vàng Cho Doanh Nghiệp Bền Vững

Xây dựng Lòng Trung Thành: Chìa Khóa Vàng Cho Doanh Nghiệp Bền Vững

Xây dựng lòng trung thành của khách hàng là nền tảng cho sự phát triển bền vững của bất kỳ doanh nghiệp nào. Trong 50 từ đầu tiên này, chúng ta đã thấy rõ tầm...

02:22 21/11/2024 BUSINESS MODEL CANVAS

Ươm Mắm Tương Lai: Khám Phá Thế Giới Kỳ Diệu của Giáo Dục Mầm Non

Ươm Mắm Tương Lai: Khám Phá Thế Giới Kỳ Diệu của Giáo Dục Mầm Non

Giáo dục mầm non, giai đoạn đầu đời của trẻ, là nền tảng vững chắc cho sự phát triển toàn diện về thể chất, trí tuệ, tình cảm và xã hội. Nó không chỉ là...

02:21 21/11/2024 HOẠT ĐỘNG GIÁO DỤC