Chào bạn và chào mừng đến với Allaravel! Trong bài viết này, chúng ta sẽ tìm hiểu về cách phân tách dữ liệu với DataFrame trong Python. Điều này sẽ giúp chúng ta hiểu rõ hơn về dữ liệu đã thu thập và tạo ra những thông tin hữu ích thông qua việc trực quan hóa chúng.
Xử lý file csv với Python
Trước khi đi vào chi tiết, chúng ta cần xử lý file csv đã làm sạch dữ liệu từ bước trước. File cost_revenue_clean.csv
đã được sửa chữa để loại bỏ thông tin nhiễu và định dạng lại để máy tính có thể hiểu được. Dữ liệu này có thể biểu thị bằng các biểu đồ, cung cấp nhiều thông tin hơn so với một bảng dữ liệu chỉ chứa các con số.
Trước tiên, hãy làm quen với công cụ Jupyter, một công cụ không thể thiếu khi lập trình ngôn ngữ Python. Jupyter cho phép bạn thực thi các đoạn mã Python trực tuyến hoặc cài đặt trên máy tính cá nhân. Trong phần tiếp theo, giả sử bạn đã cài đặt hoặc biết cách sử dụng Jupyter trực tuyến tại Jupyter.org.
Đầu tiên, hãy tải lên file dữ liệu cost_revenue_clean.csv
bằng cách nhấp vào nút "Upload" trong trang Jupyter. Sau đó, chúng ta sẽ sử dụng thư viện pandas để đọc file dữ liệu này.
import pandas
data = pandas.read_csv('cost_revenue_clean.csv')
Trong Jupyter, sau khi viết xong code, bạn có thể thực thi bằng cách nhấn tổ hợp phím Shift + Enter hoặc bấm vào nút "Run" trong thanh menu nhanh.
Phân tách dữ liệu với DataFrame trong Python
Dữ liệu của chúng ta có khoảng hơn 5000 bản ghi. Để nhìn vào dữ liệu này dưới góc nhìn khoa học, chúng ta sử dụng câu lệnh:
data.describe()
Phân tách dữ liệu với DataFrame trong Python
Kết quả cho chúng ta một số thông tin thống kê như sau:
count
: tổng số bản ghi trong dữ liệumin
,max
: giá trị nhỏ nhất và lớn nhất trong dữ liệumean
: giá trị trung bình
Chú ý, khi làm việc với các số liệu khoa học, các con số có thể được hiển thị theo định dạng khoa học với ký hiệu hàm mũ, ví dụ: số 12345678901
sẽ được hiển thị là 1.23e+10
.
DataFrame
DataFrame là một cấu trúc dữ liệu hai chiều giống kiểu dạng bảng dữ liệu. Nó cho phép chúng ta áp dụng các thuật toán trên các dòng và cột. DataFrame có thể nhận nhiều kiểu dữ liệu đầu vào khác nhau, ví dụ như danh sách, thư viện, Series, vv. Để sử dụng DataFrame, chúng ta cần import nó từ thư viện pandas.
from pandas import DataFrame
Chú ý, Jupyter hỗ trợ chức năng tự động hoàn thành (autocomplete), cho phép bạn gõ vài ký tự của từ khóa rồi nhấn Tab để nó tự động hoàn thành từ khóa đầy đủ. Điều này giúp bạn viết code nhanh hơn và tránh được những lỗi chính tả.
Chúng ta có thể lấy ra các cột dữ liệu thông qua DataFrame, được gọi là phân tách dữ liệu từ dữ liệu gốc.
X = DataFrame(data, columns = ['product_budget_usd'])
y = DataFrame(data, columns = ['worldwide_gross_usd'])
Bài viết hướng dẫn dừng lại ở đây. Trong bài viết tiếp theo, chúng ta sẽ tiếp tục vẽ biểu đồ dữ liệu đã được phân tách.
Rất mong rằng bài viết đã cung cấp cho bạn những kiến thức hữu ích về phân tách dữ liệu với DataFrame trong Python. Hãy tiếp tục khám phá các bài viết khác trên Allaravel để tìm hiểu thêm về Python và các chủ đề liên quan.