Data Cleaning and Preprocessing

Load and drop unnecessary attribute, e.g., Filming_Location

Missing Values

Check for missing values

Drop all records missing Gross_worldwide

Fill missing values:

Attribute Fill with
Budget $0
Runtime 0
Rating 5.0
Rating_Count 0K
ListOfCertificate G

Other null attributes are filled with empty string.

Drop all records with empty attributes

Currency Attributes

Input: Input dataframe with unprocessed currency

Output: Processed one

Currency symbols in Budget and Gross_worldwide

Eliminate $, and , in money string and convert the string to integer

Multivalued Attributes

Multivalued data is seperated by comma ,

Cast, Genre, Studios, ListOfCertificate, Keywords, Languages, Countries are multivalued so we convert them to List data structure

Note! After change to list we will need this function this to load again in another part

Process wrong values in ListOfCertificate

Some of those certificates are out of date and does not follow MPAA's newest policy. They should be replaced:

Multivalued attributes with gross and count

  1. Input
  1. Output

Chuẩn hóa lại dữ liệu dạng thời gian

1. Dữ liệu cột runtime dạng giờ-phút

Hàm chuyển thời gian về dạng phút

Chuẩn hóa thời gian cho bộ dữ liệu

2. Dữ liệu cột release_date dạng ngày tháng năm

Tách ngày, tháng, năm của từng bộ phim

Xử lý dữ liệu cột Rating và Rating_Count

Xử lý trường có giá trị 0

Fill 0 values:

Attribute Fill with
Budget Min
Runtime Mean

Xuất ra file CSV