Sistem rekomendasi film berbasis konten yang menggunakan bag-of-words (CountVectorizer) dan cosine similarity untuk menemukan film mirip berdasarkan title, genre, actors, dan description.
- Menggabungkan
title + genre + actors + descriptionmenjadi fitur tekstags. - Vectorization dengan CountVectorizer (
max_features=500, stop_words='english'). - Perhitungan cosine similarity untuk mencari film paling mirip.
- Fungsi rekomendasi yang mengembalikan Top-5 film terdekat.
- Ekspor artefak model:
movies.pklmovies_dict.pklsimilarity.pkl
-
Preprocessing
- Menghapus data duplikat dan nilai kosong.
- Membuat kolom
tagssebagai gabungan metadata film.
-
Vectorization
- Menggunakan CountVectorizer untuk mengubah teks menjadi representasi numerik.
-
Similarity Computation
- Menggunakan cosine similarity untuk mengukur kemiripan antar film.
-
Inference
- Memberikan rekomendasi film mirip berdasarkan judul input.