Apakah Sekuel Lebih Baik Dari Yang Asli?

May 09 2023
Oleh: Justin Cheigh dan Daisuke Yamada Abstrak: Pada artikel ini kami berusaha menjawab pertanyaan apakah sekuel lebih baik dari aslinya. Untuk melakukannya, kami melakukan analisis sentimen terhadap ulasan serial film tertentu.

Oleh: Justin Cheigh dan Daisuke Yamada

Abstrak: Pada artikel ini kami berusaha menjawab pertanyaan apakah sekuel lebih baik dari aslinya. Untuk melakukannya, kami melakukan analisis sentimen terhadap ulasan serial film tertentu. Meskipun kami melatih kumpulan data kaggle yang berisi 50.000 ulasan film, kami juga akan mengikis ulasan film dari IMDb menggunakan perpustakaan selenium Python . Lihat repo GitHub kami dan terima kasih telah membaca!

Seri yang akan kita lihat

Motivasi

Pernahkah Anda bertanya-tanya apakah sekuel sebenarnya lebih baik dari aslinya? Yup… kita semua pernah ke sana. Nyatanya, jawaban atas pertanyaan berusia berabad-abad ini telah menghantui kami sepanjang hidup saya. Kami menjelajahi dan menjelajahi jawaban. Teori film standar tidak memberikan jawaban yang konkret. Teori linguistik dan sastra tidak tepat. Filsafat hanya meningkatkan kebingungan. Jadi, kami beralih ke upaya terakhir yang memungkinkan: ilmu data. Setelah maraton Kung Fu Panda yang cepat, kami mulai bekerja.

Rencana kami adalah melatih model analisis sentimen menggunakan data berlabel. Dengan model ini kita bisa menentukan sentimen ulasan film dari seri yang berbeda. Dari sini kami dapat mengembangkan beberapa heuristik untuk mengukur popularitas setiap film, memungkinkan kami membandingkan sekuel dan aslinya.

Pengikisan Data dan Pra-pemrosesan

Untuk memulai, kami membutuhkan data. Kami menemukan kumpulan data IMDb di kaggle yang berisi 50.000 ulasan film, masing-masing berlabel positif atau negatif . Kumpulan data ini sempurna untuk melatih model analisis sentimen biner, tetapi kami juga membutuhkan data ulasan film dari berbagai seri.

Kami memilih untuk bekerja dengan 4 seri berbeda: Harry Potter, Star Wars, Kung Fu Panda, dan Cars. Setelah menemukan ulasan/peringkat film di IMDb untuk setiap film di setiap seri, kami mengorek data menggunakan selenium. Kami menyimpan data ini sebagai folder file CSV(/ulasan/asli), masing-masing berisi (setidaknya) ulasan film dan peringkat bintang terkait. Kami selanjutnya akan menyebut peringkat bintang ini sebagai peringkat kritik atau hanya peringkat.

Berbeda dengan kumpulan data pelatihan kami, yang diberi label nilai sentimen ( sentimen positif atau negatif ), ulasan ini memiliki peringkat aktual yang ditentukan oleh kritikus ( 1–10 , dengan 1 sebagai yang terburuk dan 10 sebagai yang terbaik). Kami akan mengakui perbedaan ini selama analisis kami nanti.

Contoh Data Tergores- Kung Fu Panda 2

Model Analisis Sentimen

Setelah ini, kami mulai melatih model analisis sentimen kami. Langkah pertama adalah menyandikan ulasan ke dalam beberapa vektor numerik. Metode naifnya adalah dengan hanya satu hot encode kata-kata. Namun, ini mengarah ke vektor masukan yang sangat besar yang tidak memiliki pemahaman semantik atas kata-kata tersebut (misalnya memperlakukan AS dan Amerika sama sekali berbeda).

Jadi, kami memilih untuk menggunakan lapisan penyisipan kata. Penyematan kata merepresentasikan kata sebagai vektor numerik dengan cara yang mempertimbangkan kesamaan semantik . Misalnya, sinonim mungkin “dekat” satu sama lain dalam ruang vektor, dan Anda juga dapat mempelajari hubungan semantik seperti berikut ini:

Contoh Manfaat Penyematan Kata (dari developers.google.com)

Secara khusus, kami menggunakan penyematan kata GloVe yang telah dilatih sebelumnya untuk menentukan lapisan penyematan dalam model kami. Setelah kami mendefinisikan lapisan embedding ini, kami melanjutkan untuk menentukan model kami. Untuk model dasar kami, kami memilih untuk menggunakan LSTM dua arah (Memori Jangka Pendek Panjang). LSTM adalah jenis jaringan saraf berulang (RNN) yang dirancang untuk menangani ketergantungan jangka panjang.

Dalam RNN tradisional, kami biasanya mendapatkan masalah gradien menghilang (atau meledak), karena kami memerlukan propagasi balik melalui waktu . LSTM memperbaikinya dengan memiliki sel memori yang dapat mengontrol aliran informasi. Yaitu, ada 3 gerbang: gerbang input (info baru yang masuk ke sel), gerbang lupa (berapa banyak info sel saat ini yang dilupakan), dan gerbang keluaran (berapa banyak keadaan sel yang digunakan untuk menghasilkan keluaran LSTM ). Gerbang ini, diwakili oleh aktivasi sigmoid, memungkinkan ketergantungan jangka panjang. Di bawah ini Anda dapat melihat arsitektur LSTM:

Arsitektur LSTM

LSTM dua arah dibangun di atas struktur ini dengan menggunakan 2 LSTM, yang memungkinkan arus informasi di kedua arah. Dengan kata lain, LSTM menyimpan informasi hanya dari masa lalu, tetapi LSTM dua arah menyimpan informasi dari masa lalu dan masa depan. Ini memungkinkan jaringan memiliki konteks kata-kata di sekitarnya, dan gambar arsitekturnya ditunjukkan di bawah ini:

Arsitektur LSTM Dua Arah

Kami menerapkan LSTM dua arah kami sebagai berikut:

# define pre-trained embedding layer
pre_emb = Embedding(
  input_dim=len(word_index)+1, 
  output_dim=seqlen, 
  weights=[embedding_matrix], # from GloVe embedding
  input_length=seqlen, 
  trainable=True
  )

with tf.device(device):
    # define bidirectional LSTM
    model = Sequential([
        pre_emb, # embedding layer
        Bidirectional(LSTM(128, return_sequences=True)), 
        Dropout(0.2),
        Bidirectional(LSTM(64)),
        Dropout(0.2),
        Dense(128, activation='relu'),
        Dropout(0.2),
        Dense(1, activation="sigmoid") # binary classification
    ])

    # compile
    model.compile(
        loss=BinaryCrossentropy(from_logits=True),
        optimizer='adam',
        metrics=['accuracy']
    )

Setelah dilatih, model ini memperoleh akurasi 86,9% pada set pengujian, dibandingkan dengan baseline 50%! Sekarang kita memiliki model terlatih ini, kita dapat menggunakannya pada ulasan film tergores. Jadi kami mengambil file CSV tergores kami dan menambahkan kolom "Sentimen" , yang berisi 0 (negatif) atau 1 (positif) berdasarkan prediksi sentimen model kami untuk ulasan tersebut. File CSV ini disimpan di /reviews/annotated.

Hasil dan Analisis

Besar! Jadi untuk setiap ulasan untuk setiap film di setiap seri, kami memiliki dua informasi: prediksi sentimen model kami (0 atau 1) dan peringkat aktual kritikus (1–10). Mari kita mendefinisikan beberapa notasi. Perbaiki ulasan r . Biarkan M(r) menjadi prediksi sentimen biner model kita dari ulasan tersebut, dan biarkan C(r) menjadi peringkat aktual kritik dari film yang berkaitan dengan ulasan tersebut.

Apa hubungan antara M(r) dan C(r) ? Nah, ulasan dengan peringkat yang bagus seharusnya secara intuitif memiliki sentimen positif, yang menyiratkan bahwa kita menginginkan korelasi positif antara M(r) dan C(r). Faktanya, kasus ideal absolut adalah hubungan berikut (dengan asumsi bahwa C(r) mencerminkan tingkat kepuasan absolut, atau objektif):

Kasus Ideal untuk Hubungan M(r)/C(r).

Jadi, apa sebenarnya hubungan itu?

Hubungan Antara M(r) dan C(r)

Mari kita hancurkan plot-plot ini. Setiap kolom mewakili film dalam beberapa seri. Kami akan bekerja dengan kolom paling kiri, mewakili film Harry Potter pertama, sebagai contoh. Biarkan R menjadi kumpulan ulasan tergores untuk film ini. Kemudian kita dapat menafsirkan plot sebagai berikut:

  • Angka teratas (7,7) adalah peringkat kritik rata-rata; secara formal berarti(C(R)).
  • Angka berwarna merah adalah nilai kritik rata-rata untuk ulasan yang diprediksi model kami sebagai positif; secara formal berarti({C(r) | r dalam R dan M(r) = 1}).
  • Angka berwarna biru adalah nilai rata-rata kritik untuk ulasan yang diprediksi model kami sebagai negatif; secara formal berarti({C(r) | r dalam R dan M(r) = 0}).

Setelah melihat ini, kami memutuskan untuk mengeksplorasi lebih lanjut distribusi C(r) yang dikelompokkan berdasarkan M(r). Kami mendapatkan plot berikut:

Distribusi M(r) diberikan C(r) untuk Star Wars/Harry Potter

Misalnya, plot Harry Potter Positive menunjukkan distribusi peringkat kritikus untuk ulasan film Harry Potter yang diklasifikasikan model kami mengandung sentimen positif. Seperti apa yang kita harapkan atau harapkan dari plot ini? Mari kembali ke persamaan ideal kita untuk hubungan antara M(r) dan C(r). Kami berharap plot Positif hanya memiliki ulasan yang diberi peringkat > 5, sedangkan plot Negatif hanya memiliki ulasan yang diberi peringkat ≤ 5.

Paling tidak, kami ingin peningkatan jumlah ulasan karena peningkatan peringkat untuk Positif dan sebaliknya untuk Negatif. Hal ini tampaknya berlaku untuk plot Positif, yang menunjukkan bahwa model kami dapat mengklasifikasikan ulasan dengan peringkat positif dengan baik. Namun, ini tidak berlaku untuk Negatif; model kami tidak dapat mengklasifikasikan ulasan berperingkat negatif dengan baik.

Ini penasaran. Satu penjelasan yang mungkin adalah bahwa ulasan positif lebih eksplisit; mereka mengatakan hal-hal seperti "Film ini hebat!". Di sisi lain, ulasan yang dinilai negatif bisa sedikit lebih sulit untuk diuraikan. Simak review (palsu) berikut ini: “Walaupun beberapa orang mungkin menyukai CGI dan animasi dalam film ini, saya bukan penggemarnya”. Ini adalah kasus yang sangat sulit untuk jaringan saraf. Ada kata-kata seperti "cinta" atau "penggemar" yang biasanya diasosiasikan dengan sentimen positif, namun orang perlu benar-benar memahami konteksnya untuk mengetahui bahwa ini adalah ulasan negatif.

Ini hanyalah hipotesis potensial. Untuk mendapatkan nuansa yang lebih baik, kami membuat awan kata untuk setiap film saat mengelompokkan berdasarkan sentimen positif/negatif:

Wordclouds untuk Ulasan Harry Potter (kiri Positif, kanan Negatif)

Kami memperhatikan beberapa hal penting di sini. Yang pertama adalah kata-kata yang sangat mudah ditebak seperti "Harry Potter", "buku", "film", "adegan", "film", dan lainnya sangat lazim. Salah satu alasan khusus mengapa penyematan GloVe kami menggunakan korpus tetap. Mungkin bermanfaat untuk menggunakan lapisan penyisipan kata yang khusus untuk korpus khusus kami. Meskipun kami mencoba menjelaskan hal ini dengan membuat lapisan embedding dapat dilatih, mungkin kami juga dapat mencoba metode lain selain GloVe.

Kami juga melihat kata-kata seperti "baik" di awan kata positif dan negatif, yang menegaskan kembali masalah kami dalam mengklasifikasikan ulasan negatif. Besar! Sekarang setelah kami melakukan beberapa visualisasi data dan memiliki pemahaman yang lebih baik tentang kumpulan data kami, kami ingin mendefinisikan beberapa H(m) heuristik yang mengambil film input m dan menghasilkan nilai yang sebanding dengan seberapa banyak orang menyukai film tersebut.

Analisis Heuristik dan Lebih Lanjut

Kami ingin H(m) memperhitungkan prediksi model kami dan peringkat kritikus yang sebenarnya. Kami mendefinisikan H(m) sebagai berikut:

Kami pertama-tama menimbang jumlah peringkat positif dengan peringkat kritik rata-rata dari peringkat positif. Kami kemudian mengambil ini dan mengurangi jumlah peringkat negatif yang ditimbang dengan peringkat kritik rata-rata dari ulasan negatif. Ini adalah heuristik yang bagus, tetapi perlu diingat bahwa model kami bukanlah yang terbaik dalam mengklasifikasikan ulasan negatif. Jadi, kami sebenarnya tidak peduli dengan peringkat rata-rata ulasan negatif, yang mengurangi heuristik kami menjadi sebagai berikut:

Jadi, dengan menggunakan heuristik ini, apa hasil kita? Untuk masing-masing dari empat seri kami memutuskan untuk membuat dua plot. Yang pertama adalah peringkat kritikus rata-rata vs. film , dan yang kedua adalah heuristik vs. film kami :

Plot Harry Potter
Plot Star Wars
Plot Kung Fu Panda
Plot Mobil

Perhatikan saat mengelompokkan berdasarkan seri, plot rating rata-rata tidak terlalu banyak berubah , yang menunjukkan bahwa semua film di setiap seri secara kasar dilihat pada level yang sama oleh pengulas. Ini mungkin hanya indikasi individu yang benar-benar memposting ulasan di situs ini dan kesediaan mereka untuk memberikan skor yang berbeda.

Plot yang tepat terlihat cukup acak untuk setiap seri. Perhatikan bahwa angka sebenarnya pada sumbu y sangat tidak relevan, karena peringkat relatiflah yang paling penting. Tidak ada kecenderungan yang jelas pada peningkatan atau penurunan H(m) seiring berjalannya deret. Tampaknya yang asli cenderung sedikit lebih populer daripada sekuelnya , meski pasti ada pengecualian untuk ini (Star Wars).

Catatan menarik lainnya adalah, selain Harry Potter, film terakhir adalah yang paling sedikit atau paling populer menurut heuristik kami. Ini secara intuitif masuk akal, karena serial tersebut menghentikan produksi karena kurangnya popularitas atau berakhir dengan nada tinggi. Selanjutnya, ini tidak berlaku untuk Harry Potter, karena mereka baru saja berakhir setelah bukunya berakhir.

Kesimpulan dan Pekerjaan Masa Depan

Besar! Kami tidak menemukan tren yang pasti tentang sekuel yang lebih buruk atau lebih baik dari aslinya, tetapi kami memiliki kesempatan untuk mendalami topik ini. Kami dapat menggunakan penyematan kata GloVe dengan benar dan menerapkan LSTM dua arah. Selanjutnya kami berhasil mengorek data dan menghasilkan beberapa analisis.

Di masa mendatang kami kemungkinan akan mengeksplorasi model NLP yang lebih rumit, seperti transformer. Namun, masalah terbesar kami adalah dalam menentukan H(m) heuristik yang baik . Sulit untuk menentukan dengan pasti apakah heuristik kita bagus atau tidak, tetapi ada alasan untuk menyarankannya mungkin kurang.

Misalnya, asumsikan bahwa a_p konstan di seluruh film untuk beberapa seri. Kami melihat dari plot kami bahwa ini bukanlah asumsi yang besar. Kemudian heuristik kita direduksi menjadi H(m) = C * r_p -r_n , di mana C = a_p konstan. Ini berarti ulasan kritik hampir tidak diperhitungkan dalam heuristik kami, yang bermasalah karena kami sudah tahu bahwa model kami bukan yang terbaik dalam mengklasifikasikan ulasan negatif.

Terlepas dari kemunduran ini, secara keseluruhan ini adalah proyek yang sangat menyenangkan! Terima kasih sudah membaca!