Netflixの映画データにExploratoryを使用
こんにちは、Kohです。
今日は、KaggleでNetflixのデータセットをExploratoryを使って調べてみます。
目標:どのような映画がIMDBスコアが高いのかを知り、お勧めの映画を入手すること。
1. データセット
以下のリンクからデータセットを見つけてダウンロードできます。
https://www.kaggle.com/satpreetmakhija/netflix-movies-and-tv-shows-2021?select=netflixData.csv
データセットの内容は以下の通りです。
show ID : 各エントリーに固有のID
Title : タイトル
Description : 説明
Director : ディレクター
Genres : ジャンル(各コンテンツは複数のカテゴリーに属しています。 カンマで区切られています。
Cast : キャスト(カンマで区切られています)
Production Country : 製作国
Release Date : 発売日(発売された年)
Rating : 評価
Duration : 上映時間(映画の場合は分単位、番組の場合はシーズン数(例:2シーズン))
Imdb Score :インターネット・ムービー・データベース スコア(略称:IMDb)
Content Type : タイプ(映画またはテレビ番組)
Date Added : Netflixに登録された日付
2. データの準備
今回の目的は映画を見ることなので、Content Type を「Movie」にフィルタリングしてみましょう。
次に、IMDBスコアを数値に変更してみましょう。
三角マークをクリックし、「テキストデータの加工」を選択します。
「置換する」を選択し、文字例(全)を選択します。
次のウィンドウで、変換元に「/10」、変換先に「 」(ブランク)を入れます。
位置に 末尾 を選択して実行します。
最後にもう一度三角形をクリックします。
「データタイプの変換」を選択し、下のスクリーンショットのように「Numeric」を選択します。
3. データ分析
ここで、長年にわたって公開されてきた映画の数を見てみましょう。
折れ線グラフにして、X軸に「Release date」、Y軸に「行の数」を選択してみましょう。
予想通り、公開される映画の数は急激に増加しており、特に2010年以降に増加しています。
次IMDBスコアが高いジャンルを見てみましょう。
棒グラフにして、Y軸をImdbの平均スコアを使うように、X軸をGenresに設定してみましょう。データはトップ20に限定しましょう。
以下の結果から、アクション&アドベンチャーやクラシック映画は通常、高いIMDBスコアを持っていることがわかります。
最後に、IMDBスコアが高い映画タイトルを見てみたいと思います。
ここでも棒グラフを使ってみましょう。今回は、X軸にタイトルを選択し、Y軸にIMDBの平均スコアを使用します。
このグラフを見ると、なぜこれらの映画が良いのかが気になります。詳しくはIMDBのサイトで確認できます。
4. 線形回帰モデル
Exploratoryで線形回帰モデルを試してみましょう。
「アナリティクス」タブをクリックし、「タイプ」を「線形回帰」に変更します。
目的変数として「IMDBスコア」を選択します。
予測変数の場合は、以下の緑でハイライトされたものを選択し、実行します。
4. モデルの結果と考察
「変数重要度」タブをクリックしてみましょう。
このタブでは、このモデルでは、ジャンルと期間がIMDBスコアの結果を予測する上で重要な役割を果たしているようです。
サマリーシートを見てみましょう。
このモデルでは、0から1の範囲に収まるR2スコアが、1よりも0に近いようです。
実際の結果と予測の散布図を見て、理解を深めましょう。
下の散布図を見ると、ポイントはほとんど中央に集中しており、我々のモデルが引いた線は数ポイントしか正しく予測できていないことがわかります。
4. 結論
このデータセットで提供されたデータからは、映画のIMDBスコアを予測することは難しいようですが、これは予想通りです。
通常、IMDBスコアが高くなるジャンルの種類がありますが、同じジャンルの映画すべてがIMDBスコアが高くなるわけではありません。期間についても同様です。
映画のジャンルや上映時間などの情報から、映画が獲得するIMDBスコアを正確に予測することはできませんが、これは予想通りです。 このデータではわからない、他の多くの要素(映画の予算、プロデューサー、テーマなど)が関係しています。
Netflixが提供するデータセットに含まれる映画について、この分析が興味深く、いくつかの洞察を得られることを願っています。