Data Analysis of Favorite Movies by Age Using Python

Answered using ChatGPT 4o by ChatGPT4o

Question:

Анализ данных на Python любимых фильмов в зависимости от возраста

Answer:

Анализ данных о любимых фильмах в зависимости от возраста может быть выполнен с использованием различных библиотек Python, таких как pandas для обработки данных, matplotlib и seaborn для визуализации, а также numpy для численных операций. Вот пример, как можно провести такой анализ:

  1. Сбор данных: Предположим, у вас есть CSV-файл с данными о любимых фильмах и возрастах пользователей. Файл может выглядеть следующим образом:
user_id,age,favorite_movie
1,25,Inception
2,30,The Matrix
3,22,Inception
4,35,The Godfather
5,28,The Matrix
...
  1. Загрузка данных: Используем pandas для загрузки данных.
import pandas as pd

# Загрузка данных из CSV файла
data = pd.read_csv('favorite_movies.csv')
print(data.head())
  1. Анализ данных: Проведем базовый анализ данных, чтобы понять распределение возрастов и любимых фильмов.
# Основная информация о данных
print(data.info())

# Статистическое описание данных
print(data.describe())

# Количество уникальных фильмов
print(data['favorite_movie'].nunique())

# Частота каждого фильма
print(data['favorite_movie'].value_counts())
  1. Визуализация данных: Используем matplotlib и seaborn для визуализации данных.
import matplotlib.pyplot as plt
import seaborn as sns

# Распределение возрастов
plt.figure(figsize=(10, 6))
sns.histplot(data['age'], bins=20, kde=True)
plt.title('Распределение возрастов')
plt.xlabel('Возраст')
plt.ylabel('Количество')
plt.show()

# Популярность фильмов
plt.figure(figsize=(12, 8))
sns.countplot(y='favorite_movie', data=data, order=data['favorite_movie'].value_counts().index)
plt.title('Популярность фильмов')
plt.xlabel('Количество')
plt.ylabel('Фильм')
plt.show()
  1. Анализ зависимости любимых фильмов от возраста: Можно сгруппировать данные по возрастным категориям и посмотреть, какие фильмы популярны в каждой категории.
# Создание возрастных категорий
bins = [0, 18, 25, 35, 50, 100]
labels = ['0-18', '19-25', '26-35', '36-50', '50+']
data['age_group'] = pd.cut(data['age'], bins=bins, labels=labels)

# Популярность фильмов в каждой возрастной категории
age_group_movie = data.groupby('age_group')['favorite_movie'].value_counts().unstack().fillna(0)

# Визуализация
plt.figure(figsize=(14, 10))
sns.heatmap(age_group_movie, annot=True, fmt='g', cmap='viridis')
plt.title('Популярность фильмов в зависимости от возрастной категории')
plt.xlabel('Фильм')
plt.ylabel('Возрастная категория')
plt.show()

Этот пример демонстрирует базовый подход к анализу данных о любимых фильмах в зависимости от возраста. В зависимости от ваших данных и целей анализа, вы можете расширить этот подход, добавив более сложные методы анализа и визуализации.