- Освоение интерактивной среды разработки Jupyter Notebook / Google Colab.
- Изучение библиотеки NumPy для выполнения векторно-матричных вычислений без использования циклов.
- Изучение библиотек Pandas, Matplotlib и Seaborn для разведочного анализа данных (EDA) и визуализации.
- Python 3.10
- NumPy (Матричные операции, линейная алгебра)
- Pandas (Работа с датафреймами, фильтрация, группировка)
- Matplotlib / Seaborn (Построение графиков и гистограмм)
Задача: Вычислить значения выражений for (только векторизация).
Формулы варианта:
$v_i = M_{84-i, 84-i} + 2 N_{i,i}$ $f = \mathbf{p} \cdot \text{Tr}(\mathbf{q}\mathbf{v}^T)$ $g = ||\mathbf{q}^T \mathbf{N}||_1$
Задача: Провести анализ датасета пассажиров Титаника. Выполненные пункты:
- Оценка пропущенных значений.
- Расчет средней цены билета для пассажиров, путешествующих без родственников (одиночек).
- Анализ выбросов в цене билетов (Boxplot).
- Проверка гипотезы: "Чем больше родственников у человека, тем выше его шанс погибнуть".
- Предобработка данных: удаление лишних столбцов (
Name), One-Hot Encoding пола, MinMax-нормировка числовых признаков. - Визуализация распределения возраста и пола по классам кают.
Работы выполнены в формате Jupyter Notebook (.ipynb). Вы можете просмотреть их прямо на GitHub или открыть в Google Colab.
| Задание | Файл в репозитории | Ссылка на Colab (Опционально) |
|---|---|---|
| NumPy (Матрицы) | Ivanov_Lab3_NumPy.ipynb | Открыть в Colab |
| Pandas (Титаник) | lab3_TP_Pandas_Tasks.ipynb | Открыть в Colab |
(Примечание: Для корректного отображения графиков в GitHub используйте nbviewer, если они не прогружаются).
В ходе работы были освоены методы эффективной работы с данными в Python.
- Реализованы сложные математические вычисления с использованием векторизации NumPy, что значительно ускоряет обработку данных по сравнению со стандартными списками Python.
- Проведен полноценный анализ датасета Титаника: выявлены зависимости между размером семьи и выживаемостью, а также проанализировано ценообразование билетов.