Skip to content

temokha/laptops_analysis_

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

22 Commits
 
 
 
 
 
 

Repository files navigation

Laptops Price Analysis

Цель анализа

Проанализировать данные о ноутбуках, чтобы понять, какие характеристики влияют на цену.
Проверить гипотезы о зависимости цены от различных факторов.

Данные

Использован датасет с Kaggle:
Laptop Price and Specification Dataset

Проверяемые гипотезы

  • Влияет ли тип видеокарты (встроенная/дискретная) на цену?
  • Отличаются ли цены ноутбуков с процессорами 13th Gen Intel Core i7 13700H и 7th Gen AMD Ryzen 7 7840HS?
  • Влияет ли разрешение экрана монитора на цену?
  • Стоят ли ноутбуки с рейтингом выше 70 дороже, чем ноутбуки с более низким рейтингом?
  • Стоят ли ноутбуки с видеокартами NVIDIA дороже, чем ноутбуки с видеокартами Intel или AMD?

Методы анализа

  • Проверка нормальности распределения (Shapiro-Wilk test)
  • Сравнение групп (Kruskal-Wallis test, Mann-Whitney U test)
  • Корреляционный анализ
  • Визуализация с помощью seaborn и matplotlib (boxplot, violinplot, barplot и др.)

Предобработка данных

Предварительно была проведена небольшая очистка данных для удаления пропусков и аномалий, что позволило повысить качество и достоверность анализа.

Полный ноутбук с кодом и анализом доступен в файле laptops_analysis_.ipynb — в этом документе приведены только ключевые фрагменты кода и результаты.


Анализ и интерпретация результатов

Ниже приведены основные графики и выводы по проверяемым гипотезам.

Распределение цены

Распределение цены ноутбуков

Распределение имеет асимметричный вид (положительная асимметрия): большинство значений концентрируется в левой части графика (низкие цены), а длинный хвост растянут вправо (высокие цены). Такое распределение говорит о преобладании бюджетных и средних ноутбуков на рынке.

  • Мода равна 823 долларам, что указывает на наиболее популярные ноутбуки — доступные большинству потребителей, используемые для базовых задач: офис, интернет, учеба.
  • Медиана равна 765 долларам, подтверждая наличие значительного количества бюджетных предложений.
  • Среднее значение равно 993 долларам, что выше медианы из-за влияния более дорогих моделей.
  • Длинный правый хвост свидетельствует о присутствии премиальных ноутбуков (игровые, профессиональные), которые встречаются редко, но существенно влияют на среднюю цену.

Распределение цены на самые популярные бренды

Распределение цен по брендам

HP

Основной сегмент — до 1200 $. Однако есть много выбросов от 2000+ $, которые представляют топовые игровые (Omen, Spectre) и профессиональные модели (ZBook).

Lenovo

50% устройств стоят до 600 $, 75% — до 1000 $. Цены сдвинуты в сторону недорогих моделей, ориентированных на массовый рынок. Выбросы доходят до 5000 $ (ThinkPad X1, Legion, Yoga).

Samsung

Ценовой диапазон смещён в средне-высокий сегмент: 50% моделей дороже 1500 $, 75% — до 1700 $. Нижняя граница — 900 $, без выбросов, что говорит о стабильной ценовой политике.

Apple

Цены сосредоточены в премиум-сегменте: 50% моделей от 1700 до 2700 $, медиана около 1900 $. Один выброс — MacBook Pro 16 2023 (~5000 $). В целом узкий ценовой разброс без бюджетных вариантов.

Asus

Основной сегмент — 500–900 $, медиана около 800 $. Выбросы 1500–1900 $ включают Vivobook, Zenbook, TUF и ROG, а также редкие выбросы до 3500–3900 $ — топовые игровые модели.

Dell

Основная масса — 500–1100 $, медиана чуть выше 800 $. Выбросы 2100–5500 $ — игровые ноутбуки, показывающие широкий ценовой диапазон.

Acer

Основной сегмент — 500–700 $, медиана около 600 $. Выбросы 1200–2200 $ — продвинутые и игровые модели. В целом бюджетный бренд с ограниченным числом премиальных устройств.

Infinix

Цены узко сосредоточены в бюджете: 500–600 $, медиана около 550 $, без выбросов — чёткое позиционирование на недорогие модели.

Chuwi

Очень бюджетный сегмент: 1-й квартиль 400 $, 3-й — 500 $, медиана 450 $, без выбросов.

MSI

Широкий ценовой разброс: основная масса — 700–2000 $, медиана около 1100 $. Есть значительные выбросы выше 4000 $ — мощные игровые и профессиональные ноутбуки.

Средняя оценка по брендам

Средняя оценка по брендам

График показывает значительную разницу в средних оценках между брендами ноутбуков. Лидерами являются Ninkear (73.0), HP и Colorful (около 70.0), в то время как Microsoft (54.5), Honor (55.0) и Infinix (55.21) получили самые низкие оценки.

Цена по операционной системе и распределение моделей по ОС

Цена по операционной системе Распределение моделей по OS

  • Windows 11 имеет много выбросов в верхней части распределения, так как почти все новые ноутбуки оснащаются этой ОС. Это приводит к широкому диапазону цен — от бюджетных моделей до дорогих устройств.
  • Windows 10 используется всё реже и распределение цен для неё более компактное, в среднем ценовом диапазоне.
  • Mac OS демонстрирует высокие цены с медианой около 2000 долларов и длинными «усами» до 4000 долларов, что отражает статус Apple как производителя премиальных устройств.
  • DOS OS и Chrome OS имеют низкие цены и ограниченное использование, объясняющееся низким спросом.

В целом, рынок ноутбуков чётко разделён: Windows 11 доминирует среди новых устройств, Mac OS занимает премиальный сегмент, а DOS OS и Chrome OS остаются на периферии из-за низкого спроса.

Топ 10 процессоров по среднему рейтингу

Топ 10 процессоров по среднему рейтингу

График демонстрирует сравнение производительности различных процессоров на основе их среднего рейтинга.

  • 13th Gen Intel Core i7 13700HX занимает первое место с самым высоким рейтингом — 79.0, что указывает на его превосходные характеристики и популярность среди пользователей.
  • Второе место разделяют 13th Gen Intel Core i9 13900HX и 7th Gen AMD Ryzen 7 7735U, оба с рейтингом 75.0.
  • Далее идут процессоры: 6th Gen AMD Ryzen 9 6900HS (рейтинг 74.5) и 12th Gen Intel Core i7 12700H (рейтинг 73.5), показывающие высокие показатели.
  • Остальные процессоры имеют рейтинги в диапазоне от 71.8 до 79.0, демонстрируя небольшие различия в производительности.

Зависимость цены от RAM

Зависимость цены от RAM

График показывает, что цена ноутбука растет с увеличением объема оперативной памяти (RAM).

  • Наиболее дорогие модели оснащены 64 ГБ LPDDR5X RAM, достигая цен около 5000 долларов.
  • Устройства с минимальным объемом RAM (2 ГБ DDR3) стоят значительно меньше — примерно 100 долларов.

Это демонстрирует прямую корреляцию между объемом RAM и ценой: чем больше оперативной памяти, тем выше стоимость ноутбука.

Зависимость цены от SSD

Зависимость цены от SSD

Здесь наблюдается схожая тенденция, как и в случае с оперативной памятью (RAM): чем больше объем SSD-накопителя, тем выше цена ноутбука.

Это подтверждает, что емкость хранения данных также является важным фактором, влияющим на стоимость устройства.

Распределение размеров экрана

Распределение размеров экрана

График показывает, что наиболее популярные размеры экранов ноутбуков находятся в диапазоне 14–16 дюймов.
Меньшие экраны (меньше 13 дюймов) и большие экраны (больше 17 дюймов) встречаются значительно реже.

Это указывает на то, что потребители предпочитают ноутбуки среднего размера, обеспечивающие баланс между портативностью и удобством использования — для офиса, учёбы и развлечений.

Зависимость цены от разрешения экрана

Зависимость цены от разрешения экрана Violin plot разрешения экранов по цене

Разрешения Full HD и HD сосредоточены в более низком ценовом диапазоне (до 1000–2000 долларов), тогда как 2K/QHD, 3K+, и особенно 4K имеют значительно более высокие цены (до 6000–7000 долларов). График также показывает, что 4K-дисплеи имеют широкий диапазон цен, что указывает на наличие как доступных решений, так и премиальных моделей.

Это подчёркивает, что высокое разрешение экрана является значительным фактором, влияющим на стоимость ноутбука.

Распределение цены по видеокартам

Распределение цены по видеокартам

График показывает распределение цен ноутбуков с 15 самыми популярными видеокартами.

Распределение цены в зависимости от гарантийного срока

Распределение цены по гарантийному сроку

На графике видно, что медианная цена ноутбуков увеличивается с ростом гарантийного срока. Это демонстрирует, что более длительная гарантия чаще предоставляется на дорогие и премиальные модели, в то время как бюджетные устройства обычно сопровождаются 1-летней гарантией.

1 год остаётся самой популярной опцией, охватывающей основную часть моделей — это говорит о массовом сегменте, где производители ограничивают обязательства, сохраняя при этом минимальные стандарты. Напротив, устройства с 2–3 годами гарантии чаще относятся к высшему ценовому диапазону, отражая уверенность брендов в качестве сборки и долговечности своих устройств.

Корреляционный анализ

Корреляционная матрица

Тепловая диаграмма корреляций показывает, что цена ноутбука (Price) имеет сильную положительную корреляцию с объемом оперативной памяти (Ram_int, коэффициент 0.78) и размером SSD (SSD_int, коэффициент 0.68). Это подтверждает, что технические характеристики являются основными драйверами цены.

Также можно отметить умеренную корреляцию между RAM и SSD (коэффициент 0.66), что логично: более мощные ноутбуки, как правило, комплектуются одновременно большим объемом оперативной памяти и емкими накопителями.

Гарантийный срок (Warranty_int), размер экрана (Screen_Size) и рейтинг (Rating) демонстрируют слабую или почти нулевую корреляцию с ценой, что указывает на их меньшую значимость при формировании стоимости устройства.

Гипотеза 1: Влияет ли тип видеокарты (встроенная/дискретная) на цену?

H0: Тип видеокарты не влияет на цену ноутбука
H1: Ноутбуки с дискретной графикой имеют более высокую цену, чем с интегрированной

Визуализация

  • Violin-график показывает, что ноутбуки с dedicated GPU стоят дороже, чем с integrated.
  • Распределение цен также подтверждает, что dedicated видеокарты характерны для более дорогих устройств.

Violin-plot по цене и типу видеокарты
Распределение цен: интегрированная vs дискретная графика


Проверка нормальности (Shapiro-Wilk)

for gpu_type in df['GPU_type'].unique():
    stat, p = stats.shapiro(df[df['GPU_type'] == gpu_type]['Price'])
    print(f'{gpu_type} - p-value:', p)

Результаты:

  • dedicated - p-value: 2.51e-24
  • integrated - p-value: 1.28e-23

Распределения не нормальны, применим непараметрический тест Манна–Уитни.

Mann–Whitney U-тест

price_integrated = df[df['GPU_type'] == 'integrated']['Price']
price_dedicated = df[df['GPU_type'] == 'dedicated']['Price']
stat, p = stats.mannwhitneyu(price_integrated, price_dedicated, alternative='two-sided')
print('p-value:', p)

Результат:

p-value: 6.12e-33

Вывод:

Тип видеокарты влияет на цену ноутбука: ноутбуки с дискретной графикой стоят статистически значимо дороже, чем с интегрированной.

Гипотеза 2: Отличаются ли цены ноутбуков с процессорами 13th Gen Intel Core i7 13700H и 7th Gen AMD Ryzen 7 7840HS?

H0: Цена ноутбуков с процессорами 13th Gen Intel Core i7 13700H и 7th Gen AMD Ryzen 7 7840HS одинакова.
H1: Цена ноутбуков с данными процессорами различается.

Визуализация

Медианные цены для 13th Gen Intel Core i7 13700H и 7th Gen AMD Ryzen 7 7840HS находятся практически в одном диапазоне, что указывает на их схожесть по основным ценовым показателям.
Однако распределения цен различаются по форме:

  • У AMD Ryzen 7 7840HS распределение цен более компактное и симметричное, без значительных выбросов, что говорит о стабильных ценах в узком диапазоне.
  • У Intel Core i7 13700H распределение цен шире, что указывает на наличие группы дорогих моделей, увеличивающих размах цен.

Распределение цен по процессорам Intel Core i7 13700H и AMD Ryzen 7 7840HS

Проверка нормальности (Shapiro-Wilk)

intel_cpu = df[df['CPU'] == '13th Gen Intel Core i7 13700H']
amd_cpu = df[df['CPU'] == '7th Gen AMD Ryzen 7 7840HS']
stat_i, p_i = stats.shapiro(intel_cpu['Price'])
print(f'Intel (I7 13700H) - p-value: {p_i:.5f}')
stat_a, p_a = stats.shapiro(amd_cpu['Price'])
print(f'AMD (Ryzen 7 7840HS) - p-value: {p_a:.5f}')

Результаты:

  • Intel (I7 13700H) - p-value: 0.00100
  • AMD (Ryzen 7 7840HS) - p_value: 0.09712

Распределение группы Intel не является нормальным, AMD -нормальное распределение. Все равно будем использовать тест Манна-Уитни.

Mann–Whitney U-тест

stat, p = stats.mannwhitneyu(intel_cpu['Price'],amd_cpu['Price'],alternative='two-sided')
print('Mann–Whitney U-test:')
print('p_value:',p)

Результат:

p_value: 0.7738492609341964

Вывод:

Статистически значимых различий в цене нету, цена ноутбуков с процессорами 13th Gen Intel Core i7 13700H и 7th Gen AMD Ryzen 7 7840HS одинакова.

Гипотеза 3: Влияет ли разрешение экрана монитора на цену?

H0: Средняя цена одинакова при любом разрешении.
H1: Цена различается в зависиомсти от разрешения.

Визуализация

График приведен в разделе "Зависимость цены от разрешения экрана".

Проверка нормальности (Shapiro-Wilk)

for res in df['Resolution'].unique():
    stat, p = stats.shapiro(df[df['Resolution']==res]['Price'])
    print(f'{res} - p_value:',p)

Результаты:

  • Full HD - p_value: 1.241951369008703e-24
  • 2K/QHD - p_value: 3.842917700005414e-06
  • 3K+ - p_value: 6.087816217788531e-06
  • HD - p_value: 3.512085007825684e-07
  • 4K - p_value: 0.9569673045099901

Распределения данных не соответствуют нормальному закону, поэтому применение ANOVA некорректно. Вместо этого будем использовать непараметрический тест Крускала–Уоллиса для проверки статистических различий между группами.

Kruskal-Wallis test

groups = []
for res in df['Resolution'].unique():
    group_prices = df[df['Resolution'] == res]['Price']
    groups.append(group_prices)
stat, p = stats.kruskal(*groups)
print(f'Kruskal-Wallis test: statistic={stat:.4f}, p-value={p:.5f}')

Результат:

p_value: 0.00000

Вывод:

Статистически значимые различия в цене в зависимости от разрешения экрана имеются.

Гипотеза 4: Стоят ли ноутбуки с рейтингом выше 70 дороже, чем ноутбуки с более низким рейтингом?

H0: Различий нету, цена одинакова.
H1: Более высокорейтинговые ноутбуки стоят иначе.

Проверка нормальности (Shapiro-Wilk)

stat_h,p_h = stats.shapiro(high_rating['Price'])
stat_l,p_l = stats.shapiro(low_rating['Price'])
print(f'high_rating - p_value:{p_h:.5f}')
print(f'low_rating - p_value:{p_l:.5f}')

Результаты:

  • high_rating - p_value:0.00015
  • low_rating - p_value:0.00000

Распределения группы не являются нормальным. Будем использовать тест Манна-Уитни.

Mann–Whitney U-тест

stat,p = stats.mannwhitneyu(high_rating['Price'],low_rating['Price'],alternative='two-sided')
print('Mann–Whitney U-test:')
print(f'p-value:',p)

Результат:

p-value: 5.411303842312321e-33

Вывод:

Статистически значимых различий в цене имеются, отвергаем H0.

Гипотеза 5: Стоят ли ноутбуки с видеокартами NVIDIA дороже, чем ноутбуки с видеокартами Intel или AMD?

H0: Все типы GPU стоят одинаково.
H1: NVIDIA модели дороже.

Проверка нормальности (Shapiro-Wilk)

for br in df_gpu['GPU_brand'].unique():
    stat, p = stats.shapiro(df_gpu[df_gpu['GPU_brand']==br]['Price'])
    print(f'{br} - p_value:{p:.6f}')

Результаты:

  • AMD - p_value:0.000003
  • Intel - p_value:0.000000
  • Nvidia - p_value:0.000000

Распределения данных не соответствуют нормальному закону, поэтому применение ANOVA некорректно. Вместо этого будем использовать непараметрический тест Крускала–Уоллиса для проверки статистических различий между группами.

Kruskal-Wallis test

groups = []
for br in df_gpu['GPU_brand'].unique():
    gpus = df_gpu[df_gpu['GPU_brand']==br]['Price']
    groups.append(gpus)
stat,p = stats.kruskal(*groups)
print(f'Kruskal-Wallis test: statistic={stat:.4f},p_value={p:.5f}')

Результат:

p_value: 0.00000

Вывод:

Статистически значимые различия в цене в зависимости бренда GPU имеются, чипы от Nvidia в среднем стоят дороже. Для наглядности ниже представлены графики с распределением ноутбуков по бренду видеокарты и распределением цен по брендам процессоров. Распределение цен по брендам процессоров Распределение ноутбуков по бренду видеокарты

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors