Проанализировать данные о ноутбуках, чтобы понять, какие характеристики влияют на цену.
Проверить гипотезы о зависимости цены от различных факторов.
Использован датасет с Kaggle:
Laptop Price and Specification Dataset
- Влияет ли тип видеокарты (встроенная/дискретная) на цену?
- Отличаются ли цены ноутбуков с процессорами 13th Gen Intel Core i7 13700H и 7th Gen AMD Ryzen 7 7840HS?
- Влияет ли разрешение экрана монитора на цену?
- Стоят ли ноутбуки с рейтингом выше 70 дороже, чем ноутбуки с более низким рейтингом?
- Стоят ли ноутбуки с видеокартами NVIDIA дороже, чем ноутбуки с видеокартами Intel или AMD?
- Проверка нормальности распределения (Shapiro-Wilk test)
- Сравнение групп (Kruskal-Wallis test, Mann-Whitney U test)
- Корреляционный анализ
- Визуализация с помощью seaborn и matplotlib (boxplot, violinplot, barplot и др.)
Предварительно была проведена небольшая очистка данных для удаления пропусков и аномалий, что позволило повысить качество и достоверность анализа.
Полный ноутбук с кодом и анализом доступен в файле laptops_analysis_.ipynb — в этом документе приведены только ключевые фрагменты кода и результаты.
Ниже приведены основные графики и выводы по проверяемым гипотезам.
Распределение имеет асимметричный вид (положительная асимметрия): большинство значений концентрируется в левой части графика (низкие цены), а длинный хвост растянут вправо (высокие цены). Такое распределение говорит о преобладании бюджетных и средних ноутбуков на рынке.
- Мода равна 823 долларам, что указывает на наиболее популярные ноутбуки — доступные большинству потребителей, используемые для базовых задач: офис, интернет, учеба.
- Медиана равна 765 долларам, подтверждая наличие значительного количества бюджетных предложений.
- Среднее значение равно 993 долларам, что выше медианы из-за влияния более дорогих моделей.
- Длинный правый хвост свидетельствует о присутствии премиальных ноутбуков (игровые, профессиональные), которые встречаются редко, но существенно влияют на среднюю цену.
Основной сегмент — до 1200 $. Однако есть много выбросов от 2000+ $, которые представляют топовые игровые (Omen, Spectre) и профессиональные модели (ZBook).
50% устройств стоят до 600 $, 75% — до 1000 $. Цены сдвинуты в сторону недорогих моделей, ориентированных на массовый рынок. Выбросы доходят до 5000 $ (ThinkPad X1, Legion, Yoga).
Ценовой диапазон смещён в средне-высокий сегмент: 50% моделей дороже 1500 $, 75% — до 1700 $. Нижняя граница — 900 $, без выбросов, что говорит о стабильной ценовой политике.
Цены сосредоточены в премиум-сегменте: 50% моделей от 1700 до 2700 $, медиана около 1900 $. Один выброс — MacBook Pro 16 2023 (~5000 $). В целом узкий ценовой разброс без бюджетных вариантов.
Основной сегмент — 500–900 $, медиана около 800 $. Выбросы 1500–1900 $ включают Vivobook, Zenbook, TUF и ROG, а также редкие выбросы до 3500–3900 $ — топовые игровые модели.
Основная масса — 500–1100 $, медиана чуть выше 800 $. Выбросы 2100–5500 $ — игровые ноутбуки, показывающие широкий ценовой диапазон.
Основной сегмент — 500–700 $, медиана около 600 $. Выбросы 1200–2200 $ — продвинутые и игровые модели. В целом бюджетный бренд с ограниченным числом премиальных устройств.
Цены узко сосредоточены в бюджете: 500–600 $, медиана около 550 $, без выбросов — чёткое позиционирование на недорогие модели.
Очень бюджетный сегмент: 1-й квартиль 400 $, 3-й — 500 $, медиана 450 $, без выбросов.
Широкий ценовой разброс: основная масса — 700–2000 $, медиана около 1100 $. Есть значительные выбросы выше 4000 $ — мощные игровые и профессиональные ноутбуки.
График показывает значительную разницу в средних оценках между брендами ноутбуков. Лидерами являются Ninkear (73.0), HP и Colorful (около 70.0), в то время как Microsoft (54.5), Honor (55.0) и Infinix (55.21) получили самые низкие оценки.
- Windows 11 имеет много выбросов в верхней части распределения, так как почти все новые ноутбуки оснащаются этой ОС. Это приводит к широкому диапазону цен — от бюджетных моделей до дорогих устройств.
- Windows 10 используется всё реже и распределение цен для неё более компактное, в среднем ценовом диапазоне.
- Mac OS демонстрирует высокие цены с медианой около 2000 долларов и длинными «усами» до 4000 долларов, что отражает статус Apple как производителя премиальных устройств.
- DOS OS и Chrome OS имеют низкие цены и ограниченное использование, объясняющееся низким спросом.
В целом, рынок ноутбуков чётко разделён: Windows 11 доминирует среди новых устройств, Mac OS занимает премиальный сегмент, а DOS OS и Chrome OS остаются на периферии из-за низкого спроса.
График демонстрирует сравнение производительности различных процессоров на основе их среднего рейтинга.
- 13th Gen Intel Core i7 13700HX занимает первое место с самым высоким рейтингом — 79.0, что указывает на его превосходные характеристики и популярность среди пользователей.
- Второе место разделяют 13th Gen Intel Core i9 13900HX и 7th Gen AMD Ryzen 7 7735U, оба с рейтингом 75.0.
- Далее идут процессоры: 6th Gen AMD Ryzen 9 6900HS (рейтинг 74.5) и 12th Gen Intel Core i7 12700H (рейтинг 73.5), показывающие высокие показатели.
- Остальные процессоры имеют рейтинги в диапазоне от 71.8 до 79.0, демонстрируя небольшие различия в производительности.
График показывает, что цена ноутбука растет с увеличением объема оперативной памяти (RAM).
- Наиболее дорогие модели оснащены 64 ГБ LPDDR5X RAM, достигая цен около 5000 долларов.
- Устройства с минимальным объемом RAM (2 ГБ DDR3) стоят значительно меньше — примерно 100 долларов.
Это демонстрирует прямую корреляцию между объемом RAM и ценой: чем больше оперативной памяти, тем выше стоимость ноутбука.
Здесь наблюдается схожая тенденция, как и в случае с оперативной памятью (RAM): чем больше объем SSD-накопителя, тем выше цена ноутбука.
Это подтверждает, что емкость хранения данных также является важным фактором, влияющим на стоимость устройства.
График показывает, что наиболее популярные размеры экранов ноутбуков находятся в диапазоне 14–16 дюймов.
Меньшие экраны (меньше 13 дюймов) и большие экраны (больше 17 дюймов) встречаются значительно реже.
Это указывает на то, что потребители предпочитают ноутбуки среднего размера, обеспечивающие баланс между портативностью и удобством использования — для офиса, учёбы и развлечений.
Разрешения Full HD и HD сосредоточены в более низком ценовом диапазоне (до 1000–2000 долларов), тогда как 2K/QHD, 3K+, и особенно 4K имеют значительно более высокие цены (до 6000–7000 долларов). График также показывает, что 4K-дисплеи имеют широкий диапазон цен, что указывает на наличие как доступных решений, так и премиальных моделей.
Это подчёркивает, что высокое разрешение экрана является значительным фактором, влияющим на стоимость ноутбука.
График показывает распределение цен ноутбуков с 15 самыми популярными видеокартами.
На графике видно, что медианная цена ноутбуков увеличивается с ростом гарантийного срока. Это демонстрирует, что более длительная гарантия чаще предоставляется на дорогие и премиальные модели, в то время как бюджетные устройства обычно сопровождаются 1-летней гарантией.
1 год остаётся самой популярной опцией, охватывающей основную часть моделей — это говорит о массовом сегменте, где производители ограничивают обязательства, сохраняя при этом минимальные стандарты. Напротив, устройства с 2–3 годами гарантии чаще относятся к высшему ценовому диапазону, отражая уверенность брендов в качестве сборки и долговечности своих устройств.
Тепловая диаграмма корреляций показывает, что цена ноутбука (Price) имеет сильную положительную корреляцию с объемом оперативной памяти (Ram_int, коэффициент 0.78) и размером SSD (SSD_int, коэффициент 0.68). Это подтверждает, что технические характеристики являются основными драйверами цены.
Также можно отметить умеренную корреляцию между RAM и SSD (коэффициент 0.66), что логично: более мощные ноутбуки, как правило, комплектуются одновременно большим объемом оперативной памяти и емкими накопителями.
Гарантийный срок (Warranty_int), размер экрана (Screen_Size) и рейтинг (Rating) демонстрируют слабую или почти нулевую корреляцию с ценой, что указывает на их меньшую значимость при формировании стоимости устройства.
H0: Тип видеокарты не влияет на цену ноутбука
H1: Ноутбуки с дискретной графикой имеют более высокую цену, чем с интегрированной
- Violin-график показывает, что ноутбуки с
dedicatedGPU стоят дороже, чем сintegrated. - Распределение цен также подтверждает, что
dedicatedвидеокарты характерны для более дорогих устройств.
for gpu_type in df['GPU_type'].unique():
stat, p = stats.shapiro(df[df['GPU_type'] == gpu_type]['Price'])
print(f'{gpu_type} - p-value:', p)- dedicated - p-value: 2.51e-24
- integrated - p-value: 1.28e-23
Распределения не нормальны, применим непараметрический тест Манна–Уитни.
price_integrated = df[df['GPU_type'] == 'integrated']['Price']
price_dedicated = df[df['GPU_type'] == 'dedicated']['Price']
stat, p = stats.mannwhitneyu(price_integrated, price_dedicated, alternative='two-sided')
print('p-value:', p)p-value: 6.12e-33
Тип видеокарты влияет на цену ноутбука: ноутбуки с дискретной графикой стоят статистически значимо дороже, чем с интегрированной.
Гипотеза 2: Отличаются ли цены ноутбуков с процессорами 13th Gen Intel Core i7 13700H и 7th Gen AMD Ryzen 7 7840HS?
H0: Цена ноутбуков с процессорами 13th Gen Intel Core i7 13700H и 7th Gen AMD Ryzen 7 7840HS одинакова.
H1: Цена ноутбуков с данными процессорами различается.
Медианные цены для 13th Gen Intel Core i7 13700H и 7th Gen AMD Ryzen 7 7840HS находятся практически в одном диапазоне, что указывает на их схожесть по основным ценовым показателям.
Однако распределения цен различаются по форме:
- У AMD Ryzen 7 7840HS распределение цен более компактное и симметричное, без значительных выбросов, что говорит о стабильных ценах в узком диапазоне.
- У Intel Core i7 13700H распределение цен шире, что указывает на наличие группы дорогих моделей, увеличивающих размах цен.
intel_cpu = df[df['CPU'] == '13th Gen Intel Core i7 13700H']
amd_cpu = df[df['CPU'] == '7th Gen AMD Ryzen 7 7840HS']
stat_i, p_i = stats.shapiro(intel_cpu['Price'])
print(f'Intel (I7 13700H) - p-value: {p_i:.5f}')
stat_a, p_a = stats.shapiro(amd_cpu['Price'])
print(f'AMD (Ryzen 7 7840HS) - p-value: {p_a:.5f}')- Intel (I7 13700H) - p-value: 0.00100
- AMD (Ryzen 7 7840HS) - p_value: 0.09712
Распределение группы Intel не является нормальным, AMD -нормальное распределение. Все равно будем использовать тест Манна-Уитни.
stat, p = stats.mannwhitneyu(intel_cpu['Price'],amd_cpu['Price'],alternative='two-sided')
print('Mann–Whitney U-test:')
print('p_value:',p)p_value: 0.7738492609341964
Статистически значимых различий в цене нету, цена ноутбуков с процессорами 13th Gen Intel Core i7 13700H и 7th Gen AMD Ryzen 7 7840HS одинакова.
H0: Средняя цена одинакова при любом разрешении.
H1: Цена различается в зависиомсти от разрешения.
График приведен в разделе "Зависимость цены от разрешения экрана".
for res in df['Resolution'].unique():
stat, p = stats.shapiro(df[df['Resolution']==res]['Price'])
print(f'{res} - p_value:',p)- Full HD - p_value: 1.241951369008703e-24
- 2K/QHD - p_value: 3.842917700005414e-06
- 3K+ - p_value: 6.087816217788531e-06
- HD - p_value: 3.512085007825684e-07
- 4K - p_value: 0.9569673045099901
Распределения данных не соответствуют нормальному закону, поэтому применение ANOVA некорректно. Вместо этого будем использовать непараметрический тест Крускала–Уоллиса для проверки статистических различий между группами.
groups = []
for res in df['Resolution'].unique():
group_prices = df[df['Resolution'] == res]['Price']
groups.append(group_prices)
stat, p = stats.kruskal(*groups)
print(f'Kruskal-Wallis test: statistic={stat:.4f}, p-value={p:.5f}')p_value: 0.00000
Статистически значимые различия в цене в зависимости от разрешения экрана имеются.
H0: Различий нету, цена одинакова.
H1: Более высокорейтинговые ноутбуки стоят иначе.
stat_h,p_h = stats.shapiro(high_rating['Price'])
stat_l,p_l = stats.shapiro(low_rating['Price'])
print(f'high_rating - p_value:{p_h:.5f}')
print(f'low_rating - p_value:{p_l:.5f}')- high_rating - p_value:0.00015
- low_rating - p_value:0.00000
Распределения группы не являются нормальным. Будем использовать тест Манна-Уитни.
stat,p = stats.mannwhitneyu(high_rating['Price'],low_rating['Price'],alternative='two-sided')
print('Mann–Whitney U-test:')
print(f'p-value:',p)p-value: 5.411303842312321e-33
Статистически значимых различий в цене имеются, отвергаем H0.
Гипотеза 5: Стоят ли ноутбуки с видеокартами NVIDIA дороже, чем ноутбуки с видеокартами Intel или AMD?
H0: Все типы GPU стоят одинаково.
H1: NVIDIA модели дороже.
for br in df_gpu['GPU_brand'].unique():
stat, p = stats.shapiro(df_gpu[df_gpu['GPU_brand']==br]['Price'])
print(f'{br} - p_value:{p:.6f}')- AMD - p_value:0.000003
- Intel - p_value:0.000000
- Nvidia - p_value:0.000000
Распределения данных не соответствуют нормальному закону, поэтому применение ANOVA некорректно. Вместо этого будем использовать непараметрический тест Крускала–Уоллиса для проверки статистических различий между группами.
groups = []
for br in df_gpu['GPU_brand'].unique():
gpus = df_gpu[df_gpu['GPU_brand']==br]['Price']
groups.append(gpus)
stat,p = stats.kruskal(*groups)
print(f'Kruskal-Wallis test: statistic={stat:.4f},p_value={p:.5f}')p_value: 0.00000
Статистически значимые различия в цене в зависимости бренда GPU имеются, чипы от Nvidia в среднем стоят дороже. Для наглядности ниже представлены графики с распределением ноутбуков по бренду видеокарты и распределением цен по брендам процессоров.

















