jswad/lab3/main.py

import pandas as pd
import numpy as np
import random

input_data = pd.read_csv('Automobile_data.csv', sep=',')

print("---First task---")
print("First 5 rows:")
print(input_data.head(5))
print("Last 5 rows:")
print(input_data.tail(5))

print("---Second task---")
input_data.replace("?", np.NaN, inplace=True)
input_data.replace("N.a", np.NaN, inplace=True)

numeric_cols = input_data.select_dtypes(include=['number']).columns
input_data[numeric_cols] = input_data[numeric_cols].fillna(input_data[numeric_cols].median())

non_numeric_cols = input_data.select_dtypes(exclude=['number']).columns
input_data[non_numeric_cols] = input_data[non_numeric_cols].fillna(input_data[non_numeric_cols].mode())

input_data.to_csv("Automobile_Data_Cleaned.csv", sep=",", index=False)

print("---Third task---")

most_expensive_company = input_data.loc[input_data['price'].idxmax(), 'company']
print(f"Most expensive company: {most_expensive_company}")
most_expensive_cars = input_data[input_data['price'] == input_data['price'].max()]
print("\nThe most expensive cars are:")
print(most_expensive_cars[['company', 'price']])

print("---Fourth task---")
toyota_cars = input_data[input_data["company"] == "toyota"]
print(toyota_cars)

print("---Fifth task---")
count_group_by_company = input_data.groupby(["company"])["index"].count()
print(count_group_by_company)

print("---Sixth task---")
group_by_company = input_data.groupby("company")["price"].idxmax()
group_by_company_df = input_data.loc[group_by_company]
print(group_by_company_df)

print("---Seventh task---")
group_by_company = input_data.groupby("company")["average-mileage"].mean()
group_by_company_df = group_by_company.reset_index()
print(group_by_company_df)

print("---Eigth task---")

sorted_by_price = input_data.sort_values(by="price", ascending=True)
print(sorted_by_price)

print("---Ninth task---")
GermanCars = {'Company': ['Ford', 'Mercedes', 'BMV', 'Audi'], 'Price': [23845, 171995, 135925, 71400]}
japaneseCars = {'Company': ['Toyota', 'Honda', 'Nissan', 'Mitsubishi '], 'Price': [29995, 23600, 61500, 58900]}

german_cars_df = pd.DataFrame(GermanCars)
japanese_cars_df = pd.DataFrame(japaneseCars)

print(german_cars_df)
print(japanese_cars_df)

print("---Tenth task---")

Car_Price = {'Company': ['Toyota', 'Honda', 'BMV', 'Audi'], 'Price': [23845, 17995, 135925, 71400]}
car_Horsepower = {'Company': ['Toyota', 'Honda', 'BMV', 'Audi'], 'horsepower': [141, 80, 182, 160]}

car_price_df = pd.DataFrame(Car_Price)
car_horsepower_df = pd.DataFrame(car_Horsepower)

merged_df = pd.merge(car_price_df, car_horsepower_df, how="inner", on="Company")

print(merged_df)

print("---===Second dataset===---")

second_dataset = pd.read_csv("world_alcohol.csv", sep=",")

print("---Eleventh task---")
print(second_dataset.sample(n=random.randint(1, 10)))

print("---Twelfth task---")

group_by_region = second_dataset.groupby(["WHO region", "Year"])
for region, year in group_by_region.groups:
    if year == 1989:
        print(group_by_region.get_group((region, year)))

print("--Thirteenth task---")

america_1985_data = second_dataset[(second_dataset["WHO region"] == "Americas") & (second_dataset["Year"] == 1985)]
print(america_1985_data)

print("---Fourteenth task---")

data_14 = second_dataset[(second_dataset["Display Value"] >= 5) & (second_dataset["Beverage Types"] == "Beer")]
print(data_14)

print("---Fifteenth task---")
data_wine = second_dataset[(second_dataset["Display Value"] >= 2) & (second_dataset["Beverage Types"] == "Wine")]
print(data_wine)
Lab3 10 months ago			`import pandas as pd`
			`import numpy as np`
			`import random`

			`input_data = pd.read_csv('Automobile_data.csv', sep=',')`

			`print("---First task---")`
			`print("First 5 rows:")`
			`print(input_data.head(5))`
			`print("Last 5 rows:")`
			`print(input_data.tail(5))`

			`print("---Second task---")`
			`input_data.replace("?", np.NaN, inplace=True)`
			`input_data.replace("N.a", np.NaN, inplace=True)`

			`numeric_cols = input_data.select_dtypes(include=['number']).columns`
			`input_data[numeric_cols] = input_data[numeric_cols].fillna(input_data[numeric_cols].median())`

			`non_numeric_cols = input_data.select_dtypes(exclude=['number']).columns`
			`input_data[non_numeric_cols] = input_data[non_numeric_cols].fillna(input_data[non_numeric_cols].mode())`

			`input_data.to_csv("Automobile_Data_Cleaned.csv", sep=",", index=False)`

			`print("---Third task---")`

			`most_expensive_company = input_data.loc[input_data['price'].idxmax(), 'company']`
			`print(f"Most expensive company: {most_expensive_company}")`
			`most_expensive_cars = input_data[input_data['price'] == input_data['price'].max()]`
			`print("\nThe most expensive cars are:")`
			`print(most_expensive_cars[['company', 'price']])`

			`print("---Fourth task---")`
			`toyota_cars = input_data[input_data["company"] == "toyota"]`
			`print(toyota_cars)`

			`print("---Fifth task---")`
			`count_group_by_company = input_data.groupby(["company"])["index"].count()`
			`print(count_group_by_company)`

			`print("---Sixth task---")`
			`group_by_company = input_data.groupby("company")["price"].idxmax()`
			`group_by_company_df = input_data.loc[group_by_company]`
			`print(group_by_company_df)`

			`print("---Seventh task---")`
			`group_by_company = input_data.groupby("company")["average-mileage"].mean()`
			`group_by_company_df = group_by_company.reset_index()`
			`print(group_by_company_df)`

			`print("---Eigth task---")`

			`sorted_by_price = input_data.sort_values(by="price", ascending=True)`
			`print(sorted_by_price)`

			`print("---Ninth task---")`
			`GermanCars = {'Company': ['Ford', 'Mercedes', 'BMV', 'Audi'], 'Price': [23845, 171995, 135925, 71400]}`
			`japaneseCars = {'Company': ['Toyota', 'Honda', 'Nissan', 'Mitsubishi '], 'Price': [29995, 23600, 61500, 58900]}`

			`german_cars_df = pd.DataFrame(GermanCars)`
			`japanese_cars_df = pd.DataFrame(japaneseCars)`

			`print(german_cars_df)`
			`print(japanese_cars_df)`

			`print("---Tenth task---")`

			`Car_Price = {'Company': ['Toyota', 'Honda', 'BMV', 'Audi'], 'Price': [23845, 17995, 135925, 71400]}`
			`car_Horsepower = {'Company': ['Toyota', 'Honda', 'BMV', 'Audi'], 'horsepower': [141, 80, 182, 160]}`

			`car_price_df = pd.DataFrame(Car_Price)`
			`car_horsepower_df = pd.DataFrame(car_Horsepower)`

			`merged_df = pd.merge(car_price_df, car_horsepower_df, how="inner", on="Company")`

			`print(merged_df)`

			`print("---===Second dataset===---")`

			`second_dataset = pd.read_csv("world_alcohol.csv", sep=",")`

			`print("---Eleventh task---")`
			`print(second_dataset.sample(n=random.randint(1, 10)))`

			`print("---Twelfth task---")`

			`group_by_region = second_dataset.groupby(["WHO region", "Year"])`
			`for region, year in group_by_region.groups:`
			`if year == 1989:`
			`print(group_by_region.get_group((region, year)))`

			`print("--Thirteenth task---")`

			`america_1985_data = second_dataset[(second_dataset["WHO region"] == "Americas") & (second_dataset["Year"] == 1985)]`
			`print(america_1985_data)`

			`print("---Fourteenth task---")`

			`data_14 = second_dataset[(second_dataset["Display Value"] >= 5) & (second_dataset["Beverage Types"] == "Beer")]`
			`print(data_14)`

			`print("---Fifteenth task---")`
			`data_wine = second_dataset[(second_dataset["Display Value"] >= 2) & (second_dataset["Beverage Types"] == "Wine")]`
			`print(data_wine)`