Feb 4, 2018 · Jan 31, 2018 · Feb 4, 2018
diff --git a/advanced/accumulator/StackOverFlowSurvey.py b/advanced/accumulator/StackOverFlowSurvey.py
 from pyspark import SparkContext
 import sys
 sys.path.insert(0, '.')
 from pyspark import SparkContext, SparkConf
 from commons.Utils import Utils

 def filterResponseFromCanada(response, total, missingSalaryMidPoint):
    splits = Utils.COMMA_DELIMITER.split(response)
    total.add(1)
    if not splits[14]:
        missingSalaryMidPoint.add(1)
    return splits[2] == "Canada"

 if __name__ == "__main__":
    sc = SparkContext("local", "StackOverFlowSurvey")
    sc.setLogLevel("ERROR")

    conf = SparkConf().setAppName('StackOverFlowSurvey').setMaster("local[*]")
    sc = SparkContext(conf = conf)
    total = sc.accumulator(0)
    missingSalaryMidPoint = sc.accumulator(0)

    responseRDD = sc.textFile("in/2016-stack-overflow-survey-responses.csv")

    responseFromCanada = responseRDD.filter(lambda response: \
        filterResponseFromCanada(response, total, missingSalaryMidPoint))
    def filterResponseFromCanada(response):
        splits = Utils.COMMA_DELIMITER.split(response)
        total.add(1)
        if not splits[14]:
            missingSalaryMidPoint.add(1)
        return splits[2] == "Canada"

    responseFromCanada = responseRDD.filter(filterResponseFromCanada)
    print("Count of responses from Canada: {}".format(responseFromCanada.count()))
    print("Total count of responses: {}".format(total.value))
    print("Count of responses missing salary middle point: {}".format(missingSalaryMidPoint.value))
    print("Count of responses missing salary middle point: {}" \
        .format(missingSalaryMidPoint.value))
diff --git a/advanced/accumulator/StackOverFlowSurveyFollowUp.py b/advanced/accumulator/StackOverFlowSurveyFollowUp.py
 from pyspark import SparkContext
 import sys
 sys.path.insert(0, '.')
 from pyspark import SparkContext, SparkConf
 from commons.Utils import Utils

 def filterResponseFromCanada(response, total, missingSalaryMidPoint, processedBytes):
    processedBytes.add(len(response.encode('utf-8')))
    splits = Utils.COMMA_DELIMITER.split(response)
    total.add(1)
    if not splits[14]:
        missingSalaryMidPoint.add(1)
    return splits[2] == "Canada"

 if __name__ == "__main__":
 sc =SparkContext("local", "StackOverFlowSurvey")
    sc.setLogLevel("ERROR")
 conf =SparkConf().setAppName('StackOverFlowSurvey').setMaster("local[*]")
    sc = SparkContext(conf = conf)

    total = sc.accumulator(0)
    missingSalaryMidPoint = sc.accumulator(0)
    processedBytes = sc.accumulator(0)

    responseRDD = sc.textFile("in/2016-stack-overflow-survey-responses.csv")

    responseFromCanada = responseRDD.filter(lambda response: \
        filterResponseFromCanada(response, total, missingSalaryMidPoint, processedBytes))
    def filterResponseFromCanada(response):
        processedBytes.add(len(response.encode('utf-8')))
        splits = Utils.COMMA_DELIMITER.split(response)
        total.add(1)
        if not splits[14]:
            missingSalaryMidPoint.add(1)
        return splits[2] == "Canada"
    responseFromCanada = responseRDD.filter(filterResponseFromCanada)

    print("Count of responses from Canada: {}".format(responseFromCanada.count()))
    print("Number of bytes processed: {}".format(processedBytes.value))
diff --git a/advanced/broadcast/UkMakerSpaces.py b/advanced/broadcast/UkMakerSpaces.py
 from pyspark import SparkContext
 import sys
 sys.path.insert(0, '.')
 from pyspark import SparkContext, SparkConf
 from commons.Utils import Utils

 def getPostPrefix(line: str):
    splits = Utils.COMMA_DELIMITER.split(line)
    postcode = splits[4]
    return None if not postcode else postcode.split(" ")[0]

 def loadPostCodeMap():
    lines = open("in/uk-postcode.csv", "r").read().split("\n")
    splitsForLines = [Utils.COMMA_DELIMITER.split(line) for line in lines if line != ""]
    return {splits[0]: splits[7] for splits in splitsForLines}

 def getPostPrefix(line: str):
    splits = Utils.COMMA_DELIMITER.split(line)
    postcode = splits[4]
    return None if not postcode else postcode.split(" ")[0]

 if __name__ == "__main__":
 sc =SparkContext("local", "UkMakerSpaces")
    sc.setLogLevel("ERROR")
 conf =SparkConf().setAppName('UkMakerSpaces').setMaster("local[*]")
    sc = SparkContext(conf = conf)

    postCodeMap = sc.broadcast(loadPostCodeMap())

diff --git a/advanced/broadcast/UkMakerSpacesWithoutBroadcast.py b/advanced/broadcast/UkMakerSpacesWithoutBroadcast.py
 from pyspark import SparkContext
 import sys
 sys.path.insert(0, '.')
 from pyspark import SparkContext, SparkConf
 from commons.Utils import Utils

 def getPostPrefixes(line: str):
    postcode = Utils.COMMA_DELIMITER.split(line)[4]
    cleanedPostCode = postcode.replace("\\s+", "")
    return [cleanedPostCode[0:i] for i in range(0,len(cleanedPostCode)+1)]

 def loadPostCodeMap():
    lines = open("in/uk-postcode.csv", "r").read().split("\n")
    splitsForLines = [Utils.COMMA_DELIMITER.split(line) for line in lines if line != ""]
    return {splits[0]: splits[7] for splits in splitsForLines}

 def getPostPrefix(line: str):
    splits = Utils.COMMA_DELIMITER.split(line)
    postcode = splits[4]
    return None if not postcode else postcode.split(" ")[0]

 if __name__ == "__main__":
 sc =SparkContext("local", "UkMakerSpaces")
    sc.setLogLevel("ERROR")
 conf =SparkConf().setAppName('UkMakerSpaces').setMaster("local[*]")
    sc = SparkContext(conf = conf)
    postCodeMap = loadPostCodeMap()
    makerSpaceRdd = sc.textFile("in/uk-makerspaces-identifiable-data.csv")

    regions = makerSpaceRdd \
      .filter(lambda line: Utils.COMMA_DELIMITER.split(line)[0] != "Timestamp") \
      .map(lambda line:next((postCodeMap[prefix] for prefix in getPostPrefixes(line) \
      ifprefix in postCodeMap),"Unknow"))
      .map(lambda line: postCodeMap[getPostPrefix(line)] \
 ifgetPostPrefix(line) in postCodeMap else"Unknow")

    for region, count in regions.countByValue().items():
        print("{} : {}".format(region, count))
diff --git a/pairRdd/aggregation/combinebykey/AverageHousePriceSolution.py b/pairRdd/aggregation/combinebykey/AverageHousePriceSolution.py
 from pyspark import SparkContext
 from pyspark import SparkContext, SparkConf

 if __name__ == "__main__":

    sc = SparkContext("local", "AverageHousePrice")
    sc.setLogLevel("ERROR")
    conf = SparkConf().setAppName("AverageHousePrice").setMaster("local")
    sc = SparkContext(conf = conf)

    lines = sc.textFile("in/RealEstate.csv")
    cleanedLines = lines.filter(lambda line: "Bedrooms" not in line)
diff --git a/pairRdd/aggregation/reducebykey/housePrice/AverageHousePriceSolution.py b/pairRdd/aggregation/reducebykey/housePrice/AverageHousePriceSolution.py
 from pyspark import SparkContext
 import sys
 sys.path.insert(0, '.')
 from pyspark import SparkContext, SparkConf
 from pairRdd.aggregation.reducebykey.housePrice.AvgCount import AvgCount

 if __name__ == "__main__":

    sc = SparkContext("local", "avgHousePrice")
    sc.setLogLevel("ERROR")
    conf = SparkConf().setAppName("avgHousePrice").setMaster("local[3]")
    sc = SparkContext(conf = conf)

    lines = sc.textFile("in/RealEstate.csv")
    cleanedLines = lines.filter(lambda line: "Bedrooms" not in line)

    housePricePairRdd = cleanedLines.map(lambda line: \
        (line.split(",")[3], (1, float(line.split(",")[2]))))
        (line.split(",")[3],AvgCount(1, float(line.split(",")[2]))))

    housePriceTotal = housePricePairRdd \
        .reduceByKey(lambda x, y:(x[0] + y[0], x[1] + y[1]))
        .reduceByKey(lambda x, y:AvgCount(x.count + y.count, x.total + y.total))

    print("housePriceTotal: ")
    for bedroom,total in housePriceTotal.collect():
        print("{} :{}".format(bedroom, total))
    for bedroom,avgCount in housePriceTotal.collect():
        print("{} :({}, {})".format(bedroom,avgCount.count, avgCount.total))

    housePriceAvg = housePriceTotal.mapValues(lambda avgCount: avgCount[1] / avgCount[0])
    housePriceAvg = housePriceTotal.mapValues(lambda avgCount: avgCount.total / avgCount.count)
    print("\nhousePriceAvg: ")
    for bedroom, avg in housePriceAvg.collect():
        print("{} : {}".format(bedroom, avg))
diff --git a/pairRdd/filter/AirportsNotInUsaSolution.py b/pairRdd/filter/AirportsNotInUsaSolution.py
 from pyspark import SparkContext
 import sys
 sys.path.insert(0, '.')
 from pyspark import SparkContext, SparkConf
 from commons.Utils import Utils

 if __name__ == "__main__":

 sc =SparkContext("local", "airports")
    sc.setLogLevel("ERROR")
 conf =SparkConf().setAppName("airports").setMaster("local[*]")
    sc = SparkContext(conf = conf)

    airportsRDD = sc.textFile("in/airports.text")

diff --git a/pairRdd/groupbykey/AirportsByCountrySolution.py b/pairRdd/groupbykey/AirportsByCountrySolution.py
 from pyspark import SparkContext
 import sys
 sys.path.insert(0, '.')
 from pyspark import SparkContext, SparkConf
 from commons.Utils import Utils

 if __name__ == "__main__":

 sc =SparkContext("local", "airports")
    sc.setLogLevel("ERROR")
 conf =SparkConf().setAppName("airports").setMaster("local[*]")
    sc = SparkContext(conf = conf)

    lines = sc.textFile("in/airports.text")

    airportsByCountry = countryAndAirportNameAndPair.groupByKey()

    for country, airportName in airportsByCountry.collectAsMap().items():
        print("{}: {}".format(country,list(airportName)))
        print("{}: {}".format(country,list(airportName)))
diff --git a/pairRdd/mapValues/AirportsUppercaseSolution.py b/pairRdd/mapValues/AirportsUppercaseSolution.py
 from pyspark import SparkContext
 import sys
 sys.path.insert(0, '.')
 from pyspark import SparkContext, SparkConf
 from commons.Utils import Utils

 if __name__ == "__main__":

    sc = SparkContext("local", "airports")
    sc.setLogLevel("ERROR")
    conf = SparkConf().setAppName("airports").setMaster("local[*]")
    sc = SparkContext(conf = conf)

    airportsRDD = sc.textFile("in/airports.text")

diff --git a/pairRdd/sort/AverageHousePriceSolution.py b/pairRdd/sort/AverageHousePriceSolution.py
 import sys
 sys.path.insert(0, '.')
 from pairRdd.aggregation.reducebykey.housePrice.AvgCount import AvgCount
 from pyspark import SparkContext

 from pyspark import SparkContext, SparkConf

 if __name__ == "__main__":

    sc = SparkContext("local", "averageHousePriceSolution")
    sc.setLogLevel("ERROR")
    conf = SparkConf().setAppName("averageHousePriceSolution").setMaster("local[*]")
    sc = SparkContext(conf = conf)

    lines = sc.textFile("in/RealEstate.csv")
    cleanedLines = lines.filter(lambda line: "Bedrooms" not in line)
diff --git a/rdd/airports/AirportsByLatitudeSolution.py b/rdd/airports/AirportsByLatitudeSolution.py
 from pyspark import SparkContext
 import sys
 sys.path.insert(0, '.')
 from pyspark import SparkContext, SparkConf
 from commons.Utils import Utils

 def splitComma(line: str):
    splits = Utils.COMMA_DELIMITER.split(line)
    return "{}, {}".format(splits[1], splits[6])

 if __name__ == "__main__":
    sc = SparkContext("local", "airports")
    conf = SparkConf().setAppName("airports").setMaster("local[*]")
    sc = SparkContext(conf = conf)

    airports = sc.textFile("in/airports.text")

diff --git a/rdd/airports/AirportsInUsaSolution.py b/rdd/airports/AirportsInUsaSolution.py
 from pyspark import SparkContext
 import sys
 sys.path.insert(0, '.')
 from pyspark import SparkContext, SparkConf
 from commons.Utils import Utils

 def splitComma(line: str):
    splits = Utils.COMMA_DELIMITER.split(line)
    return "{}, {}".format(splits[1], splits[2])

 if __name__ == "__main__":
    sc = SparkContext("local", "airports")
    conf = SparkConf().setAppName("airports").setMaster("local[*]")
    sc = SparkContext(conf = conf)

    airports = sc.textFile("in/airports.text")
    airportsInUSA = airports.filter(lambda line : Utils.COMMA_DELIMITER.split(line)[3] == "\"United States\"")
diff --git a/rdd/count/CountExample.py b/rdd/count/CountExample.py
 if __name__ == "__main__":
    conf = SparkConf().setAppName("count").setMaster("local[*]")
    sc = SparkContext(conf = conf)

    inputWords = ["spark", "hadoop", "spark", "hive", "pig", "cassandra", "hadoop"]

    wordRdd = sc.parallelize(inputWords)
    print("Count: {}".format(wordRdd.count()))

    worldCountByValue = wordRdd.countByValue()
    print("CountByValue: ")
    for word, count in worldCountByValue.items():
diff --git a/sparkSql/HousePriceProblem.py b/sparkSql/HousePriceProblem.py
    Create a Spark program to read the house data from in/RealEstate.csv,
    group by location, aggregate the average price per SQ Ft and sort by average price per SQ Ft.

    The houses dataset contains a collection of recent real estate listings in San Luis Obispo county and
    around it. 
    The houses dataset contains a collection of recent real estate listings in 
 San Luis Obispo county andaround it. 

    The dataset contains the following fields:
    1. MLS: Multiple listing service number for the house (unique ID).
    2. Location: city/town where the house is located. Most locations are in San Luis Obispo county and
    northern Santa Barbara county (Santa MariaOrcutt, Lompoc, Guadelupe, Los Alamos), but there
    some out of area locations as well.
    2. Location: city/town where the house is located. Most locations are in 
    San Luis Obispo county andnorthern Santa Barbara county (Santa MariaOrcutt, Lompoc, 
    Guadelupe, Los Alamos), but theresome out of area locations as well.
    3. Price: the most recent listing price of the house (in dollars).
    4. Bedrooms: number of bedrooms.
    5. Bathrooms: number of bathrooms.
    6. Size: size of the house in square feet.
    7. Price/SQ.ft: price of the house per square foot.
    8. Status: type of sale. Thee types are represented in the dataset: Short Sale, Foreclosure and Regular.
    8. Status: type of sale. Thee types are represented in the dataset: Short Sale, 
        Foreclosure and Regular.

    Each field is comma separated.

diff --git a/sparkSql/HousePriceSolution.py b/sparkSql/HousePriceSolution.py

 if __name__ == "__main__":

    session = SparkSession.builder.appName("HousePriceSolution").master("local").getOrCreate()
 session.sparkContext.setLogLevel("ERROR")
    session = SparkSession.builder.appName("HousePriceSolution").master("local[*]").getOrCreate()

    realEstate = session.read \
        .option("header","true") \
        .option("inferSchema", value=True) \
Original file line number	Diff line number	Diff line change
		@@ -1,25 +1,24 @@
		from pyspark import SparkContext
		import sys
		sys.path.insert(0, '.')
		from pyspark import SparkContext, SparkConf
		from commons.Utils import Utils

		def filterResponseFromCanada(response, total, missingSalaryMidPoint):
		splits = Utils.COMMA_DELIMITER.split(response)
		total.add(1)
		if not splits[14]:
		missingSalaryMidPoint.add(1)
		return splits[2] == "Canada"

		if __name__ == "__main__":
		sc = SparkContext("local", "StackOverFlowSurvey")
		sc.setLogLevel("ERROR")

		conf = SparkConf().setAppName('StackOverFlowSurvey').setMaster("local[*]")
		sc = SparkContext(conf = conf)
		total = sc.accumulator(0)
		missingSalaryMidPoint = sc.accumulator(0)

		responseRDD = sc.textFile("in/2016-stack-overflow-survey-responses.csv")

		responseFromCanada = responseRDD.filter(lambda response: \
		filterResponseFromCanada(response, total, missingSalaryMidPoint))
		def filterResponseFromCanada(response):
		splits = Utils.COMMA_DELIMITER.split(response)
		total.add(1)
		if not splits[14]:
		missingSalaryMidPoint.add(1)
		return splits[2] == "Canada"

		responseFromCanada = responseRDD.filter(filterResponseFromCanada)
		print("Count of responses from Canada: {}".format(responseFromCanada.count()))
		print("Total count of responses: {}".format(total.value))
		print("Count of responses missing salary middle point: {}".format(missingSalaryMidPoint.value))
		print("Count of responses missing salary middle point: {}" \
		.format(missingSalaryMidPoint.value))
Original file line number	Diff line number	Diff line change
		@@ -1,26 +1,25 @@
		from pyspark import SparkContext
		import sys
		sys.path.insert(0, '.')
		from pyspark import SparkContext, SparkConf
		from commons.Utils import Utils

		def filterResponseFromCanada(response, total, missingSalaryMidPoint, processedBytes):
		processedBytes.add(len(response.encode('utf-8')))
		splits = Utils.COMMA_DELIMITER.split(response)
		total.add(1)
		if not splits[14]:
		missingSalaryMidPoint.add(1)
		return splits[2] == "Canada"

		if __name__ == "__main__":
		sc =SparkContext("local", "StackOverFlowSurvey")
		sc.setLogLevel("ERROR")
		conf =SparkConf().setAppName('StackOverFlowSurvey').setMaster("local[*]")
		sc = SparkContext(conf = conf)

		total = sc.accumulator(0)
		missingSalaryMidPoint = sc.accumulator(0)
		processedBytes = sc.accumulator(0)

		responseRDD = sc.textFile("in/2016-stack-overflow-survey-responses.csv")

		responseFromCanada = responseRDD.filter(lambda response: \
		filterResponseFromCanada(response, total, missingSalaryMidPoint, processedBytes))
		def filterResponseFromCanada(response):
		processedBytes.add(len(response.encode('utf-8')))
		splits = Utils.COMMA_DELIMITER.split(response)
		total.add(1)
		if not splits[14]:
		missingSalaryMidPoint.add(1)
		return splits[2] == "Canada"
		responseFromCanada = responseRDD.filter(filterResponseFromCanada)

		print("Count of responses from Canada: {}".format(responseFromCanada.count()))
		print("Number of bytes processed: {}".format(processedBytes.value))
Expand Down
Original file line number	Diff line number	Diff line change
		@@ -1,19 +1,21 @@
		from pyspark import SparkContext
		import sys
		sys.path.insert(0, '.')
		from pyspark import SparkContext, SparkConf
		from commons.Utils import Utils

		def getPostPrefix(line: str):
		splits = Utils.COMMA_DELIMITER.split(line)
		postcode = splits[4]
		return None if not postcode else postcode.split(" ")[0]

		def loadPostCodeMap():
		lines = open("in/uk-postcode.csv", "r").read().split("\n")
		splitsForLines = [Utils.COMMA_DELIMITER.split(line) for line in lines if line != ""]
		return {splits[0]: splits[7] for splits in splitsForLines}

		def getPostPrefix(line: str):
		splits = Utils.COMMA_DELIMITER.split(line)
		postcode = splits[4]
		return None if not postcode else postcode.split(" ")[0]

		if __name__ == "__main__":
		sc =SparkContext("local", "UkMakerSpaces")
		sc.setLogLevel("ERROR")
		conf =SparkConf().setAppName('UkMakerSpaces').setMaster("local[*]")
		sc = SparkContext(conf = conf)

		postCodeMap = sc.broadcast(loadPostCodeMap())

Expand Down
Original file line number	Diff line number	Diff line change
		@@ -1,26 +1,28 @@
		from pyspark import SparkContext
		import sys
		sys.path.insert(0, '.')
		from pyspark import SparkContext, SparkConf
		from commons.Utils import Utils

		def getPostPrefixes(line: str):
		postcode = Utils.COMMA_DELIMITER.split(line)[4]
		cleanedPostCode = postcode.replace("\\s+", "")
		return [cleanedPostCode[0:i] for i in range(0,len(cleanedPostCode)+1)]

		def loadPostCodeMap():
		lines = open("in/uk-postcode.csv", "r").read().split("\n")
		splitsForLines = [Utils.COMMA_DELIMITER.split(line) for line in lines if line != ""]
		return {splits[0]: splits[7] for splits in splitsForLines}

		def getPostPrefix(line: str):
		splits = Utils.COMMA_DELIMITER.split(line)
		postcode = splits[4]
		return None if not postcode else postcode.split(" ")[0]

		if __name__ == "__main__":
		sc =SparkContext("local", "UkMakerSpaces")
		sc.setLogLevel("ERROR")
		conf =SparkConf().setAppName('UkMakerSpaces').setMaster("local[*]")
		sc = SparkContext(conf = conf)
		postCodeMap = loadPostCodeMap()
		makerSpaceRdd = sc.textFile("in/uk-makerspaces-identifiable-data.csv")

		regions = makerSpaceRdd \
		.filter(lambda line: Utils.COMMA_DELIMITER.split(line)[0] != "Timestamp") \
		.map(lambda line:next((postCodeMap[prefix] for prefix in getPostPrefixes(line) \
		ifprefix in postCodeMap),"Unknow"))
		.map(lambda line: postCodeMap[getPostPrefix(line)] \
		ifgetPostPrefix(line) in postCodeMap else"Unknow")

		for region, count in regions.countByValue().items():
		print("{} : {}".format(region, count))
Original file line number	Diff line number	Diff line change
		@@ -1,9 +1,8 @@
		from pyspark import SparkContext
		from pyspark import SparkContext, SparkConf

		if __name__ == "__main__":

		sc = SparkContext("local", "AverageHousePrice")
		sc.setLogLevel("ERROR")
		conf = SparkConf().setAppName("AverageHousePrice").setMaster("local")
		sc = SparkContext(conf = conf)

		lines = sc.textFile("in/RealEstate.csv")
		cleanedLines = lines.filter(lambda line: "Bedrooms" not in line)
Expand Down
Original file line number	Diff line number	Diff line change
		@@ -1,24 +1,26 @@
		from pyspark import SparkContext
		import sys
		sys.path.insert(0, '.')
		from pyspark import SparkContext, SparkConf
		from pairRdd.aggregation.reducebykey.housePrice.AvgCount import AvgCount

		if __name__ == "__main__":

		sc = SparkContext("local", "avgHousePrice")
		sc.setLogLevel("ERROR")
		conf = SparkConf().setAppName("avgHousePrice").setMaster("local[3]")
		sc = SparkContext(conf = conf)

		lines = sc.textFile("in/RealEstate.csv")
		cleanedLines = lines.filter(lambda line: "Bedrooms" not in line)

		housePricePairRdd = cleanedLines.map(lambda line: \
		(line.split(",")[3], (1, float(line.split(",")[2]))))
		(line.split(",")[3],AvgCount(1, float(line.split(",")[2]))))

		housePriceTotal = housePricePairRdd \
		.reduceByKey(lambda x, y:(x[0] + y[0], x[1] + y[1]))
		.reduceByKey(lambda x, y:AvgCount(x.count + y.count, x.total + y.total))

		print("housePriceTotal: ")
		for bedroom,total in housePriceTotal.collect():
		print("{} :{}".format(bedroom, total))
		for bedroom,avgCount in housePriceTotal.collect():
		print("{} :({}, {})".format(bedroom,avgCount.count, avgCount.total))

		housePriceAvg = housePriceTotal.mapValues(lambda avgCount: avgCount[1] / avgCount[0])
		housePriceAvg = housePriceTotal.mapValues(lambda avgCount: avgCount.total / avgCount.count)
		print("\nhousePriceAvg: ")
		for bedroom, avg in housePriceAvg.collect():
		print("{} : {}".format(bedroom, avg))
Original file line number	Diff line number	Diff line change
		@@ -1,10 +1,12 @@
		from pyspark import SparkContext
		import sys
		sys.path.insert(0, '.')
		from pyspark import SparkContext, SparkConf
		from commons.Utils import Utils

		if __name__ == "__main__":

		sc =SparkContext("local", "airports")
		sc.setLogLevel("ERROR")
		conf =SparkConf().setAppName("airports").setMaster("local[*]")
		sc = SparkContext(conf = conf)

		airportsRDD = sc.textFile("in/airports.text")

Expand Down
Original file line number	Diff line number	Diff line change
		@@ -1,10 +1,11 @@
		from pyspark import SparkContext
		import sys
		sys.path.insert(0, '.')
		from pyspark import SparkContext, SparkConf
		from commons.Utils import Utils

		if __name__ == "__main__":

		sc = SparkContext("local", "airports")
		sc.setLogLevel("ERROR")
		conf = SparkConf().setAppName("airports").setMaster("local[*]")
		sc = SparkContext(conf = conf)

		airportsRDD = sc.textFile("in/airports.text")

Expand Down
Original file line number	Diff line number	Diff line change
		@@ -1,11 +1,11 @@
		import sys
		sys.path.insert(0, '.')
		from pairRdd.aggregation.reducebykey.housePrice.AvgCount import AvgCount
		from pyspark import SparkContext

		from pyspark import SparkContext, SparkConf

		if __name__ == "__main__":

		sc = SparkContext("local", "averageHousePriceSolution")
		sc.setLogLevel("ERROR")
		conf = SparkConf().setAppName("averageHousePriceSolution").setMaster("local[*]")
		sc = SparkContext(conf = conf)

		lines = sc.textFile("in/RealEstate.csv")
		cleanedLines = lines.filter(lambda line: "Bedrooms" not in line)
Expand Down
Original file line number	Diff line number	Diff line change
		@@ -1,12 +1,15 @@
		from pyspark import SparkContext
		import sys
		sys.path.insert(0, '.')
		from pyspark import SparkContext, SparkConf
		from commons.Utils import Utils

		def splitComma(line: str):
		splits = Utils.COMMA_DELIMITER.split(line)
		return "{}, {}".format(splits[1], splits[6])

		if __name__ == "__main__":
		sc = SparkContext("local", "airports")
		conf = SparkConf().setAppName("airports").setMaster("local[*]")
		sc = SparkContext(conf = conf)

		airports = sc.textFile("in/airports.text")

Expand Down