rtbdp
labs
lab_spark_rss

Repository

flowchart LR
    rss("RSS feeds"):::compext
    ui("HTML/JS web frontend\nrunning in the browser"):::compext
    train("Spark offline training code\n(Python notebook/script or Java)"):::compext
    model[("\nClassifier Model\n(directory ./model)")]:::compext
    subgraph app [Docker Compose application]
        zookeeper("ZooKeeper"):::comp
        broker("Kafka Broker"):::comp
        connect("Kafka Connect\nwith RSS source connector"):::comp
        subgraph spark ["Spark cluster"]
            direction LR
            sparkmaster("Spark Master"):::comp
            sparkworker("Spark Worker"):::comp
            sparkdriver("Spark processor\n(driver submitting job)"):::comp
        end
        flask("Python Flask\nweb server"):::comp
        kafkaui("Kafka UI"):::comp
    end
    rss --> connect
    connect --> broker
    broker <--> spark
    broker --> flask
    flask ------> ui
    broker -.- zookeeper
    kafkaui -.- broker
    sparkdriver -.- sparkmaster
    sparkmaster -.- sparkworker
    broker --> train
    train --> model
    model --> sparkdriver
    classDef scope fill:#fff,stroke:#333,stroke-width:1px,stroke-dasharray: 5 5,color:#444,font-size:10pt;
    classDef comp fill:#fafafa,stroke:#333,stroke-width:1.5px,font-size:10pt;
    classDef compsub fill:#eee,stroke:#333,stroke-width:1.5px,font-size:10pt;
    classDef compext fill:#fff,stroke:#333,stroke-width:1.5px,font-size:10pt;
    classDef dataext fill:#fff,stroke:#333,stroke-width:1.5px,font-size:10pt;
    classDef none fill:#fff,stroke:#fff,stroke-width:0px,font-size:0pt;
    class app scope
    class spark scope
    class connect comp
$  git clone git@gitlab.inf.unibz.it:rtbdp/labs/lab_spark_rss.git
$  cd lab_spark_rss
$  cp .env.example .env
$  docker compose up                        # to start the application
$  docker compose down -v --remove-orphans  # to stop the application, deleting all data and dangling containers (--remove-orphans)
$ cd train-python
$ python -m venv myenv
$ source myenv/bin/activate
$ pip install -U pip
$ pip install -r requirements.txt
PROCESSOR_SUBMIT_ARGS=--driver-memory 4g --conf spark.executor.memory=4g                                            # allocate enough RAM to Spark processes
PROCESSOR_PACKAGES=org.apache.spark:spark-sql-kafka-0-10_2.12:3.3.2,com.johnsnowlabs.nlp:spark-nlp_2.12:4.2.8       # for Intel/AMD
#PROCESSOR_PACKAGES=org.apache.spark:spark-sql-kafka-0-10_2.12:3.3.2,com.johnsnowlabs.nlp:spark-nlp-m1_2.12:4.2.8   # for Apple M1 (incl. M1 pro)
docker compose down  # no need to specify -v as can reuse existing data
docker compose up
spark = SparkSession \
    .builder \
    .appName("processor") \
    .config("spark.sql.shuffle.partitions", 4) \
    .config("spark.driver.memory", "4G") \
    .config("spark.kryoserializer.buffer.max", "2000M") \
    .config("spark.driver.maxResultSize", "0") \
    .config("spark.jars.packages", "org.apache.spark:spark-sql-kafka-0-10_2.12:3.3.2,com.johnsnowlabs.nlp:spark-nlp_2.12:4.2.8") \
    .getOrCreate()
SparkSession spark = SparkSession
    .builder()
    .appName("processor")
    .config("spark.sql.shuffle.partitions", 4)
    .config("spark.driver.memory", "4G")
    .config("spark.kryoserializer.buffer.max", "2000M")
    .config("spark.driver.maxResultSize", "0")
    .getOrCreate();