Spaces:

aletrn
/

ai-pronunciation-trainer

Running

App Files Files Community

alessandro trinca tornidor commited on 9 days ago

Commit

b5c05cd

•

1 Parent(s): 9bc64aa

feat: add dockerfile and save yml silero model within system temp folders to support docker container execution

Browse files

Files changed (9) hide show

.dockerignore +24 -0
Dockerfile +99 -0
aip_trainer/lambdas/lambdaSpeechToScore.py +1 -1
aip_trainer/models/models.py +54 -3
aip_trainer/pronunciationTrainer.py +5 -5
dockerfiles/apt_preferences +9 -0
dockerfiles/debian.sources +17 -0
requirements.txt +2 -0
webApp.py +9 -4

.dockerignore ADDED Viewed

	@@ -0,0 +1,24 @@

+.venv/
+venv/
+*venv*
+*.pyc
+__cache__
+.idea
+tmp/
+.env*
+__pycache__
+.DS_Store
+.pytest_cache
+node_modules
+dist
+static/node_modules
+static/dist
+static/.env*
+.coverage
+.coverage.*
+.git
+static/test*/*
+test*/*
+htmlcov
+tmp/*
+latest_silero_models.yml

Dockerfile ADDED Viewed

	@@ -0,0 +1,99 @@

+# Include global ARGs at the dockerfile top
+ARG ARCH="x86_64"
+ARG WORKDIR_ROOT="/var/task"
+FROM python:3.12-bookworm AS builder_global
+ARG ARCH
+ARG WORKDIR_ROOT
+ARG POETRY_NO_INTERACTION
+ARG POETRY_VIRTUALENVS_IN_PROJECT
+ARG POETRY_VIRTUALENVS_CREATE
+ARG POETRY_CACHE_DIR
+ARG ZLIB1G="http://ftp.it.debian.org/debian/pool/main/z/zlib/zlib1g_1.3.dfsg-3+b1_amd64.deb"
+ENV PYTHONPATH="${WORKDIR_ROOT}:${PYTHONPATH}:/usr/local/lib/python3/dist-packages"
+ENV MPLCONFIGDIR=/tmp/matplotlib
+ARG USER="999"
+RUN echo "ARCH: $ARCH, ARG POETRY_CACHE_DIR: ${POETRY_CACHE_DIR}, ENV PYTHONPATH: $PYTHONPATH, USER: $USER ..."
+# RUN groupadd -g 999 python && useradd -r -u 999 -g python python
+# Set working directory to function root directory
+WORKDIR ${WORKDIR_ROOT}
+COPY --chown=python:python requirements.txt ${WORKDIR_ROOT}/
+# avoid segment-geospatial exception caused by missing libGL.so.1 library
+RUN echo "BUILDER: check libz.s* before start" && ls -l /usr/lib/${ARCH}-linux-gnu/libz.so*
+RUN apt update && apt install -y curl ffmpeg libgl1 python3-pip && apt clean
+COPY --chown=python:python ./dockerfiles/apt_preferences /etc/apt/preferences
+COPY --chown=python:python ./dockerfiles/debian.sources /etc/apt/sources.list.d/debian.sources
+RUN apt update && apt install -t trixie zlib1g -y && apt clean
+RUN echo "BUILDER: check libz.s* after install from trixie" && ls -l /usr/lib/${ARCH}-linux-gnu/libz.so*
+RUN ls -l /etc/apt/sources* /etc/apt/preferences*
+# poetry installation path is NOT within ${WORKDIR_ROOT}: not needed for runtime docker image
+RUN python3 -m venv ${WORKDIR_ROOT}/.venv
+ENV PATH="${WORKDIR_ROOT}/.venv/bin:$PATH"
+RUN . ${WORKDIR_ROOT}/.venv/bin/activate && python -m pip install -r ${WORKDIR_ROOT}/requirements.txt
+# USER 999
+FROM python:3.12-slim-bookworm AS runtime
+RUN groupadd -g 999 python && useradd -r -u 999 -g python python
+ARG ARCH
+ARG WORKDIR_ROOT
+ENV PYTHONPATH="${WORKDIR_ROOT}:${WORKDIR_ROOT}/.venv:${PYTHONPATH}:/usr/local/lib/python3/dist-packages"
+ENV MPLCONFIGDIR=/tmp/matplotlib
+ENV IS_DOCKER_CONTAINER="YES"
+ENV VIRTUAL_ENV=${WORKDIR_ROOT}/.venv PATH="${WORKDIR_ROOT}/.venv/bin:$PATH"
+RUN apt update && apt install -y ffmpeg && apt clean
+RUN echo "COPY --chown=python:python --from=builder_global /usr/lib/${ARCH}-linux-gnu/libGL.so* /usr/lib/${ARCH}-linux-gnu/"
+RUN echo "RUNTIME: check libz.s* before upgrade" && ls -l /usr/lib/${ARCH}-linux-gnu/libz.so*
+RUN echo "RUNTIME: remove libz.s* to force upgrade" && rm /usr/lib/${ARCH}-linux-gnu/libz.so*
+COPY --chown=python:python --from=builder_global /usr/lib/${ARCH}-linux-gnu/libz.so* /usr/lib/${ARCH}-linux-gnu/
+COPY --chown=python:python --from=builder_global /lib/${ARCH}-linux-gnu/libexpat.so* /lib/${ARCH}-linux-gnu/
+RUN echo "RUNTIME: check libz.s* after copy" && ls -l /usr/lib/${ARCH}-linux-gnu/libz.so*
+COPY --chown=python:python --from=builder_global ${WORKDIR_ROOT}/.venv ${WORKDIR_ROOT}/.venv
+RUN echo "check ffmpeg files..."
+RUN ls -ld /usr/share/ffmpeg || echo "ffpeg folder not found!"
+RUN ls -l /usr/bin/ff* || echo "ffpeg bin not found!"
+RUN ls -l /usr/share/ffmpeg || echo "ffpeg folder share not found!"
+RUN . ${WORKDIR_ROOT}/.venv && which python && pip list
+RUN echo "new WORKDIR_ROOT after hidden venv COPY --chown=python:python => ${WORKDIR_ROOT}"
+RUN ls -ld ${WORKDIR_ROOT}/
+RUN ls -lA ${WORKDIR_ROOT}/
+COPY --chown=python:python . ${WORKDIR_ROOT}/.
+RUN python --version
+RUN pip list
+RUN echo "PATH: ${PATH}."
+RUN echo "WORKDIR_ROOT: ${WORKDIR_ROOT}."
+RUN ls -l ${WORKDIR_ROOT}
+RUN ls -ld ${WORKDIR_ROOT}
+RUN python -c "import sys; print(sys.path)"
+RUN python -c "import epitran"
+RUN python -c "import flask"
+RUN python -c "import pandas"
+RUN python -c "from torch import Tensor"
+RUN python -c "import gunicorn"
+RUN df -h
+RUN ls -l ${WORKDIR_ROOT}/app.py
+RUN ls -l ${WORKDIR_ROOT}/static/
+USER 999
+ENV PATH="${WORKDIR_ROOT}:${WORKDIR_ROOT}/.venv/bin:$PATH"
+RUN echo "PATH: $PATH ..."
+RUN echo "PYTHONPATH: $PYTHONPATH ..."
+RUN echo "MPLCONFIGDIR: $MPLCONFIGDIR ..."
+CMD ["gunicorn", "--bind", "0.0.0.0:3000", "app:app"]

aip_trainer/lambdas/lambdaSpeechToScore.py CHANGED Viewed

@@ -61,7 +61,7 @@ def lambda_handler(event, context):
     app_logger.info(f'Loaded .ogg file {random_file_name} in {duration}s.')
     language_trainer_sst_lambda = trainer_SST_lambda[language]
-    app_logger.info(f'language_trainer_sst_lambda: preparing...')
     result = language_trainer_sst_lambda.processAudioForGivenText(signal, real_text)
     app_logger.info(f'language_trainer_sst_lambda: result: {result}...')

     app_logger.info(f'Loaded .ogg file {random_file_name} in {duration}s.')
     language_trainer_sst_lambda = trainer_SST_lambda[language]
+    app_logger.info('language_trainer_sst_lambda: preparing...')
     result = language_trainer_sst_lambda.processAudioForGivenText(signal, real_text)
     app_logger.info(f'language_trainer_sst_lambda: result: {result}...')

aip_trainer/models/models.py CHANGED Viewed

@@ -1,14 +1,65 @@
 import torch.nn as nn
-from silero import silero_stt
 from silero.utils import Decoder
 # second returned type here is the custom class src.silero.utils.Decoder from snakers4/silero-models
 def getASRModel(language: str) -> tuple[nn.Module, Decoder]:
     if language == 'de':
-        model, decoder, _ = silero_stt(language='de', version="v4", jit_model="jit_large")
     elif language == 'en':
-        model, decoder, _ = silero_stt(language='en')
     else:
         raise NotImplementedError("currenty works only for 'de' and 'en' languages, not for '{}'.".format(language))

+import os
+from pathlib import Path
+import tempfile
 import torch.nn as nn
 from silero.utils import Decoder
+from aip_trainer import app_logger
+def silero_stt(language='en',
+               version='latest',
+               jit_model='jit',
+               output_folder: Path | str = None,
+               **kwargs):
+    """Modified Silero Speech-To-Text Model(s) function
+    language (str): language of the model, now available are ['en', 'de', 'es']
+    version:
+    jit_model:
+    output_folder: needed in case of docker build
+    Returns a model, decoder object and a set of utils
+    Please see https://github.com/snakers4/silero-models for usage examples
+    """
+    import torch
+    from omegaconf import OmegaConf
+    from silero.utils import (init_jit_model,
+                        read_audio,
+                        read_batch,
+                        split_into_batches,
+                        prepare_model_input)
+    output_folder = Path(output_folder) if output_folder is not None else Path(os.path.dirname(__file__)) / ".." / ".."
+    models_list_file = output_folder / f'latest_silero_model_{language}.yml'
+    if not os.path.exists(models_list_file):
+        app_logger.info(f"model yml for '{language}' language, '{version}' version not found, download it in folder {output_folder}...")
+        torch.hub.download_url_to_file(
+            'https://raw.githubusercontent.com/snakers4/silero-models/master/models.yml',
+            models_list_file,
+            progress=True
+        )
+    app_logger.info(f"model yml for '{language}' language, '{version}' version in folder {output_folder}: OK!")
+    assert os.path.exists(models_list_file)
+    models = OmegaConf.load(models_list_file)
+    available_languages = list(models.stt_models.keys())
+    assert language in available_languages
+    model, decoder = init_jit_model(model_url=models.stt_models.get(language).get(version).get(jit_model),
+                                    **kwargs)
+    utils = (read_batch,
+             split_into_batches,
+             read_audio,
+             prepare_model_input)
+    return model, decoder, utils
 # second returned type here is the custom class src.silero.utils.Decoder from snakers4/silero-models
 def getASRModel(language: str) -> tuple[nn.Module, Decoder]:
+    tmp_dir = tempfile.gettempdir()
     if language == 'de':
+        model, decoder, _ = silero_stt(language='de', version="v4", jit_model="jit_large", output_folder=tmp_dir)
     elif language == 'en':
+        model, decoder, _ = silero_stt(language='en', output_folder=tmp_dir)
     else:
         raise NotImplementedError("currenty works only for 'de' and 'en' languages, not for '{}'.".format(language))

aip_trainer/pronunciationTrainer.py CHANGED Viewed

@@ -113,19 +113,19 @@ class PronunciationTrainer:
     def getAudioTranscript(self, recordedAudio: torch.Tensor = None):
         current_recorded_audio = recordedAudio
-        app_logger.info(f'starting preprocessAudio...')
         current_recorded_audio = self.preprocessAudio(current_recorded_audio)
-        app_logger.info(f'starting processAudio...')
         self.asr_model.processAudio(current_recorded_audio)
-        app_logger.info(f'starting getTranscriptAndWordsLocations...')
         current_recorded_transcript, current_recorded_word_locations = self.getTranscriptAndWordsLocations(
             current_recorded_audio.shape[1])
-        app_logger.info(f'starting convertToPhonem...')
         current_recorded_ipa = self.ipa_converter.convertToPhonem(current_recorded_transcript)
-        app_logger.info(f'ok, return audio transcript!')
         return current_recorded_transcript, current_recorded_ipa, current_recorded_word_locations
     def getWordLocationsFromRecordInSeconds(self, word_locations, mapped_words_indices) -> list:

     def getAudioTranscript(self, recordedAudio: torch.Tensor = None):
         current_recorded_audio = recordedAudio
+        app_logger.info('starting preprocessAudio...')
         current_recorded_audio = self.preprocessAudio(current_recorded_audio)
+        app_logger.info('starting processAudio...')
         self.asr_model.processAudio(current_recorded_audio)
+        app_logger.info('starting getTranscriptAndWordsLocations...')
         current_recorded_transcript, current_recorded_word_locations = self.getTranscriptAndWordsLocations(
             current_recorded_audio.shape[1])
+        app_logger.info('starting convertToPhonem...')
         current_recorded_ipa = self.ipa_converter.convertToPhonem(current_recorded_transcript)
+        app_logger.info('ok, return audio transcript!')
         return current_recorded_transcript, current_recorded_ipa, current_recorded_word_locations
     def getWordLocationsFromRecordInSeconds(self, word_locations, mapped_words_indices) -> list:

dockerfiles/apt_preferences ADDED Viewed

	@@ -0,0 +1,9 @@

+Explanation: Uninstall or do not install any Debian-originated
+Explanation: package versions other than those in the stable distro
+Package: *
+Pin: release a=stable
+Pin-Priority: 900
+Package: zlib1g
+Pin: release a=trixie
+Pin-Priority: -10

dockerfiles/debian.sources ADDED Viewed

	@@ -0,0 +1,17 @@

+Types: deb deb-src
+URIs: http://deb.debian.org/debian
+Suites: bookworm bookworm-updates
+Components: main
+Signed-By: /usr/share/keyrings/debian-archive-keyring.gpg
+Types: deb deb-src
+URIs: http://deb.debian.org/debian-security
+Suites: bookworm-security
+Components: main
+Signed-By: /usr/share/keyrings/debian-archive-keyring.gpg
+Types: deb
+URIs: http://deb.debian.org/debian
+Suites: trixie
+Components: main
+Signed-By: /usr/share/keyrings/debian-archive-keyring.gpg

requirements.txt CHANGED Viewed

@@ -4,6 +4,7 @@ eng_to_ipa
 epitran==1.25.1
 flask
 flask_cors
 omegaconf
 ortools==9.11.4210
 pandas
@@ -11,6 +12,7 @@ pickle-mixin
 python-dotenv
 requests
 sentencepiece
 soundfile==0.12.1
 sqlalchemy
 structlog

 epitran==1.25.1
 flask
 flask_cors
+gunicorn
 omegaconf
 ortools==9.11.4210
 pandas
 python-dotenv
 requests
 sentencepiece
+silero==0.4.1
 soundfile==0.12.1
 sqlalchemy
 structlog

webApp.py CHANGED Viewed

@@ -1,8 +1,9 @@
 import json
 import webbrowser
-from aip_trainer import PROJECT_ROOT_FOLDER, app_logger
-from flask import Flask, render_template, request, Response
 from flask_cors import CORS
 from aip_trainer.lambdas import lambdaGetSample
@@ -30,6 +31,7 @@ def getNext():
 @app.route(rootPath+'/GetAccuracyFromRecordedAudio', methods=['POST'])
 def GetAccuracyFromRecordedAudio():
     try:
         event = {'body': json.dumps(request.get_json(force=True))}
         lambda_correct_output = lambdaSpeechToScore.lambda_handler(event, [])
         return lambda_correct_output
@@ -41,6 +43,9 @@ def GetAccuracyFromRecordedAudio():
 if __name__ == "__main__":
-    language = 'de'
-    webbrowser.open_new('http://127.0.0.1:3000/')
     app.run(host="0.0.0.0", port=3000)  # , debug=True)

 import json
+import os
 import webbrowser
+from aip_trainer import app_logger
+from flask import Flask, render_template, request
 from flask_cors import CORS
 from aip_trainer.lambdas import lambdaGetSample
 @app.route(rootPath+'/GetAccuracyFromRecordedAudio', methods=['POST'])
 def GetAccuracyFromRecordedAudio():
     try:
+        # todo: inserire
         event = {'body': json.dumps(request.get_json(force=True))}
         lambda_correct_output = lambdaSpeechToScore.lambda_handler(event, [])
         return lambda_correct_output
 if __name__ == "__main__":
+    is_docker_container = os.getenv("IS_DOCKER_CONTAINER", "").lower() == "yes"
+    app_logger.info(f"is_docker_container:{is_docker_container}.")
+    if not is_docker_container:
+        import webbrowser
+        webbrowser.open_new('http://127.0.0.1:3000/')
     app.run(host="0.0.0.0", port=3000)  # , debug=True)