Spaces:

drguilhermeapolinario
/

Flamengo

Running

App Files Files Community

drguilhermeapolinario commited on Jul 3, 2024

Commit

fa9ba45

verified ·

1 Parent(s): 650dac1

Update data_cleaning.py

Browse files

Files changed (1) hide show

data_cleaning.py +168 -124

data_cleaning.py CHANGED Viewed

@@ -1,124 +1,168 @@
-import chardet
-import pandas as pd
-import regex
-def iniciar(file_path):
-    """
-    A function that detects the encoding of a file and reads the file using the detected encoding.
-    Parameters:
-    - file_path (str): The path to the file to be read.
-    Returns:
-    - str: The data read from the file.
-    """
-    # Detectar a codificação do arquivo
-    with open(file_path, "rb") as file:
-        raw_data = file.read()
-        result = chardet.detect(raw_data)
-        encoding = result["encoding"]
-        print(f"Detected encoding: {encoding}")
-    # Ler o arquivo com a codificação detectada
-    with open(file_path, "r", encoding=encoding) as file:
-        csv_data = file.read()
-    return csv_data
-def limpa_rci(texto):
-    """
-    Cleans up the given text by removing unwanted parts.
-    Args:
-        texto (str): The text to be cleaned.
-    Returns:
-        str: The cleaned text.
-    """
-    # Remover partes indesejadas
-    sub1 = r"(^e-SUS.+\nMIN(.+\n+){7}.+)|((?<=Equipe;)\d+\s\-\s)|(^CBO.+\n(.+\n+){8}.+)|(^Não\sinf.+\n+Identif.+\nDes.+\nDes.+\nDes.+\nRes.+\n+Iden.+$)|(^Não\sin.+\n+Ident.+Cor$)|(^Não\sin.+\n+Ident.+\nDesc.+\nBra.+\nNat(.+\n+){34}.+)|(^Inf.+\nDesc.+\nAdult.+\n(.+\n+){10}.+)|(^Inf.+\n(Des.+\n){3}.+$)|(^Inf.+\nDesc.+\n(Tem\salg.+\n){1}.+$)|(^Inf.+\nA\slist.+\nDes(.+\n+){8}.+$)|(^Cidadão.+\nDesc.+\nÉ.+\nPossu(.+\n*)*)|(^Não\sinf.+;0.+$)|(;;;;;|;;;;|Ident.+(-|/)\s)|((?<=Saída)\sde.+tro|.+(?=ativos))|"
-    sub2 = r"(^C.*(rin|card|resp).+\n.+\n.+[os]\s)|(;;;\nT.+\nT.+$)|(;Sim|(?<=[az];);|\ssabe;|\s.\sEnfisema)|(^Participa.+$|Poss.+de\s|(?<=privado.;\d\d\d);.+|Poss.+de\s|(?<=privado.;\d\d\d\d);.+)|((Desc.+\n){3}Resp.+$)|(Etnia.+\nD.+\nNã.+$)|(Nacio.+\nDesc.+\nB.+\nNat.+\nEst.+$)|(Infor.+\nDesc.+\nCôn(.+\n){31}Inf.+$)|Deseja\sinf.+$|(?<=Ensino\s[fm][ué][nd]).+(\)|[eat][lso])|(?<=Pré).+\)|(Classe\sde\salfa.+-\s)|((?<=Superior).+rado)|((?<=Alfabet).+\))|(Infor.+\nDesc.+\nEmpreg(.+\n){10}.+$)|Intelec.+/\s|((Está\s(com\s)?))|(^Condiç.+\nD.+$)|((Faz\suso.+e\s)|PIC;.+|Tem\s|ou\steve\s|Teve\s|internação.+\nUsa\splant.+$|\s/\sderrame|diagnóst.+de\s)"
-    rx_marc = sub1 + "|" + sub2
-    # Remover partes indesejadas
-    texto = regex.sub(rx_marc, "", texto, flags=regex.MULTILINE)
-    tira = r"(;;;)"
-    texto = regex.sub(tira, "", texto, flags=regex.MULTILINE)
-    tira = r"(;;)"
-    texto = regex.sub(tira, ";", texto, flags=regex.MULTILINE)
-    return texto
-def separa_grupos(texto):
-    """
-    A function that uses a regular expression to extract various groups from the input text.
-    Args:
-        texto (str): The input text from which groups are extracted.
-    Returns:
-        dict: A dictionary containing different groups extracted from the text like 'Idade', 'genero', 'cor', 'deficiencia', and 'doencas'.
-    """
-    # Expressão regular ajustada para capturar vários grupos
-    grupos = r"""
-        ((?P<Data>Data);\d+/\d+/\d+)|
-        ((?P<Head>[EPCS][aqri][uodí].+;)\w+)|
-        (?P<Idade>(^Menos.+(?=;0)|^[0-9][0-9]\s\w).+(?=;0))|
-        (?P<genero>(^(Masc.+|Fem.+)))|
-        (?P<cor>(^(Bra.+$|Pret.+$|Amar.+$|Par.+$|Indí.+$)))|
-        (?P<deficiencia>(^(Audi.+a;\d+|Fís.+a;\d+|Cogn.+a;\d+|Vis.+l;\d+\nOut.+$)))|
-        (?P<doencas>(^(hipert.+al;\d+|diab.+s;\d+|gesta.+e;\d+|acam.+o;\d+|domici.+o;\d+)))
-    """
-    # Compilar a expressão regular com as flags re.VERBOSE e re.MULTILINE para maior legibilidade
-    pattern = regex.compile(grupos, regex.VERBOSE | regex.MULTILINE)
-    matches = pattern.finditer(texto)
-    grupos_enc = {
-        "Idade": [],
-        "genero": [],
-        "cor": [],
-        "deficiencia": [],
-        "doencas": [],
-    }
-    for match in matches:
-        for group_name, group_value in match.groupdict().items():
-            if group_value and group_name in grupos_enc:
-                grupos_enc[group_name].append(group_value)
-    return grupos_enc
-def criar_dataframe(grupos_encontrados):
-    """
-    Create dataframes based on the groups found in `grupos_encontrados`.
-    Args:
-        grupos_encontrados (dict): A dictionary containing the groups found and their corresponding values.
-    Returns:
-        dict: A dictionary containing the created dataframes, where the keys are the group names and the values are the corresponding dataframes.
-    """
-    dataframes = {}
-    for grupo, valores in grupos_encontrados.items():
-        if grupo == "Idade":
-            df = pd.DataFrame(valores, columns=["Descrição"])
-            df["Masculino"] = df["Descrição"].apply(lambda x: x.split(";")[1])
-            df["Feminino"] = df["Descrição"].apply(lambda x: x.split(";")[2])
-            df["Descrição"] = df["Descrição"].apply(lambda x: x.split(";")[0])
-        else:
-            # Tratar casos onde os dados são separados por '\n'
-            novos_valores = []
-            for valor in valores:
-                partes = valor.split("\n")
-                novos_valores.extend(partes)
-            df = pd.DataFrame(novos_valores, columns=["Descrição"])
-            df["Valor"] = df["Descrição"].apply(lambda x: x.split(";")[-1])
-            df["Descrição"] = df["Descrição"].apply(
-                lambda x: ";".join(x.split(";")[:-1])
-            )
-        dataframes[grupo] = df
-    return dataframes

+import chardet
+import pandas as pd
+import regex
+def processar_arquivo(uploaded_file):
+    def iniciar(file_path):
+        """
+        A function that detects the encoding of a file and reads the file using the detected encoding.
+        """
+        # Detectar a codificação do arquivo
+        raw_data = uploaded_file.read()
+        result = chardet.detect(raw_data)
+        encoding = result["encoding"]
+        print(f"Detected encoding: {encoding}")
+        # Ler o arquivo com a codificação detectada
+        uploaded_file.seek(0)  # Reset file pointer to the beginning
+        csv_data = uploaded_file.read().decode(encoding)
+        return csv_data
+    def limpa_rci1(texto):
+        """
+        Cleans up the given text by removing unwanted parts.
+        """
+        # Remover partes indesejadas
+        sub1 = r"(^e-SUS.+\nMIN(.+\n+){2}.+)|(^CBO.+\n(.+\n+){2}.+)|(^Não\sinf.+\n+Identif.+\nDes.+\nDes.+\nDes.+\nRes.+\n+Iden.+$)|(^Não\sin.+\n+Ident.+Cor$)|(^Não\sin.+\n+Ident.+\nDesc.+\nBra.+\nNat(.+\n+){34}.+)|(^Inf.+\nDesc.+\nAdult.+\n(.+\n+){10}.+)|(^Inf.+\n(Des.+\n){3}.+$)|(^Inf.+\nDesc.+\n(Tem\salg.+\n){1}.+$)|(^Inf.+\nA\slist.+\nDes(.+\n+){8}.+$)|(^Desc.+\nÉ.+\nPossu(.+\n*)*)|(^Não\sinf.+;0.+$)|(;;;;;|;;;;|Ident.+(-|/)\s)|"
+        sub2 = r"(^C.*(rin|card|resp).+\n.+\n.+[os]\s)|(;;;\nT.+\nT.+$)|(;Sim|(?<=[az];);|\ssabe;|\s.\sEnfisema)|(^Participa.+$|Poss.+de\s|(?<=privado.;\d\d\d);.+|Poss.+de\s|(?<=privado.;\d\d\d\d);.+)|((Desc.+\n){3}Resp.+$)|(Etnia.+\nD.+\nNã.+$)|(Nacio.+\nDesc.+\nB.+\nNat.+\nEst.+$)|(Infor.+\nDesc.+\nCôn(.+\n){31}Inf.+$)|Deseja\sinf.+$|(Infor.+\nDesc.+\nEmpreg(.+\n){10}.+$)|Intelec.+/\s|((Está\s(com\s)?))|(^Condiç.+\nD.+$)|((Faz\suso.+e\s)|PIC;.+|Tem\s|ou\steve\s|Teve\s|internação.+\nUsa\splant.+$|\s/\sderrame|diagnóst.+de\s)"
+        rx_marc = sub1 + "|" + sub2
+        texto = regex.sub(rx_marc, "", texto, flags=regex.MULTILINE)
+        tira = r"(;;;)"
+        texto = regex.sub(tira, "", texto, flags=regex.MULTILINE)
+        tira = r"(;;)"
+        texto = regex.sub(tira, ";", texto, flags=regex.MULTILINE)
+        return texto
+    def limpa_rci2(texto):
+        """
+        Cleans up the given text by removing unwanted parts.
+        """
+        sub2 = r"(^C.*(rin|card|resp).+\n.+\n.+[os]\s)|(;;;\nT.+\nT.+$)|(;Sim|(?<=[az];);|\ssabe;|\s.\sEnfisema)|(\d+{10}\s-\s)|(^Participa.+$|Poss.+de\s|(?<=privado.;\d\d\d);.+|Poss.+de\s|(?<=privado.;\d\d\d\d);.+)|((Desc.+\n){3}Resp.+$)|(Etnia.+\nD.+\nNã.+$)|(Nacio.+\nDesc.+\nB.+\nNat.+\nEst.+$)|(Infor.+\nDesc.+\nCôn(.+\n){31}Inf.+$)|Deseja\sinf.+$|(Infor.+\nDesc.+\nEmpreg(.+\n){10}.+$)|Intelec.+/\s|((Está\s(com\s)?))|(^Condiç.+\nD.+$)|((Faz\suso.+e\s)|PIC;.+|Tem\s|ou\steve\s|Teve\s|internação.+\nUsa\splant.+$|\s/\sderrame|diagnóst.+de\s)"
+        texto = regex.sub(sub2, "", texto, flags=regex.MULTILINE)
+        tira = r"(;;;)"
+        texto = regex.sub(tira, "", texto, flags=regex.MULTILINE)
+        tira = r"(;;)"
+        texto = regex.sub(tira, "; ", texto, flags=regex.MULTILINE)
+        tira = r"(;$)"
+        texto = regex.sub(tira, "", texto, flags=regex.MULTILINE)
+        tira = r"(\s\d+{10}\s-\s)"
+        texto = regex.sub(tira, "", texto, flags=regex.MULTILINE)
+        return texto
+    def separa_grupos(texto):
+        """
+        A function that uses a regular expression to extract various groups from the input text.
+        """
+        # Expressão regular ajustada para capturar vários grupos
+        grupos = r"""
+            (?P<Data>(Data;\d+/\d+/\d+))|
+            (?P<Head>(Equ.+;.+)|Profiss.+l;\w+|((Saíd.+;\d+)|(Cidadã.+;\d+)))|
+            (?P<Idade>(^Menos.+(?=;0)|^[0-9][0-9]\s\w).+(?=;0))|
+            (?P<genero>(Masc.+;\d+|Fem.+;\d+))|
+            (?P<cor>(^(Bra.+;\d+|Pret.+;\d+|Amar.+;\d+|Par.+;\d+|Indí.+;\d+)))|
+            (?P<deficiencia>(^(Audi.+a;\d+|Fís.+a;\d+|Cogn.+a;\d+|Vis.+l;\d+|Out.+;\d+)))|
+            (?P<doencas>(^(hipert.+al;\d+|diab.+s;\d+|gesta.+e;\d+|acam.+o;\d+|domici.+o;\d+|fuma.+e;\d+|saú.+e;\d+|Asm.+;\d+|DPO.+;\d+|Insufic.+ca;\d+|Insufic.+al;\d+)))|
+            (?P<Escola>(Desc.+o;Quant.+\nCre.+e;\d+|Pr.+;\d+|Classe.+;\d+|Ens.+;\d+|Sup.+r;\d+|Alf.+;\d+|Nenhu.+;\d+))|
+            (?P<transgen>(Homos.+\);\d+|Bisse.+l;\d+|Hom.+trans.+;\d+|Mul.+trans.+;\d+|Traves.+i;\d+|Transgê.+o;\d+|Não-B.+o;\d+))|
+        """
+        # Compilar a expressão regular com as flags re.VERBOSE e re.MULTILINE para maior legibilidade
+        pattern = regex.compile(grupos, regex.VERBOSE | regex.MULTILINE)
+        matches = pattern.finditer(texto)
+        grupos_enc = {
+            "Data": [],
+            "Head": [],
+            "Idade": [],
+            "genero": [],
+            "cor": [],
+            "deficiencia": [],
+            "doencas": [],
+            "Escola": [],
+            "transgen": []
+        }
+        for match in matches:
+            for group_name, group_value in match.groupdict().items():
+                if group_value and group_name in grupos_enc:
+                    grupos_enc[group_name].append(group_value)
+        return grupos_enc
+    def criar_dataframe(grupos_encontrados):
+        """
+        Create dataframes based on the groups found in `grupos_encontrados`.
+        """
+        dataframes = {}
+        for grupo, valores in grupos_encontrados.items():
+            if grupo == "Idade":
+                df = pd.DataFrame(valores, columns=["Descrição"])
+                df["Masculino"] = df["Descrição"].apply(lambda x: x.split(";")[1])
+                df["Feminino"] = df["Descrição"].apply(lambda x: x.split(";")[2])
+                df["Descrição"] = df["Descrição"].apply(lambda x: x.split(";")[0])
+            else:
+                # Tratar casos onde os dados são separados por '\n'
+                novos_valores = []
+                for valor in valores:
+                    partes = valor.split("\n")
+                    novos_valores.extend(partes)
+                df = pd.DataFrame(novos_valores, columns=["Descrição"])
+                df["Valor"] = df["Descrição"].apply(lambda x: x.split(";")[-1])
+                df["Descrição"] = df["Descrição"].apply(
+                    lambda x: ";".join(x.split(";")[:-1]))
+                df["Descrição"] = df["Descrição"].apply(lambda x: x.replace(";", ""))
+            dataframes[grupo] = df
+        return dataframes
+    def renomear_escola(df_escola):
+        """
+        Renomeia as descrições da coluna 'Descrição' do DataFrame df_escola.
+        """
+        renomeacoes = {
+            "Creche": "Creche",
+            "Pré-escola (exceto CA)": "Pré-escola",
+            "Classe de alfabetização": "Alfabetização",
+            "Ensino fundamental 1ª a 4ª séries": "Fundamental 1ª-4ª",
+            "Ensino fundamental 5ª a 8ª séries": "Fundamental 5ª-8ª",
+            "Ensino fundamental completo": "Fund. Completo",
+            "Ensino fundamental especial": "Fund. Especial",
+            "Ensino fundamental EJA - séries iniciais (supletivo 1ª a 4ª)": "Fund. EJA Iniciais",
+            "Ensino fundamental EJA - séries finais (supletivo 5ª a 8ª)": "Fund. EJA Finais",
+            "Ensino médio, médio 2º ciclo (científico, técnico e etc)": "Médio/Científico/Técnico",
+            "Ensino médio especial": "Médio Especial",
+            "Ensino médio EJA (supletivo)": "Médio EJA",
+            "Alfabetização para adultos (Mobral, etc)": "Alfabetização Adultos",
+            "Nenhum": "Nenhum"
+        }
+        df_escola["Descrição"] = df_escola["Descrição"].map(renomeacoes)
+        return df_escola
+    def limpar_dfs(dataframes, regex_pattern, replacement):
+        """
+        Aplica uma regex de limpeza em todos os DataFrames.
+        """
+        for key, df in dataframes.items():
+            df["Descrição"] = df["Descrição"].astype(str).apply(lambda x: regex.sub(regex_pattern, replacement, x))
+        return dataframes
+    # Leitura e limpeza do arquivo CSV
+    csv_data = iniciar(uploaded_file)
+    csv_data_limpo = limpa_rci1(csv_data)
+    # Separação dos grupos
+    grupos_encontrados = separa_grupos(csv_data_limpo)
+    # Criação dos dataframes
+    dataframes = criar_dataframe(grupos_encontrados)
+    # Renomear descrições do DataFrame de escolaridade
+    dataframes["Escola"] = renomear_escola(dataframes["Escola"])
+    # Aplicar limpeza final nos DataFrames
+    clean_final = r"(\sativ\w+)|(\sde\scid.+o)|(iciê.+ia)|((?<=rans)gên.+o|omem|ulher|ário|Homoss.+\(|\))|(\d{10}\s-\s)"
+    substituicao = ""
+    dataframes = limpar_dfs(dataframes, clean_final, substituicao)
+    return dataframes