Files
extractor_tematizador_pregu…/action_flow/fase1_extract.py

62 lines
2.2 KiB
Python

import pandas as pd
import os
import sys
from extraccion import agentes_entidades
module_path = os.path.abspath(os.path.join(".."))
# Add to sys.path if not already present
if module_path not in sys.path:
sys.path.append(module_path)
print(module_path)
INPUT_FOLDER = f"{module_path}/input/Preguntas Categoricas/"
OUTPUT_FOLDER = f"{module_path}/output/fase1"
FILES_TO_PROCESS = os.listdir(INPUT_FOLDER)
DELIMITER = "|^"
DIC_QUESTIONS = {
"Encuesta_MediaG01Q02.csv": agentes_entidades.extractor_pre_1,
"Encuesta_MediaG01Q04.csv": agentes_entidades.extractor_pre_2,
"Encuesta_MediaG01Q10.csv": agentes_entidades.extractor_pre_3,
"Encuesta_MediaG03Q17.csv": agentes_entidades.extractor_pre_4,
"Encuesta_MediaG03Q18.csv": agentes_entidades.extractor_pre_5,
# "Encuesta_MediaG03Q19.csv": agentes_entidades.extractor_pre_6,
"Encuesta_MediaG04Q22.csv": agentes_entidades.extractor_pre_7,
"Encuesta_MediaG04Q23.csv": agentes_entidades.extractor_pre_8,
"Encuesta_MediaG04Q25.csv": agentes_entidades.extractor_pre_9,
"Encuesta_MediaG05Q30.csv": agentes_entidades.extractor_pre_10,
"Encuesta_MediaG05Q34.csv": agentes_entidades.extractor_pre_11,
# "Encuesta_MediaG05Q27.csv": agentes_entidades.extractor_pre_12,
"Encuesta_MediaG06Q35.csv": agentes_entidades.extractor_pre_13,
# "Encuesta_MediaG06Q37.csv": agentes_entidades.extractor_pre_14,
# "Encuesta_MediaG06Q39.csv": agentes_entidades.extractor_pre_15
# COMPLETAR RESTO
}
def extract_answers(answers):
answer_formated = ""
iterator_answers = answers.acciones
for item in iterator_answers:
answer_formated += f"{item.accion}{DELIMITER}"
return answer_formated
def format_answer(dataframe, function):
dataframe["respuestas_formato"] = None
for index, row in dataframe.iterrows():
answers = function(row["respuesta"])
answer_to_insert = extract_answers(answers)
dataframe.loc[index, "respuestas_formato"] = answer_to_insert
def format_all_answers(Dic_questions):
for key, value in Dic_questions.items():
question_dataframe = pd.read_csv(INPUT_FOLDER + "/" + key)
format_answer(question_dataframe, value)
question_dataframe.to_csv(OUTPUT_FOLDER + "/" + key)
format_all_answers(DIC_QUESTIONS)