td_prediction_llm

This repository contains the source code and experiment outputs associated with our MOC2025 workshop paper at the DECLARE conference.

The paper presents a novel LLM/AI-enabled workflow for automatic labeling, combined with XAI human-in-the-loop quality control. We curated this workflow from a case study on detecting technical debt, aiming to support software project management in making informed decisions.

This work extends a thesis study that used a primary LLM as the labeling judge alongside classical ML methods to predict technical debt but suffered from feature leakage, shortcut learning, and challenges in handling imbalanced data. Key contributions include a curated workflow design, improved prompt engineering, and practical lessons learned to avoid shortcut learning or feature leakage when using LLM-generated labels. We also evaluate performance on imbalanced datasets.

Name		Name	Last commit message	Last commit date
Latest commit History 16 Commits
data		data
llm_batch		llm_batch
presentation		presentation
splits		splits
trained_models		trained_models
.gitignore		.gitignore
README.md		README.md
class-imbalance-chart.png		class-imbalance-chart.png
class_balance_grayscale.pdf		class_balance_grayscale.pdf
class_balance_grayscale.png		class_balance_grayscale.png
class_balance_greyscale.pdf		class_balance_greyscale.pdf
class_balance_greyscale.png		class_balance_greyscale.png
lime_explanation_instance_0.html		lime_explanation_instance_0.html
lime_explanation_instance_1.html		lime_explanation_instance_1.html
lime_explanation_instance_2.html		lime_explanation_instance_2.html
model_metrics_iteration-3.csv		model_metrics_iteration-3.csv
notebook.ipynb		notebook.ipynb
precision_recall_curve_lightgbm_iteration-3.png		precision_recall_curve_lightgbm_iteration-3.png
precision_recall_curve_random_forest_iteration-3.png		precision_recall_curve_random_forest_iteration-3.png
precision_recall_curve_xgboost_iteration-3.png		precision_recall_curve_xgboost_iteration-3.png
requirements.txt		requirements.txt
roc_curve_lightgbm_iteration-3.png		roc_curve_lightgbm_iteration-3.png
roc_curve_random_forest_iteration-3.png		roc_curve_random_forest_iteration-3.png
roc_curve_xgboost_iteration-3.png		roc_curve_xgboost_iteration-3.png
sample_review_20250803_174000.txt		sample_review_20250803_174000.txt
shap_lgbm_iteration2.png		shap_lgbm_iteration2.png
shap_lightgbm_iteration2.png		shap_lightgbm_iteration2.png
shap_lightgbm_iteration3.png		shap_lightgbm_iteration3.png
shap_random_forest_iteration2.png		shap_random_forest_iteration2.png
shap_random_forest_iteration3.png		shap_random_forest_iteration3.png
shap_xgboost_iteration2.png		shap_xgboost_iteration2.png
shap_xgboost_iteration3.png		shap_xgboost_iteration3.png
threshold_tuning_results_iteration-3.csv		threshold_tuning_results_iteration-3.csv
trained_lgbm_iteration2.joblib		trained_lgbm_iteration2.joblib
trained_lgbm_iteration3.joblib		trained_lgbm_iteration3.joblib
trained_rf_iteration2.joblib		trained_rf_iteration2.joblib
trained_rf_iteration3.joblib		trained_rf_iteration3.joblib
trained_xgbm_iteration2.joblib		trained_xgbm_iteration2.joblib
trained_xgbm_iteration3.joblib		trained_xgbm_iteration3.joblib
workflowdiagram.drawio.png		workflowdiagram.drawio.png
workflowdiagram.drawio.svg		workflowdiagram.drawio.svg

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

td_prediction_llm

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

td_prediction_llm

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages