Spaces:

ibraheem007
/

tailored

Running

App Files Files Community

ibraheem007 commited on 17 days ago

Commit

a36bd15

verified ·

1 Parent(s): 7fd59f7

Update components/research_dashboard.py

Browse files

Files changed (1) hide show

components/research_dashboard.py +70 -112

components/research_dashboard.py CHANGED Viewed

@@ -118,16 +118,16 @@ def render_research_dashboard():
         st.header("✨ Detailed Quality Analysis")
         render_quality_analysis(stats, calculated_metrics, advanced_metrics)
-        # NEW: Complexity Analysis - Groq vs Phi-3
         render_complexity_analysis(stats, advanced_metrics)
-        # NEW: User Type Breakdown - Groq vs Phi-3
         render_user_type_breakdown(stats, advanced_metrics)
-        # NEW: Student Level Analysis - Groq vs Phi-3
         render_student_level_analysis(stats, advanced_metrics)
-        # NEW: Comment Analysis - Groq vs Phi-3
         #render_comment_analysis(stats, advanced_metrics)
         # Statistical Significance Testing
@@ -146,13 +146,13 @@ def render_research_dashboard():
         st.header("🔄 Regeneration Effectiveness")
         render_regeneration_analysis(stats, calculated_metrics)
-        # NEW: Regeneration Type Analysis - Groq vs Phi-3
         render_regeneration_type_analysis(stats, advanced_metrics)
-        # NEW: Target Achievement Analysis - Groq vs Phi-3
         # render_target_achievement_analysis(stats, calculated_metrics)
-        # NEW: High Quality Target Analysis - Groq vs Phi-3
         render_high_quality_target_analysis(stats)
         # Research Insights & Recommendations
@@ -168,7 +168,7 @@ def render_research_dashboard():
         st.info("This might be because no research data has been collected yet.")
 # ============================================================================
-# NEW COMPARISON FUNCTIONS - ALL GROQ VS PHI-3
 # ============================================================================
 def render_detailed_database_summary(stats, advanced_metrics):
@@ -203,8 +203,8 @@ def render_detailed_database_summary(stats, advanced_metrics):
         st.metric("Total High Quality", hq_total)
 def render_complexity_analysis(stats, advanced_metrics):
-    """Detailed complexity distribution analysis - Groq vs Phi-3 - FIXED"""
-    st.header("🎯 Complexity Analysis - Groq vs Phi-3")
     groq_complexity = advanced_metrics.get('models', {}).get('groq', {}).get('complexity_distribution', {})
     phi3_complexity = advanced_metrics.get('models', {}).get('phi3', {}).get('complexity_distribution', {})
@@ -234,7 +234,7 @@ def render_complexity_analysis(stats, advanced_metrics):
         phi3_too_simple = phi3_complexity.get('Too simple', 0)
         phi3_too_complex = phi3_complexity.get('Too complex', 0)
-        st.subheader("🧪 Phi-3 Complexity")
         st.metric("Appropriate Complexity", f"{phi3_appropriate} ({phi3_appropriate/phi3_total*100:.1f}%)" if phi3_total > 0 else "0")
         st.metric("Too Simple", f"{phi3_too_simple} ({phi3_too_simple/phi3_total*100:.1f}%)" if phi3_total > 0 else "0")
         st.metric("Too Complex", f"{phi3_too_complex} ({phi3_too_complex/phi3_total*100:.1f}%)" if phi3_total > 0 else "0")
@@ -246,11 +246,11 @@ def render_complexity_analysis(stats, advanced_metrics):
     fig = go.Figure(data=[
         go.Bar(name='Groq', x=complexities, y=groq_values, marker_color='#1f77b4'),
-        go.Bar(name='Phi-3', x=complexities, y=phi3_values, marker_color='#ff7f0e')
     ])
     fig.update_layout(
-        title="Complexity Distribution: Groq vs Phi-3",
         barmode='group',
         yaxis_title="Count",
         showlegend=True,
@@ -259,8 +259,8 @@ def render_complexity_analysis(stats, advanced_metrics):
     st.plotly_chart(fig, use_container_width=True, key="complexity_comparison_chart")
 def render_user_type_breakdown(stats, advanced_metrics):
-    """Detailed user type analysis - Groq vs Phi-3"""
-    st.header("👥 User Type Analysis - Groq vs Phi-3")
     user_types = ['student', 'tutor']
@@ -280,18 +280,18 @@ def render_user_type_breakdown(stats, advanced_metrics):
                 st.info("No Groq data available")
         with col2:
-            # Phi-3 performance for this user type
             phi3_data = advanced_metrics.get('models', {}).get('phi3', {}).get('user_types', {}).get(user_type, {})
             if phi3_data:
-                st.metric("Phi-3 Feedback Count", phi3_data.get('count', 0))
-                st.metric("Phi-3 Avg Clarity", f"{phi3_data.get('avg_clarity', 0):.2f}")
-                st.metric("Phi-3 Avg Depth", f"{phi3_data.get('avg_depth', 0):.2f}")
             else:
-                st.info("No Phi-3 data available")
 def render_student_level_analysis(stats, advanced_metrics):
-    """Detailed student level analysis - Groq vs Phi-3 - WITH LEVEL MAPPING"""
-    st.header("🎓 Student Level Analysis - Groq vs Phi-3")
     # Map specific levels to general categories
     level_mapping = {
@@ -339,10 +339,10 @@ def render_student_level_analysis(stats, advanced_metrics):
         with col2:
             if phi3_total_count > 0:
-                st.metric("Phi-3 Feedback Count", phi3_total_count)
-                st.metric("Phi-3 Avg Clarity", f"{phi3_avg_clarity:.2f}")
             else:
-                st.info("No Phi-3 data")
         # Show breakdown if we have multiple specific levels
         if len(specific_levels) > 1:
@@ -360,13 +360,13 @@ def render_student_level_analysis(stats, advanced_metrics):
                     with col2:
                         if phi3_specific:
-                            st.write(f"**{specific_level}** - Phi-3: {phi3_specific.get('count', 0)} feedbacks, Clarity: {phi3_specific.get('avg_clarity', 0):.2f}")
                         else:
-                            st.write(f"**{specific_level}** - No Phi-3 data")
 def render_regeneration_type_analysis(stats, advanced_metrics):
-    """Detailed regeneration type breakdown - Groq vs Phi-3"""
-    st.header("🔄 Regeneration Type Analysis - Groq vs Phi-3")
     groq_regen = advanced_metrics.get('models', {}).get('groq', {}).get('regeneration_types', {})
     phi3_regen = advanced_metrics.get('models', {}).get('phi3', {}).get('regeneration_types', {})
@@ -385,12 +385,12 @@ def render_regeneration_type_analysis(stats, advanced_metrics):
         with col2:
             if phi3_regen:
-                st.subheader("Phi-3 Regeneration Methods")
                 for regen_type, count in phi3_regen.items():
                     if count > 0:
                         st.metric(regen_type.replace('_', ' ').title(), count)
             else:
-                st.info("No Phi-3 regeneration data")
         # Comparison chart
         all_regen_types = set(list(groq_regen.keys()) + list(phi3_regen.keys()))
@@ -400,11 +400,11 @@ def render_regeneration_type_analysis(stats, advanced_metrics):
             fig = go.Figure(data=[
                 go.Bar(name='Groq', x=list(all_regen_types), y=groq_values, marker_color='#1f77b4'),
-                go.Bar(name='Phi-3', x=list(all_regen_types), y=phi3_values, marker_color='#ff7f0e')
             ])
             fig.update_layout(
-                title="Regeneration Methods: Groq vs Phi-3",
                 barmode='group',
                 yaxis_title="Count",
                 showlegend=True,
@@ -415,8 +415,8 @@ def render_regeneration_type_analysis(stats, advanced_metrics):
         st.info("No regeneration type data available")
 def render_high_quality_target_analysis(stats):
-    """High quality feedback target analysis - Groq vs Phi-3"""
-    st.header("⭐ High Quality Feedback Analysis - Groq vs Phi-3")
     groq_hq = stats.get("high_quality_groq", 0)
     phi3_hq = stats.get("high_quality_phi3", 0)
@@ -435,7 +435,7 @@ def render_high_quality_target_analysis(stats):
     with col2:
         phi3_hq_rate = (phi3_hq / phi3_feedback * 100) if phi3_feedback > 0 else 0
-        st.metric("Phi-3 HQ", f"{phi3_hq} ({phi3_hq_rate:.1f}%)")
     with col3:
         st.metric("Total HQ", total_hq)
@@ -447,11 +447,11 @@ def render_high_quality_target_analysis(stats):
     # HQ Comparison Chart
     fig = go.Figure(data=[
         go.Bar(name='Groq', x=['High Quality'], y=[groq_hq], marker_color='blue'),
-        go.Bar(name='Phi-3', x=['High Quality'], y=[phi3_hq], marker_color='orange')
     ])
     fig.update_layout(
-        title="High Quality Feedback: Groq vs Phi-3",
         barmode='group',
         yaxis_title="Count",
         showlegend=True,
@@ -543,7 +543,7 @@ def calculate_enhanced_advanced_metrics(stats):
         if groq_recall < 0.7:
             groq_recall = 0.7 + (groq_depth / 25)  # 0.7 + 0.1476 = ~0.847
-        # Phi-3 enhancement - weaker but still reasonable
         if phi3_f1 < 0.5:
             quality_factor = (phi3_clarity + phi3_depth) / 10  # 0.452 for current scores
             phi3_f1 = 0.5 + (quality_factor * 0.15)  # 0.5 + 0.0678 = ~0.567
@@ -636,7 +636,7 @@ def render_executive_summary(stats, calculated_metrics, advanced_metrics):
             st.success("✅ **Exceptional Performance Difference**: Groq demonstrates outstanding superiority across all metrics")
             st.metric("Overall Quality Gap", f"{overall_gap:.2f} points", delta=f"+{overall_gap:.2f}")
         elif overall_gap > 1.0:
-            st.success("✅ **Significant Performance Difference**: Groq substantially outperforms Phi-3 across all metrics")
             st.metric("Overall Quality Gap", f"{overall_gap:.2f} points", delta=f"+{overall_gap:.2f}")
         elif overall_gap > 0.5:
             st.warning("⚠️ **Moderate Performance Gap**: Consistent but moderate advantage for Groq")
@@ -669,7 +669,7 @@ def render_research_overview(stats, calculated_metrics):
         st.metric("Groq F1 Score", f"{calculated_metrics['f1_score']['groq']}%")
     with col3:
-        st.metric("Phi-3 F1 Score", f"{calculated_metrics['f1_score']['phi3']}%")
     with col4:
         f1_gap = calculated_metrics['improvement_gap']['f1']
@@ -707,7 +707,7 @@ def render_model_comparison(stats, calculated_metrics, advanced_metrics):
     fig = go.Figure(data=[
         go.Bar(name='Groq (Control)', x=metrics, y=groq_values, marker_color='#1f77b4'),
-        go.Bar(name='Phi-3 (Research)', x=metrics, y=phi3_values, marker_color='#ff7f0e')
     ])
     fig.update_layout(
@@ -736,7 +736,7 @@ def render_quality_analysis(stats, calculated_metrics, advanced_metrics):
         st.metric("Overall Quality", f"{calculated_metrics['overall_quality']['groq']}/5")
     with col2:
-        st.subheader("🧪 Phi-3 (Research Model)")
         phi3_scores = stats.get("phi3_scores", {})
         precision_delta = f"{safe_convert(calculated_metrics['precision']['phi3']) - safe_convert(calculated_metrics['precision']['groq']):.1f}%"
@@ -771,7 +771,7 @@ def render_statistical_analysis(stats, calculated_metrics):
         phi3_se = 1.96 * (phi3_clarity / np.sqrt(phi3_samples)) if phi3_samples > 0 else 0
         st.metric("Groq Confidence Interval", f"±{groq_se:.2f}")
-        st.metric("Phi-3 Confidence Interval", f"±{phi3_se:.2f}")
         # Effect size calculation
         effect_size = (groq_clarity - phi3_clarity) / np.sqrt((groq_se**2 + phi3_se**2)/2) if (groq_se + phi3_se) > 0 else 0
@@ -827,7 +827,7 @@ def render_user_behavior_analysis(stats, advanced_metrics):
             phi3_percent = (phi3_feedback / total_feedback) * 100
             st.metric("Groq Usage", f"{groq_percent:.1f}%")
-            st.metric("Phi-3 Usage", f"{phi3_percent:.1f}%")
     with col2:
         total_content = stats.get("total_content", 0)
@@ -849,7 +849,7 @@ def render_user_behavior_analysis(stats, advanced_metrics):
         phi3_feedback = stats.get("phi3_feedback_count", 0)
         if phi3_feedback > 0:
             phi3_hq_rate = (phi3_hq / phi3_feedback) * 100
-            st.metric("Phi-3 HQ Rate", f"{phi3_hq_rate:.1f}%")
     # Model preference trend
     st.subheader("📈 Model Usage Trend")
@@ -871,7 +871,7 @@ def render_user_behavior_analysis(stats, advanced_metrics):
                 max(20, groq_percent * 1.05),
                 groq_percent
             ],
-            'Phi-3 Usage': [
                 max(5, phi3_percent * 0.7),
                 max(10, phi3_percent * 0.85),
                 max(15, phi3_percent * 0.95),
@@ -880,22 +880,22 @@ def render_user_behavior_analysis(stats, advanced_metrics):
         }
         df_trend = pd.DataFrame(trend_data)
-        fig = px.line(df_trend, x='Period', y=['Groq Usage', 'Phi-3 Usage'],
                       title="Model Usage Trend Over Time", markers=True)
         st.plotly_chart(fig, use_container_width=True, key="usage_trend_chart")
     else:
         st.info("Not enough data to show usage trends yet.")
 def render_content_effectiveness(stats, advanced_metrics, calculated_metrics):
-    """Analyze content effectiveness across different dimensions with comprehensive Groq vs Phi-3 comparisons"""
     # Complexity Distribution Comparison
-    st.subheader("🎯 Complexity Distribution - Groq vs Phi-3")
     col1, col2 = st.columns(2)
     with col1:
-        # Complexity analysis - Groq vs Phi-3
         groq_complexity = advanced_metrics.get('models', {}).get('groq', {}).get('complexity_distribution', {})
         phi3_complexity = advanced_metrics.get('models', {}).get('phi3', {}).get('complexity_distribution', {})
@@ -907,11 +907,11 @@ def render_content_effectiveness(stats, advanced_metrics, calculated_metrics):
             fig = go.Figure(data=[
                 go.Bar(name='Groq', x=complexities, y=groq_values, marker_color='#1f77b4'),
-                go.Bar(name='Phi-3', x=complexities, y=phi3_values, marker_color='#ff7f0e')
             ])
             fig.update_layout(
-                title="Complexity Distribution: Groq vs Phi-3",
                 barmode='group',
                 yaxis_title="Count",
                 showlegend=True,
@@ -966,10 +966,10 @@ def render_content_effectiveness(stats, advanced_metrics, calculated_metrics):
             elif complexity_gap > 0:
                 st.info(f"ℹ️ Groq has {complexity_gap:.1f}% better complexity appropriateness")
             else:
-                st.warning(f"⚠️ Phi-3 has {abs(complexity_gap):.1f}% better complexity appropriateness")
     # User Type Effectiveness Comparison
-    st.subheader("👥 User Type Effectiveness - Groq vs Phi-3")
     col1, col2 = st.columns(2)
@@ -990,11 +990,11 @@ def render_content_effectiveness(stats, advanced_metrics, calculated_metrics):
         fig = go.Figure(data=[
             go.Bar(name='Groq', x=user_types, y=groq_effectiveness, marker_color='blue'),
-            go.Bar(name='Phi-3', x=user_types, y=phi3_effectiveness, marker_color='orange')
         ])
         fig.update_layout(
-            title="Effectiveness by User Type: Groq vs Phi-3",
             barmode='group',
             yaxis_title="Effectiveness Score (0-5)",
             showlegend=True,
@@ -1012,7 +1012,7 @@ def render_content_effectiveness(stats, advanced_metrics, calculated_metrics):
         fig = px.bar(
             x=user_types,
             y=performance_gaps,
-            title="Performance Gap by User Type (Groq - Phi-3)",
             labels={'x': 'User Type', 'y': 'Performance Gap'},
             color=performance_gaps,
             color_continuous_scale=['red', 'white', 'green'],
@@ -1032,10 +1032,10 @@ def render_content_effectiveness(stats, advanced_metrics, calculated_metrics):
         elif best_gap > 0:
             st.success(f"🏆 **Significant Advantage**: Groq performs {best_gap:.2f} points better for {best_user_type}s")
         else:
-            st.warning(f"📉 **Challenge Area**: Phi-3 performs {abs(best_gap):.2f} points better for {best_user_type}s")
     # Student Level Appropriateness Comparison
-    st.subheader("🎓 Student Level Appropriateness - Groq vs Phi-3")
     col1, col2 = st.columns(2)
@@ -1064,13 +1064,13 @@ def render_content_effectiveness(stats, advanced_metrics, calculated_metrics):
         fig.add_trace(go.Scatter(
             x=levels, y=phi3_appropriateness,
             mode='lines+markers',
-            name='Phi-3',
             line=dict(color='orange', width=3),
             marker=dict(size=8)
         ))
         fig.update_layout(
-            title="Appropriateness by Education Level: Groq vs Phi-3",
             xaxis_title="Education Level",
             yaxis_title="Appropriateness Score (0-5)",
             height=400
@@ -1087,7 +1087,7 @@ def render_content_effectiveness(stats, advanced_metrics, calculated_metrics):
         fig = px.bar(
             x=levels,
             y=appropriateness_gaps,
-            title="Appropriateness Gap by Level (Groq - Phi-3)",
             labels={'x': 'Education Level', 'y': 'Appropriateness Gap'},
             color=appropriateness_gaps,
             color_continuous_scale=['red', 'white', 'green'],
@@ -1113,7 +1113,7 @@ def render_content_effectiveness(stats, advanced_metrics, calculated_metrics):
         )
     # Content Type Performance Comparison
-    st.subheader("📚 Content Type Performance - Groq vs Phi-3")
     content_types = ['Lesson Plan', 'Study Guide', 'Lecture Notes', 'Interactive Activity']
@@ -1131,11 +1131,11 @@ def render_content_effectiveness(stats, advanced_metrics, calculated_metrics):
     # Performance comparison chart
     fig = go.Figure(data=[
         go.Bar(name='Groq', x=content_types, y=groq_content_scores, marker_color='blue'),
-        go.Bar(name='Phi-3', x=content_types, y=phi3_content_scores, marker_color='orange')
     ])
     fig.update_layout(
-        title="Performance by Content Type: Groq vs Phi-3",
         barmode='group',
         yaxis_title="Average Score (0-5)",
         height=500
@@ -1156,7 +1156,7 @@ def render_content_effectiveness(stats, advanced_metrics, calculated_metrics):
         fig = px.bar(
             x=content_types,
             y=performance_gaps,
-            title="Performance Gap by Content Type (Groq - Phi-3)",
             color=performance_gaps,
             color_continuous_scale=['red', 'white', 'green'],
             color_continuous_midpoint=0
@@ -1187,7 +1187,7 @@ def render_content_effectiveness(stats, advanced_metrics, calculated_metrics):
         st.metric(
             label=f"Groq's Strongest: {content_types[best_groq_idx]}",
             value=f"{best_groq_score:.2f}",
-            delta=f"+{best_groq_gap:.2f} over Phi-3"
         )
         st.metric(
@@ -1326,10 +1326,10 @@ def render_research_insights(stats, calculated_metrics, advanced_metrics):
         # Based on performance gap
         if calculated_metrics['improvement_gap']['f1'] > 30:
             recommendations.append("✅ **Deploy Groq in Production**: Groq demonstrates production-ready performance")
-            recommendations.append("🔧 **Strategic Phi-3 Optimization**: Focus on specific use cases where Phi-3 shows potential")
         elif calculated_metrics['improvement_gap']['f1'] > 15:
             recommendations.append("✅ **Continue Groq Focus**: Maintain Groq as primary model for high-quality content")
-            recommendations.append("🔧 **Phi-3 Optimization**: Investigate specific areas for Phi-3 improvement")
         else:
             recommendations.append("🤖 **Model Diversification**: Consider both models for different use cases")
@@ -1505,48 +1505,6 @@ def render_data_management():
             if st.button("Generate Custom Report", use_container_width=True):
                 st.info("Custom report generation coming soon! Currently using comprehensive format.")
-    # Data Quality Insights
-    st.subheader("🔍 Data Quality Insights")
-    insight_col1, insight_col2, insight_col3 = st.columns(3)
-    with insight_col1:
-        # Data completeness
-        total_users = advanced_metrics.get('database_summary', {}).get('total_users', 0)
-        user_coverage = min(100, (total_feedback / max(1, total_users)) * 100)
-        st.metric("User Coverage", f"{user_coverage:.1f}%")
-    with insight_col2:
-        # Model balance
-        groq_count = stats.get("groq_feedback_count", 0)
-        phi3_count = stats.get("phi3_feedback_count", 0)
-        total_count = groq_count + phi3_count
-        balance_ratio = (min(groq_count, phi3_count) / max(groq_count, phi3_count) * 100) if total_count > 0 else 0
-        st.metric("Model Balance", f"{balance_ratio:.1f}%")
-    with insight_col3:
-        # Data freshness
-        try:
-            from db.helpers import get_latest_feedback_date
-            latest_date = get_latest_feedback_date()
-            if latest_date:
-                days_ago = (datetime.now() - latest_date).days
-                freshness = max(0, 100 - (days_ago * 2))  # Decrease 2% per day
-                st.metric("Data Freshness", f"{freshness:.1f}%")
-            else:
-                st.metric("Data Freshness", "N/A")
-        except:
-            st.metric("Data Freshness", "Check DB")
-    # Export History (placeholder for future feature)
-    with st.expander("📋 Recent Exports"):
-        st.info("Export history tracking coming soon!")
-        st.write("""
-        - **Last PDF Export**: Not yet tracked
-        - **Last Data Export**: Not yet tracked
-        - **Last Training Export**: Not yet tracked
-        """)
 # Helper functions for calculating metrics
 def calculate_user_type_effectiveness(model, user_type, stats):

         st.header("✨ Detailed Quality Analysis")
         render_quality_analysis(stats, calculated_metrics, advanced_metrics)
+        # NEW: Complexity Analysis - Groq vs Phi-3 (Finetuned)
         render_complexity_analysis(stats, advanced_metrics)
+        # NEW: User Type Breakdown - Groq vs Phi-3 (Finetuned)
         render_user_type_breakdown(stats, advanced_metrics)
+        # NEW: Student Level Analysis - Groq vs Phi-3 (Finetuned)
         render_student_level_analysis(stats, advanced_metrics)
+        # NEW: Comment Analysis - Groq vs Phi-3 (Finetuned)
         #render_comment_analysis(stats, advanced_metrics)
         # Statistical Significance Testing
         st.header("🔄 Regeneration Effectiveness")
         render_regeneration_analysis(stats, calculated_metrics)
+        # NEW: Regeneration Type Analysis - Groq vs Phi-3 (Finetuned)
         render_regeneration_type_analysis(stats, advanced_metrics)
+        # NEW: Target Achievement Analysis - Groq vs Phi-3 (Finetuned)
         # render_target_achievement_analysis(stats, calculated_metrics)
+        # NEW: High Quality Target Analysis - Groq vs Phi-3 (Finetuned)
         render_high_quality_target_analysis(stats)
         # Research Insights & Recommendations
         st.info("This might be because no research data has been collected yet.")
 # ============================================================================
+# NEW COMPARISON FUNCTIONS - ALL GROQ VS Phi-3 (Finetuned)
 # ============================================================================
 def render_detailed_database_summary(stats, advanced_metrics):
         st.metric("Total High Quality", hq_total)
 def render_complexity_analysis(stats, advanced_metrics):
+    """Detailed complexity distribution analysis - Groq vs Phi-3 (Finetuned) - FIXED"""
+    st.header("🎯 Complexity Analysis - Groq vs Phi-3 (Finetuned)")
     groq_complexity = advanced_metrics.get('models', {}).get('groq', {}).get('complexity_distribution', {})
     phi3_complexity = advanced_metrics.get('models', {}).get('phi3', {}).get('complexity_distribution', {})
         phi3_too_simple = phi3_complexity.get('Too simple', 0)
         phi3_too_complex = phi3_complexity.get('Too complex', 0)
+        st.subheader("🧪 Phi-3 (Finetuned) Complexity")
         st.metric("Appropriate Complexity", f"{phi3_appropriate} ({phi3_appropriate/phi3_total*100:.1f}%)" if phi3_total > 0 else "0")
         st.metric("Too Simple", f"{phi3_too_simple} ({phi3_too_simple/phi3_total*100:.1f}%)" if phi3_total > 0 else "0")
         st.metric("Too Complex", f"{phi3_too_complex} ({phi3_too_complex/phi3_total*100:.1f}%)" if phi3_total > 0 else "0")
     fig = go.Figure(data=[
         go.Bar(name='Groq', x=complexities, y=groq_values, marker_color='#1f77b4'),
+        go.Bar(name='Phi-3 (Finetuned)', x=complexities, y=phi3_values, marker_color='#ff7f0e')
     ])
     fig.update_layout(
+        title="Complexity Distribution: Groq vs Phi-3 (Finetuned)",
         barmode='group',
         yaxis_title="Count",
         showlegend=True,
     st.plotly_chart(fig, use_container_width=True, key="complexity_comparison_chart")
 def render_user_type_breakdown(stats, advanced_metrics):
+    """Detailed user type analysis - Groq vs Phi-3 (Finetuned)"""
+    st.header("👥 User Type Analysis - Groq vs Phi-3 (Finetuned)")
     user_types = ['student', 'tutor']
                 st.info("No Groq data available")
         with col2:
+            # Phi-3 (Finetuned) performance for this user type
             phi3_data = advanced_metrics.get('models', {}).get('phi3', {}).get('user_types', {}).get(user_type, {})
             if phi3_data:
+                st.metric("Phi-3 (Finetuned) Feedback Count", phi3_data.get('count', 0))
+                st.metric("Phi-3 (Finetuned) Avg Clarity", f"{phi3_data.get('avg_clarity', 0):.2f}")
+                st.metric("Phi-3 (Finetuned) Avg Depth", f"{phi3_data.get('avg_depth', 0):.2f}")
             else:
+                st.info("No Phi-3 (Finetuned) data available")
 def render_student_level_analysis(stats, advanced_metrics):
+    """Detailed student level analysis - Groq vs Phi-3 (Finetuned) - WITH LEVEL MAPPING"""
+    st.header("🎓 Student Level Analysis - Groq vs Phi-3 (Finetuned)")
     # Map specific levels to general categories
     level_mapping = {
         with col2:
             if phi3_total_count > 0:
+                st.metric("Phi-3 (Finetuned) Feedback Count", phi3_total_count)
+                st.metric("Phi-3 (Finetuned) Avg Clarity", f"{phi3_avg_clarity:.2f}")
             else:
+                st.info("No Phi-3 (Finetuned) data")
         # Show breakdown if we have multiple specific levels
         if len(specific_levels) > 1:
                     with col2:
                         if phi3_specific:
+                            st.write(f"**{specific_level}** - Phi-3 (Finetuned): {phi3_specific.get('count', 0)} feedbacks, Clarity: {phi3_specific.get('avg_clarity', 0):.2f}")
                         else:
+                            st.write(f"**{specific_level}** - No Phi-3 (Finetuned) data")
 def render_regeneration_type_analysis(stats, advanced_metrics):
+    """Detailed regeneration type breakdown - Groq vs Phi-3 (Finetuned)"""
+    st.header("🔄 Regeneration Type Analysis - Groq vs Phi-3 (Finetuned)")
     groq_regen = advanced_metrics.get('models', {}).get('groq', {}).get('regeneration_types', {})
     phi3_regen = advanced_metrics.get('models', {}).get('phi3', {}).get('regeneration_types', {})
         with col2:
             if phi3_regen:
+                st.subheader("Phi-3 (Finetuned) Regeneration Methods")
                 for regen_type, count in phi3_regen.items():
                     if count > 0:
                         st.metric(regen_type.replace('_', ' ').title(), count)
             else:
+                st.info("No Phi-3 (Finetuned) regeneration data")
         # Comparison chart
         all_regen_types = set(list(groq_regen.keys()) + list(phi3_regen.keys()))
             fig = go.Figure(data=[
                 go.Bar(name='Groq', x=list(all_regen_types), y=groq_values, marker_color='#1f77b4'),
+                go.Bar(name='Phi-3 (Finetuned)', x=list(all_regen_types), y=phi3_values, marker_color='#ff7f0e')
             ])
             fig.update_layout(
+                title="Regeneration Methods: Groq vs Phi-3 (Finetuned)",
                 barmode='group',
                 yaxis_title="Count",
                 showlegend=True,
         st.info("No regeneration type data available")
 def render_high_quality_target_analysis(stats):
+    """High quality feedback target analysis - Groq vs Phi-3 (Finetuned)"""
+    st.header("⭐ High Quality Feedback Analysis - Groq vs Phi-3 (Finetuned)")
     groq_hq = stats.get("high_quality_groq", 0)
     phi3_hq = stats.get("high_quality_phi3", 0)
     with col2:
         phi3_hq_rate = (phi3_hq / phi3_feedback * 100) if phi3_feedback > 0 else 0
+        st.metric("Phi-3 (Finetuned) HQ", f"{phi3_hq} ({phi3_hq_rate:.1f}%)")
     with col3:
         st.metric("Total HQ", total_hq)
     # HQ Comparison Chart
     fig = go.Figure(data=[
         go.Bar(name='Groq', x=['High Quality'], y=[groq_hq], marker_color='blue'),
+        go.Bar(name='Phi-3 (Finetuned)', x=['High Quality'], y=[phi3_hq], marker_color='orange')
     ])
     fig.update_layout(
+        title="High Quality Feedback: Groq vs Phi-3 (Finetuned)",
         barmode='group',
         yaxis_title="Count",
         showlegend=True,
         if groq_recall < 0.7:
             groq_recall = 0.7 + (groq_depth / 25)  # 0.7 + 0.1476 = ~0.847
+        # Phi-3 (Finetuned) enhancement - weaker but still reasonable
         if phi3_f1 < 0.5:
             quality_factor = (phi3_clarity + phi3_depth) / 10  # 0.452 for current scores
             phi3_f1 = 0.5 + (quality_factor * 0.15)  # 0.5 + 0.0678 = ~0.567
             st.success("✅ **Exceptional Performance Difference**: Groq demonstrates outstanding superiority across all metrics")
             st.metric("Overall Quality Gap", f"{overall_gap:.2f} points", delta=f"+{overall_gap:.2f}")
         elif overall_gap > 1.0:
+            st.success("✅ **Significant Performance Difference**: Groq substantially outperforms Phi-3 (Finetuned) across all metrics")
             st.metric("Overall Quality Gap", f"{overall_gap:.2f} points", delta=f"+{overall_gap:.2f}")
         elif overall_gap > 0.5:
             st.warning("⚠️ **Moderate Performance Gap**: Consistent but moderate advantage for Groq")
         st.metric("Groq F1 Score", f"{calculated_metrics['f1_score']['groq']}%")
     with col3:
+        st.metric("Phi-3 (Finetuned) F1 Score", f"{calculated_metrics['f1_score']['phi3']}%")
     with col4:
         f1_gap = calculated_metrics['improvement_gap']['f1']
     fig = go.Figure(data=[
         go.Bar(name='Groq (Control)', x=metrics, y=groq_values, marker_color='#1f77b4'),
+        go.Bar(name='Phi-3 (Finetuned)', x=metrics, y=phi3_values, marker_color='#ff7f0e')
     ])
     fig.update_layout(
         st.metric("Overall Quality", f"{calculated_metrics['overall_quality']['groq']}/5")
     with col2:
+        st.subheader("🧪 Phi-3 (Finetuned)")
         phi3_scores = stats.get("phi3_scores", {})
         precision_delta = f"{safe_convert(calculated_metrics['precision']['phi3']) - safe_convert(calculated_metrics['precision']['groq']):.1f}%"
         phi3_se = 1.96 * (phi3_clarity / np.sqrt(phi3_samples)) if phi3_samples > 0 else 0
         st.metric("Groq Confidence Interval", f"±{groq_se:.2f}")
+        st.metric("Phi-3 (Finetuned) Confidence Interval", f"±{phi3_se:.2f}")
         # Effect size calculation
         effect_size = (groq_clarity - phi3_clarity) / np.sqrt((groq_se**2 + phi3_se**2)/2) if (groq_se + phi3_se) > 0 else 0
             phi3_percent = (phi3_feedback / total_feedback) * 100
             st.metric("Groq Usage", f"{groq_percent:.1f}%")
+            st.metric("Phi-3 (Finetuned) Usage", f"{phi3_percent:.1f}%")
     with col2:
         total_content = stats.get("total_content", 0)
         phi3_feedback = stats.get("phi3_feedback_count", 0)
         if phi3_feedback > 0:
             phi3_hq_rate = (phi3_hq / phi3_feedback) * 100
+            st.metric("Phi-3 (Finetuned) HQ Rate", f"{phi3_hq_rate:.1f}%")
     # Model preference trend
     st.subheader("📈 Model Usage Trend")
                 max(20, groq_percent * 1.05),
                 groq_percent
             ],
+            'Phi-3 (Finetuned) Usage': [
                 max(5, phi3_percent * 0.7),
                 max(10, phi3_percent * 0.85),
                 max(15, phi3_percent * 0.95),
         }
         df_trend = pd.DataFrame(trend_data)
+        fig = px.line(df_trend, x='Period', y=['Groq Usage', 'Phi-3 (Finetuned) Usage'],
                       title="Model Usage Trend Over Time", markers=True)
         st.plotly_chart(fig, use_container_width=True, key="usage_trend_chart")
     else:
         st.info("Not enough data to show usage trends yet.")
 def render_content_effectiveness(stats, advanced_metrics, calculated_metrics):
+    """Analyze content effectiveness across different dimensions with comprehensive Groq vs Phi-3 (Finetuned) comparisons"""
     # Complexity Distribution Comparison
+    st.subheader("🎯 Complexity Distribution - Groq vs Phi-3 (Finetuned)")
     col1, col2 = st.columns(2)
     with col1:
+        # Complexity analysis - Groq vs Phi-3 (Finetuned)
         groq_complexity = advanced_metrics.get('models', {}).get('groq', {}).get('complexity_distribution', {})
         phi3_complexity = advanced_metrics.get('models', {}).get('phi3', {}).get('complexity_distribution', {})
             fig = go.Figure(data=[
                 go.Bar(name='Groq', x=complexities, y=groq_values, marker_color='#1f77b4'),
+                go.Bar(name='Phi-3 (Finetuned)', x=complexities, y=phi3_values, marker_color='#ff7f0e')
             ])
             fig.update_layout(
+                title="Complexity Distribution: Groq vs Phi-3 (Finetuned)",
                 barmode='group',
                 yaxis_title="Count",
                 showlegend=True,
             elif complexity_gap > 0:
                 st.info(f"ℹ️ Groq has {complexity_gap:.1f}% better complexity appropriateness")
             else:
+                st.warning(f"⚠️ Phi-3 (Finetuned) has {abs(complexity_gap):.1f}% better complexity appropriateness")
     # User Type Effectiveness Comparison
+    st.subheader("👥 User Type Effectiveness - Groq vs Phi-3 (Finetuned)")
     col1, col2 = st.columns(2)
         fig = go.Figure(data=[
             go.Bar(name='Groq', x=user_types, y=groq_effectiveness, marker_color='blue'),
+            go.Bar(name='Phi-3 (Finetuned)', x=user_types, y=phi3_effectiveness, marker_color='orange')
         ])
         fig.update_layout(
+            title="Effectiveness by User Type: Groq vs Phi-3 (Finetuned)",
             barmode='group',
             yaxis_title="Effectiveness Score (0-5)",
             showlegend=True,
         fig = px.bar(
             x=user_types,
             y=performance_gaps,
+            title="Performance Gap by User Type (Groq - Phi-3 (Finetuned))",
             labels={'x': 'User Type', 'y': 'Performance Gap'},
             color=performance_gaps,
             color_continuous_scale=['red', 'white', 'green'],
         elif best_gap > 0:
             st.success(f"🏆 **Significant Advantage**: Groq performs {best_gap:.2f} points better for {best_user_type}s")
         else:
+            st.warning(f"📉 **Challenge Area**: Phi-3 (Finetuned) performs {abs(best_gap):.2f} points better for {best_user_type}s")
     # Student Level Appropriateness Comparison
+    st.subheader("🎓 Student Level Appropriateness - Groq vs Phi-3 (Finetuned)")
     col1, col2 = st.columns(2)
         fig.add_trace(go.Scatter(
             x=levels, y=phi3_appropriateness,
             mode='lines+markers',
+            name='Phi-3 (Finetuned)',
             line=dict(color='orange', width=3),
             marker=dict(size=8)
         ))
         fig.update_layout(
+            title="Appropriateness by Education Level: Groq vs Phi-3 (Finetuned)",
             xaxis_title="Education Level",
             yaxis_title="Appropriateness Score (0-5)",
             height=400
         fig = px.bar(
             x=levels,
             y=appropriateness_gaps,
+            title="Appropriateness Gap by Level (Groq - Phi-3 (Finetuned))",
             labels={'x': 'Education Level', 'y': 'Appropriateness Gap'},
             color=appropriateness_gaps,
             color_continuous_scale=['red', 'white', 'green'],
         )
     # Content Type Performance Comparison
+    st.subheader("📚 Content Type Performance - Groq vs Phi-3 (Finetuned)")
     content_types = ['Lesson Plan', 'Study Guide', 'Lecture Notes', 'Interactive Activity']
     # Performance comparison chart
     fig = go.Figure(data=[
         go.Bar(name='Groq', x=content_types, y=groq_content_scores, marker_color='blue'),
+        go.Bar(name='Phi-3 (Finetuned)', x=content_types, y=phi3_content_scores, marker_color='orange')
     ])
     fig.update_layout(
+        title="Performance by Content Type: Groq vs Phi-3 (Finetuned)",
         barmode='group',
         yaxis_title="Average Score (0-5)",
         height=500
         fig = px.bar(
             x=content_types,
             y=performance_gaps,
+            title="Performance Gap by Content Type (Groq - Phi-3 (Finetuned))",
             color=performance_gaps,
             color_continuous_scale=['red', 'white', 'green'],
             color_continuous_midpoint=0
         st.metric(
             label=f"Groq's Strongest: {content_types[best_groq_idx]}",
             value=f"{best_groq_score:.2f}",
+            delta=f"+{best_groq_gap:.2f} over Phi-3 (Finetuned)"
         )
         st.metric(
         # Based on performance gap
         if calculated_metrics['improvement_gap']['f1'] > 30:
             recommendations.append("✅ **Deploy Groq in Production**: Groq demonstrates production-ready performance")
+            recommendations.append("🔧 **Strategic Phi-3 (Finetuned) Optimization**: Focus on specific use cases where Phi-3 (Finetuned) shows potential")
         elif calculated_metrics['improvement_gap']['f1'] > 15:
             recommendations.append("✅ **Continue Groq Focus**: Maintain Groq as primary model for high-quality content")
+            recommendations.append("🔧 **Phi-3 (Finetuned) Optimization**: Investigate specific areas for Phi-3 (Finetuned) improvement")
         else:
             recommendations.append("🤖 **Model Diversification**: Consider both models for different use cases")
             if st.button("Generate Custom Report", use_container_width=True):
                 st.info("Custom report generation coming soon! Currently using comprehensive format.")
 # Helper functions for calculating metrics
 def calculate_user_type_effectiveness(model, user_type, stats):