4 36 8

JGC

Nothing2Say

jiangguochaoGG

AI & ML interests

None yet

Recent Activity

upvoted a paper about 17 hours ago

ProRL: Effective Reinforcement Learning for Proactive Recommendation via Rectified Policy Gradient Estimation

upvoted a paper 1 day ago

Efficient Agentic Reinforcement Learning with On-Policy Intrinsic Knowledge Boundary Enhancement

authored a paper 3 days ago

DVAO: Dynamic Variance-adaptive Advantage Optimization for Multi-reward Reinforcement Learning

View all activity

Organizations

None yet

upvoted a paper about 17 hours ago

ProRL: Effective Reinforcement Learning for Proactive Recommendation via Rectified Policy Gradient Estimation

Paper • 2605.28293 • Published 2 days ago • 76

upvoted a paper 1 day ago

Efficient Agentic Reinforcement Learning with On-Policy Intrinsic Knowledge Boundary Enhancement

Paper • 2605.26952 • Published 3 days ago • 12

authored a paper 3 days ago

DVAO: Dynamic Variance-adaptive Advantage Optimization for Multi-reward Reinforcement Learning

Paper • 2605.25604 • Published 4 days ago • 129

submitted a paper to Daily Papers 3 days ago

DVAO: Dynamic Variance-adaptive Advantage Optimization for Multi-reward Reinforcement Learning

Paper • 2605.25604 • Published 4 days ago • 129

upvoted a paper 3 days ago

DVAO: Dynamic Variance-adaptive Advantage Optimization for Multi-reward Reinforcement Learning

Paper • 2605.25604 • Published 4 days ago • 129

liked a model about 1 month ago

deepseek-ai/DeepSeek-V4-Pro

Text Generation • 862B • Updated 23 days ago • 5.28M • • 4.4k

upvoted a paper about 2 months ago

Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability

Paper • 2604.06628 • Published Apr 8 • 326

authored 2 papers about 2 months ago

Beyond Stochastic Exploration: What Makes Training Data Valuable for Agentic Search

Paper • 2604.08124 • Published Apr 9 • 5

FAQ: Mitigating Quantization Error via Regenerating Calibration Data with Family-Aware Quantization

Paper • 2601.11200 • Published Jan 16

upvoted a paper about 2 months ago

Beyond Stochastic Exploration: What Makes Training Data Valuable for Agentic Search

Paper • 2604.08124 • Published Apr 9 • 5

submitted a paper to Daily Papers about 2 months ago

Beyond Stochastic Exploration: What Makes Training Data Valuable for Agentic Search

Paper • 2604.08124 • Published Apr 9 • 5

liked 2 models 4 months ago

moonshotai/Kimi-K2.5

Image-Text-to-Text • 1.1T • Updated 29 days ago • 1.45M • • 2.8k

Wandou72/GDPO_test

Updated Jan 19 • 1

upvoted 2 papers 5 months ago

GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization

Paper • 2601.05242 • Published Jan 8 • 232

Youtu-Agent: Scaling Agent Productivity with Automated Generation and Hybrid Policy Optimization

Paper • 2512.24615 • Published Dec 31, 2025 • 119

upvoted 3 papers 7 months ago

upvoted 2 papers 8 months ago

Training-Free Group Relative Policy Optimization

Paper • 2510.08191 • Published Oct 9, 2025 • 46

Tree Search for LLM Agent Reinforcement Learning

Paper • 2509.21240 • Published Sep 25, 2025 • 92

JGC

AI & ML interests

Recent Activity

Organizations

Nothing2Say's activity