📝 Publications

👁️ Multimodal Learning & Visual Reasoning

Alignment Relation is What You Need for Diagram Parsing
Xinyu Zhang, et al., IEEE-TIP 2024 (CCF-A, SCI-Q1)

[Beyond Layer-wise Merging: Dynamic Chain-of-Merging for VLM], Xinyu Zhang, et al., CVPR 2026 (Under Review/Accepted)
[Cognitive Predictive Coding Network], Xinyu Zhang, et al., ACM-MM 2025 (CCF-A)
[Memory-enriched thought-by-thought framework (METbT)], Xinyu Zhang, et al., CVIU 2025 (CCF-B)
[RPMG-FSS: Robust Prior Mask Guided Few-Shot Semantic Segmentation], Xinyu Zhang, et al., IEEE-TCSVT 2023 (CCF-B)
[Evochart: A benchmark towards real-world chart understanding], (Co-author), AAAI 2025
[Cog-dqa: Chain-of-guiding learning for DQA], (Co-author), CVPR 2024