王芳芳
一、教师基本信息
姓名: 王芳芳
办公电话:无
指导专业:计算机科学与技术
二、研究领域及方向
计算机视觉、深度学习、多模态理解、文本检测及OCR、视频生理信号分析等
Google Scholar主页://scholar.google.com/citations?user=T5pyEAoAAAAJ&hl=zh-CN
三、主讲课程
【本科生】暂无
【研究生】暂无
四、教育及工作经历
2021年于浙江大学计算机科学与技术成人视频 人工智能研究所取得工学博士学位并于同年进入之江实验室博士后工作站,2024年8月起任职于成人视频 。
五、学术简介
主要研究方向为场景文本检测与识别、跨模态检索以及大语言模型在计算机视觉领域的应用,相关研究成果发表在CVPR、MM、TIP等CCF-A类会议和期刊。主持国家自然科学基金青年项目和中国博士后科学基金面上项目。
六、科研成果
【科研项目】
[1] 国家自然科学基金委员会,青年基金项目,面向多语种场景文本检测的增量语义建模与域适应方法研究
[2] 中国博士后科学基金会,面上资助项目,面向多语种场景文本提取的细粒度语义建模与跨模态编解码方法研究
[3] 浙江省自然科学基金委员会,探索项目,复杂开放环境下的多模态视觉关键知识感知研究
【发表论文】
[1] Geometry-Aware Scene Text Detection With Instance Transformation Network. IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2018: 1381-1389(CCF-A)
[2] TextRay: Contour-based Geometric Modeling for Arbitrary-shaped Scene Text Detection. ACM International Conference on Multimedia (MM) 2020: 111-119(CCF-A,Oral)
[3] Fuzzy Semantics for Arbitrary-shaped Scene Text Detection. IEEE Transactions on Image Processing (TIP), 2022, 32: 1-12.(CCF-A)
[4] Dynamic Network for Language-based Fashion Retrieval. In Proceedings of ACM Multimedia International Workshop on Deep Multimodal Learning for Information Retrieval, pp. 49-57. 2023. (CCF-A)
[5] BANet: Bidirectional Aggregation Network with Occlusion Handling for Panoptic Segmentation. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2020: 3793-3802.(CCF-A)
[6] Self-distilled Dynamic Fusion Network for Language-based Fashion Retrieval. In Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing, 2024. (CCF-B)
[7] Graph-theoretic spatiotemporal context modeling for video saliency detection. In Proceedings of the IEEE International Conference on Image Processing (ICIP), 2017: 4197-4201(CCF-C)
【教材(专著)】
无
【专利】
[1]一种基于模糊语义建模的深度场景文本检测方法和装置
[2]一种基于跨模态大语言模型的场景文本检测与识别方法
[3]一种基于端到端全卷积神经网络的场景文本检测方法
七、荣誉与奖励
无