基于深度学习的中文文本分类综述-技术圈



   

    

     

      

       

        

         来源：专知

        


       


      


     


    


   


   

    

     

      

       

        本文为论文介绍，建议阅读5分钟


        

         本文将简要介绍传统机器学习的文本分类方法， 详细阐述使用深度学习的文本分类方法。

大数据时代，随着社交媒体的不断普及，在网络以及生活中，各类文本数据日益增长，采用文本分类技术对文本数据进行分析和管理具有重要的意义。文本分类是自然语言处理领域中的一个基础研究内容，在给定标准下，根据内容对文本进行分类，文本分类的场景应用十分广泛，如情感分析、话题分类和关系分类等。深度学习是机器学习中一种基于对数据进行表征学习的方法，在文本数据处理中表现出了较好的分类效果。中文文本与英文文本在形、音、象上都有着区别，着眼于中文文本分类的特别之处，对用于中文文本分类的深度学习方法进行分析与阐述，最终梳理出常用于中文文本分类的数据集。

文本分类是指为文本指定预定义标签的过程, 是许多自然语言处理 NLP(NaturalLanguage Processing)应用程序中的一项重要任务,具有众多的应用场景,例如情感分析[1]如图1所示;问答系统[2,3]的基本流程如图2所示;对话行为分类[4]、话题分类[5]等。近年来,国内外的文本分类研究者在传统机器学习和深度学习2个方向对文本分类问题做了许多探索和研究。本文将简要介绍传统机器学习的文本分类方法,详细阐述使用深度学习的文本分类方法。