⭐️Wit.ai
文档: wit.ai/docs
Demo: labs.wit.ai/demo/index.…
如果需要为开发人员提供与语音自动化相关的日常工作,那么它将是最佳选择。Wit为家庭自动化、联网汽车、机器人、智能手机、可穿戴设备等创建智能语音界面。而且还免费。
⭐️Geneea
文档: api.geneea.com/
Demo: demo.geneea.com/
Geneea对提供的原始文本,从给定URL提取的文本或直接从提供的文档执行分析(自然语言处理)。Geneea对语言、主题识别、情感检测、实体提取、自动标记等主题进行分析,并对捷克文本的变音符号进行各种校正。
⭐️Hugging Face Transformers
GitHub - huggingface/transformers: 🤗 Transformers: State-of-the-art Machine Learning for Pytorch, TensorFlow, and JAX.
Transformers提供了数千个预训练模型来执行不同形式的任务,例如文本、视觉和音频。这些模型可应用于文本(文本分类、信息提取、问答、摘要、翻译、文本生成,支持超过 100 种语言)、图像(图像分类、对象检测和分割)和音频(语音识别和音频分类 )。Transformer 模型还可以结合多种模式执行任务,例如表格问答、OCR、从扫描文档中提取信息、视频分类和视觉问答。
⭐️Gensim
https://github.com/RaRe-Technologies/gensim
gensim · PyPI
Gensim 是一个 Python 库,用于主题建模、文档索引和大型语料库的相似性检索。目标受众是 NLP 和信息检索 (IR) 社区。Gensim 具有流行算法的高效多核实现,包括但不限于Latent Semantic Analysis (LSA/LSI/SVD)、Latent Dirichlet Allocation (LDA)、Random Projections (RP)、Hierarchical Dirichlet Process(HDP) 或 word2vec 深度学习等。
⭐️Diffbot Analyze
文档: www.diffbot.com/dev/docs/
Demo: www.diffbot.com/
该API执行自动识别、分析和提取,可以轻松地从任何URL传送每个数据(文本,照片,视频)。它将人工智能、机器学习、计算机视觉和NLP相结合。此外,可以将其与自定义API同时使用,以便使用手动规则来获取数据。
⭐️Bitext
文档: docs.api.bitext.com/
Demo: parser.bitext.com/
Bitext API是另一个深度语言分析工具,提供易于导出到各种数据管理工具的数据。该平台产品可用于聊天机器人和智能助手、CS和Sentiment,以及一些其他核心NLP任务。这个API的重点是语义、语法、词典和语料库,可用于80多种语言。此外,该API是客户反馈分析自动化方面的最佳API之一。该公司声称可以将洞察的准确度做到90%。
⭐️AllenNLP
GitHub - allenai/allennlp-models: Officially supported AllenNLP models
AllenNLP是基于 PyTorch 构建的 NLP 研究库,使用开源协议为Apache 2.0 ,它包含用于在各种语言任务上开发最先进的深度学习模型并提供了广泛的现有模型实现集合,这些实现都是按照高标准设计,为进一步研究奠定了良好的基础。AllenNLP 提供了一种高级配置语言来实现 NLP 中的许多常见方法,例如transformer、多任务训练、视觉+语言任务、公平性和可解释性。这允许纯粹通过配置对广泛的任务进行实验,因此使用者可以专注于解决研究中的重要问题。
⭐️CoreNLP
CoreNLP: CoreNLP 是斯坦福提供的一组用Java编写的自然语言分析工具
斯坦福 CoreNLP 提供了一组用 Java 编写的自然语言分析工具。它可以接收原始的人类语言文本输入,并给出单词的基本形式、词性、公司名称、人名等,规范化和解释日期、时间和数字量,标记句子的结构 在短语或单词依赖方面,并指出哪些名词短语指的是相同的实体。
⭐️PyTorch-NLP
https://github.com/PetrochukM/PyTorch-NLP
PyTorch-NLP 扩展了 PyTorch并提供基本的文本数据处理功能。
🚩NLP技术难点总结
自然语言理解的5个难点:
语言的多样性
语言的歧义性
语言的鲁棒性
语言的知识依赖
语言的上下文
在多模态的自然语言处理技术方面,也有三大难点:
数据匮乏也是NLP领域里一个永恒的问题,缺乏标注数据、样本存在大量噪声、数据存在偏差都是很常见的现象。在AI研发中,算力是基础,算法基本开源,数据自然而然就成为了各家研究机构和企业角力的核心。尤其是当你需要一些特定的数据时,仅仅采集数据的代价就可能超出预估。