HLP-Introduction

课程的内容

1、让机器能听懂人说的话
2、让机器能看懂人写的句子
3、让机器能说出人听得懂的话
4、让机器能写出人看得懂的句子

课程内容设置

本门课程的名字叫做人类语言处理(HLP),与经常听到的自然语言处理(NLP)的区别在于 HLP 中文本和语音所占的比例是一样的,在 NLP 中,文本和语音所占的比例为 9:1

复杂的人类语言

复杂的语音

人类的语言是复杂的,每秒可以产生 16K 个样本点,每个样本点可以有 256 个可能的取值。

没有人可以说同一段话两次

当一个人重复同一段话时,虽然听起来是一样的,但是从音频信号方面来看,每次说的话是不同的。

复杂的文本

在早期对于文本数据的统计中,一个句子最多有 1289 个单词,但是在 2014 年的统计工作中,一个句子最多有 13955 个单词,但是要想打破这个纪录是非常容易的,只需要在最长的句子前面加点修饰就可以轻松的打破这个纪录。

课程结构

本门课程可以使用这一张图片表示,由 6 部分组成

1、语音-文本
2、语音-语音
3、语音-类别
4、文本-语音
5、文本-文本
6、文本-类别

使用的模型

课程中的所有模型都是使用深度神经网络,遇到问题就使用深度学习硬 train 一发,没有硬 train 一发无法解决的问题,如果有,那只有你的训练资料和 GPU 不够多而已。

课程详细介绍

语音-文本

语音-文本 应用的领域是自动语音识别,传统的自动语音识别需要用到声学模型、语言模型,需要声学知识。传统的自动语音识别系统占用的内存较大,不适合在手机端应用。基于深度学习的自动语音识别系统不需要额外的声学知识,而且所需的内存较小,适合在手机端进行应用。

语音-语音

语音-语音 的应用是语音分离,两个人同时说话可以将语者一和语者二进行辨认。

语音-语音 的另外一个应用是语音转换,可以将语者一的声音转换成语者二的声音。就像动漫 《名侦探柯南》中,柯南在侦探案件中,使用到的技术。

语音-类别

语音-类别 的应用是语者识别,给模型一段语音,模型能辨认出这是哪个语者说的话。

语音-类别 的另外一个应用是关键词识别,像现在使用的苹果手机,可以使用 “Hey Siri”来唤醒,还有小米手机,可以使用“小爱同学”来唤醒。

文本-语音

文本-语音 的应用有语音合成。

文本-文本

文本-文本 有非常多的应用,如翻译、概述(给定一篇文章,简要概述文章的内容)、聊天机器人、问答系统。

还有其他的应用看起来无法使用这种结构来实现,例如语法解析,语法解析会生成一棵语法解析树,这在文本-文本模式中是非常难实现的,但是通过将语法解析树进行变形,就能非常容易地实现了。

文本-类别

文本-类别的应用有情感分析,给定一段文本,分析文本的情感是积极的还是消极的。

打赏
  • 版权声明: 本博客所有文章除特别声明外,著作权归作者所有。转载请注明出处!

扫一扫,分享到微信

微信分享二维码

请我喝杯咖啡吧~

支付宝
微信