gogs
/
shoulder-specs-doc


			
							1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253
							// tag::main[]


== 生成 MockingBird 训练数据集

* 硕鼠（可替换为 油猴脚本、bilibili助手）
** 下载 bilibili 视频，得到 `xx.flv`
** 注意： 哔哩哔哩现在的DASH流都是音视频分开的，可以用bilibili evolved直接把纯音频给下了，不用下载冗余的画面


* 格式工厂（可替换为 Adobe mediaencoder）
** 先进行视频切割，得到多个 `xxPart1.mkv、xxPart2.mkv、xxPart3.mkv、xxPart4.mkv`
** 音频-音频分离器，把上次的 mkv 全都拿进来处理，得到多个文件夹 `xxPart1/xxPart1.aac`
** 将这些文件拿出来到一个文件夹内

* spleeterGUI（可替换为 rx9、Audacity ）
** 将这些aac文件处理一下，分离得到背景音乐`accompaniment.wav` 、人声 `vocals.wav`
** 将这些 `vocals.wav` 拿出来放到一起，建议重命名 `xx1.wav`

* rx9
** 也是降噪软件、或者 au 也行


* 字幕生成 videoSrt
** https://github.com/wxbool/video-srt-windows[video-srt-windows]
** 打开 videoSrt，拖进去处理，得到 xx1.srt


* 音频裁切 Sound_File_Processing
** https://gitee.com/kslizi/Sound_File_Processing
** 将字母放到 srt 目录，音频放到 `wav/input`
** 执行 `long_file_cut_by_srt.py`
** 从 output 把结果加到播放器中
** transcript 中有 transcript.txt

* 人工较对
** 逐条听，把非中文，音译成中文
** 建议至少至少300条
** 长句子多一点、语气词少一点，语气词多的直接删掉，记得是 UTF-8格式TXT

* 准备训练
** 按照mockingbird数据集格式要求放进去


* potPlayer


// end::main[]

=== 参考

[bibliography]
- [[[bilibili]]] https://www.bilibili.com/video/BV1dq4y137pH.