dataset.adoc 1.6 KB

1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253
  1. // tag::main[]
  2. == 生成 MockingBird 训练数据集
  3. * 硕鼠(可替换为 油猴脚本、bilibili助手)
  4. ** 下载 bilibili 视频,得到 `xx.flv`
  5. ** 注意: 哔哩哔哩现在的DASH流都是音视频分开的,可以用bilibili evolved直接把纯音频给下了,不用下载冗余的画面
  6. * 格式工厂(可替换为 Adobe mediaencoder)
  7. ** 先进行视频切割,得到多个 `xxPart1.mkv、xxPart2.mkv、xxPart3.mkv、xxPart4.mkv`
  8. ** 音频-音频分离器,把上次的 mkv 全都拿进来处理,得到多个文件夹 `xxPart1/xxPart1.aac`
  9. ** 将这些文件拿出来到一个文件夹内
  10. * spleeterGUI(可替换为 rx9、Audacity )
  11. ** 将这些aac文件处理一下,分离得到背景音乐`accompaniment.wav` 、人声 `vocals.wav`
  12. ** 将这些 `vocals.wav` 拿出来放到一起,建议重命名 `xx1.wav`
  13. * rx9
  14. ** 也是降噪软件、或者 au 也行
  15. * 字幕生成 videoSrt
  16. ** https://github.com/wxbool/video-srt-windows[video-srt-windows]
  17. ** 打开 videoSrt,拖进去处理,得到 xx1.srt
  18. * 音频裁切 Sound_File_Processing
  19. ** https://gitee.com/kslizi/Sound_File_Processing
  20. ** 将字母放到 srt 目录,音频放到 `wav/input`
  21. ** 执行 `long_file_cut_by_srt.py`
  22. ** 从 output 把结果加到播放器中
  23. ** transcript 中有 transcript.txt
  24. * 人工较对
  25. ** 逐条听,把非中文,音译成中文
  26. ** 建议至少至少300条
  27. ** 长句子多一点、语气词少一点,语气词多的直接删掉,记得是 UTF-8格式TXT
  28. * 准备训练
  29. ** 按照mockingbird数据集格式要求放进去
  30. * potPlayer
  31. // end::main[]
  32. === 参考
  33. [bibliography]
  34. - [[[bilibili]]] https://www.bilibili.com/video/BV1dq4y137pH.