毕设填坑笔记-Git lfs的使用

自从自己拟了这个毕设后,感觉自己把自己坑的很惨,上次训练模型把电脑烧了后,总是能碰上奇奇怪怪的问题,所以打算开个新篇幅来记录我是如何填上毕设路上的自己给自己挖的坑。

我的毕设选题是关于用GAN生成图像方面的,为了记录中间的过程,我打算把每次训练生成的epoch都存下来;同时还想用git来管理代码版本,这时摆在我眼前的首要问题就是如何处理图片这些大文件。

使用一些开源的框架和成熟的模型,可以从一定程度上减小自己所需要的训练集体积,但是招架不住每次 pull/push 时所面对的动辄几百兆的传输列表,于是便在网上找到了git基于大文件传输的扩展 – git lfs(Large File Storage)

More

入职半月,初窥门径

如题,这篇文章写于入职后两周零两天,地点深圳图书馆。
本来是想昨天写的,昨天与我对接的后端下午过节去了,原本应该是个清闲的下午,然而刚刚整理完开发文档和填坑笔记后,就来了新需求,所以挪到今天写了。

本人以实习生身份进入一家公司,利益相关,匿了,工作两周有余,感慨颇深,遂写下此文。

我准备从工作、生活、学习三个方面总结体会。

实习工作,初窥门径

More

我的2018,记忆名为伽勒底

今年发生了太多值得写下来的事情,今年的感想也特别多。今年的种种最终交汇成这篇文章,以文字和图片的形式记录下来。尽管文笔有限,但文字会如咒语般,唤醒背后存在的情感与记忆

每年年末都要抽出一两天的时间来回忆今年我干了什么,还记得去年的总结写完后已经过完年了,就没有发。好长时间没有写这种文章了,文笔肯定略显平庸,反正是总结,凑活着写吧。

时间线

先捋一遍时间线吧。

一二月份

今年的一、二月份,对于大多数 fate go 国服玩家来说都是一段不可明灭的记忆,从第七章的乌鲁克的救赎到终章的众志成城,蘑菇本人亲手执笔创造出来的剧本诚不欺我。

下面这部分是对这部分的一个回忆。

More

简述迁移学习

本篇并不是对迁移学习的一个概述,只是简单说明什么情景应该使用迁移学习,以及迁移学习的一些基本算法思路

首先介绍的是使用情景

Data not directly related to the task considered

直译过来就是使用的数据与任务目标不是直接相关。举个例子来帮助大家明白这句话,我是在今年夏天时的一个比赛中了解到这个算法的,当时我的任务是通过分析 EMG (肌电信号)来识别以及预测手势。当时的问题是,我们小组内并没有足够的数据,这里的数据指的是使用我们小组研发的 EMG 采集器收集的数据,基本都是组内人员自己制作的。那么问题在于,我们花费了大量时间收集数据,但是数据量还是相对而言较少,如果直接将这些数据给神经网络训练的话,最后得到的结果可能无法避免的过拟合。

这种情况就可以采用迁移学习的思想,使用自己的少量数据与使用其他与当前任务相关不大的数据源一同训练。在上述例子中,我最后使用了国外的一个大学实验室收集的 EMG 信号当 Source Data。

More

Reinforcement Learning & Self-Play

Meta Learning & Self Play

This passage is a learning note about a paper talking about the reinforcement learning and self play.

First of all, tell a joke.
Title: How to perform as machine learning?
Q: Do you know the result of 11 * 12?
A: Yes. My answer is 233.
Q: No, the answer is 132.
A: Ok, my answer is 132.
lol

The reinforcement Learning Problem

The Reinforcement Learning framework just tell you that you have an agent in some environment and you want to find a policy for this agent that will maximize its reward.

More

Extreme Multi-label Text Classification:Kim-CNN & XML-CNN

This passage is a learning note about a paper talking about the extreme multi-label text classification.

Introduction

XMTC -> Extreme Multi-label Text Classification

Finding each document its most relevant subset of labels from an extremely large space of categories.

Training data: {(xi, yi)}n1, xi ∈ X, yi ∈ {0, 1}L
X is the data, y is the label.

Goal:
Learning a mapping g: X -> {0, 1}L
Our goal is finding a mapping from x to y.

More

谈一谈 Fast R-CNN 和 Faster R-CNN

本文讨论内容涉及到之前整理的一篇文章,链接见下CNN之定位检测

R-CNN 的一些问题

R-CNN并不是完美的,他也有一些问题。

在测试是它运行的很慢。我们可能有2000个区域,每个区域都要运行一下R-CNN,这就是很慢的原因。
我们还会面对一个比较有趣的问题。当我们使用SVM或者regression时是离线训练使用线性回归等方法训练,所以我们的R-CNN没有机会按照相应部分的网络目的升级。
同时R-CNN训练管道比较复杂时,他会有一些混乱。

Fast R-CNN

为了解决这些问题,有人提出了Fast R-CNN模型。Fast R-CNN的算法很简单:我们只需要交换提取出的区域然后在运行CNN。

More