Star

从蒙特卡洛到阿尔法元

蒙特卡洛搜索树对于围棋，象棋，五子棋，黑白棋，井字棋这类游戏来说，都属于有限两人零和回合制游戏，这种游戏都可以用博弈树来解决，以井字棋为例，如下图所示：这就是一棵井字棋的博弈树，当然节点没有完全的展开，我们现在关注显示棋盘的这条路径，从上到下我们可以看到这就是完整的一局游戏，每个分支就代表我们的落子。而且相邻树的层次是对应不同的玩家，这一层是圈，则相邻层都是叉。那么我们可以把所有的状态都列出来，这样根据当前棋面，我们可以找到最优的路径。但是井字棋我们的确可以这样做，象棋和围棋这类空间很大的...…

2018-06-14

阅读全文 »
QT表盘和折线图控件

导入上篇博客分享了一个QT的带进度条的球型按键的控件模块，可以直接复制到你的QT UI项目下import导入，简单的几个API函数即可调用，兼容你的项目。这篇博客再分享2个最近写的美化控件模块，同样直接import，然后简单的API调用即可。分别是折线图和汽车表盘的美化控件，效果如下： API折线图控件API： create_dynamic_line_chart函数 """ @brief 创建动态折线图控件的公共API接口...…

2018-05-11

阅读全文 »
实现一个美化QT进度条球体按键

导入主要是分享一个美化的QT进度条球体按键，因为不复杂，所以没必要做成包，直接设计成模块的形式，哪里需要粘贴到哪里用即可。大概效果就是这样：API主要接口函数有5个： create_circular_button 创建按键 """@brief 创建按键@param parent_window，表示依赖的父窗口@param callback_func，表示实际执行程序@param initial_text，表示按键初始显示文本@param theme,球体主题颜色有'blu...…

2018-05-09

阅读全文 »
车牌检测

介绍上一篇博客中介绍了如何利用TensorFlow目标检测API检测自己的数据集，并且随便用了20张百度的图片来做了一个实例，最后训练的效果也当然很差，所以这一次我打算好好的训练一次车牌检测。没有看上一篇博客的建议先去看，这篇博客不涉及具体细节，都在上篇博客中说到。模型鉴于上一次选择的模型相对简单，这次选择了一个稍微复杂的模型，faster_rcnn_inception_v2，并且不从头开始训练了，下载了官方的预训练模型，是在coco数据集上训练好的模型，链接，我也给出链接，可以自行下载解...…

2018-04-29

阅读全文 »
Tensorflow目标检测API

简介Tensorflow 目标检测API其实是官方提供的一组样例，里面不仅包含目标检测，还有OCR，GAN，自编码器，img2txt等等，感兴趣的可以自己慢慢研究。链接如下Tensorflow APIs，找到目标检测目录，大致结构如下：├─.ipynb_checkpoints├─card_inference_graph│ └─saved_model│ └─variables├─data├─images│ ├─test│ └─train├─models│ └─__pycac...…

2018-04-16

阅读全文 »
实现一个简单的深度学习框架

导入之前博客介绍过，利用C++ cuda和Cython编写python扩展，实现了手动写矩阵乘法的kernel进而cuBLAS库中矩阵相乘函数cublasSgemm的调用，并且对比了执行速度。现在就再进一步，使用cudnn和cuBLAS一起实现一个简单的深度学习库，包含卷积层，池化层，softmax+损失层，reLu激活层，全连接层的GPU端的前向和反向过程，其中全连接层就是一个矩阵乘法，直接利用cuBLAS的cublasSgemm通用矩阵乘法函数即可，其他层就利用cudnn提供的函数进行...…

2018-03-15

阅读全文 »
python的cuda C++扩展

导入用C++编写简单的CUDA程序，比如矩阵乘法，并且编译成python的扩展供python调用，对比python矩阵乘法计算在CPU端和GPU端的速度差异，以及手写简单的cuda kernel计算和使用cuBLAS库的速度差异。关于cuda的安装和基本的使用语法不是本文内容，主要是直接代码形式给出，不过都是简单的代码，没有什么门槛。cuda kernel简单说一下流程： C++编写cuda kernel，然后nvcc编译成动态库（windows端dll，linux端so） ...…

2018-03-03

阅读全文 »
emojify系列（二）

模型构建预训练词向量导入上一篇博文里，我们已经完成了数据集的制作，接下来的一个问题就是，模型的构建，第一个问题就是词向量的问题，我们已经有了一个训练好的词向量，那么在keras中很好处理，可以看我的gitghub keras 实现,那么pytorch是怎么实现与训练向量的导入的呢，如果看官方文档，查看完整参数列表，发现似乎没有参数可以实现预训练向量的导入，只有定义好就是随机的初始化向量。查看了源码，发现了存储embeding权重的变量就是weights，然后我尝试直接修改weights的值...…

2018-02-16

阅读全文 »
emojify系列（一）

起因前段时间完成了吴恩达的深度学习第五专题序列模型，里面一些作业都很有意思，包括这个Emojify，根据你输入的话语判断你话语的含义，并且用一个表情来表示，并且把表情放在语句后，这样就可以实现说话时自动添加最贴切的表情。具体参考我的github，那是一个keras版本的实现，也是Coursera作业使用的框架，我稍稍改编了一下，里面有些实现的效果以及模型的结构，这里就不多说了，代码也很简单，容易理解。本来这么简单感觉没必要写个博客，但是正好用pytorch复现一遍，此间遇到不少坑，所以我打...…

2018-02-16

阅读全文 »
CycleGAN

CycleGAN介绍优势具体介绍之前，首先说说CycleGAN的一些优势，CycleGAN实现的是一类图片到另一类图片的转化，也就是图片域的转变，对于这类问题pix2pix是一种不错的方法，但是pix2pix训练时需要成对的训练样本，也就是比如你要训练图片风景从白天到黑夜的转变，那么你的训练集就是各种风景图片的白天照片以及其对应的黑夜照片，必须一一对应。那么CycleGAN则不需要，所以如果用CycleGAN来做这个问题，只需要收集一些白天的风景图片和一些黑夜的风景图片即可，不需要是同一种...…

2018-02-12

阅读全文 »
风格迁移

风格转换风格转换就是将现实的图片转换成带有艺术风格的照片，比如把你自己的照片转换成梵高的星空风格等等这样人人都可以变成梵高了，可以进行你想要的艺术创作。Gatys于2015年提出了一篇论文，A Neural Algorithm of Artistic Style，实现了基于深度学习的艺术风格转换，这是真正意义上的第一篇深度学习实现艺术风格转换的论文，后来又出现了很多更优秀的论文，转换速度更快，效率和质量更好。但是很多都是基于这篇论文的。因此下面我将详细的解读这篇论文，以及在pytorch上...…

2018-01-23

阅读全文 »
实时人脸识别

MTCNNMTCNN是中国科学院深圳先进技术研究院发表的一篇论文，入选ECCV2016，是一篇非常优秀的人脸检测和人脸对齐的论文。提出了一种Multi-task的人脸检测框架，将人脸检测和人脸特征点检测同时进行。论文使用3个CNN级联的方式，和Viola-Jones类似，实现了coarse-to-fine的算法结构。算法大概的流程如下：当给定一张照片的时候，将其缩放到不同尺度形成图像金字塔，以达到尺度不变。 Stage 1：使用P-Net是一个全卷积网络，用来生成候选窗和边框回归...…

2018-01-23

阅读全文 »
实现一个用户级线程库

导入用户级线程库指的是创建的线程是内核无法感知的线程，线程的建立和切换都由线程库自己完成，类似协程的概念。本篇博客将实现一个简单的用户级线程库uthread，一个抢占式的线程库，通过定时器中断定时强制切换线程，也就是轮询或者叫Round-Robin算法。这个简单的算法其实效果不差，因为用户级线程库线程切换开销极小，所以这样频繁的切换也可以承受，且这样还可以隐式解决IO阻塞的问题，因为当你读写IO阻塞时，定时器会强制切换到别的线程，因此无需特意针对IO编写检测代码，更加简单。正文首先定义TC...…

2017-12-20

阅读全文 »
写一个简单的libc库

导入当我们用 C 语言编写 printf("Hello, World!"); 时，我们很少会去想这行代码背后究竟发生了什么。printf、malloc、fopen 这些我们习以为常的函数，并非 C 语言的“内置”功能，而是由一个名为 C 标准库 (libc) 的底层软件库提供的。在 Linux 系统上，它通常是 glibc。这个库是我们的程序与操作系统内核之间的重要桥梁。但是，如果我们不使用它呢？我们能否直接与内核对话来完成工作？答案是肯定的。本文将完全抛弃 libc，通过直接调用 Lin...…

2017-12-15

阅读全文 »
一个简易调试器的实现

调试器利用ptrace实现一个简单的debugger调试器，支持断点，单步调试，continue继续运行，print打印变量。同时依赖于libdwarf库，dwarf是Linux下调试结构，当我们使用gcc -g编译程序时，生成的.debug节的结构就是dwarf格式的，包含一定调试符号信息，行号信息，行号和源代吗对应信息等。使用dwarfdump命令可以查看带有.debug节的ELF可执行文件的格式详情。完整代码#include <stdio.h>#include <s...…

2017-12-01

阅读全文 »
实现一个文件传输工具

导入实现一个简单的双向跨平台文件传输工具，使用自定义的简单文件传输协议，具有如下特性：双向传输，客户端和服务端集成在一起跨平台，支持windows和类unix系统大文件分块传输支持目录传输支持断点续传传输协议：先发送文件名（最大255字节），再发送文件大小（8字节，long long），然后发送文件内容。简单说明部分思路：目录传输客户端检测参数是否为目录 ...…

2017-11-03

阅读全文 »
doxygen代码文档

导入上篇博客讲到了项目如何发布，虽然隔了好久，还是想讲一下doxygen。doxygen是一个代码文档生成工具，根据特定的注释语法自动生成。相信读者都看过很多的开源项目的API文档，doxygen就可以生成这种在线文档效果，通过浏览器查看，也可以用是LaTeX格式。这是跟项目发布息息相关的，项目发布，尤其是闭源项目的话，API文档是开发者了解项目的最重要途径，因此必须清晰且完善。而对于开源项目，重要性也是一样得，很多开发者发布的开源项目，就一个简单README.md,其他没有任何的文档，让...…

2017-10-03

阅读全文 »
实现一个简化版vim

概述使用C++实现一个轻量级的vim编辑器，称为miniVim，适用于 Linux/Unix/macOS 系统，依赖标准 C++11 和 POSIX 终端控制接口，无需第三方库。实现的特性多模式编辑普通模式（NORMAL）：默认模式，用于导航和执行命令插入模式（INSERT）：输入文本内容命令模式（COMMAND）：执行保存、退出等文件级操作文件处理高效加载大文件（按行存储，避免全文件一次性读入内存瓶颈）修改状态跟踪（[+] 提示未保存更改）光标与导航基础移动：h（...…

2017-09-07

阅读全文 »
项目如何发布

导入近来看了不少python的开源项目，大多是个人项目，所以有个问题比较突出，就是可复现性很多都比较差。虽然很多稍微调试下也都能跑通，但是并不是我懒得调试，而是不能直接运行的项目不能算是一个健全的项目。如果是生产环境下，要求就更高了。我敢说就连他们自己过段时间都不能跑通自己的代码，因为他们的电脑环境也在不断变化，python版本，第三方库版本的变化都可能影响项目的跑通。虚拟环境对于个人python项目，除非是一个文件的简单脚本，只要是稍微有点代码量的项目，我都是建议进入代码阶段之前一定要先...…

2017-08-11

阅读全文 »
视频是如何压缩的

导入想象一个1080P（1920x1080）的视频，简单只考虑视频数据本身，一帧应该有2,073,600，也就是将近2M的像素，假设每个像素有RGB三色数据，每个颜色数据256个级别，也就是1个字节表示，那么这一帧的画面应该有大约6MB的数据大小，假设视频一秒30帧，那么一秒就有180MB的数据，一个10秒的视频就要近2个GB，这显然是很不合常识的，我们平时可能一部电影也就2个GB。那么视频为什么可以压缩这么多？是怎么做到的呢？首先，我们需要注意视频的特点，那就是冗余性很大，不仅是空间冗余...…

2017-07-20

阅读全文 »