重新设计我的看板

Kanban(看板)是一种可视化工作流管理方法,最初源自丰田生产系统,用于制造业中的拉动式生产,后来被广泛应用于软件开发、项目管理、运营支持等领域。尤其在敏捷开发中,看板成为了展示任务状态、流程阶段、工作进度的一种轻量级敏捷方法。

centos7.9安装mysql5.7

最近在一台centos7.9的服务器上装mysql,整体并不顺利,比较折腾。所以,特点记录下来,方便以后查找。

黑客增长简悟

黑客增长这个词已经出现很久了,之前只是听说过,也仅仅只是听说。这段时间,通过一些资料阅读,算是有一些了解了。简单说一下自己的领悟吧。

也谈AB测试

前一阵子,团队做了一套AB测试的通用解决方案。在这里,不想聊具体怎么实现的。反而想聊一下怎样才是正确AB测试。因为在内部推广的时候,发现大家对AB测还是不明白。 - 不明白为什么要AB测试 - 不明白如何做AB测试

Homebrew修改国内源

因为众所周知的原因,正常访问homebrew是很难的。所以,我们需要修改它的源,让其指向国内。

记一次系统优化过程

最近要搞一次抢票活动,就像小米那样,考虑到目前的用户数据,预计到时候会有瞬时30w左右的并发。这对于一个常规的web项目是灾难性的。即可能被宕机。为了解决这种情况,于是对现有系统进行了改造。先说现有系统的结构。

pypy环境的gevent开发

在 PyPy 环境中使用 Gevent 开发 是一种常见的组合方式,尤其适合对 性能要求较高、又希望保持 Python 协程语义 的网络服务。

下面我会从 环境搭建 → 基础用法 → 注意事项 → 适用场景 全面介绍你该怎么在 PyPy 下使用 Gevent 进行开发。

2013年的北京QCon

很荣幸,接到了QCon BeiJing的邀请,去当讲师,去讲一个有关于python的topic。

谈CSRF

csrf 简单的说就是以跨域的方式,利用你正常的cookie,修改你在website上的数据。举一个例子: 1. 当你正常登陆www.xxx.com。xxx.com会记录一个cookie到你的client端。表示,你现在已经正常登陆过了。 2. 然后你访问一个恶意网站,www.evil.com, evil.com有一个链接,会提交一个post请求到xxx.com,修改你在xxx.com上的密码

善·缘

不信一见钟情,只因为我不是一个极端的人。

既然不是一个极端的人,就不会有极端的想法,也不会有极端的感受。

我相信缘分。

缘分是一种奇妙的东西,你不想的时候,却偏偏来到你的身旁。

我相信命运。

命运是一种缥缈的东西,你永远琢磨不透,上天的如此安排究竟为何。

对产品的思考

产品是一个很有意思的东西。可以很大,可以很小。但是无一例外,所有的大产品都是从小产品一步一步做起来的。

网页解析

对于crawler, parse html 是一个必不可少的工作。现阶段有很多的开源库,python中也有自己的标准库。都是为了方便的解析html的。但是,由于我们的需求可能会变得很奇怪,比方说:对于script的东西也许也要解析。对于comment的东西可能也要分析。或者,还有其它的需求。为此,我重新造个轮子。

python validation

Ruby on Rails中,Active Validation是模型层中处理“数据校验”的核心机制。它提供了统一的校验逻辑。但是在Python中缺没有类似的工具。所以,模仿了 Active Validation,写了Python版本的。

无共享架构

"无共享架构"这个词是网上早就有了的。而我是在处理实际的问题时候,想到了一些解决方案,然后再通过解决方案去找就发现了它。就直接拿来用了。

Python Socket Programming

Python 的 socket 编程是进行网络通信的基础方式之一,它可以用来实现 TCP/UDP 服务端与客户端程序。下面我会用通俗的语言和代码例子,带你快速理解 socket 编程的基本用法和常见场景。

敏捷实践

本文不是描述敏捷的文章,也不是用来褒扬敏捷的文章。 记录了这一年来在敏捷实践中的一些东西。这些东西不一定是符合教科书的,仅仅是我们的一些实践。

几个常用统计指标

讲几个常用的统计指标,都是信息检索(IR)和机器学习/文本挖掘中常见的概念,主要包括:TF/IDF召回率准确率F值举例其它各种率比例性质

python奇技淫巧

在Python中,有一些常见不常用又很有用的奇技淫巧

关于垂直网站爬虫的思考

我的思考,聚焦于技术实现指标体系两个方面:在技术层面,涵盖了调度策略、页面解析、异步并发、反反爬机制、结构化提取与数据清洗等关键模块的设计与协同;在指标维度,则需要从抓取成功率、字段完整率、数据准确性、系统吞吐量、资源利用率等角度出发,构建可量化的质量与性能评价体系,以支撑爬虫系统的高效、稳定与可维护性。

java常用工具-PorterStemmer

在搜索引擎的索引和检索场景中,在自然语言处理(NLP) 场景,需要将单词还原为“词干”形式。而PorterStemmer 是 Java 中常用的 词干提取工具,它的作用:

  • connection → connect
  • connected → connect
  • connecting → connect
  • connections → connect

在 Lucene 中,就提供了这样的一个java文件。

mysql的loaddata加载数据的方式

LOAD DATA 是 MySQL 中用于 高效批量导入数据 的命令,适合把 CSV 或 TSV 文件中的数据直接加载到表中,速度远远高于逐条插入(INSERT)。