重新设计我的看板
Kanban(看板)是一种可视化工作流管理方法,最初源自丰田生产系统,用于制造业中的拉动式生产,后来被广泛应用于软件开发、项目管理、运营支持等领域。尤其在敏捷开发中,看板成为了展示任务状态、流程阶段、工作进度的一种轻量级敏捷方法。
centos7.9安装mysql5.7
最近在一台centos7.9的服务器上装mysql,整体并不顺利,比较折腾。所以,特点记录下来,方便以后查找。
黑客增长简悟
黑客增长
这个词已经出现很久了,之前只是听说过,也仅仅只是听说。这段时间,通过一些资料阅读,算是有一些了解了。简单说一下自己的领悟吧。
也谈AB测试
前一阵子,团队做了一套AB测试的通用解决方案。在这里,不想聊具体怎么实现的。反而想聊一下怎样才是正确AB测试。因为在内部推广的时候,发现大家对AB测还是不明白。 - 不明白为什么要AB测试 - 不明白如何做AB测试
Homebrew修改国内源
因为众所周知的原因,正常访问homebrew是很难的。所以,我们需要修改它的源,让其指向国内。
记一次系统优化过程
最近要搞一次抢票活动,就像小米那样,考虑到目前的用户数据,预计到时候会有瞬时30w左右的并发。这对于一个常规的web项目是灾难性的。即可能被宕机。为了解决这种情况,于是对现有系统进行了改造。先说现有系统的结构。
pypy环境的gevent开发
在 PyPy 环境中使用 Gevent 开发 是一种常见的组合方式,尤其适合对 性能要求较高、又希望保持 Python 协程语义 的网络服务。
下面我会从 环境搭建 → 基础用法 → 注意事项 → 适用场景 全面介绍你该怎么在 PyPy 下使用 Gevent 进行开发。
2013年的北京QCon
很荣幸,接到了QCon BeiJing的邀请,去当讲师,去讲一个有关于python
的topic。
谈CSRF
csrf 简单的说就是以跨域的方式,利用你正常的cookie,修改你在website上的数据。举一个例子: 1. 当你正常登陆www.xxx.com。xxx.com会记录一个cookie到你的client端。表示,你现在已经正常登陆过了。 2. 然后你访问一个恶意网站,www.evil.com, evil.com有一个链接,会提交一个post请求到xxx.com,修改你在xxx.com上的密码
善·缘
不信一见钟情,只因为我不是一个极端的人。
既然不是一个极端的人,就不会有极端的想法,也不会有极端的感受。
我相信缘分。
缘分是一种奇妙的东西,你不想的时候,却偏偏来到你的身旁。
我相信命运。
命运是一种缥缈的东西,你永远琢磨不透,上天的如此安排究竟为何。
对产品的思考
产品是一个很有意思的东西。可以很大,可以很小。但是无一例外,所有的大产品都是从小产品一步一步做起来的。
网页解析
对于crawler, parse html 是一个必不可少的工作。现阶段有很多的开源库,python中也有自己的标准库。都是为了方便的解析html的。但是,由于我们的需求可能会变得很奇怪,比方说:对于script的东西也许也要解析。对于comment的东西可能也要分析。或者,还有其它的需求。为此,我重新造个轮子。
python validation
在Ruby on Rails
中,Active Validation
是模型层中处理“数据校验”的核心机制。它提供了统一的校验逻辑。但是在Python中缺没有类似的工具。所以,模仿了 Active Validation,写了Python版本的。
无共享架构
"无共享架构"这个词是网上早就有了的。而我是在处理实际的问题时候,想到了一些解决方案,然后再通过解决方案去找就发现了它。就直接拿来用了。
Python Socket Programming
Python 的 socket 编程是进行网络通信的基础方式之一,它可以用来实现 TCP/UDP 服务端与客户端程序。下面我会用通俗的语言和代码例子,带你快速理解 socket 编程的基本用法和常见场景。
敏捷实践
本文不是描述敏捷的文章,也不是用来褒扬敏捷的文章。 记录了这一年来在敏捷实践中的一些东西。这些东西不一定是符合教科书的,仅仅是我们的一些实践。
几个常用统计指标
讲几个常用的统计指标,都是信息检索(IR)和机器学习/文本挖掘中常见的概念,主要包括:TF/IDF,召回率,准确率,F值,举例,其它各种率,比例性质。
python奇技淫巧
在Python中,有一些常见不常用又很有用的奇技淫巧
关于垂直网站爬虫的思考
我的思考,聚焦于技术实现与指标体系两个方面:在技术层面,涵盖了调度策略、页面解析、异步并发、反反爬机制、结构化提取与数据清洗等关键模块的设计与协同;在指标维度,则需要从抓取成功率、字段完整率、数据准确性、系统吞吐量、资源利用率等角度出发,构建可量化的质量与性能评价体系,以支撑爬虫系统的高效、稳定与可维护性。
java常用工具-PorterStemmer
在搜索引擎的索引和检索场景中,在自然语言处理(NLP) 场景,需要将单词还原为“词干”形式。而PorterStemmer 是 Java 中常用的 词干提取工具,它的作用:
- connection → connect
- connected → connect
- connecting → connect
- connections → connect
在 Lucene 中,就提供了这样的一个java文件。
mysql的loaddata加载数据的方式
LOAD DATA 是 MySQL 中用于 高效批量导入数据 的命令,适合把 CSV 或 TSV 文件中的数据直接加载到表中,速度远远高于逐条插入(INSERT)。