Recently in 小工具开发 Category

最近比较累

|
    这个周干了很多事,感觉有点累,但是收获很多,感觉两点收获比较大:      1. 验证码类。      2. sqlrelay 封装类     但这两类都还没有彻底完工,需要完善,等完善后再放出来!...

分析网页获得全国行政区划表(修正版)

|
    本日志是 分析网页获得全国行政区划表  的后续,因为发现了一些问题并且修改原文需要费点心思,所以另起一日志,对原文做一下修正。      1.  策略变动。       从 看各大网站是如何处理省市县数据的?  可以看出,市辖区的概念还是有一定意义的,所以打算保留。       2. 原本代码设计中考虑去除 "市辖区" 和"县",因为疏忽存在问题。但考虑了策略变动,所以无需改正了,只需要改变一下相关代码:        // 考虑是否增加"市辖区/县备注"      if( $name == '市辖区' || $name == '县') {        $flen = $blank;        $flag = $name;        $proid  = substr($code, 0, 2) ."0000";        $cityid =...

iso3166国别码的数据库导入

|
    这次的任务是把 iso3166 中的国别码放到数据库里。      首先,要从网上找了一些数据。因为这是基础数据,所以容不得半点疏忽,必须保证准确,所以资料选择上也要尽量选择权威网站。这里是我用到的几个网址:     http://en.wikipedia.org/wiki/ISO_3166-1_alpha-3    http://en.wikipedia.org/wiki/ISO_3166-1_alpha-2      从以上两个网址,就可以获得全部的ISO 国别信息(ISO官方网站也有3166-1-2的列表)。      起初我的想法是 以国家的英文名作为检索的条件,把 二位代码和三位代码放到一个数据表里。但后来发现由于保存了国别代码的多种状态(user-assigned ,exceptionally reserved , officially assigned , not used at present stage, transitionally reserved , indeterminately reserved),一个国家或地区可能有2个代码。这是才意识到导入数据库的难度:现实中的数据总是那么复杂,不仅中国这样,国外也是这样。最后,我决定只选择 officially assigned 。最后 数据证明,二位代码和三位代码的officially assigned 状态是一致的。       第二步:加上中文名字。      ...

分析网页获得全国行政区划表

|
    很多有价值的小工具是和全国行政区划,也就是平日说的省市县是有关系的,所以行政区划的建表是有基础意义的。这一篇blog就是说说这事。    参考来源:    公司有省市县的数据,但我怀疑不是最新的;网络上的数据(很多网上注册信息是有省市县选择的)也不能作为这次"行动"的参考。这一次,我要用最新的,最权威的,选自中华人民共和国国家统计局的数据: 最新县及县以上行政区划代码(截止2006年12月31日)     数据预处理:    把网页保存下来,进行了一下简单的去处html标记,把全角空格转换成两个半角空格(方便后期的程序处理),得到了文本版的行政区划表,见附件:全国行政区划.txt 。(其实,不去除html标记,照样可以处理。主要图的是眼睛舒服)     程序处理:     这一步的作用是生成数据关系,导入数据库。 程序代码下载 。     处理方面的约定:         1. 主要参考对象是地区编码,因为地区编码可以明显地反映出省市县的三级关系。此外,空格也可以反映出这种关系。         2. 基本上忽略"市辖区","县" 的记录,直辖市除外。 直辖市和 "省"同级,缺少市级数据,所以以"市辖区" "县" 代替。 中国特色的省市县划分不太方便数据库化,只能这么折中了。        3. 大兴安岭地区。国家统计局网站上对这一划分是这么描述的:"根据中发[1979]42号文及其它相关规定,大兴 安岭四区( 加格达奇区、松岭区、新林区、呼中区)非国家标准行政区划,只宜作为统计汇总用地址代码"。所以我在处理数据时,把这部分数据删除了。     处理成果:        全国行政区划(省市县)表 SQL   ...