用 Java 写了一个搜索引擎系统,这个太强了!!-技术圈

import org.ansj.domain.Term;
import org.ansj.splitWord.analysis.ToAnalysis;
import java.util.List;
public class TastAnsj {
    public static void main(String[] args) {
        String str = "易大师是一个有超高机动性的刺客、战士型英雄，擅长利用快速的打击迅速击溃对手，易大师一般打野和走单人路，作为无极剑道的最后传人，易可以迅速砍出大量伤害，同时还能利用技能躲避猛烈的攻击，避开敌人的集火。";
        List terms = ToAnalysis.parse(str).getTerms();
        for (Term term : terms) {
            System.out.println(term.getName());
        }
    }
}

四.文件读取

把刚刚下载好的文档的路径复制到String中并且用常量标记。

这一步是为了用遍历的方法把所有html文件搞出来，我们这里用了一个递归，如果是绝对路径，就填加到文件链表，如果不是就递归，继续添加里面的值。

import java.io.File;
import java.util.ArrayList;

//读取刚刚文档
public class Parser {
     private static final  String INPUT_PATH="D:/test/docs/api";
      public  void run(){
          //整个Parser类的入口
          //1.根据路径，去枚举出所有的文件.（html）；
          ArrayList fileList=new ArrayList<>();
          enumFile(INPUT_PATH,fileList);
          System.out.println(fileList);
          System.out.println(fileList.size());
          //2.针对上面罗列出的文件，打开文件，读取文件内容，并进行解析
          //3.把在内存中构造好的索引数据结构，保定到指定的文件中。
      }
      //第一个参数表示从哪里开始遍历 //第二个表示结果。
      private void enumFile(String inputPath,ArrayListfileList){
         File rootPath=new File(inputPath);
         //listFiles 能够获取到一层目录下的文件
        File[] files= rootPath.listFiles();
         for(File f:files){
             //根据当前f的类型判断是否递归。
             //如果f是一个普通文件，就把f加入到fileList里面
             //如果不是就调用递归
             if(f.isDirectory()){
                 enumFile(f.getAbsolutePath(),fileList);
             }else {
                 fileList.add(f);
             }
         }
      }
    public static void main(String[] args) {
        //通过main方法来实现整个制作索引的过程
        Parser parser=new Parser();
        parser.run();
    }
}

我们尝试运行一下，这里的文件也太多了吧，而且无论是什么都打印出来了。所以我们下一步就是把这些文件进行筛选，选择有用的。最新面试题整理好了，点击Java面试库小程序在线刷题。

else {
                 if(f.getAbsolutePath().endsWith(",html"))
                 fileList.add(f);
             }

这个代码就是只是针对末尾为html的文件。下图就是展示结果。

4.1 打开文件，解析内容。

这里分为三个分别是解析Title，解析Url，解析内容Content。关注Java核心技术，推送更多 Java 干货！

4.1.1解析Title

f.getName()是直接读取文件名字的方法。

我们用的name.substring(0,f.getName().length()-5);为什么要用总的文件名字长度减去5呢，因为.HTML刚好就是五。

private  String parseTitle(File f) {
          String name= f.getName();
         return name.substring(0,f.getName().length()-5);

    }

4.1.2解析Url操作

这里的url就是我们平时去一个浏览器输入一个东西下面会有一个url，这个url就是我们的绝对路径经过截取获得出我们的相对的目录，然后与我们的http进行拼接，这样就可以直接得到一个页面。

private  String parseUrl(File f) {
      String part1="https://docs.oracle.com/javase/8/docs/api/";
      String part2=f.getAbsolutePath().substring(INPUT_PATH.length());
          return part1+part2;
    }

4.1.3解析内容

以<>为开关进行对数据的读取，以int类型读取，为什么要用int而不是char呢因为int类型读完之后就变成-1可以判断一下是否读取完毕。具体代码如下很容易理解。

private  String parseContent(File f) throws IOException {
          //先按照一个一个字符来读取，以<>作为开关
        try(FileReader fileReader=new FileReader(f)) {
            //加上一个是否拷贝的开关.
            boolean isCopy=true;
            //还需要准备一个结果保存
            StringBuilder content=new StringBuilder();
            while (true){
                //此处的read的返回值是int，不是char
                //如果读到文件末尾，就会返回-1，这是用int的好处；
                int  ret = 0;
                try {
                    ret = fileReader.read();
                } catch (IOException e) {
                    e.printStackTrace();
                }
                if(ret==-1) {
                        break;
                    }
                    char c=(char) ret;
                    if(isCopy){
                        if(c=='<'){
                            isCopy=false;
                            continue;
                        }
                        //其他字符直接拷贝
                        if(c=='\n'||c=='\r'){
                            c=' ';
                        }
                        content.append(c);
                    }else{
                        if(c=='>'){
                            isCopy=true;
                        }
                    }
            }

            return  content.toString();
        } catch (FileNotFoundException e) {
            e.printStackTrace();
        }
        return "";
    }

这一模块总的代码块如下：

import java.io.File;
import java.io.FileNotFoundException;
import java.io.FileReader;
import java.io.IOException;
import java.util.ArrayList;

//读取刚刚文档
public class Parser {
     private static final  String INPUT_PATH="D:/test/docs/api";
      public  void run(){
          //整个Parser类的入口
          //1.根据路径，去枚举出所有的文件.（html）；
          ArrayList fileList=new ArrayList<>();
          enumFile(INPUT_PATH,fileList);
          System.out.println(fileList);
          System.out.println(fileList.size());
          //2.针对上面罗列出的文件，打开文件，读取文件内容，并进行解析
          for (File f:fileList){
              System.out.println("开始解析"+f.getAbsolutePath());
              parseHTML(f);
          }
          //3.把在内存中构造好的索引数据结构，保定到指定的文件中。
      }

    private  String parseTitle(File f) {
          String name= f.getName();
         return name.substring(0,f.getName().length()-5);

    }
    private  String parseUrl(File f) {
      String part1="https://docs.oracle.com/javase/8/docs/api/";
         String part2=f.getAbsolutePath().substring(INPUT_PATH.length());
          return part1+part2;
    }
    private  String parseContent(File f) throws IOException {
          //先按照一个一个字符来读取，以<>作为开关
        try(FileReader fileReader=new FileReader(f)) {
            //加上一个是否拷贝的开关.
            boolean isCopy=true;
            //还需要准备一个结果保存
            StringBuilder content=new StringBuilder();
            while (true){
                //此处的read的返回值是int，不是char
                //如果读到文件末尾，就会返回-1，这是用int的好处；
                int  ret = 0;
                try {
                    ret = fileReader.read();
                } catch (IOException e) {
                    e.printStackTrace();
                }
                if(ret==-1) {
                        break;
                    }
                    char c=(char) ret;
                    if(isCopy){
                        if(c=='<'){
                            isCopy=false;
                            continue;
                        }
                        //其他字符直接拷贝
                        if(c=='\n'||c=='\r'){
                            c=' ';
                        }
                        content.append(c);
                    }else{
                        if(c=='>'){
                            isCopy=true;
                        }
                    }
            }

            return  content.toString();
        } catch (FileNotFoundException e) {
            e.printStackTrace();
        }
        return "";
    }
    private void parseHTML (File f){
        //解析出标题
          String title=parseTitle(f);
        //解析出对应的url
          String url=parseUrl(f);
        //解析出对应的正文
        try {
            String content=parseContent(f);
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
      //第一个参数表示从哪里开始遍历 //第二个表示结果。
      private void enumFile(String inputPath,ArrayListfileList){
         File rootPath=new File(inputPath);
         //listFiles 能够获取到一层目录下的文件
        File[] files= rootPath.listFiles();
         for(File f:files){
             //根据当前f的类型判断是否递归。
             //如果f是一个普通文件，就把f加入到fileList里面
             //如果不是就调用递归
             if(f.isDirectory()){
                 enumFile(f.getAbsolutePath(),fileList);
             }else {
                 if(f.getAbsolutePath().endsWith(".html"))
                 fileList.add(f);
             }
         }
      }
    public static void main(String[] args) {
        //通过main方法来实现整个制作索引的过程
        Parser parser=new Parser();
        parser.run();
    }
}

最近好文分享

1. 为什么反复强调组合要优先于继承？

2. Java 陷阱：慎用入参做返回值！！

3. 上午写了一段代码，下午就被开除了。。

4. Java 日志记录最佳实践，写得太好了吧！

5. 妙用 Java 8 Function 接口，消灭 if...else

更多请关注 • Java核心技术

一个分享Java核心技术干货的公众号

点击阅读原文获取免费资料～