注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

北漂的小羊

Java编程,开发者,程序员,软件开发,编程,代码。新浪微博号:IT国子监

 
 
 

日志

 
 
关于我

在这里是面向程序员的高品质IT技术学习社区,是程序员学习成长的地方。让我们更好地用技术改变世界。请关注新浪微博号: IT国子监(http://weibo.com/itguozijian)

网易考拉推荐

使用pinyin4j.jar将汉字转换为拼音使用详细实例  

2012-12-14 12:42:19|  分类: JAVA |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

pinyin4j能够根据中文字符获取其对应的拼音,而且拼音的格式可以定制。

可在http://pinyin4j.sourceforge.net/下载。

特征:

1. 支持多种拼音系统:

汉语拼音 
通用拼音 
威氏拼音 
注音二式 
雅礼 
国语罗马字 
2. 支持多音字

能够根据上下文获得正确的拼音

3. 支持多种拼音格式

大小写 
支持unicode ü 、v 和 u 
支持数字音调(lü3)、音调符号 (lǚ)和无音调标识(lü)

Java代码 
  1. package com.wlh.lucene.test2;  
  2.   
  3. import java.io.BufferedReader;  
  4. import java.io.BufferedWriter;  
  5. import java.io.File;  
  6. import java.io.FileReader;  
  7. import java.io.FileWriter;  
  8. import java.io.IOException;  
  9. import java.util.regex.Matcher;  
  10. import java.util.regex.Pattern;  
  11.   
  12. import net.sourceforge.pinyin4j.PinyinHelper;  
  13. import net.sourceforge.pinyin4j.format.HanyuPinyinCaseType;  
  14. import net.sourceforge.pinyin4j.format.HanyuPinyinOutputFormat;  
  15. import net.sourceforge.pinyin4j.format.HanyuPinyinToneType;  
  16. import net.sourceforge.pinyin4j.format.HanyuPinyinVCharType;  
  17.   
  18. public class Test {   
  19.     //源文件与目标文件的全路径名  
  20.     private static final String READ_FILE="E:/workspace65/paoding-analysis_test/src/com/wlh/lucene/test2/txt.txt";  
  21.     private static final String WRITE_FILE="E:/workspace65/paoding-analysis_test/src/com/wlh/lucene/test2/txt1.txt";  
  22.     private static HanyuPinyinOutputFormat spellFormat = new HanyuPinyinOutputFormat();    
  23.     private static BufferedWriter writer = null;  
  24.     private static BufferedReader reader = null;  
  25.     //初始化信息  
  26.     public static void init() throws IOException{  
  27.         writer = new BufferedWriter(new FileWriter(new File(WRITE_FILE),false));  
  28.         reader = new BufferedReader(new FileReader(new File(READ_FILE)));    
  29.         spellFormat.setCaseType(HanyuPinyinCaseType.LOWERCASE);    
  30.         spellFormat.setToneType(HanyuPinyinToneType.WITHOUT_TONE);    
  31.         spellFormat.setVCharType(HanyuPinyinVCharType.WITH_V);   
  32.     }  
  33.     // 判断字符串是否包含有中文   
  34.     public static boolean isChinese(String str) {    
  35.         String regex = "[\\u4e00-\\u9fa5]";    
  36.         Pattern pattern = Pattern.compile(regex);    
  37.         Matcher matcher = pattern.matcher(str);    
  38.         return matcher.find();    
  39.     }    
  40.     //使用PinYin4j.jar将汉字转换为拼音  
  41.     public static String chineneToSpell(String chineseStr){  
  42.         return PinyinHelper.toHanyuPinyinString(chineseStr , spellFormat ,"");  
  43.     }  
  44.     //将转换后的字符串写入目标文件  
  45.     public static void writeToFile(String spellStr) throws IOException{  
  46.         writer.write(spellStr);  
  47.     }  
  48.     //从源文件读取按行数据  
  49.     public static void readFromFile() throws IOException{  
  50.         String line = null;  
  51.          while ((line = reader.readLine()) != null) {    
  52.              line = line.trim();    
  53.              //是中文  
  54.              if(isChinese(line)){  
  55.                  line = chineneToSpell(line);  
  56.              }  
  57.              writeToFile(line + "\n");  
  58.          }    
  59.     }  
  60.     //关闭文件流  
  61.     public static void destory() throws IOException{  
  62.         reader.close();  
  63.         writer.close();  
  64.     }  
  65.     public static void main(String[] args) throws IOException {  
  66.         init();  
  67.         readFromFile();  
  68.         destory();  
  69.     }  
  70. }  
  评论这张
 
阅读(394)| 评论(0)
推荐 转载

历史上的今天

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2016