您的位置:今晚体彩大乐透开什么号码查询 > 關于本站
CDSoSo是一個集合多種下載方式為一體的多維資源展示站,致力于無極限的分享互聯網上的優質資源,集全、新、快于一身的新型站點。

本站全部采用開源技術構建,操作系統為Linux,http服務器為nginx,數據庫為當前最為流行的NoSQL數據庫MongoDB,網站程序為JAVA技術實現并采用Tomcat作為服務器,全文檢索采用了Lucene。以上這些僅僅是實現主體框架的開源軟件,而至于一些細小的功能采用開源工具包則就不勝枚舉了。

雖然這是一篇說明性文檔,但是同時也是當我本人的一個學習筆記。的承認的是,從開始籌備要建立這樣一個網站到最終上線(當然上線了也僅僅是能用,離好用還差很遠),用了我大概半年的時間。當時我對這方面的技術一點都不了解,幾乎可以說是從零開始。因為本人以前比較擅長的語言是C/C++,JAVA雖然很久以前學過一小段時間,不得不承認,那時的我對JAVA存在一些偏見,因為它給我的第一感覺就是,慢。后來就沒有再學習這門語言,所以水平只是停留在了能看懂這個層次上。當時想籌建這么一個網站的時候第一想到的就是使用開源程序,于是乎就Google..baidu....折騰了有一段時間,發現在這個領域使用C/C++困難重重啊,所以就又回到了JAVA的懷抱。 有了想法就開始行動,既然想做網站就必須要有信息,那么到哪里去弄這些信息呢,因此我就很自然的想到了網絡爬蟲。一開始我是用了一些現成的開源爬蟲,因為我需要的是垂直爬取,所以使用的效果很不理想。萬般無奈之下我選擇了自己開發一個爬蟲程序,非常簡陋,還時不時的有很多莫名其妙的錯誤和異常,不過好在在我的修修補補之下也算運行的良好,除了內存占用有點大,其他都還好。因為我把很多的注意力放在多線程上,所以CPU和寬帶利用率都還不錯。于是乎我就使用著這個"夏利牌"的小爬蟲爬下了40多萬張網頁,300多萬個ed2k鏈接,150多萬張圖片,也算是立下了汗馬功勞。后來我發現了一個剛出的開源的爬蟲框架(webmagic),就不再使用我自己的那個小爬蟲了。

其實在寫爬蟲的時候,我也同時在研究Lucene,從3.5版本一直到現在我使用的4.2版本。必須得說,《Lucene實戰》這本說給了我極大的幫助,所以強烈推薦想學習Lucene的童鞋們,去看看這本書,真的很有用。

至于網站程序,可以看出,也是非常簡單,其實就是個頁面展示。采用了struts2框架,寫了幾個不同頻道和搜索的action,總之就是很簡單。

還有就是數據庫了,使用的是MongoDB。性能確實非常不錯,使用也很簡單。

非?;隊拖M攵哉夥矯婕際醺行巳さ吶笥壓餐教?,共同進步。