|
Платные хостинги
Раскрутка сайта
Книги по программированию
HTML parser
- Доброго времени суток! У меня такая задача:Есть HTML-документ. Мне нужно извлечь из него текст (контент), который отображает после форматирования веб-браузер. Т.е. Мне нужно проигнорировав все теги и форматирование получить сам текст.Есть какие-либо соображения?P.S. Попробовал сунуться в javax.swing.text.html.* и javax.swing.text.html.parser.*, но что-то я не совсем понял логику тамошних классов.
- Сунулся ты в принципе верно. Но то, что поставляется в поставке не высокоинтеллектуально В поставке идет javax.swing.text.html.parser.Parser.Он умеет парсить HTML и вызывает определенные методы при обработке тагов. Но проблема в том, что парсер заточен на HTML, который правильно сделан. Т.е. с открывающими и закрывающими тагами. Фактически это должен быть XML-документ. Да и обработка напоминает SAX-парсер для XML.Но большинство страничек таких правил не соблюдают. Так что можно пробовать сделать более умный парсер основываясь на стандартном.попробуй поискать в инете - может что интересное найдешь. Я занимался этим вопросом крайне мало - так, смотрел. У меня HTML формировался автоматом и очень правильный , потому мне хватало стандарта.
- Так, нашЁл ответ в другом форуме.Запостю и сюда, вдруг кому-то интересно будетКод Reader reader = new FileReader( "myfile.html" ); HTMLEditorKit kit = new HTMLEditorKit( ); Document doc = kit.createDefaultDocument( ); doc.putProperty( "IgnoreCharsetDirective", new Boolean( true ) ); kit.read( reader, doc, 0 ); System.out.println( doc.getText( 0, doc.getLength( ) ) );highlightSyntax('javaNjE1ND','java');(с) WFrag Это сообщение отредактировал SmaLL - 13.3.2003, 17:34
- Ребята помогите весь интернет перерыл ничего не нашёл. что же делать если html неправидьный
- ребята нашёл, только помогите разобраться проблеммы с английским, если можно пример.http://www.apache.org/~andyc/neko/doc/html/index.htmlhttp://jtidy.sourceforge.net/index.htmlЗарания благодарен
Интернет казино
Онлайн игры
Увеличение члена
Купить DVD
|